Você está na página 1de 91

Cálculo das Probabilidades

e Estatística I
Profa . Juliana Freitas Pires
Departamento de Estatística
Universidade Federal da Paraíba - UFPB
juliana@de.ufpb.br
Introdução

O curso foi dividido em três etapas:


1 vimos como resumir descritivamente variáveis

de um conjunto de dados.
2 conhecemos modelos probabilísticos, caracteri-

zados por parâmetros, capazes de representar


adequadamente o comportamento de algumas
variáveis.
3 esta etapa, apresentaremos métodos para fa-

zer afirmações sobre as características de uma


população (parâmetros), com base em informa-
ções dadas por amostras.
Revisando alguns conceitos . . .

População: conjunto de todos os elementos ou


indivíduos sob investigação.
Amostra: qualquer subconjunto (não vazio) da
população.
Variável Aleatória: característica da população
sujeita a variação.
Parâmetro: Característica numérica observada
na população.
Estimador: Característica numérica estabelecida
por valores da amostra (uma função da amostra).
Estimativa: um particular valor assumido por
um estimador.
Introdução à Inferência Estatística

O uso de informações de uma amostra para con-


cluir sobre o todo faz parte do dia a dia da maioria
das pessoas. Por exemplo:
• Uma cozinheira ao verificar o sal de um prato
que está preparando;
• Um comprador, após experimentar uma pe-
quena fatia de queijo, decide se vai ou não com-
prar o queijo;
• A forma como as mães verificam a temperatura
do mingau de seus bebês.
Inferência

• Inferência Estatística: conjunto de métodos


de análise estatística que permitem tirar con-
clusões sobre uma característica da população
com base em somente uma parte dela (uma
amostra).

• Em outras palavras, a inferência estatística trata


de métodos que permitem a obtenção de con-
clusões sobre um ou mais parâmetros de uma
ou mais populações através de quantidades (es-
timadores) calculadas a partir da(s) amostra(s);
Inferência

• Fazer inferência (ou inferir) = tirar conclusões


sobre as características de uma população (pa-
râmetros), com base em informações dadas a
partir da amostra (estimadores);

• Os métodos de inferência podem ser agrupados


em duas categorias:
1 Estimação: pontual ou intervalar

2 Testes de Hipóteses
Com o que lida a Inferência?

Suponha que desejamos saber qual a altura média


dos brasileiros adultos. Como podemos obter essa
informação?
• Medindo a altura de todos os brasileiros adul-
tos. Nesse caso, não será necessário usar infe-
rência estatística.
• Selecionar adequadamente uma amostra alea-
tória (X1 , X2 , . . . , Xn ) da população de brasi-
leiros adultos e, através dessa amostra, inferir
sobre a altura média (parâmetro).
Podemos inferir sobre a altura média dos brasileiros adultos
de duas formas:
1 Estimação:
• Estimativa Pontual: calculando a média das altu-
ras dos brasileiros adultos selecionados na amostra;
• Estimativa Intervalar: através dos valores da amos-
tra construir um intervalo de tal forma que a proba-
bilidade de o verdadeiro valor da altura média dos
brasileiros pertencer a este intervalo seja alta.
2 Testes de Hipóteses:
• Em uma outra situação, poderíamos estar interessa-
dos em testar se a afirmação “os brasileiros têm, em
média, 169 cm” é verdadeira. Com base na amostra,
podemos realizar um Teste de Hipóteses.
Contudo, estes resultados dependerão da qualidade da
amostra, que tem que ser representativa da população.
A forma como selecionamos uma amostra
interfere nos resultados?

Ex 1: Análise da quantidade de glóbulos bran-


cos no sangue de certo indivíduo. Uma gota
do dedo seguramente será representativa para
a análise. Caso Ideal!
Ex 2: Opinião sobre um projeto governamen-
tal. Se escolhermos uma cidade favorecida, o
resultado certamente conterá erro (viés)

OBS: Observe que a forma como se obtém a


amostra é determinante para a validade da
pesquisa.
Como selecionar uma amostra?

• A maneira de selecionar a amostra é tão im-


portante que existem diversos procedimentos
de obtê-la.
• A teoria da amostragem é o ramo da estatística
que fornece procedimentos adequados para a
seleção de amostras.
• Aqui, trataremos do caso mais simples de amos-
tragem probabilística, e que serve como base
para procedimentos mais elaborados: a amos-
tragem aleatória simples, com reposição, a ser
designada por AAS.
Amostragem Aleatória Simples (AAS)

• Supomos que podemos listar todos os N ele-


mentos de uma população homogênea e finita.
• Usando um procedimento aleatório, sorteia-se
um elemento da população.
• Repete-se o procedimento até que sejam sorte-
adas as “n” unidades da amostra.
• Temos AAS com reposição e sem reposição,
contudo, com reposição implica independência
entre as unidades selecionadas facilitando o es-
tudo das propriedades dos estimadores.
• Neste curso, será considerada a amostragem
aleatória simples, com reposição, a ser desig-
nada por AAS.
Estimação

• Em qualquer área do conhecimento nos depara-


mos com o problema de estimar alguma quan-
tidade de interesse.
Exemplo: estimar a proporção de indivíduos que
votarão em determinado candidato.

• A estimação pode ser feita de duas formas:


1 Estimação Pontual: um único valor e utilizado
para inferir sobre um parâmetro de interesse.
2 Estimação Intervalar: uma faixa de valores ou
intervalo é utilizado para inferir sobre um
parâmetro de interesse, com algum grau de
confiança.
Estimação Pontual
Na estimação pontual desejamos encontrar um
único valor numérico que esteja bastante próximo
do verdadeiro valor do parâmetro.
Parâmetro Estimador
Média (µ) Pn
Xi
X = i=1
n
Variância (σ 2 ) Pn
(Xi − X)2
S = i=1
2
n−1
Desvio Padrão (σ) √
S = S2
Proporção (p)
p̂ = Xn onde X é o número de indivíduos
que possuem a mesma característica de
interesse
Exemplo

Os preços de um determinado produto em 10 diferentes


mercados em um determinado mês foram:

0.75 1.1 0.6 2 1.3 0.69 2.1 1.3 0.83 1

• A estimativa pontual da média do preço do produto é


dada por
0.75 + 1.1 + · · · + 0.83 + 1
X= = 1.167
10

• A estimativa pontual da proporção de preços menores


que 1 real é dada por
4
p̂ = = 0.4
10
Propriedades desejáveis de um estimador

Considere θb um estimador pontual (função de uma


amostra) para um parâmetro θ desconhecido.
P1 Não-Viesado: diz-se que θb é não-viesado (não-
tendencioso) se seu valor esperado é igual a θ.
P2 Consistência: diz-se que θb é consistente se
além de não-viesado, sua variância tende a zero
quando o tamanho de n é suficientemente grande.
P3 Eficiência: Se θb1 e θb2 são dois estimadores
não-viesados de um mesmo parâmetro θ, e ainda
V ar(θ̂1 ) < V ar(θ̂2 ), então, dizemos que θ̂1 é
mais eficiente do que θ̂2 .
Suponha que alguém deseje comprar um rifle e,
escolha quatro (A, B, C e D) para testá-los.
foram dados 15 tiros com cada um deles. A
representação gráfica é dada abaixo.
Estimação Pontual × Estimação Intervalar

• Estimadores pontuais, especificam um único va-


lor para o parâmetro.
• Mas, sabemos que diferentes amostras levam a
diferentes estimativas, pois o estimador é uma
função de uma amostra aleatória.
• E, estimar um parâmetro através de um único
valor não permite julgar a magnitude do erro
que podemos estar cometendo.
• Daí, surge a ideia de contruir um intervalo de
valores que tenha uma alta probabilidade de
conter o verdadeiro valor do parâmetro (deno-
minado intervalo de confiança).
Como construir um intervalo de confiança?

• Um intervalo de confiança (ou estimativa inter-


valar) é construído de forma que a estimativa
pontual esteja acompanhada de uma medida
de erro.
 
Intervalo Estimativa Erro de
= ±
de Confiança Pontual Estimação

• Mas como obter o erro de estimação????


Distribuição Amostral dos Estimadores

• Como dissemos, um estimador é uma função


de uma amostra. Uma amostra consiste de ob-
servações de uma variável aleatória. Assim, es-
timadores também são variáveis aleatórias.
• Por esta razão, cada estimador possui uma dis-
tribuição de probabilidades e é importante conhecê-
la, pois a partir dela conhecemos o comporta-
mento do estimador e podemos determinar a
precisão das suas estimativas.
• A distribuição de probabilidades desses estima-
dores é comumente denominada de distribuição
amostral do estimador.
Distribuição Amostral dos Estimadores

A Distribuição Amostral retrata a distribuição de


probabilidades de um estimador θ̂, caso retirásse-
mos todas as possíveis amostras de tamanho n de
uma população. A figura abaixo ilustra a ideia de
distribuição amostral.
Distribuição Amostral de X

• Considere, como exemplo, uma população de 5


elementos {2, 3, 6, 8, 11}.
• Nesta população temos que µ = E(X) = 6 e
σ 2 = Var(X) = 10, 8.
• Se agora retirarmos todas as possíveis amostras
de tamanho n = 2, com reposição, teremos:
(2, 2); (2, 3); (2, 6); (2, 8); (2, 11); (3, 2) . . . (11, 11)
• Calculando a média para cada amostra, temos:
(X1 , X2 ) (2, 2) (2, 3) (2, 6) (2, 8) (2, 11) (3, 2) · · · (11, 11)
X 2 2, 5 4 5 6, 5 2,5 · · · 11
Distribuição Amostral de X

Note que temos todos os possíveis resultados de


X. Desta forma, podemos obter a distribuição de
probabilidade da variável aleatória X.
X 2 2, 5 3 4 4, 5 5 ··· 11
P(X = xi ) 1/25 2/25 1/25 2/25 2/25 2/25 · · · 1/25

Baseando-se nestes dados, temos que:


X 1 1
E(X) = xi · p(xi ) = 2 · + . . . + 11 · =6
i
25 25
2 X 1 1
E(X ) = x2i ·p(xi ) = 22 · +. . .+112 · = 41, 4
i
25 25
Var(X) = E(X 2 ) − [E(X)]2 = 41, 4 − 62 = 5, 4
Distribuição Amostral de X

Com respeito a distribuição de X , podemos ob-


servar que
1) A sua média é igual à media da população,
E(X) = 6 = µ.
2) A sua variância é igual à variância da popula-
ção dividida pelo tamanho da amostra
10, 8 σ 2
Var(X) = 5, 4 = = .
2 n
Coincidência?
Distribuição Amostral de X

Não, estes dois fatos não são isolados. Na realidade


temos o seguinte resultado:
Teorema: Seja X uma v.a. com média µ e variân-
cia σ 2 , e seja (X1 , . . . , Xn ) uma AAS de X. Então,
2
µX = E(X) = µ e σX = Var(X) = σn .
Prova: 
Pn
Xi

1
Pn nµ
E(X) = E i=1
n
= n i=1 E(Xi ) = = µ.
n
 Pn
Xi

1
Pn nσ 2 σ2
Var(X) = Var i=1
n
= n2 i=1 Var(X i ) = = .
n2 n
Temos, então, informação sobre a média e a
variância de X. Mas, o que dizer sobre sua
distribuição de probabilidades?
Distribuição Amostral de X

A forma da distribuição amostral de X dependerá


da distribuição da v.a. X. Duas situações são
consideradas:
2
1 Se X ∼ N (µ, σ 2 ), então, X ∼ N (µ, σn ).
2 Se a v.a. X tem distribuição qualquer, a dis-
tribuição da média amostral X aproxima-se da
distribuição normal quando o tamanho da amos-
tra cresce. Esse resultado é garantido por um
teorema chamado Teorema Central do Limite.
2
(Tipicamente, se n > 30 então X ∼ N (µ, σn ).)
Distribuição Amostral de X
Exemplo

• Numa empresa A, os tempos de execução de


uma certa tarefa pelos funcionários são distri-
buídos conforme uma distribuição normal com
média µ = 22 minutos e variância σ 2 = 9
minutos2 . Considere uma amostra de 25 fun-
cionários selecionados para executar a tarefa.
Qual a probabilidade de o tempo de execução
médio amostral ser menor que 20 minutos?
Exemplo

Resposta:
Temos n = 25 < 30, mas como a população tem
distribuição normal, então,
9
min2 . Daí:

X ∼ N 22 min; 25
!
X − 22 20 − 22
P (X < 20) = P p < p
9/25 9/25
= P (Z < −3, 33)
= 0, 0004
Exemplo

• Considere que a distribuição das idades no mo-


mento do aparecimento de problemas de audi-
ção relacionados ao ruído no ambiente de tra-
balho em funcionários de um determinado setor
industrial tenha média µ = 53, 9 anos e des-
vio padrão σ = 18, 1 anos. Numa amostra de
36 indivíduos qual a probabilidade de a média
amostral das idades no momento do apareci-
mento dos problemas ser inferior a 45 anos?
Exemplo

Resposta:
Temos n = 36 > 30 podemos utilizar a
aproximação
 normal. Nesse caso,
 temos que
18,12
X ∼ N 53, 9 anos; 36 anos2 . Daí:
 
X − 53, 9 45 − 53, 9
P (X < 45) = P <
18, 1/6 18, 1/6
= P (Z < −2, 95)
= 0, 0016
Distribuição Amostral de p̂

Vamos considerar uma população em que a pro-


porção de indivíduos com uma certa característica
é p. Logo, podemos definir uma v.a. X como:

1, se o indivíduo possui a característica
X= ,
0, se o indivíduo não possui a característica

logo, µ = E(X) = p e σ 2 = Var(X) = p(1 − p).


• Retirada uma AAS P de tamanho n dessa po-
pulação, seja Yn = ni=1 Xi , o número de in-
divíduos com a característica de interesse na
amostra. Já vimos que Yn ∼ binomial(n, p).
Distribuição Amostral de p̂

• Observando que a proporção amostral é dada


por: Pn
Yn Xi
p̂ = = i=1 = X.
n n
• E, lembrando que X tem distribuição normal,
para n suficientemente grande (n > 30), com
a mesma média que X e com variância igual à
variância de X dividido por n.
• Neste caso, temos que se n é grande, então, a
distribuição amostral de p̂ é:
 
p(1 − p)
p̂ ∼ N p;
n
Exemplo

• Um banco propõe a seus clientes inadimplentes


um desconto para que quitem suas dívidas. O
gerente espera, com base em estratégias simi-
lares realizadas anteriormente, que 50% desses
clientes procurem o banco para tentar uma ne-
gociação. Num grupo de 200 clientes inadim-
plentes, qual a probabilidade de a proporção
amostral de clientes que tentam a negociação
estar entre 0, 48 e 0, 53?
Exemplo

Resposta:
Temos que n = 200 e p =0, 5, o que implica que
p̂ ∼ N 0, 5; 0,5(1−0,5)
200 anos2 . Daí:

P (0, 48 < p̂ < 0, 53) =


!
0, 48 − 0, 5 p̂ − 0, 5 0, 53 − 0, 5
=P p <p <p
0, 25/200 0, 25/200 0, 25/200
= P (−0, 57 < Z < 0, 85)
= P (Z < 0, 85) − P (Z < −0, 57)
= 0, 8023 − 0, 2843
= 0, 518
Estimação Intervalar

• Vimos que como os estimadores pontuais espe-


cificam um único valor para o estimador, não
podemos julgar qual a possível magnitude do
erro que estamos comentendo.
• Daí, surge a idéia de construir os intervalos de
confiança, de forma que a estimativa pontual
esteja acompanhada de uma medida de erro.
 
Intervalo Estimativa Erro de
= ±
de Confiança Pontual Estimação
• Mas como obter o erro de estimação??? Atra-
vés da distribuição amostral do estimador pon-
tual.
Estimação Intervalar

• Um intervalo de confiança (ou estimativa


intervalar) representa uma amplitude de valo-
res que tem alta probabilidade (grau de confi-
ança) conter o verdadeiro valor do parâmetro.

• O grau de confiança (ou nível de confi-


ança) é uma medida que representa a proba-
bilidade do intervalo conter o parâmetro popu-
lacional. Tal probabilidade é chamada de 1−α.
Logo, α será a probabilidade de erro ao se afir-
mar que o intervalo contém o verdadeiro valor
do parâmetro.
Intervalo de confiança para a média populacional

• Duas situações são consideradas quando de-


sejamos estabelecer um intervalo de confiança
para a média de uma população:

1 A variância σ 2 é conhecida;
2 A variância σ 2 é desconhecida;
Intervalo de confiança para a média populacional

• Adicionalmente, deve-se verificar se uma das


duas suposições seguintes é satisfeita:

1 A amostra é proviniente de uma população


normal. Pois, sabemos que se
X ∼ N (µ, σ 2 ) então X ∼ N (µ, σ 2 /n).
2 A amostra tem tamanho maior do que 30,
n > 30, o que nos permite aproximar a dis-
tribuição da média amostral X pela distri-
buição normal, como na suposição anterior.
Intervalo de confiança para a média populacional
De modo geral, estamos interessados em encontrar um inter-
valo na forma:

IC = [X − ε0 ; X + ε0 ] = [X ± ε0 ]

onde ε0 representa a margem de erro ou erro de precisão em


relação à média µ.
Portanto, o objetivo é encontrar ε0 tal que

P(|X − µ| < ε0 ) = 1 − α,

que é equivalente a

P(−ε0 < X − µ < ε0 ) = 1 − α.

A última expressão pode ser reescrita da forma

P(µ − ε0 < X < µ + ε0 ) = 1 − α.


Caso 1: A variância σ 2 é conhecida

Sabemos que X é o estimador de µ. Supondo que pelo menos


uma das suposições está satisfeita, temos que X ∼ N (µ, σ 2 /n)
X −µ
e, então, √ = Z ∼ N (0, 1).
σ/ n
P(µ − ε0 < X < µ + ε0 ) = 1 − α
µ − ε0 − µ X −µ µ + ε0 − µ
P( √ < √ < √ ) = 1 − α.
σ/ n σ/ n σ/ n
−ε0 +ε0
P( √ < Z < √ ) = 1 − α.
σ/ n σ/ n
P(−zα/2 < Z < +zα/2 ) = 1 − α.
Daí,
−ε0 ε0
−zα/2 = √ e zα/2 = √
σ/ n σ/ n
Caso 1: A variância σ 2 é conhecida

Logo,
σ
ε0 = zα/2 √
n
Caso 1: A variância σ 2 é conhecida

Dessa forma, se X for a média de uma amostra


aleatoria de tamanho n, proveniente de uma po-
pulação com variância conhecida, um intervalo de
100(1 − α)% de confiança para a média populaci-
onal é dado por:
 
µ σ σ
IC100(1−α)% = X − zα/2 √ , X + zα/2 √
n n
em que zα/2 é o quantil da normal padrão de nível
α/2.
Exemplo

• Em uma industria de cerveja, a quantidade de


cerveja inserida em latas se comporta como
uma distribuição normal com média 350 ml e
desvio padrão 3 ml. Após alguns problemas na
linha de produção, suspeita-se que houve al-
teração na média. Uma amostra de 20 latas
acusou uma média de 346 ml. Obtenha um
intervalo de 95% para a quantidade média de
cerveja inserida em latas, supondo que não te-
nha ocorrido alteração na variabilidade.
Exemplo

Resposta: A variância σ 2 é conhecida, então o


intervalo é dado por
 
µ σ σ
IC100(1−α)% = X − zα/2 √ , X + zα/2 √
n n
Como 1 − α = 0, 95, temos que α = 0, 05. Então,
α/2 = 0, 025. Ou seja, devemos olhar na tabela
da normal padrão qual o número z0,025 .
Exemplo

Olhando na tabela, temos que zα/2 = 1, 96. Assim,


o intervalo é obtido através de:
 
3 3
ICµ95% = 346 − 1, 96 √ , 346 + 1, 96 √ = (344.69, 347.31)
20 20

Isto é, o intervalo de valores [344, 69; 347, 31]


contém a quantidade média de cerveja inserida
nas latas está com 95% de confiança. Logo,
conclui-se que realmente houve alteração, após os
problemas encontrados na linha de produção, na
quantidade média de cerveja inserida em latas.
Calculando o tamanho da amostra

Note que, a partir da expressão obtida para a mar-


gem de erro ε0 , podemos estimar o tamanho da
amostra, se α e ε0 estiverem especificados:
2


σ σ σ
ε0 = zα/2 √ ⇒ n = zα/2 ⇒ n = zα/2
n ε0 ε0
Se a população for finita, com N elementos, deve-
se utilizar o fator de correção para populações fi-
nitas. Nesse caso, o tamanho da amostra será de-
terminado por:
n
n∗ =
1 + Nn
Exemplo

• Uma construtora deseja estimar a resistência


média das barras de aço utilizadas na constru-
ção de casas. Qual o tamanho amostral neces-
sário para garantir que haja um risco de 0, 001
de ultrapassar um erro de 5kg ou mais na es-
timação? O desvio padrão da resistência para
este tipo de barra é de 25kg.
Exemplo

Resposta: Do enunciado tem-se α = 0, 001, ε0 =


5 e σ = 25. Da tabela da distribuição normal
padrão obtemos zα/2 = z0,0005 = 3, 29. Assim,
 2  2
σ 25
n = zα/2 = 3, 29 × = 270, 602 ∼
= 271
ε0 5
Intervalo de confiança para a média populacional
Caso 2: A variância σ 2 é desconhecida
O processo para se obter o intervalo de confiança é
semelhante ao anterior. Contudo, como σ 2 é desco-
nhecida, é preciso substitui-la pela variância amos-
tral (S 2 ):
n
− X)2
P
i=1 (Xi
S2 =
n−1
Nessa situação, a quantidade
X −µ
T = √ ∼ t(n−1)
S/ n
tem distribuição t-student com n − 1 graus de
liberdade, e não mais distribuição normal
padrão.
Distribuição t-Student

• A distribuição t-student apresenta proprieda-


des semelhantes as da distribuição normal pa-
drão (como, por exemplo, simetria em torno de
0), no entanto, é mais dispersa. Em outras pa-
lavras, a distribuição t-student concentra mais
probabilidades nas caldas do que a distribuição
normal padrão.
• A medida que n cresce, a distribuição t-student
se aproxima mais da distribuição normal pa-
drão, pois S se aproxima mais de σ.
Distribuição t-Student

Existe uma distribuição t-student para cada valor


dos graus de liberdade (n − 1).
Intervalo de confiança para a média populacional
Caso 2: A variância σ 2 é desconhecida
Dessa forma, se X for a média de uma amostra
aleatória de tamanho n, proveniente de uma po-
pulação com variância desconhecida, um intervalo
de 100(1 − α)% de confiança para a média popu-
lacional é dado por:
 
S S
ICµ100(1−α)% = X − t(n−1,α/2) √ , X + t(n−1,α/2) √ ,
n n
onde t(n−1,α/2) é o quantil da t-student de nível
α/2.

Obs: Se σ 2 for desconhecida, mas o tamanho da amostra


for grande (n > 30), pode-se utilizar zα/2 no lugar de
t(n−1;α/2)
Exemplo

Deseja-se avaliar a dureza média do aço produzido


sob um novo processo de têmpera. Uma amostra
de 10 corpos de prova de aço produziu os seguintes
resultados, em HRc:

36, 4 35, 7 37, 2 36, 5 34, 9


35, 2 36, 3 35, 8 36, 6 36, 9.

Construir um intervalo de 95% de confiança para


a dureza média do aço.
Exemplo

Resposta:
• Temos a média amostral dada por:
Pn
Xi
X = i=1 = 36.15
n
• E a variância amostral:
Pn
2 (Xi − X)2 4, 865
S = i=1 = = 0.5406
n−1 9
E, portanto, S = 0.7352.
• Além disso, n = 10 e 1 − α = 0, 95, daí

t(n−1,α/2) = t(9,0.025) = 2.26


Exemplo

Assim,
 
S S
ICµ95% = X − t(n−1,α/2) √ , X + t(n−1,α/2) √
n n
 
0.7352 0.7352
= 36.15 − 2.26 √ , 36.15 + 2.26 √
10 10
= (35.625, 36.675) .

Ou seja, com 95% de confiança o intervalo [35, 625; 36, 675]


contém a dureza média do aço.
Intervalo de confiança para a proporção
populacional

Vimos que, para n suficientemente grande


(n > 30),  
p(1 − p)
p̂ ∼ N p, .
n
O intervalo que estamos procurando é da forma
IC = [p̂ ± ε0 ]
Assim, por um caminho semelhante ao adotado
no caso da média, a margem de erro é dada por
r
p(1 − p)
ε0 = zα/2
n
Intervalo de confiança para a proporção
populacional

Dessa forma, se p̂ for a proporção de indivíduos


com uma característica de interesse em uma amos-
tra aleatória, de tamanho n, proveniente de uma
população onde a proporção verdadeira de indi-
víduos com a característica é p, um intervalo de
100(1 − α)% de confiança para essa proporção po-
pulacional p é dado por
r r !
p(1 − p) p(1 − p)
ICp100(1−α)% = p̂ − zα/2 , p̂ + zα/2
n n

em que zα/2 é o quantil da normal padrão com


α/2 de nível de confiança.
Na prática, o valor de p é desconhecido (é justa-
mente p que queremos estimar!). Nessa situação,
duas abordagens são razoáveis:
1 Abordagem otimista: substituir o valor de
p por sua estimativa p̂. Nesse caso,
r r !
p̂(1 − p̂) p̂(1 − p̂)
ICp100(1−α)% = p̂ − zα/2 , p̂ + zα/2
n n

2 Abordagem conservadora: substituir


p(1 − p) por seu valor máximo, 1/4, quando
p = 1/2. Nesse caso,
 
1 1
ICp100(1−α)% = p̂ − zα/2 √ , p̂ + zα/2 √
4n 4n
Exemplo

• Um estudo foi feito para determinar a propor-


ção de famílias que tem telefone em uma certa
comunidade. Uma amostra de 200 famílias é
selecionada ao acaso, e 160 afirmam ter tele-
fone. Qual o intervalo para p com 95% de con-
fiança?
Exemplo

Resposta:Temos que p̂ = 160/200 = 0, 8.


Como 1 − α = 0, 95 então zα/2 = z0,025 = 1, 96.
Assim, adotando abordagem “otimista”, temos
r r !
p̂(1 − p̂) p̂(1 − p̂)
ICµ95% = p̂ − zα/2 , p̂ + zα/2
n n
r r !
0, 8(1 − 0, 8) 0, 8(1 − 0, 8)
= 0, 8 − 1, 96 , 0, 8 + 1, 96
200 200
= (0.7446, 0.8554).

Ou seja, com 95% de confiança o intervalo


[74, 46%; 85, 54%] contém a porcentagem de
famílias que tem telefone nessa comunidade.
Exemplo

Se calcularmos o intervalo adotando abordagem


“conservadora”, temos
 
1 1
ICµ95% = p̂ − zα/2 √ , p̂ + zα/2 √
4n 4n
 
1 1
= 0, 8 − 1, 96 √ , 0, 8 + 1, 96 √
4 · 200 4 · 200
= (0.7307, 0.8692).

Observe que, o intervalo com a abordagem


conservadora fornece um intervalo maior.
Calculando o tamanho da amostra

Mais uma vez, podemos estimar o tamanho da amostra a


partir da margem de erro ε0 , basta especificar α e ε0 :
r p
p(1 − p) √ p(1 − p)
ε0 = zα/2 ⇒ n = zα/2
n ε0
p(1 − p)
⇒ n = (zα/2 )2 ×
(ε0 )2

Como p é desconhecido, para a substituição de p(1 − p) ou


utiliza-se 1/4 ou adota-se um valor de p̂ obtida de um estudo
piloto ou de um estudo similar. Se a população for finita,
deve-se utilizar, de forma similar o fator de correção para
populações finitas:
n
n∗ =
1 + Nn
Considerações: interpretação do intervalo de
confiança

• Um erro comum é dizer que a probabilidade


do parâmetro (µ ou p) estar no intervalo de
100(1 − α)%.
• O parâmetro (µ ou p) não é uma variável alea-
tória, portanto não existe probabilidade sobre
ele.
• O parâmetro é uma constante desconhecida,
sobre a qual desejamos inferir, através das quan-
tidades amostrais (Xou p̂).
• Então, qual a interpretação do intervalo de con-
fiança?????
Considerações: interpretação do intervalo de
confiança

A interpretação correta é do intervalo de confiança


conter o verdadeiro valor do parâmetro (µ ou p)
com 100(1 − α)% de confiança.
Fatores determinantes do erro de estimação

O erro de estimação dependende do(a):


• Tamanho da amostra (n): Quanto menor
o tamanho da amostra, maior será o erro de
estimação.
• Variabilidade da característica na popu-
lação: Quanto maior for a variabilidade da
característica cuja média está sendo estimada,
maior será o erro de estimação.
• Nível de confiança (1 − α): Se quisermos
uma confiança maior no intervalo teremos um
erro de estimação maior.
Teste de Hipóteses

O Teste de Hipóteses consiste em uma regra de


decisão elaborada para rejeitar (ou não) uma afir-
mação (hipótese) feita a respeito de um parâmetro
populacional desconhecido, com base em informa-
ções colhidas de uma amostra aleatória.
Exemplo:
• Verificar se o salário médio de certa categoria
profissional no Brasil é igual a R$1.500, 00.
• Testar se 40% dos eleitores votarão em certo
candidato nas próximas eleições.
• Testar se um medicamento é mais eficaz que
outro.
Conceitos fundamentais

Hipótese Nula (H0 ): É a hipótese a ser testada.


Hipótese Alternativa (H1 ): É a hipótese a ser
confrontada com H0 .
• O teste será feito de tal forma que deverá sem-
pre concluir na rejeição (ou não) de H0 .
• Como estamos tomando uma decisão com base
em informações de uma amostra, estaremos su-
jeitos a cometer dois tipos de erros.
Conceitos fundamentais

Erro do tipo I: Rejeitarmos H0 quando H0 é ver-


dadeira.
α = P(erro do tipo I) = P(rejeitar H0 |H0 é verdadeira)

Erro do tipo II: Não rejeitarmos H0 quando H0


é falsa.
β = P(erro do tipo II) = P(não rejeitar H0 |H0 é falsa)

Obs: α é denominado de nível de significância


do teste.
Conceitos fundamentais

Nossas decisões em um teste de hipóteses podem


ser resumidas na seguinte tabela:
Conceitos fundamentais

Estatística do teste: É a estatística utilizada


para julgar H0 .

Região crítica do teste (RC): É formada pelo


conjunto de valores que levam a rejeição de H0 .
Ela depende do tipo de hipótese alternativa, do
nivel de significância (α) adotado, e da
distribuição de probabilidade da estatística do
teste.
Etapas para a elaboração de um Teste de
Hipóteses

1 Definir as hipóteses nula (H0 ) e alternativa (H1 );


2 Fixar o nível de significância (α);
3 Determinar a estatística do teste;
4 Determinar a região crítica do teste;
5 Calcular o valor da estatística do teste (com
base numa amostra da população de interesse);
6 Se o valor calculado no passo 5 pertencer a
RC, rejeitar H0 , caso contrário, não rejeitar H0 ;
7 Conclusão do teste.
Teste de Hipóteses para a média populacional

Caso 1: σ 2 conhecida.

1. Definição das hipóteses:

H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0
H1 : µ 6= µ0 ou H1 : µ < µ0 ou H1 : µ > µ0

2. Fixar o nível de significância α;


3. Definir a estatística de teste:
X −µ
Z= √ ∼ N (0, 1)
σ/ n
Teste de Hipóteses para a média populacional

4. Definir a região crítica do teste (RC):


Teste de Hipóteses para a média populacional

5. Com base nos valores observados da amostra,


calcular o valor da Estatística de teste Z :
X − µ0
Zc = √
σ/ n
6. Se Zc ∈ RC ⇒ rejeitar H0 (aceitar H1 ).
Se Zc ∈
/ RC ⇒ não rejeitar H0 (não aceitar H1 ).
7. Concluir sobre a decisão tomada no passo 6.
Exemplo

Os sistemas de escapamento de uma aeronave


funcionam devido a propelente sólido. A taxa de
queima desse propelente é uma característica
importante do produto. As especificações
requerem que a taxa média de queima tem de ser
50 centímetros por segundo. Sabemos que a taxa
de queima é normalmente distribuída com desvio
padrão de σ = 2 centímetros por segundo. O
experimentalista seleciona uma amostra aleatória
de tamanho 25 e obtém uma taxa média amostral
igual a 51, 3 centímetros por segundo. Que
conclusões poderiam ser tiradas ao nível de
significância, de 0, 05?
Resolução: Teste para média com σ 2 conhecida

1. As hipóteses que queremos testar são:


H0 : µ = 50 contra H1 : µ 6= 50
2. Fixamos α = 0, 05;
X−µ
3. A estatística de teste é: Z = √
σ/ n
∼ N (0, 1)
4. A região crítica é do tipo:

onde z = zα/2 = z0,025 = 1, 96 (tabela da dis-


tribuição normal padrão).
Resolução: continuação

5. A partir dos dados amostrais temos que:


X − µ0 51, 3 − 50
Zc = √ = √
σ/ n 2/ 25
6. Temos que Zc ∈ RC pois 3, 25 > 1, 96, por-
tanto, rejeitamos a hipótese nula.
7. Baseados nos dados amostrais, podemos con-
cluir, ao nível de 5% de significância, que a
taxa média de queima difere de 50 centímetros
por segundo.
Teste de Hipóteses para a média populacional

Caso 2: σ 2 desconhecida.

1. Definição das hipóteses:

H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0
H1 : µ 6= µ0 ou H1 : µ < µ0 ou H1 : µ > µ0

2. Fixar o nível de significância α;


3. Definir a estatística de teste:
X̄ − µ
T = √ ∼ t(n−1)
S/ n
Teste de Hipóteses para a média populacional

4. Definir a região crítica do teste (RC):


Teste de Hipóteses para a média populacional

5. Com base nos valores observados da amostra,


calcular o valor da Estatística de teste Z :
X̄ − µ0
Tc = √
S/ n
6. Se Tc ∈ RC ⇒ rejeitar H0 (aceitar H1 ).
Se Tc ∈
/ RC ⇒ não rejeitar H0 (não aceitar H1 ).
7. Concluir sobre a decisão tomada no passo 6.
Obs: se σ 2 for desconhecida, mas o tamanho da
amostra for grande (n > 30), pode-se definir a
região crítica através da distribuição Normal
padrão.
Exemplo

Suponha que, no exemplo anterior, o valor do


desvio padrão fosse desconhecido e o
experimentalista o tivesse estimado, a partir da
amostra como S = 2, 5 centímetros por segundo.
Ao nível de 5% de significância, que conclusão
obteríamos acerca da queima média do
propelente?
Resolução: Teste para média com σ 2
desconhecida

1. As hipóteses que queremos testar são:


H0 : µ = 50 contra H1 : µ 6= 50
2. Fixamos α = 0, 05;
X−µ
3. A estatística de teste é: T = √
S/ n
∼ t(n−1)
4. A região crítica é do tipo:

onde t = tn−1;α/2 = t24;0,025 = 2, 064 (tabela da


distribuição t-student).
Resolução: continuação

5. A partir dos dados amostrais temos que:


X − µ0 51, 3 − 50
Tc = √ = √
S/ n 2, 3/ 25
6. Temos que Tc ∈ RC pois 2, 83 > 2, 064, por-
tanto, rejeitamos a hipótese nula.
7. Baseados nos dados amostrais, podemos con-
cluir, ao nível de 5% de significância, que a
taxa média de queima difere de 50 centímetros
por segundo.
Teste de Hipóteses para a proporção
populacional

1. Definição das hipóteses:

H 0 : p = p0 H 0 : p = p0 H 0 : p = p0
H1 : p 6= p0 ou H1 : p < p0 ou H1 : p > p0

2. Fixar o nível de significância α;


3. Definir a estatística de teste:
p̂ − p0
Z=q ∼ N (0, 1)
p0 (1−p0 )
n
Teste de Hipóteses para a proporção
populacional

4. Definir a região crítica do teste (RC):


Teste de Hipóteses para a proporção
populacional

5. Com base nos valores observados da amostra,


calcular o valor da Estatística de teste Z:
p̂ − p0
Zc = q
p0 (1−p0 )
n

6. Se Zc ∈ RC ⇒ rejeitar H0 (aceitar H1 ).
Se Zc ∈
/ RC ⇒ não rejeitar H0 (não aceitar H1 ).
7. Concluir sobre a decisão tomada no passo 6.
Exemplo

Dentre 1655 pacientes tratados com um


medicamento A, 2, 1% tiveram reações adversas.
A empresa que fabrica o medicamento afirma que
apenas 1, 2% dos usuários têm algum tipo de
reação adversa. Teste, ao nível de significância de
1%, a afirmativa da empresa pode ser
considerada verdadeira.
Resolução: Teste para porporção

1. As hipóteses que queremos testar são:


H0 : p = 0, 012 contra H1 : p > 0, 012
2. Fixamos α = 0, 01;
3. A estatística de teste é: Z = q p̂−p0 ∼ N (0, 1)
p0 (1−p0 )
n
4. A região crítica é do tipo:

onde z = zα = z0,01 = 2, 33 (tabela da distri-


buição normal padrão).
Resolução: continuação

5. A partir dos dados amostrais temos que:


p̂ − p0 0, 021 − 0, 012
Zc = q = q = 3, 36
p0 (1−p0 ) 0,012(1−0,012)
n 1655

6. Temos que Zc ∈ RC, pois 3, 36 > 2, 33 por-


tanto, rejeitamos a hipótese nula.
7. Ao nível de significância de 1%, a amostra for-
nece evidências estatísticas suficientes de que
o percentual de usuários do medicamento que
têm alguma reação adversa é superior a 1, 2%
Valor p

• Valor p: é a probabilidade de se obter um va-


lor da estatística de teste que seja, no mínimo,
tão extremo quanto aquele que representa os
dados amostrais, supondo que a hipótese nula
seja verdadeira.
• A hipótese nula deve ser rejeitada se o valor p
for muito pequeno. Na prática, adota-se que
se o valor p for menor ou igual ao nível de
significância do teste, então devemos rejeitar
a hipótese nula.

Você também pode gostar