Aberta Estatística PDF

Cálculo das Probabilidades
e Estatística I
Profa . Juliana Freitas Pires
Departamento de Estatística
Universidade Federal da Paraíba - UFPB
juliana@de.ufpb.br
Introdução
O curso foi dividido em três etapas:

1 vimos como resumir descritivamente variáveis
de um conjunto de dados.
2 conhecemos modelos probabilísticos, caracteri-
zados por parâmetros, capazes de representar

adequadamente o comportamento de algumas
variáveis.
3 esta etapa, apresentaremos métodos para fa-
zer afirmações sobre as características de uma

população (parâmetros), com base em informa-
ções dadas por amostras.
Revisando alguns conceitos . . .
População: conjunto de todos os elementos ou

indivíduos sob investigação.
Amostra: qualquer subconjunto (não vazio) da
população.
Variável Aleatória: característica da população
sujeita a variação.
Parâmetro: Característica numérica observada
na população.
Estimador: Característica numérica estabelecida
por valores da amostra (uma função da amostra).
Estimativa: um particular valor assumido por
um estimador.
Introdução à Inferência Estatística
O uso de informações de uma amostra para con-

cluir sobre o todo faz parte do dia a dia da maioria
das pessoas. Por exemplo:
• Uma cozinheira ao verificar o sal de um prato
que está preparando;
• Um comprador, após experimentar uma pe-
quena fatia de queijo, decide se vai ou não com-
prar o queijo;
• A forma como as mães verificam a temperatura
do mingau de seus bebês.
Inferência
• Inferência Estatística: conjunto de métodos

de análise estatística que permitem tirar con-
clusões sobre uma característica da população
com base em somente uma parte dela (uma
amostra).
• Em outras palavras, a inferência estatística trata

de métodos que permitem a obtenção de con-
clusões sobre um ou mais parâmetros de uma
ou mais populações através de quantidades (es-
timadores) calculadas a partir da(s) amostra(s);
Inferência
• Fazer inferência (ou inferir) = tirar conclusões

sobre as características de uma população (pa-
râmetros), com base em informações dadas a
partir da amostra (estimadores);
• Os métodos de inferência podem ser agrupados

em duas categorias:
1 Estimação: pontual ou intervalar
2 Testes de Hipóteses
Com o que lida a Inferência?
Suponha que desejamos saber qual a altura média

dos brasileiros adultos. Como podemos obter essa
informação?
• Medindo a altura de todos os brasileiros adul-
tos. Nesse caso, não será necessário usar infe-
rência estatística.
• Selecionar adequadamente uma amostra alea-
tória (X1 , X2 , . . . , Xn ) da população de brasi-
leiros adultos e, através dessa amostra, inferir
sobre a altura média (parâmetro).
Podemos inferir sobre a altura média dos brasileiros adultos
de duas formas:
1 Estimação:
• Estimativa Pontual: calculando a média das altu-
ras dos brasileiros adultos selecionados na amostra;
• Estimativa Intervalar: através dos valores da amos-
tra construir um intervalo de tal forma que a proba-
bilidade de o verdadeiro valor da altura média dos
brasileiros pertencer a este intervalo seja alta.
2 Testes de Hipóteses:
• Em uma outra situação, poderíamos estar interessa-
dos em testar se a afirmação “os brasileiros têm, em
média, 169 cm” é verdadeira. Com base na amostra,
podemos realizar um Teste de Hipóteses.
Contudo, estes resultados dependerão da qualidade da
amostra, que tem que ser representativa da população.
A forma como selecionamos uma amostra
interfere nos resultados?
Ex 1: Análise da quantidade de glóbulos bran-

cos no sangue de certo indivíduo. Uma gota
do dedo seguramente será representativa para
a análise. Caso Ideal!
Ex 2: Opinião sobre um projeto governamen-
tal. Se escolhermos uma cidade favorecida, o
resultado certamente conterá erro (viés)
OBS: Observe que a forma como se obtém a

amostra é determinante para a validade da
pesquisa.
Como selecionar uma amostra?
• A maneira de selecionar a amostra é tão im-

portante que existem diversos procedimentos
de obtê-la.
• A teoria da amostragem é o ramo da estatística
que fornece procedimentos adequados para a
seleção de amostras.
• Aqui, trataremos do caso mais simples de amos-
tragem probabilística, e que serve como base
para procedimentos mais elaborados: a amos-
tragem aleatória simples, com reposição, a ser
designada por AAS.
Amostragem Aleatória Simples (AAS)
• Supomos que podemos listar todos os N ele-

mentos de uma população homogênea e finita.
• Usando um procedimento aleatório, sorteia-se
um elemento da população.
• Repete-se o procedimento até que sejam sorte-
adas as “n” unidades da amostra.
• Temos AAS com reposição e sem reposição,
contudo, com reposição implica independência
entre as unidades selecionadas facilitando o es-
tudo das propriedades dos estimadores.
• Neste curso, será considerada a amostragem
aleatória simples, com reposição, a ser desig-
nada por AAS.
Estimação
• Em qualquer área do conhecimento nos depara-

mos com o problema de estimar alguma quan-
tidade de interesse.
Exemplo: estimar a proporção de indivíduos que
votarão em determinado candidato.
• A estimação pode ser feita de duas formas:

1 Estimação Pontual: um único valor e utilizado
para inferir sobre um parâmetro de interesse.
2 Estimação Intervalar: uma faixa de valores ou
intervalo é utilizado para inferir sobre um
parâmetro de interesse, com algum grau de
confiança.
Estimação Pontual
Na estimação pontual desejamos encontrar um
único valor numérico que esteja bastante próximo
do verdadeiro valor do parâmetro.
Parâmetro Estimador
Média (µ) Pn
Xi
X = i=1
n
Variância (σ 2 ) Pn
(Xi − X)2
S = i=1
2
n−1
Desvio Padrão (σ) √
S = S2
Proporção (p)
p̂ = Xn onde X é o número de indivíduos
que possuem a mesma característica de
interesse
Exemplo
Os preços de um determinado produto em 10 diferentes

mercados em um determinado mês foram:
0.75 1.1 0.6 2 1.3 0.69 2.1 1.3 0.83 1
• A estimativa pontual da média do preço do produto é

dada por
0.75 + 1.1 + · · · + 0.83 + 1
X= = 1.167
10
• A estimativa pontual da proporção de preços menores

que 1 real é dada por
4
p̂ = = 0.4
10
Propriedades desejáveis de um estimador
Considere θb um estimador pontual (função de uma

amostra) para um parâmetro θ desconhecido.
P1 Não-Viesado: diz-se que θb é não-viesado (não-
tendencioso) se seu valor esperado é igual a θ.
P2 Consistência: diz-se que θb é consistente se
além de não-viesado, sua variância tende a zero
quando o tamanho de n é suficientemente grande.
P3 Eficiência: Se θb1 e θb2 são dois estimadores
não-viesados de um mesmo parâmetro θ, e ainda
V ar(θ̂1 ) < V ar(θ̂2 ), então, dizemos que θ̂1 é
mais eficiente do que θ̂2 .
Suponha que alguém deseje comprar um rifle e,
escolha quatro (A, B, C e D) para testá-los.
foram dados 15 tiros com cada um deles. A
representação gráfica é dada abaixo.
Estimação Pontual × Estimação Intervalar
• Estimadores pontuais, especificam um único va-

lor para o parâmetro.
• Mas, sabemos que diferentes amostras levam a
diferentes estimativas, pois o estimador é uma
função de uma amostra aleatória.
• E, estimar um parâmetro através de um único
valor não permite julgar a magnitude do erro
que podemos estar cometendo.
• Daí, surge a ideia de contruir um intervalo de
valores que tenha uma alta probabilidade de
conter o verdadeiro valor do parâmetro (deno-
minado intervalo de confiança).
Como construir um intervalo de confiança?
• Um intervalo de confiança (ou estimativa inter-

valar) é construído de forma que a estimativa
pontual esteja acompanhada de uma medida
de erro.

Intervalo Estimativa Erro de
= ±
de Confiança Pontual Estimação
• Mas como obter o erro de estimação????

Distribuição Amostral dos Estimadores
• Como dissemos, um estimador é uma função

de uma amostra. Uma amostra consiste de ob-
servações de uma variável aleatória. Assim, es-
timadores também são variáveis aleatórias.
• Por esta razão, cada estimador possui uma dis-
tribuição de probabilidades e é importante conhecê-
la, pois a partir dela conhecemos o comporta-
mento do estimador e podemos determinar a
precisão das suas estimativas.
• A distribuição de probabilidades desses estima-
dores é comumente denominada de distribuição
amostral do estimador.
Distribuição Amostral dos Estimadores
A Distribuição Amostral retrata a distribuição de

probabilidades de um estimador θ̂, caso retirásse-
mos todas as possíveis amostras de tamanho n de
uma população. A figura abaixo ilustra a ideia de
distribuição amostral.
Distribuição Amostral de X
• Considere, como exemplo, uma população de 5

elementos {2, 3, 6, 8, 11}.
• Nesta população temos que µ = E(X) = 6 e
σ 2 = Var(X) = 10, 8.
• Se agora retirarmos todas as possíveis amostras
de tamanho n = 2, com reposição, teremos:
(2, 2); (2, 3); (2, 6); (2, 8); (2, 11); (3, 2) . . . (11, 11)
• Calculando a média para cada amostra, temos:
(X1 , X2 ) (2, 2) (2, 3) (2, 6) (2, 8) (2, 11) (3, 2) · · · (11, 11)
X 2 2, 5 4 5 6, 5 2,5 · · · 11
Note que temos todos os possíveis resultados de

X. Desta forma, podemos obter a distribuição de
probabilidade da variável aleatória X.
X 2 2, 5 3 4 4, 5 5 ··· 11
P(X = xi ) 1/25 2/25 1/25 2/25 2/25 2/25 · · · 1/25
Baseando-se nestes dados, temos que:

X 1 1
E(X) = xi · p(xi ) = 2 · + . . . + 11 · =6
i
25 25
2 X 1 1
E(X ) = x2i ·p(xi ) = 22 · +. . .+112 · = 41, 4
i
25 25
Var(X) = E(X 2 ) − [E(X)]2 = 41, 4 − 62 = 5, 4
Com respeito a distribuição de X , podemos ob-

servar que
1) A sua média é igual à media da população,
E(X) = 6 = µ.
2) A sua variância é igual à variância da popula-
ção dividida pelo tamanho da amostra
10, 8 σ 2
Var(X) = 5, 4 = = .
2 n
Coincidência?
Não, estes dois fatos não são isolados. Na realidade

temos o seguinte resultado:
Teorema: Seja X uma v.a. com média µ e variân-
cia σ 2 , e seja (X1 , . . . , Xn ) uma AAS de X. Então,
2
µX = E(X) = µ e σX = Var(X) = σn .
Prova:
Pn
Xi

1
Pn nµ
E(X) = E i=1
n
= n i=1 E(Xi ) = = µ.
n
Pn
Xi

1
Pn nσ 2 σ2
Var(X) = Var i=1
n
= n2 i=1 Var(X i ) = = .
n2 n
Temos, então, informação sobre a média e a
variância de X. Mas, o que dizer sobre sua
distribuição de probabilidades?
A forma da distribuição amostral de X dependerá

da distribuição da v.a. X. Duas situações são
consideradas:
2
1 Se X ∼ N (µ, σ 2 ), então, X ∼ N (µ, σn ).
2 Se a v.a. X tem distribuição qualquer, a dis-
tribuição da média amostral X aproxima-se da
distribuição normal quando o tamanho da amos-
tra cresce. Esse resultado é garantido por um
teorema chamado Teorema Central do Limite.
2
(Tipicamente, se n > 30 então X ∼ N (µ, σn ).)
Exemplo
• Numa empresa A, os tempos de execução de

uma certa tarefa pelos funcionários são distri-
buídos conforme uma distribuição normal com
média µ = 22 minutos e variância σ 2 = 9
minutos2 . Considere uma amostra de 25 fun-
cionários selecionados para executar a tarefa.
Qual a probabilidade de o tempo de execução
médio amostral ser menor que 20 minutos?
Exemplo
Resposta:
Temos n = 25 < 30, mas como a população tem
distribuição normal, então,
9
min2 . Daí:

X ∼ N 22 min; 25
!
X − 22 20 − 22
P (X < 20) = P p < p
9/25 9/25
= P (Z < −3, 33)
= 0, 0004
Exemplo
• Considere que a distribuição das idades no mo-

mento do aparecimento de problemas de audi-
ção relacionados ao ruído no ambiente de tra-
balho em funcionários de um determinado setor
industrial tenha média µ = 53, 9 anos e des-
vio padrão σ = 18, 1 anos. Numa amostra de
36 indivíduos qual a probabilidade de a média
amostral das idades no momento do apareci-
mento dos problemas ser inferior a 45 anos?
Exemplo
Resposta:
Temos n = 36 > 30 podemos utilizar a
aproximação
normal. Nesse caso,
temos que
18,12
X ∼ N 53, 9 anos; 36 anos2 . Daí:

X − 53, 9 45 − 53, 9
P (X < 45) = P <
18, 1/6 18, 1/6
= P (Z < −2, 95)
= 0, 0016
Distribuição Amostral de p̂
Vamos considerar uma população em que a pro-

porção de indivíduos com uma certa característica
é p. Logo, podemos definir uma v.a. X como:

1, se o indivíduo possui a característica
X= ,
0, se o indivíduo não possui a característica
logo, µ = E(X) = p e σ 2 = Var(X) = p(1 − p).

• Retirada uma AAS P de tamanho n dessa po-
pulação, seja Yn = ni=1 Xi , o número de in-
divíduos com a característica de interesse na
amostra. Já vimos que Yn ∼ binomial(n, p).
Distribuição Amostral de p̂
• Observando que a proporção amostral é dada

por: Pn
Yn Xi
p̂ = = i=1 = X.
n n
• E, lembrando que X tem distribuição normal,
para n suficientemente grande (n > 30), com
a mesma média que X e com variância igual à
variância de X dividido por n.
• Neste caso, temos que se n é grande, então, a
distribuição amostral de p̂ é:

p(1 − p)
p̂ ∼ N p;
n
Exemplo
• Um banco propõe a seus clientes inadimplentes

um desconto para que quitem suas dívidas. O
gerente espera, com base em estratégias simi-
lares realizadas anteriormente, que 50% desses
clientes procurem o banco para tentar uma ne-
gociação. Num grupo de 200 clientes inadim-
plentes, qual a probabilidade de a proporção
amostral de clientes que tentam a negociação
estar entre 0, 48 e 0, 53?
Exemplo
Resposta:
Temos que n = 200 e p =0, 5, o que implica que
p̂ ∼ N 0, 5; 0,5(1−0,5)
200 anos2 . Daí:
P (0, 48 < p̂ < 0, 53) =

!
0, 48 − 0, 5 p̂ − 0, 5 0, 53 − 0, 5
=P p <p <p
0, 25/200 0, 25/200 0, 25/200
= P (−0, 57 < Z < 0, 85)
= P (Z < 0, 85) − P (Z < −0, 57)
= 0, 8023 − 0, 2843
= 0, 518
Estimação Intervalar
• Vimos que como os estimadores pontuais espe-

cificam um único valor para o estimador, não
podemos julgar qual a possível magnitude do
erro que estamos comentendo.
• Daí, surge a idéia de construir os intervalos de
confiança, de forma que a estimativa pontual
esteja acompanhada de uma medida de erro.

Intervalo Estimativa Erro de
= ±
de Confiança Pontual Estimação
• Mas como obter o erro de estimação??? Atra-
vés da distribuição amostral do estimador pon-
tual.
Estimação Intervalar
• Um intervalo de confiança (ou estimativa

intervalar) representa uma amplitude de valo-
res que tem alta probabilidade (grau de confi-
ança) conter o verdadeiro valor do parâmetro.
• O grau de confiança (ou nível de confi-

ança) é uma medida que representa a proba-
bilidade do intervalo conter o parâmetro popu-
lacional. Tal probabilidade é chamada de 1−α.
Logo, α será a probabilidade de erro ao se afir-
mar que o intervalo contém o verdadeiro valor
do parâmetro.
Intervalo de confiança para a média populacional
• Duas situações são consideradas quando de-

sejamos estabelecer um intervalo de confiança
para a média de uma população:
1 A variância σ 2 é conhecida;
2 A variância σ 2 é desconhecida;
• Adicionalmente, deve-se verificar se uma das

duas suposições seguintes é satisfeita:
1 A amostra é proviniente de uma população

normal. Pois, sabemos que se
X ∼ N (µ, σ 2 ) então X ∼ N (µ, σ 2 /n).
2 A amostra tem tamanho maior do que 30,
n > 30, o que nos permite aproximar a dis-
tribuição da média amostral X pela distri-
buição normal, como na suposição anterior.
De modo geral, estamos interessados em encontrar um inter-
valo na forma:
IC = [X − ε0 ; X + ε0 ] = [X ± ε0 ]
onde ε0 representa a margem de erro ou erro de precisão em

relação à média µ.
Portanto, o objetivo é encontrar ε0 tal que
P(|X − µ| < ε0 ) = 1 − α,
que é equivalente a
P(−ε0 < X − µ < ε0 ) = 1 − α.
A última expressão pode ser reescrita da forma
P(µ − ε0 < X < µ + ε0 ) = 1 − α.

Caso 1: A variância σ 2 é conhecida
Sabemos que X é o estimador de µ. Supondo que pelo menos

uma das suposições está satisfeita, temos que X ∼ N (µ, σ 2 /n)
X −µ
e, então, √ = Z ∼ N (0, 1).
σ/ n
P(µ − ε0 < X < µ + ε0 ) = 1 − α
µ − ε0 − µ X −µ µ + ε0 − µ
P( √ < √ < √ ) = 1 − α.
σ/ n σ/ n σ/ n
−ε0 +ε0
P( √ < Z < √ ) = 1 − α.
σ/ n σ/ n
P(−zα/2 < Z < +zα/2 ) = 1 − α.
Daí,
−ε0 ε0
−zα/2 = √ e zα/2 = √
σ/ n σ/ n
Logo,
σ
ε0 = zα/2 √
n
Dessa forma, se X for a média de uma amostra

aleatoria de tamanho n, proveniente de uma po-
pulação com variância conhecida, um intervalo de
100(1 − α)% de confiança para a média populaci-
onal é dado por:

µ σ σ
IC100(1−α)% = X − zα/2 √ , X + zα/2 √
n n
em que zα/2 é o quantil da normal padrão de nível
α/2.
Exemplo
• Em uma industria de cerveja, a quantidade de

cerveja inserida em latas se comporta como
uma distribuição normal com média 350 ml e
desvio padrão 3 ml. Após alguns problemas na
linha de produção, suspeita-se que houve al-
teração na média. Uma amostra de 20 latas
acusou uma média de 346 ml. Obtenha um
intervalo de 95% para a quantidade média de
cerveja inserida em latas, supondo que não te-
nha ocorrido alteração na variabilidade.
Exemplo
Resposta: A variância σ 2 é conhecida, então o

intervalo é dado por

µ σ σ
IC100(1−α)% = X − zα/2 √ , X + zα/2 √
n n
Como 1 − α = 0, 95, temos que α = 0, 05. Então,
α/2 = 0, 025. Ou seja, devemos olhar na tabela
da normal padrão qual o número z0,025 .
Exemplo
Olhando na tabela, temos que zα/2 = 1, 96. Assim,

o intervalo é obtido através de:

3 3
ICµ95% = 346 − 1, 96 √ , 346 + 1, 96 √ = (344.69, 347.31)
20 20
Isto é, o intervalo de valores [344, 69; 347, 31]

contém a quantidade média de cerveja inserida
nas latas está com 95% de confiança. Logo,
conclui-se que realmente houve alteração, após os
problemas encontrados na linha de produção, na
quantidade média de cerveja inserida em latas.
Calculando o tamanho da amostra
Note que, a partir da expressão obtida para a mar-

gem de erro ε0 , podemos estimar o tamanho da
amostra, se α e ε0 estiverem especificados:
2
√

σ σ σ
ε0 = zα/2 √ ⇒ n = zα/2 ⇒ n = zα/2
n ε0 ε0
Se a população for finita, com N elementos, deve-
se utilizar o fator de correção para populações fi-
nitas. Nesse caso, o tamanho da amostra será de-
terminado por:
n
n∗ =
1 + Nn
Exemplo
• Uma construtora deseja estimar a resistência

média das barras de aço utilizadas na constru-
ção de casas. Qual o tamanho amostral neces-
sário para garantir que haja um risco de 0, 001
de ultrapassar um erro de 5kg ou mais na es-
timação? O desvio padrão da resistência para
este tipo de barra é de 25kg.
Exemplo
Resposta: Do enunciado tem-se α = 0, 001, ε0 =

5 e σ = 25. Da tabela da distribuição normal
padrão obtemos zα/2 = z0,0005 = 3, 29. Assim,
2 2
σ 25
n = zα/2 = 3, 29 × = 270, 602 ∼
= 271
ε0 5
Caso 2: A variância σ 2 é desconhecida
O processo para se obter o intervalo de confiança é
semelhante ao anterior. Contudo, como σ 2 é desco-
nhecida, é preciso substitui-la pela variância amos-
tral (S 2 ):
n
− X)2
P
i=1 (Xi
S2 =
n−1
Nessa situação, a quantidade
X −µ
T = √ ∼ t(n−1)
S/ n
tem distribuição t-student com n − 1 graus de
liberdade, e não mais distribuição normal
padrão.
Distribuição t-Student
• A distribuição t-student apresenta proprieda-

des semelhantes as da distribuição normal pa-
drão (como, por exemplo, simetria em torno de
0), no entanto, é mais dispersa. Em outras pa-
lavras, a distribuição t-student concentra mais
probabilidades nas caldas do que a distribuição
normal padrão.
• A medida que n cresce, a distribuição t-student
se aproxima mais da distribuição normal pa-
drão, pois S se aproxima mais de σ.
Distribuição t-Student
Existe uma distribuição t-student para cada valor

dos graus de liberdade (n − 1).
Caso 2: A variância σ 2 é desconhecida
Dessa forma, se X for a média de uma amostra
aleatória de tamanho n, proveniente de uma po-
pulação com variância desconhecida, um intervalo
de 100(1 − α)% de confiança para a média popu-
lacional é dado por:

S S
ICµ100(1−α)% = X − t(n−1,α/2) √ , X + t(n−1,α/2) √ ,
n n
onde t(n−1,α/2) é o quantil da t-student de nível
α/2.
Obs: Se σ 2 for desconhecida, mas o tamanho da amostra

for grande (n > 30), pode-se utilizar zα/2 no lugar de
t(n−1;α/2)
Exemplo
Deseja-se avaliar a dureza média do aço produzido

sob um novo processo de têmpera. Uma amostra
de 10 corpos de prova de aço produziu os seguintes
resultados, em HRc:
36, 4 35, 7 37, 2 36, 5 34, 9

35, 2 36, 3 35, 8 36, 6 36, 9.
Construir um intervalo de 95% de confiança para

a dureza média do aço.
Exemplo
Resposta:
• Temos a média amostral dada por:
Pn
Xi
X = i=1 = 36.15
n
• E a variância amostral:
Pn
2 (Xi − X)2 4, 865
S = i=1 = = 0.5406
n−1 9
E, portanto, S = 0.7352.
• Além disso, n = 10 e 1 − α = 0, 95, daí
t(n−1,α/2) = t(9,0.025) = 2.26

Exemplo
Assim,

S S
ICµ95% = X − t(n−1,α/2) √ , X + t(n−1,α/2) √
n n

0.7352 0.7352
= 36.15 − 2.26 √ , 36.15 + 2.26 √
10 10
= (35.625, 36.675) .
Ou seja, com 95% de confiança o intervalo [35, 625; 36, 675]

contém a dureza média do aço.
Intervalo de confiança para a proporção
populacional
Vimos que, para n suficientemente grande

(n > 30),
p(1 − p)
p̂ ∼ N p, .
n
O intervalo que estamos procurando é da forma
IC = [p̂ ± ε0 ]
Assim, por um caminho semelhante ao adotado
no caso da média, a margem de erro é dada por
r
p(1 − p)
ε0 = zα/2
n
Intervalo de confiança para a proporção
populacional
Dessa forma, se p̂ for a proporção de indivíduos

com uma característica de interesse em uma amos-
tra aleatória, de tamanho n, proveniente de uma
população onde a proporção verdadeira de indi-
víduos com a característica é p, um intervalo de
100(1 − α)% de confiança para essa proporção po-
pulacional p é dado por
r r !
p(1 − p) p(1 − p)
ICp100(1−α)% = p̂ − zα/2 , p̂ + zα/2
n n
em que zα/2 é o quantil da normal padrão com

α/2 de nível de confiança.
Na prática, o valor de p é desconhecido (é justa-
mente p que queremos estimar!). Nessa situação,
duas abordagens são razoáveis:
1 Abordagem otimista: substituir o valor de
p por sua estimativa p̂. Nesse caso,
r r !
p̂(1 − p̂) p̂(1 − p̂)
ICp100(1−α)% = p̂ − zα/2 , p̂ + zα/2
n n
2 Abordagem conservadora: substituir

p(1 − p) por seu valor máximo, 1/4, quando
p = 1/2. Nesse caso,

1 1
ICp100(1−α)% = p̂ − zα/2 √ , p̂ + zα/2 √
4n 4n
Exemplo
• Um estudo foi feito para determinar a propor-

ção de famílias que tem telefone em uma certa
comunidade. Uma amostra de 200 famílias é
selecionada ao acaso, e 160 afirmam ter tele-
fone. Qual o intervalo para p com 95% de con-
fiança?
Exemplo
Resposta:Temos que p̂ = 160/200 = 0, 8.

Como 1 − α = 0, 95 então zα/2 = z0,025 = 1, 96.
Assim, adotando abordagem “otimista”, temos
r r !
p̂(1 − p̂) p̂(1 − p̂)
ICµ95% = p̂ − zα/2 , p̂ + zα/2
n n
r r !
0, 8(1 − 0, 8) 0, 8(1 − 0, 8)
= 0, 8 − 1, 96 , 0, 8 + 1, 96
200 200
= (0.7446, 0.8554).
Ou seja, com 95% de confiança o intervalo

[74, 46%; 85, 54%] contém a porcentagem de
famílias que tem telefone nessa comunidade.
Exemplo
Se calcularmos o intervalo adotando abordagem

“conservadora”, temos

1 1
ICµ95% = p̂ − zα/2 √ , p̂ + zα/2 √
4n 4n

1 1
= 0, 8 − 1, 96 √ , 0, 8 + 1, 96 √
4 · 200 4 · 200
= (0.7307, 0.8692).
Observe que, o intervalo com a abordagem

conservadora fornece um intervalo maior.
Calculando o tamanho da amostra
Mais uma vez, podemos estimar o tamanho da amostra a

partir da margem de erro ε0 , basta especificar α e ε0 :
r p
p(1 − p) √ p(1 − p)
ε0 = zα/2 ⇒ n = zα/2
n ε0
p(1 − p)
⇒ n = (zα/2 )2 ×
(ε0 )2
Como p é desconhecido, para a substituição de p(1 − p) ou

utiliza-se 1/4 ou adota-se um valor de p̂ obtida de um estudo
piloto ou de um estudo similar. Se a população for finita,
deve-se utilizar, de forma similar o fator de correção para
populações finitas:
n
n∗ =
1 + Nn
Considerações: interpretação do intervalo de
confiança
• Um erro comum é dizer que a probabilidade

do parâmetro (µ ou p) estar no intervalo de
100(1 − α)%.
• O parâmetro (µ ou p) não é uma variável alea-
tória, portanto não existe probabilidade sobre
ele.
• O parâmetro é uma constante desconhecida,
sobre a qual desejamos inferir, através das quan-
tidades amostrais (Xou p̂).
• Então, qual a interpretação do intervalo de con-
fiança?????
Considerações: interpretação do intervalo de
confiança
A interpretação correta é do intervalo de confiança

conter o verdadeiro valor do parâmetro (µ ou p)
com 100(1 − α)% de confiança.
Fatores determinantes do erro de estimação
O erro de estimação dependende do(a):

• Tamanho da amostra (n): Quanto menor
o tamanho da amostra, maior será o erro de
estimação.
• Variabilidade da característica na popu-
lação: Quanto maior for a variabilidade da
característica cuja média está sendo estimada,
maior será o erro de estimação.
• Nível de confiança (1 − α): Se quisermos
uma confiança maior no intervalo teremos um
erro de estimação maior.
Teste de Hipóteses
O Teste de Hipóteses consiste em uma regra de

decisão elaborada para rejeitar (ou não) uma afir-
mação (hipótese) feita a respeito de um parâmetro
populacional desconhecido, com base em informa-
ções colhidas de uma amostra aleatória.
Exemplo:
• Verificar se o salário médio de certa categoria
profissional no Brasil é igual a R$1.500, 00.
• Testar se 40% dos eleitores votarão em certo
candidato nas próximas eleições.
• Testar se um medicamento é mais eficaz que
outro.
Conceitos fundamentais
Hipótese Nula (H0 ): É a hipótese a ser testada.

Hipótese Alternativa (H1 ): É a hipótese a ser
confrontada com H0 .
• O teste será feito de tal forma que deverá sem-
pre concluir na rejeição (ou não) de H0 .
• Como estamos tomando uma decisão com base
em informações de uma amostra, estaremos su-
jeitos a cometer dois tipos de erros.
Erro do tipo I: Rejeitarmos H0 quando H0 é ver-

dadeira.
α = P(erro do tipo I) = P(rejeitar H0 |H0 é verdadeira)
Erro do tipo II: Não rejeitarmos H0 quando H0

é falsa.
β = P(erro do tipo II) = P(não rejeitar H0 |H0 é falsa)
Obs: α é denominado de nível de significância

do teste.
Nossas decisões em um teste de hipóteses podem

ser resumidas na seguinte tabela:
Estatística do teste: É a estatística utilizada

para julgar H0 .
Região crítica do teste (RC): É formada pelo

conjunto de valores que levam a rejeição de H0 .
Ela depende do tipo de hipótese alternativa, do
nivel de significância (α) adotado, e da
distribuição de probabilidade da estatística do
teste.
Etapas para a elaboração de um Teste de
Hipóteses
1 Definir as hipóteses nula (H0 ) e alternativa (H1 );

2 Fixar o nível de significância (α);
3 Determinar a estatística do teste;
4 Determinar a região crítica do teste;
5 Calcular o valor da estatística do teste (com
base numa amostra da população de interesse);
6 Se o valor calculado no passo 5 pertencer a
RC, rejeitar H0 , caso contrário, não rejeitar H0 ;
7 Conclusão do teste.
Teste de Hipóteses para a média populacional
Caso 1: σ 2 conhecida.
1. Definição das hipóteses:
H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0
H1 : µ 6= µ0 ou H1 : µ < µ0 ou H1 : µ > µ0
2. Fixar o nível de significância α;

3. Definir a estatística de teste:
X −µ
Z= √ ∼ N (0, 1)
σ/ n
4. Definir a região crítica do teste (RC):

5. Com base nos valores observados da amostra,

calcular o valor da Estatística de teste Z :
X − µ0
Zc = √
σ/ n
6. Se Zc ∈ RC ⇒ rejeitar H0 (aceitar H1 ).
Se Zc ∈
/ RC ⇒ não rejeitar H0 (não aceitar H1 ).
7. Concluir sobre a decisão tomada no passo 6.
Exemplo
Os sistemas de escapamento de uma aeronave

funcionam devido a propelente sólido. A taxa de
queima desse propelente é uma característica
importante do produto. As especificações
requerem que a taxa média de queima tem de ser
50 centímetros por segundo. Sabemos que a taxa
de queima é normalmente distribuída com desvio
padrão de σ = 2 centímetros por segundo. O
experimentalista seleciona uma amostra aleatória
de tamanho 25 e obtém uma taxa média amostral
igual a 51, 3 centímetros por segundo. Que
conclusões poderiam ser tiradas ao nível de
significância, de 0, 05?
Resolução: Teste para média com σ 2 conhecida
1. As hipóteses que queremos testar são:

H0 : µ = 50 contra H1 : µ 6= 50
2. Fixamos α = 0, 05;
X−µ
3. A estatística de teste é: Z = √
σ/ n
∼ N (0, 1)
4. A região crítica é do tipo:
onde z = zα/2 = z0,025 = 1, 96 (tabela da dis-

tribuição normal padrão).
Resolução: continuação
5. A partir dos dados amostrais temos que:

X − µ0 51, 3 − 50
Zc = √ = √
σ/ n 2/ 25
6. Temos que Zc ∈ RC pois 3, 25 > 1, 96, por-
tanto, rejeitamos a hipótese nula.
7. Baseados nos dados amostrais, podemos con-
cluir, ao nível de 5% de significância, que a
taxa média de queima difere de 50 centímetros
por segundo.
Caso 2: σ 2 desconhecida.
H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0
H1 : µ 6= µ0 ou H1 : µ < µ0 ou H1 : µ > µ0

X̄ − µ
T = √ ∼ t(n−1)
S/ n


calcular o valor da Estatística de teste Z :
X̄ − µ0
Tc = √
S/ n
6. Se Tc ∈ RC ⇒ rejeitar H0 (aceitar H1 ).
Se Tc ∈
Obs: se σ 2 for desconhecida, mas o tamanho da
amostra for grande (n > 30), pode-se definir a
região crítica através da distribuição Normal
padrão.
Exemplo
Suponha que, no exemplo anterior, o valor do

desvio padrão fosse desconhecido e o
experimentalista o tivesse estimado, a partir da
amostra como S = 2, 5 centímetros por segundo.
Ao nível de 5% de significância, que conclusão
obteríamos acerca da queima média do
propelente?
Resolução: Teste para média com σ 2
desconhecida

H0 : µ = 50 contra H1 : µ 6= 50
2. Fixamos α = 0, 05;
X−µ
3. A estatística de teste é: T = √
S/ n
∼ t(n−1)
onde t = tn−1;α/2 = t24;0,025 = 2, 064 (tabela da

distribuição t-student).

X − µ0 51, 3 − 50
Tc = √ = √
S/ n 2, 3/ 25
6. Temos que Tc ∈ RC pois 2, 83 > 2, 064, por-
7. Baseados nos dados amostrais, podemos con-
cluir, ao nível de 5% de significância, que a
taxa média de queima difere de 50 centímetros
por segundo.
Teste de Hipóteses para a proporção
populacional
H 0 : p = p0 H 0 : p = p0 H 0 : p = p0
H1 : p 6= p0 ou H1 : p < p0 ou H1 : p > p0

p̂ − p0
Z=q ∼ N (0, 1)
p0 (1−p0 )
n
populacional

populacional

calcular o valor da Estatística de teste Z:
p̂ − p0
Zc = q
p0 (1−p0 )
n
6. Se Zc ∈ RC ⇒ rejeitar H0 (aceitar H1 ).
Se Zc ∈
Exemplo
Dentre 1655 pacientes tratados com um

medicamento A, 2, 1% tiveram reações adversas.
A empresa que fabrica o medicamento afirma que
apenas 1, 2% dos usuários têm algum tipo de
reação adversa. Teste, ao nível de significância de
1%, a afirmativa da empresa pode ser
considerada verdadeira.
Resolução: Teste para porporção

H0 : p = 0, 012 contra H1 : p > 0, 012
2. Fixamos α = 0, 01;
3. A estatística de teste é: Z = q p̂−p0 ∼ N (0, 1)
p0 (1−p0 )
n
onde z = zα = z0,01 = 2, 33 (tabela da distri-

buição normal padrão).

p̂ − p0 0, 021 − 0, 012
Zc = q = q = 3, 36
p0 (1−p0 ) 0,012(1−0,012)
n 1655
6. Temos que Zc ∈ RC, pois 3, 36 > 2, 33 por-

7. Ao nível de significância de 1%, a amostra for-
nece evidências estatísticas suficientes de que
o percentual de usuários do medicamento que
têm alguma reação adversa é superior a 1, 2%
Valor p
• Valor p: é a probabilidade de se obter um va-

lor da estatística de teste que seja, no mínimo,
tão extremo quanto aquele que representa os
dados amostrais, supondo que a hipótese nula
seja verdadeira.
• A hipótese nula deve ser rejeitada se o valor p
for muito pequeno. Na prática, adota-se que
se o valor p for menor ou igual ao nível de
significância do teste, então devemos rejeitar
a hipótese nula.

Aberta Estatística PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aberta Estatística PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Cálculo das Probabilidades

O curso foi dividido em três etapas:

zados por parâmetros, capazes de representar

zer afirmações sobre as características de uma

População: conjunto de todos os elementos ou

O uso de informações de uma amostra para con-

• Inferência Estatística: conjunto de métodos

• Em outras palavras, a inferência estatística trata

• Fazer inferência (ou inferir) = tirar conclusões

• Os métodos de inferência podem ser agrupados

Suponha que desejamos saber qual a altura média

Ex 1: Análise da quantidade de glóbulos bran-

OBS: Observe que a forma como se obtém a

• A maneira de selecionar a amostra é tão im-

• Supomos que podemos listar todos os N ele-

• Em qualquer área do conhecimento nos depara-

• A estimação pode ser feita de duas formas:

Os preços de um determinado produto em 10 diferentes

0.75 1.1 0.6 2 1.3 0.69 2.1 1.3 0.83 1

• A estimativa pontual da média do preço do produto é

• A estimativa pontual da proporção de preços menores

Considere θb um estimador pontual (função de uma

• Estimadores pontuais, especificam um único va-

• Um intervalo de confiança (ou estimativa inter-

• Mas como obter o erro de estimação????

• Como dissemos, um estimador é uma função

A Distribuição Amostral retrata a distribuição de

• Considere, como exemplo, uma população de 5

Note que temos todos os possíveis resultados de

Baseando-se nestes dados, temos que:

Com respeito a distribuição de X , podemos ob-

Não, estes dois fatos não são isolados. Na realidade

A forma da distribuição amostral de X dependerá

• Numa empresa A, os tempos de execução de

• Considere que a distribuição das idades no mo-

Vamos considerar uma população em que a pro-

logo, µ = E(X) = p e σ 2 = Var(X) = p(1 − p).

• Observando que a proporção amostral é dada

• Um banco propõe a seus clientes inadimplentes

P (0, 48 < p̂ < 0, 53) =

• Vimos que como os estimadores pontuais espe-

• Um intervalo de confiança (ou estimativa

• O grau de confiança (ou nível de confi-

• Duas situações são consideradas quando de-

• Adicionalmente, deve-se verificar se uma das

1 A amostra é proviniente de uma população

onde ε0 representa a margem de erro ou erro de precisão em

P(−ε0 < X − µ < ε0 ) = 1 − α.

A última expressão pode ser reescrita da forma

P(µ − ε0 < X < µ + ε0 ) = 1 − α.

Sabemos que X é o estimador de µ. Supondo que pelo menos

Dessa forma, se X for a média de uma amostra

• Em uma industria de cerveja, a quantidade de

Resposta: A variância σ 2 é conhecida, então o

Olhando na tabela, temos que zα/2 = 1, 96. Assim,

Isto é, o intervalo de valores [344, 69; 347, 31]

Note que, a partir da expressão obtida para a mar-

• Uma construtora deseja estimar a resistência

Resposta: Do enunciado tem-se α = 0, 001, ε0 =

• A distribuição t-student apresenta proprieda-

Existe uma distribuição t-student para cada valor

Obs: Se σ 2 for desconhecida, mas o tamanho da amostra

Deseja-se avaliar a dureza média do aço produzido