Apontamentos Inferencia 2018

Estatística Inferencial
Mestre: Sérgio Castigo

sergio.castigo@gmail.com
Licenciatura em Licenciatura em ensino de Matemática 2017

Programa
Introdução Estimação por intervalos
Intervalos de confiança para o valor médio
Distribuições amostrais Int. conf. diferença de valores médios
Introdução Int. conf. para a variância
Estatísticas amostrais Int. conf. para o quociente de variâncias
Distribuição da média amostral Int. conf. para a proporção
Distrib. da diferença de médias Int. conf. para a diferença de proporções
Distrib. da variância amostral

Testes de hipóteses
Distrib. do quociente de variâncias
Conceitos e metodologia
Distrib. da proporção amostral
Testes de hipóteses para o valor médio
Distrib. da diferença de proporções
Testes para a diferença de valores médios
Testes para a variância
Estimação pontual
Testes para o quociente de variâncias
Notação e conceitos
Testes para a proporção
Método da máxima verosimilhança
Testes para a diferença de proporções
Propriedades dos estimadores
Coeficiente de correlação
Análise de variância (ANOVA)
Ana Cristina Costa 2

Bibliografia
 Afonso, A., Nunes, C. (2011). Estatística e Probabilidades. Aplicações e

Soluções em SPSS, Escolar Editora
 Carvalho, A. (2015). Exercícios de Excel para Estatística. FCA – Editora de

Informática.
 Hogg, R. V., Tanis, E. A. (2001). Probability and Statistical Inference, 6th Edition,
Prentice Hall
 Newbold, P. (1995). Statistics for business and economics. 4th Edition, New
Jersey: Prentice Hall International
 Murteira, B., Ribeiro, C. S., Silva, J. A., Pimenta, C. (2002). Introdução à

Estatística, McGraw Hill
 Pedrosa, A. C., Gama, S. M. A. (2004). Introdução Computacional à

Probabilidade e Estatística. Porto Editora, 2004

Introdução
 Conceitos de inferência estatística

 Notação
Introdução
 Em estatística pretende-se determinar um conjunto de propriedades

que caracterizam fenómenos de natureza aleatória
 Estes fenómenos estão associados a populações que podem ser

finitas ou infinitas
 Como obter informação sobre essas populações?
 Caso finito  enumeração completa dos elementos da população

(censo ou recenseamento)
 Raramente aconselhável!
 Caso infinito  amostragem

Introdução
 Através dos métodos de inferência estatística é possível obter

informação acerca dos parâmetros populacionais, com base na
observação de um subconjunto de elementos da população, i.e.
duma amostra
 De um modo geral, recolhemos amostras da população e

calculamos estatísticas para tentar estimar um parâmetro

Introdução
 O processo de inferência estatística
Parâmetro – um nº que descreve a população
INFERÊNCIA
POPULAÇÃO
Valor médio: 
Amostra Média amostral : X
Estatística – um nº que descreve a amostra

Introdução
 Principais parâmetros e estatísticas amostrais
Parâmetros Estatísticas
 Valor médio X Média amostral
2 Variância S2 Variância amostral (corrigida)
 Desvio padrão S Desvio padrão amostral (corrigido)
p Proporção p̂ Proporção amostral

Introdução
 Estimação pontual
 Determinação de um valor numérico, que se pretende que seja o

melhor, para um determinado parâmetro da população, com base na
informação amostral
 Estimação intervalar
 Construção de um intervalo de valores reais que, com certo grau de

certeza previamente estipulado, contenha o verdadeiro valor do
parâmetro da população

Introdução
 Definições
 População: Conjunto de elementos com determinados atributos que se
pretende estudar. Para um só atributo em estudo, a população
representa-se por uma v.a. X
 Amostra: Subconjunto finito da população
 Amostragem aleatória: processo aleatório de selecção dos elementos

da amostra em que qualquer dos elementos da população pode ser
seleccionado para a amostra de acordo com uma probabilidade
conhecida
 Uma amostra aleatória de dimensão n de uma população X representa-

se pelo conjunto de v.a. iid {X1, X2, …, Xn}
 Uma amostra particular de dimensão n de uma população X representa-

se por {x1, x2, …, xn}

Introdução
 Definições
 Parâmetro: característica numérica da população
 Estatística: função real das variáveis aleatórias que constituem a

amostra e, portanto, é também uma variável aleatória
 É uma característica numérica da amostra que pode ser usada para estimar
um parâmetro
 Estimador: função real das v.a. que constituem a amostra que é usada
com o objectivo de estimar um parâmetro desconhecido. Portanto, é
uma v.a..
 Estimativa: valor particular assumido por um estimador para uma

amostra concreta. Portanto, é um valor concreto duma v.a.

Introdução
 Notação
 Parâmetro da população: 
 Estimador (pontual) de  [estatística]: ˆ  g(X , X ,..., X )

 1 2 n
 Estimativa (pontual) de : ˆ  g ( x1 , x 2 ,..., x n )
 Distribuição de probabilidade conjunta das n v.a. iid:
f X1 ,X 2 ,..., X n ( x1 , x 2 ,..., x n )  f X1 ( x1 )f X 2 ( x 2 )f X n ( x n )

Distribuições amostrais
 Introdução
 Estatísticas amostrais
 Distribuição da média amostral
 Distribuição da diferença de médias amostrais
 Distribuição da variância amostral
 Distribuição do quociente de variâncias amostrais
 Distribuição da proporção amostral
 Distribuição da diferença de proporções amostrais
 Introdução
 Para além da distribuição de frequências, a distribuição da amostra

pode ser descrita através de números que se designam estatísticas
amostrais
 Média amostral
 Mediana amostral
 Variância amostral
 Desvio padrão amostral
 ...

 Introdução
 Senso comum nº 1
 Uma amostra aleatória deve representar bem a população, por forma
a que as estatísticas da amostra forneçam estimativas aceitáveis dos
parâmetros da população
 Todas as estatísticas amostrais possuem algum erro na estimação
dos parâmetros da população
 Diferentes amostras produzem diferentes estatísticas amostrais.
O valor de uma estatística, como a média ou a variância, depende
da amostra que foi obtida

 Exemplo
 Suponhamos que se recolhe uma amostra de dimensão n=42 de uma

população e se calcula a média dos 42 valores obtidos (média
amostral)
 Em seguida, recolhe-se uma nova amostra de dimensão n=42 dessa

população e calcula-se a respectiva média amostral
 Se este processo se repetir para todas as amostras possíveis, à

distribuição dos valores que se obtêm para a média amostral chama-se
distribuição amostral da média

 Diferentes amostras da mesma dimensão produzem diferentes

estatísticas amostrais
POPULAÇÃO AMOSTRA MÉDIA

X1 X4
Amostra 1  X1
Amostra... Amostra 2  X2
Amostra 4
Amostra 3  X3
Amostra 1 .. ..
Amostra... Amostra... . .
Amostra...
Amostra... Amostra i 
Amostra 3 Amostra... Xi
.. ..
. .
Amostra... Amostra 2
X3 X2

Seja X1, X2, …, Xn uma amostra aleatória de dimensão n
X
 Média amostral:
1
X i
n i 1
1 n 1  n 2
 Variância amostral: S 
2
n  1 i 1
(X i  X ) 
2
  X i  nX 
n  1  i 1
2
 Desvio-padrão amostral: S  S 2

Seja X1, X2, …, Xn uma amostra aleatória de n v.a. independentes com

distribuição de Bernoulli
 Propriedades de Xi~B(p)
Função de probabilidade: P(X=x) = px(1-p)1-x , x = 0, 1; 0p1
Valor médio e variância: E(X) = p V(X) = p(1 – p) = pq
 Proporção amostral: indica a proporção de sucessos na amostra

n
X
1
P̂  i
n i 1

 A distribuição amostral é a distribuição de probabilidade da
estatística amostral
 Todas as estatísticas têm uma distribuição amostral
 Alguns valores de uma estatística são mais susceptíveis de ocorrer

do que outros
 A distribuição amostral indica a verosimilhança (probabilidade) de se

obterem determinados valores
 A distribuição amostral de uma estatística pode ser descrita através

de parâmetros

 Exemplo
 População: {3, 5, 6, 9, 11}
 Parâmetros:  = 6.8 2 = 8.16
 Todas as 10 amostras possíveis (sem reposição) de dimensão n=2:

{3,5}, {3,6}, {3,9}, {3,11}, {5,6}, {5,9}, {5,11}, {6,9}, {6,11}, {9,11}
 Valores observados da média amostral

{4}, {4.5}, {6}, {7}, {5.5}, {7}, {8}, {7.5}, {8.5}, {10}
 A distribuição de amostragem da média amostral é dada pela sua função de

probabilidade:
x 4 4.5 5.5 6 7 7.5 8 8.5 10
P( X  x ) 0.1 0.1 0.1 0.1 0.2 0.1 0.1 0.1 0.1

 Erro amostral e distribuição amostral
 fX( · |  )  função de probabilidade (caso discreto) ou f.d.p. (caso

contínuo) da v.a. X
 A estimativa de  vai depender da amostra escolhida
Amostra Valores observados Estimativa de  ̂

ˆ (1)  g( x1 , x 2 ,..., x n )
(1) (1) (1)
1 x1(1), x2(1), …, xn(1),
x1(2), x2(2), …, xn(2), ˆ ( 2)  g ( x1 , x 2 ,..., x n )

( 2) ( 2) ( 2)
2
… … …
ˆ ( k )  g( x1 , x 2 ,..., x n )
(k) (k ) (k)
k x1(k), x2(k), …, xn(k),
… … …

 Erro amostral e distribuição amostral
 O erro de amostragem ou erro amostral é a diferença entre a

estimativa obtida através da amostra e o correspondente parâmetro
desconhecido da população: ̂  
 A distribuição amostral é a distribuição duma estatística amostral

ˆ  g(X , X ,..., X )
 1 2 n

 Exemplo
 Distribuição amostral possível da estatística ̂
 A distribuição da estatística ̂
 Depende da distribuição da população e da dimensão da amostra
 O seu conhecimento permite, para qualquer amostra, avaliar e controlar o

erro de amostragem

CASO I
Amostra de
dimensão n
População
Normal
Valor médio 
 conhecido

 Distribuição da média amostral – Caso I
 Seja X1, X2, …, Xn uma amostra aleatória de n v.a. independentes de

uma população com distribuição N(, ) e seja X a média desta
amostra, então
  
X ~ N , 
 n
 Nota: justificação com base num teorema dado em Estatística I!


 Suponhamos que são retiradas duma população várias amostras com a
mesma dimensão e que, para cada amostra, é calculada a respectiva
média
 O desvio padrão da distribuição da média, ou de qualquer outra

estatística, descreve em que medida as médias (estatísticas) calculadas
diferem umas das outras
 Quanto maior for o desvio padrão, maiores serão as diferenças entre as

estatísticas calculadas
 Um desvio padrão grande é bom ou é mau?


 Uma amostra de maior dimensão fornece mais informação do que
uma amostra de menor dimensão
 então, uma estatística de uma amostra grande deverá ter um erro

amostral menor do que uma estatística de uma amostra pequena
2
 V(X ) 
n
 A distribuição da média amostral é tanto mais concentrada em torno de 
quanto maior for a dimensão da amostra  estimativas mais precisas
 A variância da distribuição da média amostral é proporcional à variância da

população

 Exemplo: distribuição da média amostral – Caso I
 A duração das lâmpadas eléctricas produzidas por uma fábrica segue

uma distribuição Normal de valor médio 450 horas e desvio padrão 10
horas
 Suponhamos que são retiradas amostras de n = 10 lâmpadas
 Então, a média amostral tem distribuição Normal de valor médio 450 e

desvio padrão 3.16:
 10
 X  450 , X    3.16
n 10


 Calcular: P449  X  451  0.251
 Tem-se também: P448  X  452   0.4713

P447  X  453   0.6579
 Conclusão:
 25.1% das amostras de n=10 lâmpadas terão uma duração média entre 449
e 451 horas;
e 452 horas;
e 453 horas

 Suponhamos agora que são retiradas amostras de n = 100 lâmpadas
 Então, a média amostral tem distribuição Normal de valor médio 450 e

desvio padrão 1:
 10
 X  450 , X   1
n 100


 Se calcularmos: P449  X  451   0.6827
P448  X  452   0.9545
P447  X  453   0.9973
 Concluímos:
 68.27% das amostras de n=100 lâmpadas terão uma duração média entre
449 e 451 horas;
448 e 452 horas;
447 e 453 horas


 Graficamente:
X10 ~ N450, 3.16 
X100 ~ N450, 1

 Conclusão...
Quanto maior é a dimensão da amostra, menor é a variabilidade

das médias amostrais
 Ou seja, quanto maior for a amostra, maior será a probabilidade da

média amostral estar próxima do valor médio da população
 E se os dados não tiverem uma distribuição Normal?

CASO II
Amostra grande
População
qualquer
Valor médio 
 conhecido

 Teorema do Limite Central (TLC)
 Seja X1, X2, …, Xn uma amostra aleatória de n v.a. iid de uma

população com valor médio  e variância 2 finita. Então, se X é a
média desta amostra, tem-se
X  a
Z ~ N(0, 1)

n
Ou seja, Z converge para a distribuição N(0,1) quando n.
a   
 Nota: implicitamente, tem-se: X ~ N , 
 n

 Teorema do Limite Central

 O TLC aplica-se quando a amostra é suficientemente grande
 Quanto mais assimétrica e afastada da Normal for a população,

maior terá de ser a dimensão da amostra
 Desde que as observações sejam independentes, a aproximação à Normal é
geralmente satisfatória se n  30
 Para n < 30, a aproximação é satisfatória se a distribuição da população não

diferir excessivamente da distribuição Normal
 O TLC aplica-se se a população tiver variância finita

 Acontece na maioria das situações
 Contra-exemplo: distribuição de Cauchy
Normal Approximation to Binomial

http://onlinestatbook.com/2/index.html
 Exemplo: distribuição da média amostral – Caso II
 Suponha que a população X tem parâmetros =30 e =8 e distribuição

desconhecida. Calcule a probabilidade de a média de uma amostra
aleatória de dimensão n=50 não diferir do verdadeiro valor médio mais
de duas unidades
a 8 
 X ~ N 30 , 
 50 
 
 28  30 X  30 32  30 
 
P X  30  2  P28  X  32   P
8

8

8 
 
 50 50 50 
 P(1.77  Z  1.77 ) 
 0.9616  0.0384  0.9232

 Exemplo: distribuição da média amostral
 Um fabricante afirma que a duração das velas de ignição por ele

produzidas segue uma distribuição Normal de valor médio 36 000 Km e
desvio padrão 4 000 Km. Suponhamos que foi retirada uma amostra de
16 dessas velas e se verificou que a sua duração média era de 34 500
Km
 Se a afirmação do fabricante estiver correcta, qual é a probabilidade de

se obter uma média amostral tão baixa ou ainda mais baixa? Conclua.

 Pretende-se calcular P( X  34500)
 4000
 Sabemos que  X  36000 , X    1000
n 16
 Ou seja, X ~ N36000 , 1000 
 X  3600 34500  36000 

P( X  34500 )  P    P( Z  1.5) 
 1000 1000 
 P( Z  1.5)  1  P( Z  1.5)  1  0.9332  0.0668


 Conclusão:
 Se a afirmação do fabricante estiver correcta, a probabilidade de se

obter uma média amostral igual ou inferior a 34 500 Km é bastante
pequena ( 6.7%)
 Este resultado sugere que a afirmação do fabricante poderá não ser

verdadeira
 Num capítulo posterior serão apresentados métodos que

permitem testar a veracidade deste tipo de afirmações, com base
nas evidências dadas por uma amostra

CASO III
Amostra de
dimensão n
População
Normal
Valor médio 
 desconhecido

 Distribuição da média amostral – Caso III

uma população com distribuição N(, ), onde  é desconhecido.
Seja X a média desta amostra, então
X 
~ t n 1
S
n
 Temos que recorrer à estatística S2 para estimar 2 porque, geralmente, o seu

valor é desconhecido. Assim, à variabilidade da média amostral junta-se a
variabilidade de S, pelo que a distribuição da v.a. X   afasta-se da distribuição
S
Normal estandardizada. n

 Exemplo: distribuição da média amostral – Caso III

 Um investigador pretende estimar o valor médio de uma população
normal utilizando para tal a média amostral. Qual deverá ser a dimensão
 
mínima da amostra para que P X    S / 2 seja superior a 0.9?
 X  
 
 P X    S / 2  0.9  P 
S n
 n / 2   0.9 

 
~tn-1
 X  
 P   n / 2   0.95
( simetria)
S n 
 Para n=13 tem-se P(T<1.803)>0.95, T~t12. Assim, qualquer valor n13

satisfaz esta inequação

CASO I
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1 e 2 conhecidos

 Distribuição da diferença de médias amostrais – Caso I
 Duas populações com distribuições X1~N(1, 1) e X2~N(2, 2)
 Duas amostras mutuamente independentes de dimensões n1 e n2

constituídas por observações iid obtidas de cada uma das populações
 Cada observação de uma amostra é independente de todas as observações
da outra amostra
 Sejam X1 e X 2 as médias de cada uma dessas amostras, então
 1
2
 2 
2
X1  X 2 ~ N 1   2 , 
 n1 n2 
 

 Distribuição da diferença de médias amostrais – Caso I
 Se as variâncias das duas populações são iguais (12 = 22 = 2),

obtém-se
 1 1 
X1  X 2 ~ N 1   2 ,   
 n1 n 2 


CASO II
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1 = 2
desconhecido

 Distribuição da diferença de médias amostrais – Caso II
 Duas populações com distribuições X1~N(1, ) e X2~N(2, ), onde  é

desconhecido
X1  X 2  1   2 
T ~ t n1 n2 2
1 1
S' 
n1 n2
(n  1)S1  (n2  1)S 2

2 2
onde S'  1
2
n1  n2  2

CASO III
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1  2
desconhecidos

 Distribuição da diferença de médias amostrais – Caso III
 Duas populações com distribuições X1~N(1, 1) e X2~N(2, 2), onde 1

e 2 são desconhecidos
X1  X 2  1   2  a
~ tr
2 2
S1 S2

n1 n 2
2
 S12S
2

  2 
 n n2 
 Sendo r a parte inteira de r*   1 
2 2
(i.e. arredondar por defeito o valor obtido)  S12   2

1    1  S2 
n1  1  n1  n2  1  n2 


CASO IV
Amostras
grandes
Populações
quaisquer
Valores médios
1 e 2
1 e 2
conhecidos

 Distribuição da diferença de médias amostrais – Caso IV
 Sejam X1 e X 2 as médias de duas amostras aleatórias mutuamente

independentes, de dimensões n1 e n2 obtidas de duas populações
(discretas ou contínuas) valores médios 1 e 2 e variâncias conhecidas
12 e 22, respectivamente. Então, pelo TLC conclui-se
 
2

2 
X1  X 2 ~ N 1   2 , 1  2 
a
 n1 n2 
 
 Ou seja, X1  X 2 converge para a distrib. Normal quando n1 e n2
 Aproximação satisfatória se n130 e n230, ou se as populações não forem

demasiado assimétricas

 Exemplo: distribuição da diferença de médias amostrais

 Considere o tempo (horas) que uma pessoa passa, por dia, a ver
televisão. Suponha que esse tempo é uma v.a. que, para um dado
grupo etário, tem distribuição (aproximadamente) N(1=3, 1=1),
enquanto que para outro grupo etário tem distribuição
(aproximadamente) N(2=2, 2=1.5)
 Suponha ainda que se obteve uma amostra de cada grupo etário de

dimensões n1=10 e n2=20, respectivamente
 Calcule:
a) PX1  X2  1
b) PX1  X2  2

 Exemplo: distribuição da diferença de médias amostrais

 Como ambas as populações têm distribuição Normal, tem-se:
 
2

2 
X1  X 2 ~ N 1   2 , 1  2 
 n1 n2 
 
 
 
a) PX  X  1  P Z  1  (3  2) 
  P( Z  0)  0.5
2 
1 2
2
 1 1.5 

 
 10 20 
 
 
 2  (3  2) 
b) PX1  X 2  2  P Z   P( Z  2.17 )  0.015
2 2 
 1 1.5 

 
 10 20 

 Diferença de valores médios em amostras emparelhadas

 Quando as amostras obtidas não são independentes, dizem-se
emparelhadas, i.e.
 se os pares de observações (xi, yi) são dependentes, sendo todos os
restantes pares (xi, yk), ik independentes
 Exemplos
 Quando ao mesmo indivíduo se aplicam tratamentos distintos
 Formação de pares de observações, antes e depois de um tratamento
 Observações de uma experiência médica com indivíduos agrupados de

acordo com características idênticas
 Um individuo tratado e outro não, emparelhados pela idade ou sexo
 Estudos com gémeos

 Diferença de valores médios em amostras emparelhadas (I)
 Sejam X1 e X2 duas populações com valores médios 1 e 2. Considere-

se a população das diferenças, D=X1X2 com distribuição Normal
de valor médio D=12 e desvio-padrão D
 Se desta pop. se retirar uma amostra aleatória emparelhada de valores

Di=X1iX2i, i=1,2,…,n, com média D e variância SD2, tem-se
 D 
 D conhecido: D ~ N  D , 
 n 
D  D
 D desconhecido: ~ t n 1
SD
n
 Diferença de valores médios em amostras emparelhadas (II)
 Se D tem distribuição desconhecida (discreta ou contínua) com valor

médio D e desvio-padrão D, então
a D 
D ~ N  D , 
 n 
 Ou seja, D converge para a distribuição Normal quando n
 Aproximação satisfatória se n30, ou se a população da diferença não for

demasiado assimétrica

 Exemplo: diferença de valores médios em amostras emparelhadas

 Pretende-se comparar o desempenho de dois computadores de marcas
diferentes (XA e XB), com as mesmas especificações dos fabricantes.
Para o efeito, registam-se os tempos CPU de execução de seis
programas nos dois computadores, que se admite terem distribuição
Normal
 Suponhamos que os computadores não diferem em termos de

desempenho e que o desvio-padrão da diferença dos tempos de
execução de qualquer programa nos dois computadores é de 0.05
minutos
 Determine a probabilidade do valor absoluto da diferença entre as

médias ser inferior a 0.02 minutos

 Exemplo: diferença de valores médios em amostras emparelhadas

 D=XAXB~N(D, D) porque XA e XB têm distribuição Normal
 A = B  D = A  B = 0
 D = 0.05
 0.05 
 D ~ N 0, 
 6 
    
P X A  X B  0.02  P D  0.02  P 0.02  D  0.02  
 
  0.02  0 0.02  0 
 P
0.05
Z
0.05   P 0.98  Z  0.98   0.673
 
 6 6

 Distribuição da variância amostral

 A variância amostral é uma estatística usada para medir a
variabilidade da amostra e estimar a variância da população
 Teoremas
 Se X é uma população com distribuição Normal de valor médio  e
variância 2, e X1, X2,…,Xn são v.a. iid dessa população, verifica-se
2
 X 
n n

i 1
2

Zi   i
i 1   
 ~ n
2
(n  1)S2
~  2
( n 1)
2
 Verifica-se ainda que X e S2 são v.a. independentes

 Exemplo 1: distribuição da variância amostral

 Considere uma amostra aleatória iid de 5 observações obtida de uma
população Normal estandardizada. Determine a probabilidade de a
variância da amostra ser inferior a 0.4123
 Como (n  1)S2
~  2
( n 1)
2
 Conclui-se
 (5  1)S2 (5  1)0.4123 
P(S  0.4123 )  P
2
   P(Q  1.6492 )  0.2

 1 1 

 Considere uma população com distribuição N(76.4, 2=383) da qual é

retirada uma amostra aleatória {X1, X2, X3,X4}. Considere as estatísticas
4
( Xi  76 .4)2
U 
i1 383
4
( X i  X )2
V 
i1 383
 Calcule
 P(0.711  U  7.779)
 P(0.352  V  6.251)
Probability Distributions Calculator

http://socr.ucla.edu/Applets.dir/ProbCalc.htm
 Note-se que
4
( n  1)S2
V 
i 1 383
 Sabe-se então que U~24 e V~23. Pelo que se conclui
 P(0.711  U  7.779) = 0.90 – 0.05 = 0.85
 P(0.352  V  6.251) = 0.90 – 0.05 = 0.85
Probability Distributions Calculator

http://socr.ucla.edu/Applets.dir/ProbCalc.htm
 Os graus de liberdade e a informação contida na amostra

 Vimos que
2
 Xi   
n
 
i 1   
 ~ n
2
2
n
 Xi  X 
 
i 1   
 ~  (2n 1)
 As n observações independentes da amostra são n elementos de informação

independentes a que correspondem n graus de liberdade
 Cada uma das n observações pode tomar qualquer valor possível,
independentemente das outras observações
 Conhecida a média amostral, qualquer observação fica completamente

determinada pela média amostral e pelas restantes n-1 observações

 Teoremas
 Se X1, X2,…,Xn são v.a. independentes e X i ~  (2n ) então
i
X
n
i ~  (2m ) , onde m   n i
i 1 i 1
 Se X~N(0, 1) e Y~2(n) forem v.a. independentes então

X
T ~ t (n)
Y
n
 Se X~2(n) e Y~2(m) forem v.a. independentes então

X
F n ~F
( n ,m )
Y
m

 Quociente de variâncias amostrais

 Tendo em conta os teoremas anteriores, é natural que a comparação das
variâncias 12 e 22 de duas populações se efectue usando S12/S22 em vez de S12
 S22
 Considerem-se duas amostras aleatórias, mutuamente independentes,

de dimensões n1 e n2, obtidas de duas populações normais com
variâncias 12 e 22, respectivamente. Sejam S12 e S22 as respectivas
variâncias amostrais, então
2
S1
1 S1  2
2 2 2
F  ~ F( n1 1, n 2 1)
S2 1
2 2 2
S2
2
2

 Exemplo: quociente de variâncias amostrais

 Considere-se duas populações normais, XA e XB, em que XA tem
variância duas vezes maior do que XB. Retiram-se duas amostras
aleatórias independentes de dimensões nA = 6 e nB = 10. Determine
 SA 2 
P 2  6.96 
S 
 B 
 Resolução:
2
SA
2
~ F(5, 9)
2SB
 SA 2   SA 2 
P  
 6.96  P   6.96 / 2   P(F  3.48 )  0.95
S 2   2S 2 
 B   B 


 Vamos abordar a distribuição de
n
X
1
P̂  i
n i 1
que indica a proporção de sucessos (elementos com a característica

pretendida) numa amostra de n v.a. independentes retiradas de uma
população com distribuição de Bernoulli(p)
1 0
 Função de probabilidade: X i 
p 1  p
 
E P̂  p, 
V P̂  p(1  p) / n


 Pelo Teorema Limite Central

a p(1  p) 
P̂ ~ N p,
 n 
 
 P̂ converge para a distribuição Normal quando n
 Aproximação satisfatória se n > 20 e 0.1 < p < 0.9

ou, np  5 e n(1–p)  5

 Exemplo: distribuição da proporção amostral

 Suponha que, no País do Mal-Estar, o Canal-In-Sulta de televisão por
cabo reclama que 10% das residências o subscrevem, o que é verdade.
No entanto, dada a sua reputação duvidosa, uma empresa de marketing
resolveu estimar essa proporção, a partir de uma amostra de 100
residências, antes de renovar os seus contratos de publicidade com o
Canal-In-Sulta
a) Recorrendo ao TLC, determine a distribuição de probabilidade (aproximada)

da proporção amostral
b) Supondo que os contratos só são renovados se a proporção amostral for

superior a 8.5%, determine a probabilidade disso acontecer

 Exemplo: distribuição da proporção amostral

a) Como np = 10  5 e n(1–p) = 90  5, usando o TLC obtém-se
a  0.1(1  0.1)  a
P̂ ~ N 0.1,  P̂ ~ N 0.1, 0.03
 100 
 
 
b) P P̂  0.085  P Z 
0.085  0.1 
  P( Z  0.5)  0.691
 0.03 

 Distribuição da diferença de proporções amostrais
 Considere duas amostras aleatórias mutuamente independentes de

dimensões n1 e n2 (suficientemente grandes), obtidas de duas populações
de Bernoulli de parâmetros p1 e p2, respectivamente. Sejam X1 e X2 o
número de sucessos em cada amostra e seja
X1 X 2
P̂1  P̂2  
n1 n 2
a diferença entre as proporções de sucessos das duas amostras. Pelo

TLC tem-se

a p1 (1  p1 ) p 2 (1  p 2 ) 
P̂1  P̂2 ~ N p1  p 2 , 
 n1 n2 
 

 Exemplo: distribuição da diferença de proporções amostrais
 Em virtude de uma grande campanha publicitária, a proporção de

consumidores que preferem uma determinada marca de café passou de
p1=10% para p2=12%. Suponha que se efectuaram duas sondagens: a
primeira, a n1 pessoas antes da campanha se iniciar e, a segunda, a n2
pessoas depois da campanha terminar. Sendo P̂2  P̂1 a diferença
entre as proporções amostrais com preferência por essa marca de café,

determine P P̂2  P̂1  0 
a) Se n1 = n2 = 10
b) Se n1 = n2 = 100

 Exemplo: distribuição da diferença de proporções amostrais
a) Não é possível calcular um valor aproximado para a probabilidade,

porque as amostras são muito reduzidas e, portanto, o Teorema Limite
Central não se aplica.
 
a
b) P̂2  P̂1 ~ N 0.02, 0.001956
  
P P̂2  P̂1  0  P Z 
0  0.02 
  P( Z  0.452 )  0.674
 0.001956 

Estimação pontual
 Notação e conceitos
 Método de estimação da máxima
verosimilhança
 Propriedades dos estimadores
Estimação pontual
 Parâmetro da população  
 X1, X2,…,Xn  amostra aleatória iid
 Questões abordadas nesta unidade de aprendizagem
 ˆ  g(X , X ,..., X ) que possa ser usada

Existe alguma estatística  1 2 n
como estimador do parâmetro ?
 No caso de haver mais do que um estimador de , como podemos

decidir que um é melhor que outro? Quais as propriedades
desejáveis de um estimador?

Estimação pontual
 Um estimador pontual, ou simplesmente estimador, de um parâmetro 

de uma população é uma estatística ̂ usada para estimar o valor de 
 Uma estimativa pontual, ou simplesmente estimativa, de um parâmetro

 de uma população é um valor ̂ de uma estatística ̂
 Propriedades desejáveis dos estimadores

 Não enviesamento
 Eficiência
 Suficiência
 Consistência

Estimação pontual
 Não enviesamento  em termos médios, o estimador atinge o valor
real do parâmetro
 Eficiência  o estimador é tanto mais eficiente (i.e., preciso) quanto

menor for a sua variância
 Suficiência  quando o estimador retira da amostra toda a informação

relevante sobre o parâmetro populacional
 Consistência  para amostras grandes, o estimador deve ser

aproximadamente igual ao parâmetro

Estimação pontual
 Ilustração dos conceitos de enviesamento e eficiência, sendo o
verdadeiro valor do parâmetro o centro da menor circunferência
Eficiente Não Eficiente
Não enviesado
ou, centrado
Enviesado
Ana Cristina Costa Adaptado de (setembro 2010): 80

http://www.stats.gla.ac.uk/steps/glossary/sampling.html
Estimação pontual
 Método dos momentos  os estimadores obtêm-se por substituição
dos momentos da amostra nas expressões que representam os
momentos da população
 Método dos mínimos quadrados  usualmente utilizado no âmbito da

regressão linear
 Método da máxima verosimilhança  é, provavelmente, o método

mais importante. Geralmente, os estimadores de max. verosimilhança
gozam das propriedades desejáveis num bom estimador: são,
usualmente, os mais eficientes e consistentes. Embora, usualmente,
não sejam centrados, costumam ser assimptoticamente não enviesados

Estimação pontual
 Método de estimação da máxima verosimilhança

 Consiste em, dada uma amostra de valores já observados x1, x2,…,xn,
escolher o valor do parâmetro  que maximiza o valor da função de
verosimilhança
L()=L( | x1, x2,…,xn) = fX1, X2,…,Xn(x1, x2,…,xn | )
em que fX1, X2,…,Xn é a função [densidade] de probabilidade conjunta de

X1, X2,…,Xn
 Ou seja, escolhe-se o valor de  que torna aquela amostra concreta mais
provável, i.e. mais plausível
 Na estimação paramétrica, este método só pode ser aplicado se a

distribuição da população for conhecida
 Pode ser usado para estimar mais do que um parâmetro em simultâneo

Estimação pontual
 Sejam x1, x2,…,xn os valores observados de uma amostra aleatória iid

X1, X2,…,Xn de uma população com distribuição f(x | ). Então, a função
de verosimilhança da amostra é
n
L()   f (x
i 1
i | )  f ( x1 | )f ( x 2 | )...f ( x n | )
 Maximizar esta função é equivalente a maximizar o seu logaritmo
 Função log-verosimilhança
n
ln L()   ln f (x
i 1
i | )

Estimação pontual

 Para se obter o estimador de máxima verosimilhança
1. Determinar a função de verosimilhança L()
2. Se necessário, aplicar a transformação logarítmica, ln L()
3. Determinar os pontos onde a 1ª derivada da função [L() ou ln L()] em

ordem a  se anula (condição necessária, ou de primeira ordem)
L()  ln L()
 0 ou 0
 
4. Verificar se a 2ª derivada da função em ordem a  é negativa (condição de

segunda ordem)
 2 L()  2 ln L()
 0 ou 0
 2
 2

Estimação pontual
 Exemplo 1: método de estimação da máxima verosimilhança
 Seja X1, X2,…,Xn uma amostra aleatória de uma população com fdp
dada por f ( x )  x 1 , 0  x  1, 0    
Determine o estimador de  pelo método da máxima verosimilhança
1. Função de verosimilhança
n
L( | x1 , x 2 ,..., x n )  
i 1
x i
 1
, 0  x i  1, 0    
2. Função log-verosimilhança
  ,
n
 1
ln L( | x1 , x 2 ,..., x n )  ln x i 0  x i  1, 0    
i 1
n
 n ln( )  (  1)  ln x  ,
i 1
i 0  x i  1, 0    

Estimação pontual
 Exemplo 1: método de estimação da máxima verosimilhança

3. Condição de primeira ordem
 ln L() n n
 ln x i   0    
n
 
  n
i 1
 ln x 
i 1
i
4. Condição de segunda ordem (verificar)

 2 ln L() n
  0
 2
 2
n
 ˆ  n
Estimador:   ln X 
i 1
i
 O estimador é diferente do que foi obtido pelo método dos momentos

Estimação pontual

Propriedade da invariância
 Se ̂ é um estimador da máxima verosimilhança de  e se () é uma
ˆ é o estimador de máxima

função biunívoca de , então  
verosimilhança de ()

Estimação pontual
 Exemplo 1 (continuação): método da máxima verosimilhança
 Seja X1, X2,…,Xn uma amostra aleatória de uma população com fdp
dada por f ( x )  x 1 , 0  x  1, 0    
Determine o estimador de 2 pelo método da máxima verosimilhança
 Vimos que o estimador da máxima verosimilhança de  é

n
ˆ   n
 ln x 
i 1
i
 Pela propriedade da invariância, conclui-se

^
n2
  ˆ 2 
2
2
 n 

 ln x i 

 i 1



Estimação pontual
 Exemplo 2: método da máxima verosimilhança

 Considere uma população com distribuição de Bernoulli de parâmetro p
Função de probabilidade: f(x) = px(1-p)1-x , x = 0, 1; 0p1
a) Determine o estimador de máxima verosimilhança de p
b) Foi obtida uma amostra de dimensão n=3 cujos valores observados

foram {1,1,0}
i. Forneça uma estimativa para p
ii. Esboce o gráfico da função de verosimilhança e interprete-o

Estimação pontual

a) Determinar o estimador de máxima verosimilhança de p
1. Função de verosimilhança
n
L( p | x1 , x 2 ,..., x n )  p
i 1
xi
(1  p)1 x i  p  x i (1  p) n   x i , x  0,1; 0  p  1
2. Função log-verosimilhança
 n   n


ln L(p | x1 , x 2 ,..., x n )   x i  ln( p)   n 
 i 1  

i 1
x i  ln( 1  p)

3. Condição de primeira ordem
 ln L(p)  n 1  n
 1  n   n

p

  x i    n 
 i 1  p 
i 1
x i 
1 p

 0  (1  p) x i   p n 
 i 1  
i 1
x i   0

n n
 x
1
 x i  pn  0  p  i
i 1 n i 1

Estimação pontual

4. Condição de segunda ordem (verificar)
 2 ln L(p)  n  1  n
 1
p 2
 
  x 
 i 1  p 

i  2  n  
i 1
x i 
 (1  p ) 2
0
porque xi0, p20, n>0, (1–p)20 e nxi pois xi=0 ou xi=1

n
X
1
 Estimador: p̂  i X
n i 1
b) (i) Estimativa para p dada a amostra {1,1,0}
2
 p̂   0.6667
3
(ii) L(p | 1,1,0) = p2 – p3
Gráfico obtido em (setembro 2010):

Ana Cristina Costa http://www.quickmath.com/webMathematica3/quickmath/page 91
.jsp?s1=graphs&s2=equations&s3=basic
Estimação pontual

 Não enviesamento
ˆ 
̂ é um estimador não enviesado, ou centrado, se E()
Caso contrário, o estimador diz-se enviesado, sendo o enviesamento (ou,

ˆ )  E (
viés) dado por bias ( ˆ)
ˆ)
̂ é um estimador assimptoticamente centrado de  se Lim E(
n  

Estimação pontual
 Exemplo 1: propriedades dos estimadores

 Seja X1, X2, …, Xn uma amostra iid de uma população N(, ). Mostre
que S2 é um estimador centrado de 2
 Vimos anteriormente que V( X )   2 n e como
 X  X   ( X  )  ( X  )   X     
n n n
2 2 2
n X
2
i i i
i1 i 1 i1
 Obtém-se:
 
ES  21  n

n  1  i 1
E X i  
 2
 nE X 
  2
  


1
n 1
 
nV ( X )  nV ( X ) 
1  2 2 
  n  n   
2
n 1  n 

Estimação pontual
 Exemplo 2: propriedades dos estimadores

n
 (X
1
 Mostre que ˆ 2  M 2  i  X ) 2 é um estimador assimptoticamente
n i 1
não enviesado de 2 e determine o seu enviesamento
Como
n 1 2
 n

1
M2  (X i  X ) 2  S
n i 1 n
 Então n 1 n 1 2
E(M 2 )  E (S2 )   n
 
  2
n n
 Tem-se ainda,  2
bias (M 2 ) 
n
Estimação pontual

 Erro quadrático médio
O erro quadrático médio (EQM) do estimador ̂ do parâmetro  é
EQM (


ˆ )  E  
ˆ  2

ˆ )  V (
Teorema: EQM ( 
ˆ )  bias (
ˆ) 
2

Estimação pontual

 Eficiência
A eficiência de um estimador é o erro quadrático médio da sua

distribuição amostral
Dados dois estimadores ̂ e ̂ de um parâmetro , a eficiência de ̂

1 2 1
  ˆ
relativamente a ̂ 2 é dada por ef ˆ 1, ˆ 2  EQM( 1)
EQM( ˆ 2 )
̂1 é mais eficiente do que ̂ 2 quando se verifica ef ˆ 1, ˆ 2   1
  
Exemplo: se ef ˆ 1 , ˆ 2  1.6 , quer dizer que a variabilidade associada a ̂ 2
é 1,6 vezes maior que a variabilidade associada a ̂1

Estimação pontual

 Eficiência e erro quadrático médio
 *1  estimador centrado de 
 *2  estimador enviesado de 
 Na prática, *2 pode ser melhor estimador (mais eficiente) do que *1

Estimação pontual
 Exemplo: propriedades dos estimadores

 Considere as variâncias amostrais corrigida e não corrigida, S2 e  ˆ2 M
2
respectivamente, de uma amostra de uma população normal X~N(, ).
Determine a eficiência relativa destes dois estimadores de 2, sabendo
que (ainda que M2 não seja centrado, considere a variância dos estimadores)
V(S ) 
2 4
2
n 1
  n 1
, V ˆ 2  V(M 2 )  2 2 4
n
 Resolução:
2
V( M 2 )  n  1 
ef (S2 , M 2 )    1
V(S )  n 
2
Logo, M2 é um estimador mais eficiente do que a variância corrigida S2

Estimação pontual

 Eficiência absoluta
Um estimador centrado ̂1 é absolutamente eficiente quando é eficiente

relativamente a qualquer outro estimador centrado ̂ 2
 Desigualdade de Fréchet-Cramér-Rao
 Se X1, X2,…,Xn é uma amostra aleatória de uma população com um
parâmetro , com f.p. ou f.d.p. f(x|), que satisfaz certas condições de
ˆ  g(X , X ,..., X ) é um estimador centrado de , então
regularidade, e 
1 2 n
V
ˆ  1
n I()
, onde
  2 ln f ( x | )    ln f ( x | )  2   Quantidade de
I()  E    E   
  2
      informação de Fisher

Estimação pontual

 Considere uma população X normal com variância 2 conhecida.
Pretende-se estimar o seu valor médio 
a) Calcule a quantidade de informação de Ficher da v.a. X
b) Mostre que a média amostral é um estimador centrado  que tem eficiência

máxima (i.e., é absolutamente eficiente)
2
1  x  
 
1 2   
a) f(x)  e , x  IR,   IR,   0 b) Pelo teorema F-C-R:
2
ln f ( x | )  
( x  ) 2
2 2
 ln  2  Vˆ  
1

n I() n
2
 V( X )
 2 ln f ( x | ) 1   1  1
   I ( )  E    2   2
 2 2     

Estimação pontual

 Consistência
 Um estimador é consistente se o aumento da dimensão da amostra implica
um aumento da probabilidade do valor estimado estar numa vizinhança do
verdadeiro valor do parâmetro
 Escrevemos ̂ n para indicar que o estimador ̂ depende da dimensão n de
uma amostra aleatória iid
Um estimador ̂ n de  é consistente se e só se, dado >0 arbitrário, se tem
Lim P 
n  
n
ˆ     1 
P
Ou seja, se ̂ n converge em probabilidade para : ˆ  
 n
n  

Estimação pontual

 Consistência
 Um estimador ̂ n centrado é consistente se e só se
Lim V 
n
 
ˆn 0
 Um estimador ̂ é consistente em média quadrática se e só se

n
Lim EQM 
n 
 
ˆn 0

Estimação pontual
 Se ̂ n e ̂'n são estimadores consistentes de  e ’, respectivamente,

então
 ˆ 
 ˆ ' é um estimador consistente de +’
n n
ˆ 
 ˆ é um estimador consistente de ’
n 'n

 ˆ /
 ˆ ' é um estimador consistente de /’, com ’0
n n
   é um estimador
ˆ
Se g() é uma função real contínua em , então g  n
consistente de g()

Estimação pontual

 Seja X1, X2,…,Xn uma amostra aleatória de uma população X com
distribuição de Poisson de parâmetro  conhecido. Mostre que a média
amostral é um estimador consistente de .
 EX   
VX   
n

  
O estimador é consistente porque Lim V X  Lim 0
n  n  n

Estimação por intervalos
 Intervalos de confiança para o valor médio

 Int. conf. para a diferença de valores médios
 Int. conf. para a variância
 Int. conf. para o quociente de variâncias
 Int. conf. para a proporção
 Int. conf. para a diferença de proporções
 Procedimento estatístico de determinação de dois estimadores que

constituem os extremos de um intervalo  
ˆ ,ˆ 
L U , designado
intervalo de confiança (IC)
 O IC deverá
 Conter o parâmetro com elevada probabilidade
 Ter uma amplitude reduzida
 Os IC permitem avaliar o erro de amostragem, mas não têm em

consideração, obviamente, erros sistemáticos associados à
obtenção da amostra

 Amostras diferentes produzem estimativas de intervalo

diferentes
Estatística Amostral
Intervalo de (estimativa pontual)
Confiança
Limite de Confiança Limite de Confiança

(inferior) (superior)

 Definição
Um intervalo de confiança (IC) de (1 – )100% para o parâmetro  é


ˆ ,ˆ 
um intervalo aleatório xxxxxxxxx,
L U em que os limites de confiança
̂ U são duas estatísticas amostrais tais que
̂ L e xxx
xxx
ˆ 
P L
ˆ  1 
U 
sendo 1– o grau de confiança, e ]0, 1[ o nível de significância

 1 –   probabilidade do IC conter o parâmetro  (antes da realização da

amostragem)
  
ˆ ,
ˆ
Na prática, não se sabe se um intervalo xxxxxxxxx,
L U 
obtido de uma amostra
particular, contém ou não o parâmetro (de valor desconhecido) 
 1 –   proporção de vezes que os intervalos observados para as amostras

contêm o parâmetro
 Erro amostral (absoluto) ou precisão (absoluta) da estimativa obtida

para o parâmetro   semiamplitude do IC

 Exemplo
 Conceito de intervalo de confiança para um parâmetro  (neste caso o

valor médio), de uma população com distribuição f(x | ) (neste caso
Normal), em que o IC obtido contém o parâmetro 

 Definição
A v.a. T=t(X1, X2,…,Xn | ) diz-se uma variável fulcral se a sua

distribuição de probabilidade não depende de 
 O método da variável fulcral é muito usado para a construção de IC
 Exemplo: se X1, X2,…,Xn é uma amostra aleatória iid retirada de uma

população N(, ) então
X 
Z ~ N(0,1)

n
Z é uma variável fulcral porque a sua distribuição não depende de 

CASO I
Amostra de Amostra
T
dimensão n L grande
C
População População
Normal qualquer
Valor médio 
 conhecido

 Intervalos de confiança para o valor médio – Caso I

uma população com variância 2 conhecida e seja X a média desta
amostra. Um intervalo de confiança de (1 – )100% para  é dado
por
   
 X  z , X  z
n 
1  2 1  2
 n
 z1-/2 é o percentil de ordem 1–/2 da distribuição N(0,1)
 O grau de confiança é exato para populações Normais, mas é

aproximado para populações não Normais (Teorema Limite Central)

 A precisão absoluta do Intervalo de Confiança é dada pela semi-

amplitude do IC

 Neste caso, z1  2
n
 Constitui uma medida da precisão da estimativa do valor médio obtida

pela média da amostra x
 A precisão relativa do Intervalo de Confiança é dada pelo

quociente entre a semi-amplitude do IC e ̂ (em %)

z1  2
 Neste caso, n 100
x

 Exemplo: IC para o valor médio

 O salário semanal dos trabalhadores de certa indústria possui desvio-
padrão  = 40 euros. Obteve-se uma amostra de 81 trabalhadores e
verificou-se que o salário semanal médio era de 360 euros. Determine
intervalos de 90%, 95% e 99% de confiança para o salário médio dos
trabalhadores desta indústria.
 40 40 
 IC: 360  z1  2 , 360  z1  2 
 81 81 
 Como z0.95=1.65, z0.975=1.96 e z0.995=2.58, conclui-se
 IC de 90%: [352.67, 367.33]
 IC de 95%: [351.29, 368.71]
 IC de 99%: [348.53, 371.47]

 Quanto maior for o nível de confiança, maior é a amplitude do

intervalo, menor é a precisão do IC
-2.58`x -1.65`x  +1.65`x +2.58`x

-1.96`x +1.96`x
90% Amostras
95% Amostras
99% Amostras

CASO II
Amostra de
dimensão n
População
Normal
Valor médio 
 desconhecido

 Intervalos de confiança para o valor médio – Caso II

uma população N(, ), sendo  desconhecido, e seja a média
X
desta amostra. Um intervalo de confiança de (1 – )100% para  é
dado por
S
X  t (n1);1 2
n
 t(n-1);1-/2 é o percentil de ordem 1–/2 da distribuição t(n–1)


 As vendas diárias de leite num supermercado seguem uma distribuição
Normal. Numa amostra de 16 dias seleccionados aleatoriamente
obteve-se uma média de 300 litros e desvio padrão 20 litros. Determine
intervalos de 90%, 95% e 99% de confiança para a média diária das
vendas de leite no supermercado.
 20 20 
 IC: 300  t (15 );1  2 , 300  t (15 );1  2 
 16 16 
 Como t0.95(gl=15)=1.753, t0.975(gl=15)=2.131 e t0.995(gl=15)=2.947, conclui-se
 IC de 90%: [291.24, 308.77]
 IC de 95%: [289.35, 310.66]
 IC de 99%: [285.27, 314.74]

CASO III
Amostra grande
População
qualquer
Valor médio 
 desconhecido

 Intervalos de confiança para o valor médio – Caso III

uma população qualquer com variância 2 desconhecida, e seja X a
média desta amostra. Um intervalo de confiança de (1 – )100%
para  é dado por
S
X  z1 2
n
 Este intervalo é aproximado e só deve ser usado se a dimensão da

amostra n for suficientemente grande (tipicamente, n30)
 Justificação: Teorema de Slutsky

 Quando a dimensão da amostra aumenta a distribuição t-

Student aproxima-se da Normal Standard
 Comparação dos valores de t com os valores de Z
Nível de confiança Valor de t com 5 gl Valor de Z
90% 2.015 1.65
95% 2.571 1.96
99% 4.032 2.58
 Para amostras pequenas, o valor de t é maior que o valor de Z
 Então, o IC usando t tem maior amplitude do que usando Z


 O director comercial de uma empresa afirma que os vendedores fazem,
em média, menos de 15 contactos por semana. Para verificar esta ideia,
foram seleccionados aleatoriamente 36 vendedores e registou-se o
número de contactos que cada um estabeleceu numa determinada
semana. A média e a variância da amostra foram iguais a 16 e 9,
respectivamente. Há evidência a favor da afirmação do director?
 9 9 
 IC 95%: 16  1.96 , 16  1.96  ou seja , [15.02, 16.98]
 36 36 
 A amostra evidencia que o número médio de contactos semanais de cada

vendedor se encontra entre 15.02 e 16.98. Uma vez que os valores inferiores
ou iguais a 15 não se encontram dentro do intervalo de confiança, é de
admitir que há evidência de que o director comercial está errado.

 Intervalos de confiança para a diferença de valores médios
CASO I
Amostras de Amostra
T
dimensões n1 e n2 L grande
C
Populações População
Normal qualquer
Valores médios
1 e 2

 IC para a diferença de valores médios – Caso I

independentes, de dimensões n1 e n2 obtidas de duas populações com
valores médios 1 e 2 e variâncias conhecidas 12 e 22,
respetivamente. Um intervalo de confiança de (1 – )100% para
1–2 é dado por
1 
2 2
( X1  X 2 )  z1 2  2
n1 n2
 O grau de confiança é exato para populações Normais, mas é

aproximado para populações não Normais (Teorema Limite Central)

CASO II
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1 = 2
desconhecido

 IC para a diferença de valores médios – Caso II

valores médios 1 e 2, respectivamente, e variância 2 desconhecida.
Um intervalo de confiança de (1 – )100% para 1–2 é dado por
1 1
( X1  X 2 )  t ( n1  n 2  2);1  2S' 
n1 n 2
 t(n1+n2–2);1-/2 é o percentil de ordem 1–/2 da distribuição t(n1+n2–2)
 S'2 é o estimador combinado de 2 dado por

(n  1)S1  (n2  1)S2
2 2
S'  1
2
n1  n2  2

CASO III
Amostras
grandes
Populações
quaisquer
Valores médios
1 e 2
1 = 2
desconhecido

 IC para a diferença de valores médios – Caso III

valores médios 1 e 2, respectivamente, e variância 2 desconhecida.
Um intervalo de confiança de (1 – )100% para 1–2 é dado por
1 1
( X1  X 2 )  z1 2S' 
n1 n2
 S'2 é o estimador combinado de 2 dado por

(n  1)S1  (n2  1)S2
2 2
S'  1
2
n1  n2  2
Ana Cristina Costa Este intervalo é aproximado e só deve ser usado se as dimensões 129
das amostras forem suficientemente grandes (tipicamente, n1, n230)
CASO IV
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1  2
desconhecidos

 IC para a diferença de valores médios – Caso IV
 Sejam X1 e X 2 as médias e S12 e S22 as variâncias de duas amostras

aleatórias mutuamente independentes, de dimensões n1 e n2 obtidas
de duas populações com distribuições N(1, 1) e N(2, 2) de variâncias
desconhecidas, respectivamente. Um intervalo de confiança de
(1–)100% para 1–2 é dado por
S12 S2 2
( X1  X 2 )  t (r );1 2 
n1 n 2
2
 S12 S 2 2 
  
 t(r);1-/2 é o percentil de ordem 1–/2 da  n n2 
r*   1
2 2
distribuição t(r) sendo r a parte inteira de 1  S1 
2
1  S 2 
2

n1  1  n1  n2  1  n2 

CASO V
Amostras
grandes
Populações
quaisquer
Valores médios
1 e 2
1  2
desconhecidos

 IC para a diferença de valores médios – Caso V
 Sejam X1 e X 2 as médias e S12 e S22 as variâncias de duas amostras

aleatórias mutuamente independentes, de dimensões n1 e n2 obtidas
de duas populações valores médios 1 e 2 e variâncias desconhecidas
12 e 22, respectivamente. Um intervalo de confiança de (1–)100%
para 1–2 é dado por
2 2
S1 S
( X1  X 2 )  z1 2  2
n1 n2
 O grau de confiança é aproximado

 Exemplo 1: IC para a diferença de valores médios
 Antes de fazer novos investimentos, a Electricidade do Oriente resolveu

estimar a evolução do consumo médio de electricidade por habitação no
último ano. Para tal, seleccionou duas amostras aleatórias mutuamente
independentes de n1=120 e n2=150 consumidores domésticos em
Janeiro do ano passado e do ano corrente.
Obteve-se x1  550 e x 2  567 quilo-watts-hora, respectivamente.

Supondo que o desvio-padrão do consumo por habitação, em Janeiro
de ambos os anos, era 1= 2=110, determine um IC para a evolução do
consumo médio de electricidade (i.e., para 2– 1).

2 2
110 110
 Caso I: 17  z1  / 2 
120 150
 IC 95%: [9.4, 43.4]
 Este resultado não garante, com 95% de confiança, que tenha havido
uma evolução positiva do consumo, visto que admite valores negativos
para a diferença 2– 1. Assim, antes de se realizarem novos
investimentos, é aconselhável proceder a um estudo com amostras
maiores, de modo a reduzir o erro de amostragem.

 Uma companhia de transportes resolveu comparar a qualidade dos

pneus de duas marcas, A e B, que equipavam a sua frota. Para isso,
socorreu-se dos registos dos últimos dois anos e verificou que os nA=28
pneus da marca A percorreram em média x A  43400 Km com um
desvio-padrão de sA=5100 Km, enquanto que os nB=32 pneus da marca
B percorreram em média x B  45100 Km com um desvio-padrão de
sB=5900 Km.
Determine um IC para a diferença da duração média (em Km) dos

pneus (i.e., para B– A).

2 2
5100 5900
 Caso V: 1700  z1  / 2 
28 32
 IC 95%: [1083, 4483]
 Embora não se possa dizer, com um grau de confiança de 95%, que os

pneus da marca B duram mais do que os da marca A, o resultado
sugere que isto aconteça.

 IC diferença de valores médios – amostras emparelhadas (I)

se a população das diferenças, D=X1X2 com distribuição Normal
de valor médio D=12 e desvio-padrão D
 Se desta pop. se retirar uma amostra aleatória emparelhada de valores

Di=X1iX2i, i=1,2,…,n, com média D e variância SD2, um intervalo de
confiança de (1 – )100% para 1–2 é dado por
D
 D conhecido D  z1 2
n
SD
 D desconhecido D  t (n1);1 2
n

 IC diferença de valores médios – amostras emparelhadas (II)

se a população das diferenças, D=X1X2 com distribuição
desconhecida de valor médio D=12 e variância finita
 Se desta pop. se retirar uma grande amostra aleatória emparelhada de

valores Di=X1iX2i, i=1,2,…,n, com média D e variância SD2, um intervalo
de confiança de (1 – )100% para 1–2 é dado por
SD
D  z1 2
n

 Exemplo: IC diferença de valores médios – amostras emparelhadas

 A uma amostra de 15 eleitores foi pedido que pontuassem, numa escala
de 1 a 5, um determinado candidato político. Após a pontuação, o grupo
visionou um programa televisivo em que o candidato respondeu a dez
questões socio-económicas relevantes. Após a exibição do programa, o
painel dos eleitores voltou a pontuar o candidato e obteve-se
Antes (A)
4 4 3 5 5 5 2 3 4 3 3 5 5 4 4
Depois (B)
4 5 3 5 5 4 4 5 5 3 4 4 4 4 4
Diferença (A-B)
0 1 0 0 0 1 2 2 1 0 1 1 1 0 0
 Determine uma estimativa da variação da pontuação média derivada do

programa televisivo e apresente a precisão dessa estimativa.


 Admitir que a população da diferença de pontuação D=A–B tem
distribuição Normal porque a amostra é pequena. Estimativas amostrais:
2
15  15 
15 d i   d i 
2 
1 15 4     
2
d   di   0.267; s d 2  i 1  i 1   15 14 ( 4)
 0.9238
15 i 1 15 15 14 15 14
 t(14);0.975 = 2.145
0.9238
 IC 95%:  0.267  2.145
15


 IC 95%: [ –0.799, 0.266]
 Uma vez que este intervalo contém valores negativos, positivos e o valor
zero, pode dizer-se que não há evidência de diferenças entre os valores
médios das pontuações antes e após o visionamento do programa, pelo que
este não alterou significativamente a pontuação do candidato
0.9238
 Precisão absoluta: 2.145  0.532
15
0.532
 Precisão relativa: 100  199%
| 0.267 |

 Intervalos de confiança para a variância
 Seja S2 a variância de uma amostra aleatória iid de dimensão n extraída

de uma população. Um intervalo de confiança de (1 – )100% para
2 é dado por
 (n  1)S2 (n  1)S 
2
 , 
  ( n 1);1  / 2  ( n 1); / 2 
2 2
 2(n–1);1-/2 e 2(n–1);/2 são os percentis de ordem 1–/2 e /2,

respectivamente, da distribuição 2(n–1)
 O grau de confiança é exacto para populações Normais, mas é

aproximado para populações não Normais. No caso de populações
claramente não Normais, este resultado não deve ser usado.

 Intervalos de confiança para o quociente de duas variâncias
 Sejam S12 e S22 as variâncias de duas amostras aleatórias mutuamente

independentes, de dimensões n1 e n2, de duas populações. Um
intervalo de confiança de (1 – )100% para 22/ 12 é
 1 S2 2 S2 2 
 2
, f (n1 1;n 2 1);1 / 2
2

 f (n 2 1;n1 1);1  / 2 S1 S1 
 f(1, 2);1-/2 é o percentil de ordem 1–/2 da distribuição F(1, 2)
 O grau de confiança é exacto para populações Normais, mas é

aproximado para populações não Normais. No caso de populações
claramente não Normais, este resultado não deve ser usado.
1
Ana Cristina Costa NOTA : f ( 1 , 2 ); / 2  144
f (  2 ,1 );1 / 2
 Exemplo: IC para o quociente de duas variâncias
 Pretende-se comparar a dispersão da quantidade de sopa em pó

embalada por duas máquinas. Obtiveram-se os seguintes resultados
para duas amostras independentes retiradas da produção de cada uma
das máquinas
Amostra 1 Amostra 2
n1 = 21 n2 = 41
s12 = 0.714 s22 = 0.438
 Estime 22/ 12 com um grau de confiança de 95%.

 Exemplo: IC para o quociente de duas variâncias

 Percentis a usar: f(40, 20);0.975 = 2.29 e f(20, 40);0.975 = 2.07
 1 0.438 0.438 
 IC 95%:  2.29 0.714 , 2.07   [0.268 , 1.270 ]
 0.714 
 Uma vez que o intervalo de confiança contém o valor 1, pode concluir-

se que há evidência de que as variâncias das duas populações são
iguais. Em termos práticos, é de concluir que as duas máquinas de
embalagem apresentam a mesma dispersão da quantidade embalada
de sopa em pó.

 Intervalos de confiança para a proporção
 Seja P̂ a proporção de sucessos numa amostra aleatória iid de

dimensão n. Um intervalo de confiança de (1 – )100% para p é
P̂(1  P̂)
P̂  z1 2
n
 O grau de confiança é aproximado (TLC) e este resultado só deve ser

aplicado se a amostra for grande e se np  5 e n(1–p)  5.

 Exemplo: IC para a proporção
 Suponha que uma empresa pretende lançar um novo produto no

mercado. Para o efeito, realizou-se um inquérito telefónico para estimar
a proporção de potenciais clientes do novo produto.
a) Qual deve ser a dimensão da amostra para que, com um grau de

confiança de 95%, o erro amostral absoluto cometido seja inferior a
0.07?
b) Supondo que no inquérito a 50 pessoas, 84% relataram ser

potenciais clientes. Determine um intervalo de confiança para a
proporção de potenciais clientes na população.

 O erro amostral absoluto é metade da amplitude do IC

2
p̂(1  p̂) ( z1  2 p̂(1  p̂)
)
z1 2   n
2
n 
 O valor de p̂ que maximiza n é p̂  0.5
(basta igualar a 1ª derivada a zero, visto que a 2ª derivada é negativa)
 Uma estimativa conservadora de n, que pode ser usada quando não

se faz ideia do valor de p e que garante, com um grau de confiança de
(1–)100%, que o erro máximo cometido é inferior a  é
2
 z1  2
n   

 2 
a) No caso do exemplo, n196 garante, com 95% de confiança, que o erro

máximo cometido na estimação de p é inferior a 0.07 (qualquer que seja o
verdadeiro valor de p)
2
 z1   2
   
2 1.96
n      196
 2   2  0.07 
b) IC 95% para p: 0.84  1.96 0.84(1  0.84)  0.84  0.10

50
Um IC 95% para p é [0.74, 0.94], portanto pode afirmar-se que a maioria

da população será potencial cliente do novo produto

 Intervalos de confiança para a diferença de proporções
 Sejam P̂1 e P̂2 as proporções de sucessos em duas amostras

aleatórias independentes de grandes dimensões n1 e n2. Um intervalo
de confiança de (1 – )100% para p1–p2 é
P̂1 (1  P̂1 ) P̂2 (1  P̂2 )

(P̂1  P̂2 )  z1  2 
n1 n2
 O grau de confiança é aproximado

 Conceitos e metodologia
 Testes de hipóteses para o valor médio
 Testes para a diferença de valores médios
 Testes para a variância
 Testes para o quociente de variâncias
 Testes para a proporção
 Testes para a diferença de proporções
 Coeficiente de correlação
 Introdução
 Nesta unidade de aprendizagem, um teste de hipóteses ou teste
estatístico é um processo usado para decidir entre duas hipóteses
complementares que se baseia em
 Formular as hipóteses estatísticas

 “As pilhas da marca A duram o mesmo que as pilhas da marca B” versus
“As pilhas da marca A duram mais que as pilhas da marca B”
 Usar um método estatístico para decidir entre as hipóteses

 Se as observações da amostra estão em desacordo com a teoria
estatística, a solução é rejeitar as hipóteses colocadas pela teoria
 Se não há desacordo, ou a teoria é verdadeira ou a amostra não permitiu

detectar diferenças entre os valores verdadeiros e os valores teorizados
dos parâmetros da população

 Etapas para efectuar um teste de hipóteses

1. Faz-se uma suposição sobre o valor do parâmetro da população
 Essa suposição chama-se hipótese nula e denota-se por H0
2. Define-se outra hipótese

 Designa-se por hipótese alternativa e denota-se por H1
 É a suposição oposta à definida pela hipótese nula
3. Selecciona-se uma estatística amostral para efectuar o teste
4. Calculam-se os valores críticos do teste

 Definem a região de rejeição da hipótese nula
5. Toma-se a decisão estatística

 Se o valor amostral da estatística do teste cair na região de rejeição, rejeita-
se a hipótese nula

 Definição
 H0: Hipótese nula é a hipótese considerada verdadeira ao longo da
realização do teste até ao momento em que haja evidência estatística
clara apontando em sentido contrário
 Contém sempre uma igualdade
 É a hipótese que se aceita por defeito, sem prova
 H1: Hipótese alternativa é a hipótese colocada pelo investigador

 Contém sempre uma desigualdade (>, < ou )
 É a hipótese que se pretende verificar, i.e. que julgamos verosímil

 Testes paramétricos que vamos considerar

1. Teste bilateral
 H0:  = 0
 H1:   0
2. Teste unilateral à direita

 H0:   0
 H1:  > 0
3. Teste unilateral à esquerda

 H0:   0
 H1:  < 0

 Exemplo 1: especificar a hipótese nula e a hipótese alternativa

 Considere-se um modelo de automóvel que actualmente faz, em média,
40 km com 1 litro de combustível
 Uma equipa de investigação desenvolveu um novo sistema de injecção

de gasolina especialmente concebido para aumentar a taxa km/litro.
Para avaliar o novo sistema, serão construídos novos veículos e
efectuados testes em estrada, devidamente controlados.
 Neste caso, a hipótese colocada pelos investigadores é que o novo

sistema irá permitir que o veículo ande, em média, mais de 40 km com 1
litro de combustível
 Ou seja, será que  > 40 ?

H0:   40
H1:  > 40

 Exemplo 1: decisão
 Se os resultados amostrais indicarem que H0 não pode ser rejeitada, os
investigadores não podem concluir que o novo sistema de injecção de
gasolina é melhor
 Neste caso, talvez seja necessário investigar mais e, posteriormente,

efectuar novos testes
 No entanto, se os resultados amostrais indicarem que H0 pode ser

rejeitada, os investigadores podem inferir que H1:   40 é verdade
 Com esta conclusão, os investigadores têm o suporte estatístico

necessário para afirmar que o novo sistema aumenta, em média, a
taxa km/litro. Os novos carros são então fabricados com o sistema
desenvolvido.


 Suponhamos que um inspector de controlo de qualidade recebe um
carregamento de peças para uma estrutura e, com base numa amostra,
tem que decidir se fica com o carregamento ou se o devolve ao
fornecedor, por as especificações não terem sido satisfeitas
 Suponhamos que a especificação que as peças têm que satisfazer é

que o comprimento médio de cada peça seja de 2 cm
 Se o comprimento médio for maior ou menor que os 2 cm standard,

pode originar problemas na montagem da estrutura
 Ou seja, será que   2 ?

H0:  = 2
H1:   2

 Se os resultados amostrais indicarem que H0 não pode ser rejeitada,
não há razões para duvidar que o carregamento satisfaz a especificação

rejeitada, pode-se inferir que H1:   2 é verdade
 Há evidência estatística de que as peças não satisfazem a

especificação. Logo, o carregamento é devolvido ao fornecedor.
 Conclusão: geralmente, toma-se uma atitude se H0 for rejeitada


 Um fabricante de bebidas não alcoólicas reivindica que as garrafas de 2
litros dos seus produtos têm em média pelo menos 1919.84 cm3
 Para verificar a veracidade da reivindicação do fabricante, será

seleccionada uma amostra de garrafas de 2 litros e o seu conteúdo será
medido
 Geralmente, nestes casos, presume-se que a reivindicação/afirmação é

verdadeira e, portanto, esta define a hipótese nula
 Ou seja, reivindicação:   1919.84

H0:   1919.84
H1:  <1919.84

 Se os resultados amostrais indicarem que H0 não pode ser rejeitada,
não se pode contestar a reivindicação do fabricante

rejeitada, conclui-se que há evidência estatística de que a reivindicação
é incorrecta
 Podemos tomar medidas!
 Conclusão: geralmente, toma-se uma atitude se H0 for rejeitada

 Decisão
 Idealmente, o procedimento de teste de hipóteses deveria permitir
aceitar H0 quando H0 é verdadeira e rejeitar H0 quando H0 é falsa
 Infelizmente, a conclusão correcta nem sempre é possível
 Como as conclusões se baseiam na informação fornecida por uma

amostra, há sempre a possibilidade de ocorrerem erros

 Erros Tipo I e Tipo II

 Erro Tipo I  rejeitar H0 quando H0 é verdadeira
 Erro Tipo II  aceitar H0 quando H0 é falsa
Condição da População
H0 Verdadeira H0 Falsa
Rejeitar
Erro Tipo I Decisão correcta
H0
Decisão
Não
Decisão correcta Erro Tipo II
rejeitar H0

 Exemplo: decisão
Imagine um tribunal e considere as diferenças entre
 H0: Inocente versus H1: Culpado

 Significa que se procura testar a culpabilidade do indivíduo
 Se não houver uma forte evidência, ele será sempre considerado inocente.
Só será preso se houver fortes evidências de crime.
 H0: Culpado versus H1: Inocente

 Significa que se procura testar a inocência do indivíduo
 Se não houver uma forte evidência, ele será sempre considerado culpado.
Em caso de dúvida, é preso.

 Exemplo: erros Tipo I e Tipo II

Imagine um tribunal e considere as diferenças entre
 H0: Inocente versus H1: Culpado

 Erro Tipo I: a pessoa é condenada, mas está inocente
 Erro Tipo II: a pessoa é absolvida, mas é culpada
 Atribui-se mais importância ao erro Tipo I porque a possibilidade de

rejeitar H0 incorrectamente é considerada grave
 Esta é a hipótese a ser defendida, a menos que existam evidências
convincentes a apontarem em sentido contrário

 Observação
 Como geralmente não se controla a probabilidade de ocorrer um erro

Tipo II, recomenda-se a utilização dos termos “não se rejeita a
hipótese nula” em vez de “aceita-se a hipótese nula”
 Se afirmarmos directamente “aceita-se a hipótese nula”, podemos estar

a cometer um erro Tipo II
 Mas, se afirmarmos “não se rejeita a hipótese nula”, está implícita uma

recomendação de refrear o julgamento e a acção

 Erros Tipo I e Tipo II

 A única forma de minimizar estes dois tipos de erro em simultâneo é
aumentando a dimensão da amostra
 Abordagem de Neyman-Pearson para controlar os erros
 Fixar a probabilidade  associada ao erro Tipo I

P(rejeitar H0 | H0 verdadeira) = 
 Minimizar a probabilidade  associada ao erro Tipo II

P(não rejeitar H0 | H0 falsa) = 

 Nível de significância e potência do teste

   designa-se nível de significância do teste e corresponde à
probabilidade de se cometer o erro Tipo I
 1 –   designa-se potência do teste e corresponde à probabilidade

de não se cometer o erro Tipo II
Condição da População
H0 Verdadeira H0 Falsa
Erro Tipo I Decisão correcta

Rejeitar H0
 1–
Decisão
Decisão correcta Erro Tipo II
Não rejeitar H0
1– 

 Nível de significância e potência do teste

 Se se efectuar um elevado número de repetidas amostragens e
decisões
 Se H0 for verdadeira, H0 é rejeitada em 100% dos casos
 Se H0 for falsa, H0 é rejeitada em (1–) 100% dos casos
 Abordagem de Neyman-Pearson para controlar os erros
 Fixar a probabilidade  associada ao erro Tipo I
 Minimizar a probabilidade  associada ao erro Tipo II
 Equivale a maximizar a potência do teste 1–

 Estatística de teste
 Para se tomar uma decisão sobre as hipóteses estatísticas H0 e H1 é
necessário quantificar a informação contida na amostra
 Uma estatística de teste é uma função das observações amostrais cujo

valor vai determinar a conclusão a retirar do teste estatístico
 No caso de se testar um parâmetro, a estatística de teste é,

habitualmente, um estimador desse parâmetro

 Exemplo
 Pretende-se testar se um novo processo de fabrico de parafusos é

melhor do que o processo tradicional. Sabe-se que, no processo
tradicional, 50% dos parafusos são defeituosos. Existe uma amostra de
10 parafusos fabricados pelo novo processo. Seja X o número de
parafusos defeituosos encontrados na amostra.
a) Defina a hipótese nula e a hipótese alternativa do teste
b) Defina a estatística do teste
c) Caracterize a sua distribuição de probabilidade, supondo que H0 é

verdadeira

 Exemplo
a) Esperamos que o novo processo seja melhor que o tradicional
 H0: p = 0.5
 H1: p < 0.5
b) A estatística do teste é
 X = número de parafusos defeituosos encontrados na amostra
 Também poderia ser a proporção de parafusos defeituosos encontrados
na amostra: P̂  X n
c) Supondo que H0 é verdadeira, X~Binomial(n=10, p=0.5)

 Valores críticos do teste
 Os valores críticos determinam o conjunto de valores da estatística de

teste que conduz à rejeição da hipótese nula
 Este conjunto de valores denomina-se região crítica ou região de

rejeição da hipótese nula
 Região de rejeição da hipótese nula
 A região de rejeição da hipótese nula é a região que, se a hipótese nula

for verdadeira, contém a estatística de teste com probabilidade 
 Rejeita-se H0 se o valor observado da estatística de teste cair na

região de rejeição (i.e. na região crítica)

 Regra de decisão estatística

1. Teste bilateral
 H0:  = 0
 H1:   0

 H0:   0
 H1:  > 0

 H0:   0
 H1:  < 0

 p-value
 O p-value é o menor nível de significância que nos conduz à rejeição de
H0 com a amostra observada
 Para qualquer teste de nível de significância 

 Se p-value   então H0 é rejeitada

 p-value
1. Teste bilateral

 p-value

CASO I
Amostra de Amostra
T
dimensão n L grande
C
População População
Normal qualquer
Valor médio 
 conhecido

 Testes de hipóteses para o valor médio – Caso I
Se H0:  = 0 verdadeira, X ~ N  ,  

a

0
 n
 Estatística de teste
X  0 a
~ N(0,1)

n


1. Teste bilateral
 H0:  = 0
 H1:   0
 Rejeita-se H0 se
x  0 x  0
 z1  / 2 ou  z1  / 2
 
n n


2. Teste unilateral à direita 3. Teste unilateral à esquerda
 H0:   0  H0:   0
 H1:  > 0  H1:  < 0
 Rejeita-se H0 se  Rejeita-se H0 se
x  0 x  0
 z1   z1 
 
n n

 Regiões críticas
 
 X  0     
P  z1  2   z1  2   1  P   0  z1  2  X   0  z1  2   1 
    n n
 n 
c1 c2
 
 X  0    
P   z1    1   P X   0  z1    1 
  
 n   n
c
 
 X  0 
   z1    1     
   X   0  z1    1 
 n   n
c
Para populações não Normais, deve-se

substituir "=" por ""
 Exemplo: testes de hipóteses para o valor médio – Caso I
 Uma empresa de marketing costuma fazer sondagens para determinar o

grau de satisfação de compradores de automóveis. O inquérito usado
nessas sondagens costuma demorar em média 12 minutos, com um
desvio-padrão de 3 minutos. Para o tornar mais rápido, resolveu-se
reestruturá-lo e testar se o novo inquérito demorava menos tempo.
 Assim, escolheram-se aleatoriamente 36 compradores de automóveis e

obteve-se um tempo de resposta médio de 11,3 minutos. Será que se
pode concluir, com um nível de significância de 5%, que o novo
inquérito é mais eficiente?
 Nota: a empresa de marketing acredita que o desvio-padrão do tempo

de resposta ao novo inquérito continua a ser de 3 minutos

 Exemplo: testes de hipóteses para o valor médio – Caso I

 H0:   12
 H1:  < 12
   3, n  36, x  11.3, z 0.95  1.645
 O valor observado da estatística de teste não pertence à região de

rejeição de H0
X   0 11.3  12
  1.4  1.645
 3
n 36
 Decisão: Não rejeitar H0 ao nível de signif. de 5%. Não há evidência de

que o novo inquérito seja mais eficiente
 p-value = P(Z < 1.4) = 0.08

CASO II
Amostra de
dimensão n
População
Normal
Valor médio 
 desconhecido

 Testes de hipóteses para o valor médio – Caso II

1. Teste bilateral  Estatística de teste
 H0:  = 0 X  0
~ t (n1)
 H1:   0 s
n
 Rejeita-se H0 se
x  0 x  0
  t ( n 1);1  / 2 ou  t (n 1);1  / 2
s s
n n

 Testes de hipóteses para o valor médio – Caso II

2. Teste unilateral à direita 3. Teste unilateral à esquerda
 H0:   0  H0:   0
 H1:  > 0  H1:  < 0
 Rejeita-se H0 se  Rejeita-se H0 se
x  0 x  0
 t (n 1);1    t ( n 1);1 
s s
n n

CASO III
Amostra grande
População
qualquer
Valor médio 
 desconhecido

 Testes de hipóteses para o valor médio – Caso III

 H0:  = 0
 H1:   0 X  0 a
~ N(0,1)
S
2. Teste unilateral à direita n
 H0:   0
 H1:  > 0

 H0:   0
 H1:  < 0

 Testes de hipóteses para a diferença de valores médios
CASO I
Amostras de Amostra
T
dimensões n1 e n2 L grande
C
Populações População
Normal qualquer
Valores médios
1 e 2

 Testes para a diferença de valores médios – Caso I

 H0: 1 – 2 = D0
H1: 1 – 2  D0
X1  X 2  D0 a
 ~ N(0,1)
12  2 2

2. Teste unilateral à direita n1 n2
 H0: 1 – 2  D0
 H1: 1 – 2 > D0

 H0: 1 – 2  D0
 H1: 1 – 2 < D0

CASO II
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1 = 2
desconhecido

 Testes para a diferença de valores médios – Caso II

 H0: 1 – 2 = D0
 H1: 1 – 2  D0 X1  X 2  D0
~ t ( n1  n 2  2 )
1 1
S' 
2. Teste unilateral à direita n1 n 2
 H0: 1 – 2  D0
(n  1)S1  (n2  1)S2
2 2
 H1: 1 – 2 > D0 S'  1
2
n1  n2  2

 H0: 1 – 2  D0
 H1: 1 – 2 < D0

CASO III
Amostras
grandes
Populações
quaisquer
Valores médios
1 e 2
1 = 2
desconhecido

 Testes para a diferença de valores médios – Caso III

 H0: 1 – 2 = D0
 H1: 1 – 2  D0 X1  X 2  D 0 a
~ N(0,1)
1 1
S' 
 H0: 1 – 2  D0
 H1: 1 – 2 > D0
(n  1)S1  (n2  1)S2
2 2
S'  1
2
n1  n2  2
 H0: 1 – 2  D0
 H1: 1 – 2 < D0

CASO IV
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1  2
desconhecidos

 Testes para a diferença de valores médios – Caso IV

 H0: 1 – 2 = D0
H1: 1 – 2  D0
X1  X 2  D0 a
 ~ t ( r*)
S12 S2 2

 H0: 1 – 2  D0
 H1: 1 – 2 > D0 2
 S12 S 2 2 
  
 n n2 
r*   1
3. Teste unilateral à esquerda 2 2
1  S1  1  S 2 
2 2
H0: 1 – 2  D0 


n1  1  n1  n2  1  n2 
 H1: 1 – 2 < D0

CASO V
Amostras
grandes
Populações
quaisquer
Valores médios
1 e 2
1  2
desconhecidos

 Testes para a diferença de valores médios – Caso V

 H0: 1 – 2 = D0
H1: 1 – 2  D0
X1  X 2  D0 a
 ~ N(0,1)
S12 S2 2

 H0: 1 – 2  D0
 H1: 1 – 2 > D0

 H0: 1 – 2  D0
 H1: 1 – 2 < D0

 Exemplo: testes para a diferença de valores médios

 Numa experiência para comparar dois novos analgésicos, 65 doentes
voluntários foram divididos em dois grupos de n1=35 e n2=30 pessoas a
quem foi administrada uma dose equivalente de analgésicos 1 e 2,
respectivamente
 No primeiro grupo, a ausência de dor durou em média 6.3 horas com

um desvio-padrão de 1.2 horas; enquanto que no segundo grupo, a
ausência de dor durou em média 5.2 horas com um desvio-padrão de
1.4 horas
 Será que se pode concluir, com um nível de significância de 5%, que o

analgésico 1 tem um efeito mais duradouro do que o 2?
 Nota: os médicos acreditam que o desvio-padrão do tempo de ausência

de dor é igual para ambos os analgésicos


 H0: 1  2  H0: 1 – 2  0
 H1: 1 > 2  H1: 1 – 2 > 0
 n1  35, n 2  30, x1  6.3, x 2  5.2, s1  1.2, s2  1.4
 Estatística do teste
X1  X 2  D 0 a (n  1)S1  (n2  1)S2

2 2
~ N(0,1) S'  1
2
1 1 n1  n2  2
S' 
n1 n 2
 z0.95 = 1.645


 Embora iguais, os desvios-padrão 1=2= são desconhecidos, pelo
que começamos por estimá-los
(35  1)(1.2) 2  (30  1)(1.4) 2

s' 
2
 1.68  1.2959 2
35  30  2
 O valor observado da estatística de teste cai na região de rejeição de H0
6.3  5.2  0
 3.41  1.645
1 1
1.2959 
35 30
 Há evidência de que o analgésico 1 tem um efeito mais

duradouro do que o 2, para um nível de signif. de 5%

 Testar diferença de valores médios – amostras emparelhadas (I)
 Seja D=X1X2 uma população com distribuição Normal de valor médio D=12
e desvio-padrão D, da qual se retira uma amostra aleatória emparelhada de
valores Di=X1iX2i, i=1,2,…,n, com média D e variância SD2.
1. Teste bilateral  Estatística de teste para D conhecido

 H0: 1 – 2 = D0
D  D0
 H1: 1 – 2  D0 ~ N (0,1)
D n
 H0: 1 – 2  D0
 H1: 1 – 2 > D0  Estatística de teste para D desconhecido
D  D0
3. Teste unilateral à esquerda ~ t ( n 1)
 H0: 1 – 2  D0 SD n
 H1: 1 – 2 < D0

 Testar diferença de valores médios – amostras emparelhadas (II)
 Seja D=X1X2 uma população com distribuição desconhecida de valor médio

D=12 e desvio-padrão D, da qual se retira uma grande amostra aleatória
emparelhada de valores Di=X1iX2i, i=1,2,…,n, com média D e variância SD2.
1. Teste bilateral  Estatística de teste para D conhecido

 H0: 1 – 2 = D0
 H1: 1 – 2  D0 D  D0 a
~ N(0,1)
D n
 H0: 1 – 2  D0
 H1: 1 – 2 > D0  Estatística de teste para D desconhecido
3. Teste unilateral à esquerda D  D0 a

~ N(0,1)
 H0: 1 – 2  D0 SD n
 H1: 1 – 2 < D0

 Testes de hipóteses para a variância

 Seja S2 a variância de uma amostra aleatória iid de dimensão n extraída
de uma população Normal

 H0: 2 = 02 2
(n  1)S 2
 H1: 2  02 ~  ( n 1)
0 2
 H0: 2  02
 H1: 2 > 02

 H0: 2  02
 H1: 2 < 02

 Exemplo: testes de hipóteses para a variância
 Numa acção de marketing para atrair investidores, a administração de

uma SAD reclama que o investimento nas suas acções é seguro e que
o desvio-padrão do valor das acções é inferior a 2€.
 Suponha que é um investidor potencial da SAD e que, antes de aplicar o

seu capital, escolheu aleatoriamente 30 dias dos últimos três anos e
registou o valor das acções da SAD, obtendo s = 1,70€
 Será que este valor sugere, com um nível de significância de 5%, que a
administração da SAD tem razão?

 Exemplo: testes de hipóteses para a variância

 H0:   2  H0: 2  4
 H1:  < 2  H1: 2 < 4
2 2 2
 n  30, s  (1.70)  2.89, ( 29)0.05  17.708
 O valor observado da estatística de teste não pertence à região de

rejeição de H0
2
(n  1)s 29  2.89
  20.953  17.708
0 2 4
 Decisão: Não se rejeita H0 ao nível de significância de 5%. Não há

evidência de que a administração da SAD tenha razão

 Testes de hipóteses para o quociente de variâncias

 Sejam S12 e S22 as variâncias de duas amostras aleatórias iid,
mutuamente independentes, de dimensões n1 e n2 de duas populações
Normais
 H0: 12 = 22
H1: 12  22
S12
 ~ F( n1 1, n 2 1)
2
S2
 H0: 12  22
 H1: 12 > 22

 H0: 12  22
 H1: 12 < 22

 Testes de hipóteses para a proporção

 Os testes são baseados no pressuposto de que a experiência estatística
é um processo de Bernoulli e, portanto, tem as seguintes características
1. Consiste em n tentativas repetidas
2. Cada tentativa i tem dois resultados possíveis: sucesso (Xi=1) ou insucesso

(Xi=0)
3. A probabilidade de sucesso p é a mesma em qualquer tentativa
4. As tentativas repetidas são independentes (logo, a probabilidade de sucesso

não é afectada pelo possível conhecimento dos resultados anteriores)
 Sendo P̂ a proporção amostral de sucessos, o número de sucessos

na amostra é n
 Xi  nP̂ ~ Binomial (n, p)
i 1

 Testes de hipóteses para a proporção

 H0: p = p0
P̂  p 0 a
 H1: p  p0 ~ N(0,1)
p 0 (1  p 0 )
n
 H0: p  p0
 H1: p > p0

 H0: p  p0
 H1: p < p0

 Testes de hipóteses para a diferença de proporções (I)

 Considerem-se duas populações com distrib. de Bernoulli, X1~B(p1) e X2~B(p2),
das quais se retiram duas amostras aleatórias independentes de dimensões
elevadas, n1 e n2, e proporções observadas P̂1 e P̂2 , respectivamente

 H0: p1 = p2
P̂1  P̂2 a
 H1: p1  p2 ~ N(0,1)
P̂(1  P̂) P̂(1  P̂)
2. Teste unilateral à direita 
n1 n2
 H0: p1  p2
 H1: p1 > p2
n P̂  n 2 P̂2
P̂  1 1
3. Teste unilateral à esquerda n1  n 2
 H0: p1  p2
Sob H0, p1=p2=p. Logo, uma estimativa de p
 H1: p1 < p2 será a média aritmética ponderada de p1 e p2.

 Testes de hipóteses para a diferença de proporções (II)

 Considerem-se duas populações com distrib. de Bernoulli, X1~B(p1) e X2~B(p2),
das quais se retiram duas amostras aleatórias independentes de dimensões
elevadas, n1 e n2, e proporções observadas P̂1 e P̂2 , respectivamente

H0: p1 – p2 = D0
P̂1  P̂2  D0

a
 H1: p1 – p2  D0
~ N(0,1)
P̂1 (1  P̂1 ) P̂2 (1  P̂2 )

 H0: p1 – p2  D0 n1 n2
 H1: p1 – p2 > D0

 H0: p1 – p2  D0
 H1: p1 – p2 < D0

 Exemplo: testes de hipóteses para a diferença de proporções

 Suspeita-se que a diferença entre a proporção de trabalhadores (p1) e
de industriais (p2) que são favoráveis à reforma fiscal é grande (superior
a 50%). Realizaram-se duas sondagens
 A primeira envolveu 50 trabalhadores, escolhidos aleatoriamente, na

qual 84% dos inquiridos se manifestou favorável à reforma fiscal
 A segunda foi efectuada a 30 industriais, escolhidos aleatoriamente,

e 90% deles manifestou-se contra
 Pretende-se determinar se existe evidência estatística que suporte a

suposição existente, com um nível de significância de 5%

 Exemplo: testes de hipóteses para a diferença de proporções

 H0: p1 – p2  0.5
 H1: p1 – p2 > 0.5
 n1  50, n 2  30, p̂1  0.84, p̂ 2  0.10, z 0.95  1.645
P̂1  P̂2  0.5 

(0.84  0.10)  0.5
 3.182  1.645
P̂1 (1  P̂1 ) P̂2 (1  P̂2 ) 0.84  0.16 0.10  0.9
 
n1 n2 50 30
 Há evidência de que a diferença entre a proporção de

trabalhadores e de industriais favoráveis à reforma fiscal
é superior a 50%

 Coeficiente de correlação
 Considere-se uma população relativa a um par aleatório (X, Y) com

distribuição Normal bivariada, i.e. (X, Y)~N(X, Y, X, Y, ). Seja
(X1,Y1), (X2,Y2), …, (Xn,Yn) uma amostra aleatória desta população.
  descreve o grau de associação linear entre as v.a. X e Y

Cov( X, Y )
1    1
XY
 O coeficiente de correlação amostral R é o estimador de máxima

verosimilhança de  e é dado por
 (Xi  X)(Yi  Y) n  X i Yi   X i  Yi 

R 
 (X  X )  (Y  Y )   n X 2   X 2  n Y 2   Y 2 
 i   i   i  i   i  i 
2 2


 Coeficiente de correlação (I)
 Admitindo que a hipótese nula é verdadeira (=0), a distribuição de amostragem

de R é simétrica em relação à recta R=0 no intervalo [–1, 1]
1. Teste bilateral  Estatística de teste e distribuição

 H0:  = 0 de amostragem de R
 H1:   0
R n2
2. Teste unilateral à direita ~ t ( n  2)
2
 H0:   0 1 R
 H1:  > 0

 H0:   0
 H1:  < 0

 Coeficiente de correlação (II)

 Admitindo que a hipótese nula é verdadeira (0), a distribuição de amostragem
de R é bastante complexa. O resultado seguinte é válido mesmo quando n tem
um valor reduzido como dez
1. Teste bilateral  Estatística de teste e distribuição

 H0:  = 0  0 de amostragem de R
 H1:   0
1  1  R  1  1  0 
ln    ln  
2. Teste unilateral à direita 2  1  R  2  1  0  a
~ N(0,1)
 H0:   0  0 1
 H1:  > 0 n 3
 H0:   0  0
 H1:  < 0

 Exemplo 1: coeficiente de correlação

 Foi recolhida uma amostra de 10 alunos de Aluno x y
uma faculdade, tendo-se obtido as 1 39 65
classificações de aferição de conhecimentos 2 43 78
de matemática aquando da entrada no 3 21 52
primeiro ano, e as classificações finais da 4 64 82
disciplina de Cálculo obtidas no final do 5 57 92

6 47 89
primeiro semestre
7 28 73
8 75 98
 Existe evidência suficiente de que as
9 34 56
classificações de aferição de conhecimentos
10 52 75
de matemática (X) e as classificações finais
da disciplina de Cálculo (Y) são
independentes?


 H0: X e Y independentes. Ou seja, assumindo que (X, Y)~Normal
 H0:  = 0
 H1:   0
 n=10, r=0.8398, t(10–2)0.975=2.306

0.8398 8
 4.375  2.306
2
1  0.8398
 Há evidência de que X e Y não são independentes

 p-value = 2  P(t(8) > 4.375) = 0.0012


 Existe evidência suficiente de que as classificações de aferição de
conhecimentos de matemática (X) e as classificações finais da disciplina
de Cálculo (Y) têm um coeficiente de correlação superior a 0.5?
 H0:   0.5
 H1:  > 0.5
 n=10, r=0.8398, z0.95=1.645
1 ln  1  0.8398   1 ln  1  0.5 
2  1  0.8398  2  1  0.5 
 1.7758  1.645
1
10  3
 Existe evidência suficiente na amostra de que  > 0.5

Análise de Variância (ANOVA)
 Modelo a um fator com efeitos fixos

 Testes de comparação múltipla
 Testes à igualdade de k variâncias
 ANOVA – Análise de variância
 Ronald Fisher introduziu uma técnica que permite analisar dados

(variável resposta) que são afetados por vários fatores externos
(variáveis independentes), que podem, ou não, operar em simultâneo
 Baseia-se na comparação da variabilidade entre as médias amostrais,

daí a designação análise de variância (ANOVA)
 O modelo ANOVA a aplicar depende do planeamento da experiência e

do número de fatores

 Exemplo
 Suponha que o diretor de marketing de uma empresa pretende relançar um
produto no mercado. Estudou então três campanhas de marketing diferentes,
cada uma delas combinando de modo diferente fatores como o preço do produto,
a apresentação do produto, promoções associadas, etc. Qualquer uma destas
campanhas é levada a cabo no ponto de venda, não havendo qualquer
publicidade nos meios de comunicação.
 O objetivo é saber se há diferença entre as três campanhas de marketing

relativamente à sua eficácia
 Para cada tipo de campanha, o valor total das vendas é registado, durante um
período de duração limitada, num conjunto de lojas selecionadas aleatoriamente.
Obtêm-se assim três amostras independentes umas das outras.
 Neste caso, as observações provêm de (três) grupos classificados por um único

fator (campanha de marketing)
 Deve-se então usar a ANOVA com um fator (One-way ANOVA)

 Exemplo
 Suponha agora que, para além do tipo de campanha, se acredita que a
localização das lojas também pode influenciar a performance das vendas e
interagir com a eficiência das campanhas. As lojas podem dividir-se em duas
localizações: dentro e fora do centro da cidade.
 As vendas são registadas num conjunto de lojas selecionadas aleatoriamente

para cada campanha de marketing, em cada uma das localizações. Obtêm-se
então seis amostras independentes umas das outras.
 Neste caso, as observações provêm de (seis) grupos classificados por dois

fatores (localização e campanha de marketing)
 Deve-se então usar a ANOVA com dois fatores (Two-way ANOVA) para
investigar se existem diferenças na performance das vendas causadas por cada
um dos fatores ou a sua interação

 Definições
 Unidades experimentais: objetos/indivíduos sobre os quais são
efetuadas observações
 Fator: variável independente (característica) completamente controlada

numa experiência, com k níveis
 As diferentes categorias, ou graus de intensidade, do fator são os níveis
 Se os níveis do fator correspondem a diferentes intensidades medidas numa
escala, o fator diz-se quantitativo
 Se os níveis de um fator diferem apenas em algumas características, o fator
diz-se qualitativo
 Grupo ou Tratamento: combinação específica de níveis de fatores

 No caso de 1 único fator, cada grupo/tratamento corresponde a um nível do
fator

 Exemplo anterior
 Suponha que se pretende investigar se as diferenças na performance
das vendas são causadas pela localização das lojas e/ou o tipo de
campanha de marketing
 As unidades experimentais são as lojas onde as vendas são registadas
 Há dois fatores: a localização e a campanha de marketing
 O fator ‘localização’ tem 2 níveis
 O fator ‘campanha de marketing’ tem 3 níveis
 A experiência tem 6 grupos/tratamentos
 Uma amostra aleatória de unidades experimentais é obtida de forma

independente de cada grupo/tratamento

 Modelo a um fator com efeitos fixos

 Iremos estudar apenas a ANOVA com um fator e efeitos fixos
 Modelo de efeitos fixos: caso em que os níveis do fator são fixos, ou

seja os grupos/tratamentos são determinados à partida
 Considera-se que o fator tem k níveis
 Cada grupo/tratamento corresponde a um nível do fator
 A ANOVA permite comparar a igualdade de k valores médios populacionais,

com base nas amostras obtidas para cada um dos k grupos

 Delineamento completamente aleatorizado

 Num delineamento completamente aleatorizado para comparar k
grupos/tratamentos, um conjunto de n unidades experimentais
relativamente homogéneas são aleatoriamente divididas em k grupos de
dimensões n1, n2, …, nk, em que n1 + n2 + … + nk = n
 Todas as unidades experimentais em cada grupo recebem o mesmo

tratamento, de modo que cada tratamento é aplicado a exatamente um
grupo
 A cada um dos k grupos/tratamentos está associada uma população

que consiste em todas as observações que se obteriam se o tratamento
fosse repetidamente aplicado a todas as unidades experimentais
possíveis

 Observações
 Num delineamento completamente aleatorizado, obtêm-se amostras
aleatórias independentes das populações correspondentes aos
grupos/tratamentos
 Os grupos/tratamentos podem ser decorrentes de diferentes populações

que existam, das quais são retiradas amostras aleatórias independentes
 As populações não são necessariamente resultantes da aplicação de
diferentes tratamentos a um conjunto de indivíduos/objetos
 Exemplo: para se comparar o valor médio da quantidade de uma substância

ativa em cinco marcas comerciais (A, B, C, D, E) de um medicamento, pode-
se selecionar aleatoriamente 100 comprimidos da produção de cada
fabricante, e analisar os resultados obtidos considerando as marcas
comerciais (A, B, C, D, E) como sendo os grupos/tratamentos

 Análise de variância simples (ANOVA com um fator)

 Considerem-se k populações X1~N(1,12), X2~N(2,22), …, Xk~N(k,k2)
para as quais se verifica homocedasticidade de variâncias (ou seja,
12= 22=…=k2=2)
 Considere-se um delineamento experimental completamente aleatorizado,

em que são obtidas k amostras aleatórias independentes das populações
em estudo, com dimensões n1, n2, …, nk, em que n1+n2+…+nk=n
 Objetivo: testar a igualdade de três ou mais valores médios populacionais,

i.e. testar se para um determinado fator a média é igual para todos os seus
níveis
H0: 1= 2 =…= k
H1: i,j (ij): i  j

 Ideia subjacente à ANOVA
 Para testar H0 recorre-se a uma análise das variâncias das várias

populações (grupos) e daí o nome ANOVA
 O procedimento para testar H0 baseia-se na consideração de dois

estimadores independentes da variância 2
 o 1º será um estimador válido quer H0 seja verdadeira quer não
 o 2º é um estimador válido quando H0 é verdadeira
 A estatística proposta para o teste corresponde ao quociente entre o 2º

e o 1º estimadores
 Se H0 é verdadeira, os dois estimadores tendem a produzir estimativas
próximas, portanto a estatística do teste será aproximadamente igual a 1
 Se H0 é falsa, o 2º estimador tende a sobrestimar 2, ou seja, a estatística do
teste tende a tomar valores superiores a 1

 Ideia subjacente à ANOVA
 O 1º estimador consiste em calcular a variância amostral corrigida para

cada população (Si2: i=1,…k) e tomar a média das estimativas que se
obtêm
 Se H0 for verdadeira, os valores médios são todos iguais pelo que se

está perante um conjunto de k amostras retiradas da mesma população
 A variância da média amostral global é igual a 2/n
 Pode-se obter uma “amostra” das k médias amostrais e calcular a variância

destes valores (variabilidade entre os grupos)
 Obtém-se assim uma estimativa de 2/n (multiplicando por n obtém-se uma

estimativa de 2)

 Modelo matemático
 As variáveis aleatórias Xij são  Para verificar se há diferenças
independentes e verificam (para significativas entre os grupos /
cada unidade experimental j=1,…,ni de tratamentos, é formulada a
cada grupo i=1,…,k) seguinte hipótese nula:
H0: 1= 2 =…= k
Xij = µi + ij  Xij = µ + i + ij
 Ou seja, não há diferenças entre os
valores médios das k populações
 µi = µ + i  valor médio
populacional do nível i do fator  Ou, os efeitos da aplicação de k
tratamentos não são
µ  valor médio da população estatisticamente significativos
i  efeito do fator
 A hipótese alternativa é então: os
efeitos dos tratamentos são
 ij ~N(0, 2)  resíduo aleatório
significativos

 Notação
k Número de níveis do factor (nº de populações)
Número de observações do nível (população) i

ni
(i=1,…,k)
Variável resposta do nível (população) i para a
Xij
unidade experimental (indivíduo) j
k
n n
i 1
i Número total de observações
ni
Xi  
j1
Xij
Total amostral correspondente ao nível
(população) i
ni

1 Xi Média amostral correspondente ao nível
Xi  Xij 
ni j1 ni (população) i
k ni k k
  n X
1 1 1
X Xij  Xi  i i Média amostral global
n i1 j1 n i1 n i1

 Notação
1  
 X 
ni ni
1 k k
  nX  Variância amostral global

2
S  X 
2 2 2
Xij
n  1 i1 n  1  
ij
j1 i 1 j1 
1  
 X 
ni ni

1
Xij  ni Xi 
2
Si  Variância amostral do nível
ij  X i 
2 2 2
ni  1 j1 ni  1  j1

 (população) i
 X 
k ni Soma dos quadrados dos desvios
2
SQT  ij  X  (n  1)S 2
totais em torno da média global
i1 j1 (variação total das respostas)
Soma dos quadrados dos desvios
 n X  
k k 2
2 Xi entre os níveis do factor (variação
SQTr  i i X   nX2
i1 i1 ni devida aos tratamentos; variação
que se verifica entre os grupos)
Soma dos quadrados dos desvios
 X    (n  1)S
k ni k
2 dentro dos níveis do factor (variação
SQE   Xi
2
ij i i
i1 j1 i1
devida ao erro; variação que se
verifica dentro dos grupos)

 Notação
Variação total = Variação explicada pelos tratamentos +

SQT = SQTr + SQE
Variação devida ao erro
SQT
MQT  Média dos quadrados dos desvios totais
n 1
Média dos quadrados dos desvios entre os níveis do factor

SQTr
MQTr  Se H0 verdadeira, estimador centrado da variância
k 1
populacional com k1 graus de liberdade
Média dos quadrados dos desvios dentro dos níveis do

SQE factor
MQE 
nk Estimador centrado da variância populacional com nk
graus de liberdade
2 Estimador centrado da variância populacional com ni1

Si
graus de liberdade

 Tabela ANOVA
Origem da Graus de Soma de Médias

F
variação liberdade quadrados quadráticas
Tratamentos
k1 SQTr MQTr
(between; entre SQTr MQTr  Fobs 
os grupos) k 1 MQE
Erro
SQE
(within; dentro nk SQE MQE 
dos grupos) nk
Total n1 SQT

 Hipóteses a testar
H0 : 1   2  ...  k
H0 : i, j (i j) : i   j
 Estatística do teste
MQTr
Fobs  ~ F(k 1;nk )
MQE
 Regra de decisão (teste unilateral direito)
Re jeitar H0 se Fobs  F(k 1;nk;1 )
 p-value
p  value  P(F  Fobs )

 Pressupostos de aplicação
 A violação da condição de independência das observações tem
consequências, em geral, sérias sobre a validade da ANOVA
 Populações normais
 Este pressuposto já se verificava no teste t para comparação de duas médias
 A ANOVA apresenta robustez relativamente a pequenos desvios da condição

de normalidade
 A distribuição populacional deve ser aproximadamente simétrica e

mesocúrtica
 A condição de normalidade deve ser testada através de testes de aderência
 Teste de Kolmogorov-Smirnov  não faz parte do programa
 Teste de Shapiro-Wilk  não faz parte do programa

 Pressupostos de aplicação
 Populações com a mesma variância
 Este pressuposto já se verificava no teste t para comparação de duas médias
 A ANOVA apresenta, em geral, reduzida robustez relativamente a pequenos

desvios da condição de homocedasticidade
 Maior robustez é conseguida quando o delineamento é equilibrado
 A hipótese de homocedasticidade deve ser testada

 Teste de Bartlett
 Teste de Levene (não faz parte do programa): é um dos mais robustos face
à violação do pressuposto da normalidade e é um dos mais potentes para
testar a homocedasticidade
 Caso a homocedasticidade não possa ser assumida, deve-se usar a

estatística de Brown-Forsythe ou a estatística de Welch em vez da F

 Exemplo
 Um departamento governamental está preocupado com os aumentos dos custos
verificados no âmbito de projectos de I&D que são encomendados aos institutos
A, B, C e D. Decidiu-se então analisar os custos associados a diferentes
projectos, calculando para cada um deles a razão entre o custo final incorrido e o
custo inicialmente previsto na adjudicação. Para cada projecto, os dois custos
foram expressos numa base constante (cf. tabela). Será que os quatro institutos
têm um comportamento global distinto em relação ao agravamento dos custos?
A B C D
1.0 1.7 1.0 3.8
0.8 2.5 1.3 2.8
1.9 3.0 3.2 1.9
1.1 2.2 1.4 3.0
2.7 3.7 1.3 2.5
1.9 2.0

 Exemplo
 Sejam X1~N(1,2), X2~N(2,2), X3~N(3,2) e X4~N(4,2) as v.a. que
reportam a razão entre o custo final e o custo inicial previsto na adjudicação
para os institutos A, B, C e D, respectivamente
 Hipóteses a testar: H0: 1= 2 =…= k

H1: i,j (ij): i  j
 Informação das amostras: n  22, x  2.1227 , s2  0.79136(36 )
A B C D
Xi x1  7.5 x 2  15 x 3  10 .2 x 4  14
Xi x1  1.5 x 2  2.5 x 3  1 .7 x 4   2 .8
ni n1  5 n2  6 n3  6 n4  5
2 2 2 2 2
si s1  0.625 s 2  0.556 s3  0.648 s 4  0.485

 Exemplo
Origem da Médias
g.l Soma de quadrados F
variação quadráticas
Tratamentos k1 = 3 SQTr = SQT  SQE = 6.1586 MQTr = 2.0529 Fobs = 3.5327
SQE =
Erro nk = 18 40.625+50.556+50.648+40.485 MQE = 0.5811
= 10.46
Total n1 = 21 SQT = (21)(0.79136) = 16.6186
 Rejeita-se H0 ao nível de significância de 5% porque Fobs > F(3, 18; 0.95) = 3.1599
 p-value = P(F  3.5327) = 0.0359
 Há evidência de que os quatro institutos não têm um comportamento global

igual, em valor médio, em relação ao agravamento dos custos

 Notação: S2 = MQE (estimador centrado da variância populacional 2)
 Intervalo de confiança para o valor médio (i) do tratamento i
S
Xi  t (nk );1 2
n
 Intervalo de confiança para a diferença de valores médios ij
1 1
( Xi  X j )  t (nk );1 2S 
ni n j
 t(n–k);1–/2 é o percentil de ordem 1–/2 da distribuição t(n–k)

 Testes de comparações múltiplas

 A rejeição de H0 do teste F da ANOVA apenas permite concluir a não igualdade
entre os valores médios dos k grupos
 Os testes de comparação múltipla (a posteriori) têm os mesmos pressupostos

que a ANOVA e permitem comparar cada par de valores médios: H0: i = j (ij)
 Teste LSD de Fisher (Least Significant Difference)
Xi  X j 2
 Estatística do teste: ~ t ( n k ) S  MQE
1 1
S 
ni n j
 A realização destes testes t em simultâneo não permite controlar o nível de

significância global: P[decisão conjunta correcta] = (1)k < 1
 Apenas adequado para se obter comparações prévias antes da ANOVA

 Teste HSD de Tukey (Honestly Significant Difference)

 Apenas aplicável em delineamentos equilibrados: n1 = n2 = … = nk = b
Xi  X j 2
W ~ q(k;nk ) S  MQE
2
S
b
 q(k; nk)  distribuição Studentized Range com (k; nk) graus de liberdade
 Regra de decisão
 Rejeitar H0 quando Wobs  q(k; nk);1

 Teste de Tukey-Kramer
 Extensão do teste HSD de Tuckey para delineamentos não equilibrados
Xi  X j 2
W ~ q(k;nk ) S  MQE
S
2 1 1
  
2  ni n j 
 
 q(k; nk)  distribuição Studentized Range com (k; nk) graus de liberdade
 Rejeitar H0 quando Wobs  q(k; nk);1

 Exemplo (teste de Tukey-Kramer)

 H0: i = j vs H1: i  j (ij) Xi  X j
Wobs 
S
2 1 1
 S2=MQE=0.5811; q(k; nk; 1) = q(4; 18; 0.95)  4   
2  ni n j 
 
 Regras de decisão:
 A vs B: 1 .5  2 .5 0.5811 / 21 5  1 6   3.064  4  não rejeitar H0
 A vs C: 1 .5  1 .7 0.5811 / 21 5  1 6   0.613  4  não rejeitar H0
 A vs D: 1 .5  2 .8 0.5811 / 21 5  1 5   3.813  4  não rejeitar H0
 B vs C: 2 . 5  1. 7 0.5811 / 21 6  1 6   2.571  4  não rejeitar H0
 B vs D: 2.5  2.8 0.5811 / 21 6  1 5   0.919  4  não rejeitar H0
 C vs D: 1.7  2.8 0.5811 / 21 6  1 5   3.370  4  não rejeitar H0
 Não há evidência de diferenças entre os comportamentos médios dos institutos

no que se refere ao agravamento dos custos [A vs D: p-value=0.065]

 Testes à igualdade de k variâncias (populações independentes)

 k  2 amostras aleatórias mutuamente independentes: X1, X2, . . . ,Xk, com
dimensões ni (i=1,…,k) tal que n1+n2+…+nk=n, provenientes de populações com
distribuição Normal
 Hipóteses
 H0: 12 = 22 = … = k2 = 2
 H1: i,j (ij) i2  j2
 Teste de Bartlett: não deve ser aplicado se existirem dúvidas sobre a

normalidade
 Teste de Levene (não faz parte do programa): menos sensível a desvios à condição
de normalidade

 Teste de Bartlett
k
(n  k ) ln S   ni  1ln Si
2 2
Q i1 2 2
~  (k 1) S  MQE
1 k  1  1 
1     
3(k  1)  i1  ni  1  n  k 
 Rejeitar H0 quando Qobs  2(k1; 1)

 Exemplo (teste de Bartlett)

2
S  MQE  0.5811
(22  4) ln (0.5811)  4 ln( 0.625 )  5 ln( 0.556 )  5 ln( 0.648 )  4 ln( 0.485 )
Qobs 
1 1 1 1 1 1 
1    
3( 4  1)  4 5 5 4 22  4 
 Decisão
 Qobs = 0.0985 < 2(3; 0.95) = 7.815  Não se rejeita H0 ao nível de 5%
 P-value = P[2(3) > 0.0985] = 0.992
 Não há evidência de que as variâncias dos grupos sejam diferentes

Apontamentos Inferencia 2018

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apontamentos Inferencia 2018

Enviado por

Direitos autorais:

Formatos disponíveis

Estatística Inferencial

Mestre: Sérgio Castigo

Licenciatura em Licenciatura em ensino de Matemática 2017

Distribuições amostrais Int. conf. diferença de valores médios

Introdução Int. conf. para a variância

Estatísticas amostrais Int. conf. para o quociente de variâncias

Distribuição da média amostral Int. conf. para a proporção

Distrib. da diferença de médias Int. conf. para a diferença de proporções

Distrib. da variância amostral

Análise de variância (ANOVA)

Ana Cristina Costa 2

 Afonso, A., Nunes, C. (2011). Estatística e Probabilidades. Aplicações e

 Carvalho, A. (2015). Exercícios de Excel para Estatística. FCA – Editora de

 Murteira, B., Ribeiro, C. S., Silva, J. A., Pimenta, C. (2002). Introdução à

 Pedrosa, A. C., Gama, S. M. A. (2004). Introdução Computacional à

Ana Cristina Costa 3

 Conceitos de inferência estatística

 Em estatística pretende-se determinar um conjunto de propriedades

 Estes fenómenos estão associados a populações que podem ser

 Como obter informação sobre essas populações?

 Caso finito  enumeração completa dos elementos da população

 Caso infinito  amostragem

Ana Cristina Costa 5

 Através dos métodos de inferência estatística é possível obter

 De um modo geral, recolhemos amostras da população e

Ana Cristina Costa 6

 O processo de inferência estatística

Parâmetro – um nº que descreve a população

Amostra Média amostral : X

Estatística – um nº que descreve a amostra

Ana Cristina Costa 7

 Principais parâmetros e estatísticas amostrais

 Valor médio X Média amostral

2 Variância S2 Variância amostral (corrigida)

 Desvio padrão S Desvio padrão amostral (corrigido)

p Proporção p̂ Proporção amostral

Ana Cristina Costa 8

 Determinação de um valor numérico, que se pretende que seja o

 Construção de um intervalo de valores reais que, com certo grau de

Ana Cristina Costa 9

 Amostra: Subconjunto finito da população

 Amostragem aleatória: processo aleatório de selecção dos elementos

 Uma amostra aleatória de dimensão n de uma população X representa-

 Uma amostra particular de dimensão n de uma população X representa-

Ana Cristina Costa 10

 Estatística: função real das variáveis aleatórias que constituem a

 Estimativa: valor particular assumido por um estimador para uma

Ana Cristina Costa 11

 Estimador (pontual) de  [estatística]: ˆ  g(X , X ,..., X )

 Estimativa (pontual) de : ˆ  g ( x1 , x 2 ,..., x n )

 Distribuição de probabilidade conjunta das n v.a. iid:

f X1 ,X 2 ,..., X n ( x1 , x 2 ,..., x n )  f X1 ( x1 )f X 2 ( x 2 )f X n ( x n )

Ana Cristina Costa 12

 Para além da distribuição de frequências, a distribuição da amostra

Ana Cristina Costa 14

Ana Cristina Costa 15

 Suponhamos que se recolhe uma amostra de dimensão n=42 de uma

 Em seguida, recolhe-se uma nova amostra de dimensão n=42 dessa

 Se este processo se repetir para todas as amostras possíveis, à

Ana Cristina Costa 16

 Diferentes amostras da mesma dimensão produzem diferentes

POPULAÇÃO AMOSTRA MÉDIA

Ana Cristina Costa 17

Ana Cristina Costa 18