Você está na página 1de 126

Métodos Quantitativos em Contabilidade

Prof. José Francisco Moreira Pessanha


professorjfmp@hotmail.com

Rio de Janeiro, 4 de setembro de 2012


Introdução

O propósito da inferência estatística consiste em fazer afirmações


sobre alguma característica de uma população baseando-se em
resultados de uma amostra da população.

A inferência estatística fornece procedimentos para extrair


conclusões sobre uma população a partir de dados amostrais
(MOORE,2005)
População

Conjunto formado por todos os elementos que compartilham


uma característica comum:

Exemplos:
 População carioca
 Conjunto dos domicílios cariocas
 Conjunto de funcionários da Prefeitura
 Conjunto de fornecedores da Prefeitura

População finita: se há um determinado número de


elementos (por exemplo, nº de domicílios em uma cidade)

População infinita: o tamanho da população é ilimitado.


Distribuição populacional
Em cada elemento da população podemos observar um conjunto de
atributos, por exemplo:

 o consumo de energia elétrica em uma unidade consumidora


 o valor da fatura de energia elétrica de uma unidade consumidora
 se o cliente é residencial ou não residencial
 se o cliente é medido ou não é medido.

Em geral, os atributos não se distribuem com a mesma intensidade em


todos os elementos da população, mas, ao contrário, a distribuição da
intensidade dos atributos é desigual.

Para ilustrar, considere a seguinte população formada por 6 unidades


consumidoras e os respectivos consumos mensais em kWh.

Distribuição
populacional
Distribuição populacional
A distribuição populacional pode ser caracterizada minimamente por
meio de uma medida de posição e uma medida de dispersão.

Medida de posição (média): indica o valor típico da população.

Medida de dispersão (desvio-padrão): indica a variabilidade dos


elementos da população ao redor da média.

Quando calculadas com base em todos os elementos da população estas


medidas são denominadas por parâmetros populacionais.

população

100  120  140  160  180  200


média   150 kWh
6

desvio  padrão 
100  1502    200  1502  34,16
6
kWh
1 N
  xi   
N i 1 Parâmetros populacionais
Parâmetro populacional é uma função dos valores observados em todos os
elementos da população.

Considere uma população finita com N elementos, cada um apresentando um


valor xi (i=1,N) em uma determinada característica X de interesse.

Com base nos valores de todos os elementos da população calculam-se os


parâmetros populacionais, entre os quais destacam-se:

1 N N
Média populacional   
N i 1
xi Total populacional   N  x
i 1
i

Variância populacional Desvio-padrão populacional


N

 xi   
1 N
  2 2

1

 ix   2

N i 1 N i 1


Proporção P Total de elementos da população com a característica de interesse, por
exemplo, total de clientes com consumo acima de 150 kWh e, neste caso,
N
P = proporção de clientes com consumo acima de 150 kWh.
Censo
Um censo é a inspeção de todos os elementos da população,
para extrair de cada um deles as informações de interesse.

Os valores exatos dos parâmetros populacionais são obtidos


por meio de um censo da população.

Problemas:

 Censos podem ter custos proibitivos

 Censos podem demandar muito tempo para serem


concluídos e, portanto, os resultados não são imediatos e
podem estar desatualizados.

 Em uma população infinita é impossível examinar todos os


elementos da população.
Censo
O censo de uma grande população é uma operação
complexa que envolve um enorme contingente de
recenseadores.

O envolvimento de muita gente cria problemas na


coordenação e controle das operações do censo, o que
aumenta as chances de erros, denominados por erros não
amostrais

Erros não amostrais: entrevistas mau aplicadas ou não


realizadas, erros de medida, erros de digitação dos dados
coletados, enfim erros que não estão nos dados, mas no
sistema para obtê-los.

Logo, os censos não são necessariamente exatos.


Censo

Quando fazer um censo ?

 Quando a população é pequena, por exemplo, a


população de uma localidade do interior do país.

 Quando se exige precisão completa, como no


setor de faturamento de uma empresa de serviço
público em que todos os clientes são medidos.
Amostragem
Consiste na seleção e análise de um subconjunto finito (amostra) dos
elementos da população sob estudo.

Objetivo: estimar os parâmetros da distribuição populacional, por exemplo, a


média populacional e a proporção de elementos portadores de determinada
característica, a partir das observações de uma amostra da população.

O fato de investigar apenas uma parcela da população torna as pesquisas por


amostragem mais econômicas e mais rápidas que os censos.

Muito empregada em controle de qualidade e testes destrutivos, situações em


que não faz sentido fazer um censo.

É a alternativa ao censo.

Pesquisas por amostragem envolvem um menor número de agentes na coleta


de dados, tornando possível treiná-los exaustivamente visando uniformizar os
métodos de coleta de dados e, conseqüentemente, reduzir significativamente o
erro não amostral.
Amostragem

A partir das respostas dos indivíduos amostrados queremos inferir a partir dos
dados amostrais alguma conclusão sobre a população mais ampla que a
amostra representa.

A inferência estatística fornece métodos para extrair conclusões sobre uma


população a partir de dados amostrais.

Em função da flutuação amostral não podemos ter certeza de que nossas


conclusões são corretas, pois uma amostra diferente poderia conduzir a
conclusões diferentes. A inferência estatística usa a linguagem da
probabilidade para expressar o grau de confiança das conclusões.
Estimação
Seja x1, x2,..., xn os valores observados em uma amostra aleatória de
tamanho n (n < N) acerca de uma característica X.

Os valores observados na amostra podem ser inseridos nas seguintes


fórmulas matemáticas denominadas estimadores, cujos resultados
numéricos são as estatísticas amostrais, estimativas dos valores
desconhecidos dos parâmetros populacionais:

1 n
Média amostral X   xi Estimador do total T  NX
n i 1

Variância amostral Desvio-padrão amostral

   
2 2
1 n 1 n
S 
2
 xi  X
n  1 i 1
S 
n  1 i 1
xi  X

Proporção pˆ   Total de elementos da amostra com a característica de interesse.


n
Parâmetro, estimador e estimativa
Considere

Uma população 

Uma variável aleatória X que a cada elemento  da população associa um


valor numérico X().

A distribuição de probabilidade de X depende de uma constante  (parâmetro)


cujo valor é desconhecido e desejamos estimar

Uma amostra aleatória de tamanho n é retirada da população e medidos


valores x1, x2,...,xn da variável X nos n elementos da amostra. Tais valores
formam o conjunto de dados.

Um estimador do parâmetro  é uma função ˆ (X1, X2,...,Xn) que associa a cada


possível conjunto de dados (amostra) x1, x2,...,xn o resultado ˆ (x1, x2,...,xn) .
Trata-se, portanto de uma variável aleatória.

Cada possível valor numério de um estimador é uma estimativa de .


Exemplo – Pesquisa Eleitoral
A população  é o universo de eleitores da cidade
A cada eleitor  uma variável aleatória X() vale 1, se o eleitor  vota no
candidato A e X() vale 0, caso contrário.

O parâmetro é a proporção p populacional de eleitores que votariam em A.

Distribuição da variável aleatória X é Bernoulli(p)

Considere uma amostra aleatória de n eleitores


A amostra aleatória é o conjunto de variáveis aleatórias X1,X2,...,Xn, cada Xi
tem distrbuição Bernoulli(p). As variáveis aleatórias X1,X2,...,Xn são
independentes e identicamente distribuidas.

Conjunto de dados: valores observados x1, x2,...,xn em uma partciular amostra


aleatória de tamanho n, xi =1 se o i-ésimo eleitor da amostra vota em A e xi = 0
se o iésimo eletor da amostra não vota em A.
1 n
Estimador pontual de p é a função pˆ  X1,..., X n    X i
n i 1

Estimativa de p, é o resultado de pˆ x1,..., xn  em uma particular amostra


Distribuição amostral
Diferentes amostras extraídas da mesma população originam valores
distintos para uma estatística amostral.

Há uma flutuação aleatória das estatísticas amostrais, variando de uma


amostra para outra.

A diferença entre a estimativa e o valor


do parâmetro populacional constitui o
Amostra 1 X1
erro amostral, uma componente
aleatória inerente ao próprio processo
Amostra 2 X2 de seleção da amostra.
População
Parâmetro  Amostra 3 X 3 Portanto, os estimadores são variáveis
aleatórias, já que seu valor não pode
ser predito com certeza antes da
Amostra k Xk
amostra ter sido extraída.
Distribuição amostral

Distribuição amostral: distribuição de probabilidade de


uma estatística amostral quando consideramos todas as
possíveis amostras aleatórias de tamanho n extraídas de
uma população de Tamanho N (n<N).

A distribuição amostral descreve a variabilidade de uma


estatística e indica quão prováveis são os diversos valores
que ela pode assumir.

A capacidade de usar amostras para fazer inferências


sobre parâmetros populacionais depende do conhecimento
que temos sobre a distribuição amostral.
Distribuição amostral
população

EXEMPLO
Todas as possíveis
amostras de
tamanho 2
extraídas da
população

Distribuição
3
da média
amostral Lembre que a
média populacional
frequência absoluta

2
é =150 kWh

0
110 120 130 140 150 160 170 180 190
Consumo mensal (kWh)
Distribuição amostral
3

frequência absoluta
2

0
110 120 130 140 150 160 170 180 190
Consumo mensal (kWh)

Simetria da distribuição da média amostral em torno da média


populacional ( =150 ).

Simetria implica na igualdade entre a média populacional  e o valor


esperado da distribuição da média amostral (a média de todas as
médias das amostras de tamanho n=2).

Quando esta igualdade é verificada o estimador é não tendencioso.


Portanto, a média amostral é um estimador não tendencioso da média
populacional .
Distribuição amostral
3

frequência absoluta
2

0
110 120 130 140 150 160 170 180 190
Consumo mensal (kWh)

A dispersão da distribuição amostral dos valores também é importante.

Quanto maior a concentração em torno de , menor é a magnitude do erro


amostral e, portanto, maior a precisão do estimador.

O grau de dispersão é medido pelo desvio-padrão da distribuição


amostral, denominado erro-padrão.

Quanto menor o erro-padrão, maior será a precisão dos resultados


obtidos.
Propriedades de um estimador
O esquema do tiro ao alvo ilustra bem os conceitos de estimador não
tendencioso e precisão com base apenas na dispersão das estimativas
(pontos) em torno do parâmetro populacional (alvo).

não tendencioso e preciso não tendencioso e impreciso

preciso e tendencioso impreciso e tendencioso


Propriedades da média e da variância amostrais
A média amostral é um estimador não tendencioso da média
populacional:

1 n
X   Xi
n i 1
 
E X 

A variância amostral é um estimador não tendencioso da variância


populacional:

    
n
1

2 2 2 2
S  Xi  X ES
n  1 i 1

Prova-se que X e S2 são variáveis aleatórias independentes


Teorema Central do Limite

Nas situações práticas dispomos de apenas uma


única amostra de tamanho n da população
investigada.

Então como construir a distribuição da média


amostral com apenas uma amostra?

As distribuições amostrais são deduzidas


matematicamente e a forma da distribuição
depende do estimador adotado, do tamanho da
amostra e da distribuição original da
característica de interesse X na população.
Teorema Central do Limite
No caso da média amostral, o Teorema do Limite Central
estabelece que, independentemente da distribuição populacional
da característica de interesse X, para amostras suficientemente
grandes (n30) a distribuição de probabilidade da média amostral
converge para uma distribuição normal com média  e variância
2/n, à medida que aumenta o tamanho da amostra.

 2 
n grande (>30)  X ~ N   , 
 n 

Se a amostra representar mais de 5% do tamanho da população


(n/Nx100% > 5%) a variância da distribuição da média amostral deve ser
corrigida pelo fator de correção finita:
Fator de correção finita

  2  N  n 
n grande (>30)  X ~ N   ,   
 n  N 1  
Teorema Central do Limite
O resultado do Teorema do Limite Central pode ser melhor compreendido
pelos gráficos a seguir (Bussab & Morettin, 1987) que mostram como as
distribuições amostrais da média se aproximam da distribuição Normal, à
medida que o aumenta tamanho da amostra, a partir de diferentes
distribuições populacionais da característica X

Quando a distribuição populacional da característica X é normal, a distribuição da média


amostral é normal, independentemente do tamanho da amostra ser pequeno ou grande.
Teorema Central do Limite
A aproximação à curva normal pode ser utilizada em outros
estimadores, tais como o estimador do total e o estimador de
proporção.

No caso do estimador de proporção a sua distribuição


amostral converge para uma normal com média igual a
proporção populacional p e variância igual a p(1-p)/n:

 p1  p  
pˆ ~ N  p, 
 n 

Em populações finitas (n/N x 100% > 5%) a variância do


estimador deve ser corrigida pelo fator de correção finita:

 p1  p   N  n  
pˆ ~ N  p,   
 n  N 1  
Amostragem aleatória simples
Amostragem aleatória simples (AAS)
Consiste em selecionar aleatoriamente uma amostra de n elementos em
uma população com N elementos (n<N).

Os elementos são sorteados sem reposição e não importa a ordem de


seleção dos elementos.

Assim, o total de amostras de n elementos que podem ser obtidas de uma


população de tamanho N é:

N N!
  
 n  n! N  n !

Todos os elementos da população têm igual probabilidade de pertencer a


amostra. Portanto, todas as possíveis amostras de tamanho n são
equiprováveis.

A probabilidade de um elemento pertencer a amostra é dada pela razão


n/N, conhecida como fração de amostragem.
Exemplo
O número total de amostras possíveis de tamanho 3 de uma população
formada pelos oito primeiros números naturais {1,2,3,4,5,6,7,8} é 56:
8 8! 8! 8 x7 x6
N =8
      8 x7  56
n =3
 3  3!8  3! 3!5! 3x 2 x1
Seja X1 o primeiro elemento a ser sorteado.
P(X1=i1) = 1/8 para todo i1 = 1,2,3,4,5,6,7,8

Seja X2 o segundo elemento a ser sorteado


P(X2=i2 | X1=i1) = 1/7 , para todo i2 diferente de i1

Seja X3 o terceiro elemento a ser sorteado


P(X3=i3|X1=i1 . X2=i2) = 1/6, para todo i3 diferente de i1 e i2

Considere uma das possíveis amostras de três elementos: A={2,5,7}

A probabilidade de que tal amostra seja selecionada é

 P X1  i1, X 2  i2 , X 3  i3  Soma das probabilidades de todas


as permutações de 2,5 e 7
i1 ,i2 ,i3 A
Exemplo
O número de permutações dos elementos da amostra A = {2, 5, 7} é igual
a 6:

257 275 527 572 725 752

Cada uma das permutações tem probabilidade

(1/8) x (1/7) x (1/6)

Como há 6 permutações

A probabilidade de selecionar a amostra A={2, 5, 7} é

6 x (1/8) x (1/7) x (1/6) = 1/56

Evidentemente, qualquer outra amostra de tamanho 3 tem a mesma


probabilidade de 1/56 de ser selecionada.

Na AAS cada possível amostra de tamanho n tem igual probabilidade de


ser selecionada
Tamanho da amostra
Para dimensionarmos uma amostra devemos especificar duas constantes:

1) Máximo desvio ou erro tolerável (d) entre a média amostral e a média


populacional.

2) A probabilidade  de que o máximo desvio ou erro entre a média


amostral e média populacional seja maior do que d.

Os valores das constantes  e d devem ser pequenos, tal que

Probabilidade de que o desvio entre a


média amostral e a média populacional
ultrapasse o máximo tolerável é igual a 

P X   d 
Probabilidade de que o desvio entre a
média amostral e a média populacional
seja menor que máximo tolerável é igual
 
P X    d  1
a 1-
Tamanho da amostra (população infinita)
 
P X    d  1

 
P  d  X    d  1
Pelo Teorema Central do Limite
 2 
Admitindo população infinita X ~ N   , 
 
 n 
Dividindo a desigualde pelo desvio padrão
 
 d X   d 
P      1
  2
n  2
n  2 
n

z~N(0,1)
 d d 
P  z   1

  n  n 
Tamanho da amostra (população infinita)

 d d 
P  z   1

  n  n  d
z  
1  n
  2
P  z   z  z    1
 1 1 
 2 2 

2
  z  
 1 
probabilidade n 2 
1-0,5  d 
 
 
z 
1 Valor tabelado
2
Tamanho da amostra (população finita)
Pelo Teorema Central do Limite a distribuição   2  N  n 
X ~ N   ,   
da média amostral é Normal.  n  N 1  

Logo, a probabilidade de que o desvio entre a média populacional e a média


amostral seja menor do que e é 1-.

   
P X    d  P  d  X    d  1
 
 
 
P 
d

X 

d
 
  P  z 2  z  z 2  1  
  N n X
2
 N n X
2
 N n X
2 
       
  N  1  n  N  1  n  N  1  n 

 N n X
2
Logo z   d  
1
2
 N  1  n  X2  N  z 2 
1
Tamanho da amostra n 2
N  1d 2   X2  z 2 
1
2
Tamanho da amostra
N = tamanho da população
z12 / 2 X
2
N d = margem de erro fixada
n 2X = variância da distribuição populacional
N  1d 2  z12 / 2 X2 1- = nível de confiança, usualmente 95% ( = 5%)
z1-  /2 = abscissa da distribuição normal que deixa uma
probabilidade 1-/2 a esquerda

No caso de populações grandes ou infinitas z12 / 2 X


2
podemos usar a seguinte fórmula: n
d2

No caso de populações finitas e com t12 / 2 S X2 N


variância populacional não conhecida n
devemos usar a seguinte fórmula: N  1d 2  t12 / 2 S X2
S2X = estimativa da variância da distribuição populacional
t1-/2 = abscissa da distribuição t que deixa uma probabilidade 1-/2 a esquerda
Tamanho da amostra
Exemplo
Cadastro de uma localidade com 30 clientes
A título de ilustração considere o cadastro
Consumo no mês anterior
com todas as unidades consumidoras Cliente Número Endereço
(kWh)
residenciais de uma localidade. Uma 10000001
10000002
301
204
população com N=30 elementos. Qual o 10000003 303
10000004 205
tamanho da amostra para estimar o 10000005 191
consumo médio com 95% de confiança de 10000006 391
10000007 349
um erro máximo de 50 kWh? 10000008 274
10000009 285
Considere as seguintes premissas: 10000010
10000011
394
274
10000012 392
nível de z/2 =1,96 10000013 309
10000014 180
confiança de 10000015 290
95% (=5%) = -INV.NORMP(0,025) 10000016 356
10000017 199
10000018 474
Erro máximo admissível d = 50 kWh 10000019 392
10000020 226

Desvio-padrão populacional X = 94,04 kWh


10000021 521
10000022 178
10000023 242
Tamanho da amostra 10000024 206
10000025 348

1,962  94,04 2  30
10000026 109

n  10
10000027 414

30  1 50  1,96  94,04


10000028 223
2 2 2 10000029 316
10000030 280
Tamanho da amostra
Tamanho da amostra para estimar uma proporção.

z12 / 2  p1  p N N = tamanho da população


n e = margem de erro fixada
N  1d 2  z12 / 2  p1  p  p = proporção populacional
 = nível de confiança 1%, 5% ou 10%
z1-  /2 = abscissa da distribuição normal que deixa uma
probabilidade 1-/2 a esquerda

No caso de populações grandes ou infinitas z12 / 2  p1  p 


podemos usar a seguinte fórmula:
n
d2

Note que o tamanho da amostra depende da proporção populacional, justamente


o parâmetro que queremos estimar por amostragem.

Podemos considerar estimativas obtidas em estudos anteriores, fazer uma


amostra piloto ou, na impossibilidade de obter tais estimativas, podemos fixar p
em 0,5, pois assim maximizamos o produto p(1-p) o que resulta em um maior
tamanho para a amostra,
Amostragem aleatória simples (AAS)
Exemplo do cálculo do tamanho da amostra para estimar proporções
Cadastro de uma localidade com 30 clientes
Considere o cadastro com todas as
Consumo no mês anterior
unidades consumidoras residenciais de Cliente Número Endereço
(kWh)
uma localidade. Uma população com N=30 10000001
10000002
301
204
elementos. Qual o tamanho da amostra para 10000003 303
10000004 205
estimar a proporção de clientes com ar 10000005 191
condicionado? 10000006 391
10000007 349
10000008 274
Considere as seguintes premissas: 10000009 285
10000010 394
nível de z/2 =1,96
10000011
10000012
274
392
confiança de 10000013 309

95% (=5%) = -INV.NORMP(0,025) 10000014 180


10000015 290
10000016 356
10000017 199
Erro máximo admissível d = 0,2 10000018 474
10000019 392
Desvio-padrão populacional X = 0,5 x 0,5 10000020 226
10000021 521
10000022 178
10000023 242
Tamanho da amostra 10000024 206
10000025 348

1,962  0,52  30
10000026 109

n  14
10000027 414

30  1 0,2  1,96  0,5


10000028 223
2 2 2 10000029 316
10000030 280
Amostragem aleatória simples (AAS)
Seleção da amostra Cadastro de uma localidade com 30 clientes
Consumo do último ano
Cliente Número Endereço
(kWh)
10000001 18.055
Requer um cadastro ou uma 10000002
10000003
12.232
18.195
lista em que sejam identificados 10000004
10000005
12.295
11.450

todos os elementos da 10000006


10000007
23.450
20.951
10000008 16.457
população alvo. 10000009 17.100
10000010 23.627
10000011 16.440
10000012 23.524
Por exemplo, o cadastro de 10000013
10000014
18.510
10.824

consumidores ou cadastro de 10000015


10000016
17.382
21.369
10000017 11.912
faturamento. 10000018 28.446
10000019 23.501
10000020 13.536
10000021 31.265
A seleção da amostra se dá 10000022
10000023
10.703
14.528

mediante a aplicação de um 10000024


10000025
12.335
20.877
10000026 6.530
procedimento de seleção 10000027 24.868
10000028 13.394
aleatória ao cadastro. 10000029
10000030
18.953
16.805
Amostragem aleatória simples (AAS)
Seleção da amostra Cadastro de uma localidade com 30 clientes
Consumo do último ano
Cliente Número Endereço
(kWh)
Como fazer a seleção ? 10000001 18.055
10000002 12.232
10000003 18.195
10000004 12.295
Vamos selecionar uma amostra de 10000005 11.450
tamanho n=10, a partir do cadastro ao 10000006
10000007
23.450
20.951
lado, onde N=30. 10000008
10000009
16.457
17.100
10000010 23.627
10000011 16.440
Pode-se sortear 10 números aleatórios 10000012 23.524
10000013 18.510
entre 1 e 30 e selecionar os clientes 10000014 10.824
10000015 17.382
que ocupem as respectivas posições 10000016 21.369
10000017 11.912
no cadastro. 10000018 28.446
10000019 23.501
10000020 13.536
Use o comando =aletatórioentre(1;30) 10000021
10000022
31.265
10.703
no Excel e não considere os números 10000023
10000024
14.528
12.335
repetidos. 10000025 20.877
10000026 6.530
10000027 24.868
10000028 13.394
Números sorteados: 3, 14, 10, 20, 5, 1, 10000029 18.953
10000030 16.805
15, 23, 9, 6
Amostragem aleatória simples (AAS)
Seleção da amostra Cadastro de uma localidade com 30 clientes
Coluna de nº aleatórios já ordenados
Outra opção consiste em atribuir Consumo do último ano
Cliente Número Endereço Nº aleatório
um nº aleatório entre 0 e 1 a cada 10000030
(kWh)
18.055 0,98328
elemento do cadastro. 10000029 12.232 0,94652
10000021 18.195 0,92820
10000027 12.295 0,90521
10000026 11.450 0,87656
Use o comando ALEATÓRIO() do 10000023 23.450 0,83263
10000010 20.951 0,69607
Excel. 10000018 16.457 0,67584
10000019 17.100 0,65748
10000012 23.627 0,64982
Copie a coluna de nº aleatórios e 10000008 16.440 0,62583
10000001 23.524 0,62388
cole como valor. 10000016 18.510 0,59090
10000025 10.824 0,52914
10000024 17.382 0,49418
10000009 21.369 0,48493
Em seguida, ordene os 10000007 11.912 0,44745
elementos do cadastro na ordem 10000017
10000003
28.446
23.501
0,42220
0,36952
decrescente ou crescente do nº 10000020
10000011
13.536
31.265
0,35411
0,35327
aleatório. 10000028 10.703 0,27673
10000004 14.528 0,23419
10000005 12.335 0,23057
10000006 20.877 0,21171
Pegue os dez primeiros 10000014 6.530 0,11484
10000013 24.868 0,11434
elementos para formar a amostra 10000015 13.394 0,10176
de tamanho n=10. 10000022
10000002
18.953
16.805
0,04385
0,01997
Intervalo de confiança
Estimação por intervalo
Intervalo de confiança para a média
Como a média amostral segue uma distribuição normal com
média  e variância 2/n, podemos esperar com 95% de
probabilidade que a média amostral seja diferente do valor
populacional por no máximo 1,96 desvios-padrão

 2 
X ~ N   ,  
 n 

 
DP X 
2
n


n

    
P   1,96  DP X  X    1,96  DP X  95%

    
P  1,96  DP X  X    1,96  DP X  95%
Intervalo de confiança para a média
    
P  1,96  DP X  X    1,96  DP X  95%

    
P X  1,96  DP X    X  1,96  DP X  95%

  
o intervalo X  1,96  DP X , X  1,96  DP X  tem uma probabilidade de 95%
de conter a média populacional.

Logo, há uma probabilidade de 5% do intervalo não conter a média, ou seja,


uma probabilidade de 5% de erro.

Substituíndo a média amostral por seu valor numérico, a expressão acima


deixa de ser uma probabilidade legítima e transforma-se no intervalo com 95%
de confiança de conter a média populacional:

 
X  1,96  DP X    X  1,96  DP X  
Intervalo de confiança para a média
Na hipótese de serem sorteadas todas as diferentes amostras de
tamanho n de uma população, em cada amostra podemos calcular um
intervalo com 95% de confiança centrado na média amostral, sendo que
somente 95% destes intervalos conterão a média populacional.

A confiança informa com que frequência Distribuição


da média
o método irá produzir um intervalo que amostral
contém o verdadeiro parâmetro
populacional, no caso a média.


Amostra 1 X 1  1,96
n X1


Amostra 2 X 2  1,96 X2
n
População
Média  
Variância 2 Amostra 3 X 3  1,96 X3
n


Amostra k X k  1,96 Xk
n
Intervalo de confiança para a média
No caso geral, os limites do intervalo com 1- confiança são determinados pela
seguinte fórmula:
   
X  z      X  z  
onde
2 n 2 n
 1- é o nível de confiança especificado, usualmente: 0,9 ; 0,95 e 0,99.
 z(/2) são os valores tabelados da normal padronizada N(0,1) que deixam uma
probabilidade igual a /2 nas caudas da distribuição normal.

  
O termo z    é o erro máximo provável.
  n
2

A magnitude do erro é determinada pelo nível de


confiança 1-, pelo desvio padrão populacional 
e pelo tamanho da amostra n.

maior o erro, logo maior o


maior o nível de confiança (maior z(/2)) ou
comprimento do intervalo
maior o desvio padrão populacional.
de confiança.

menor o erro, logo menor o comprimento


maior o tamanho da amostra
do intervalo e mais precisa a estimativa.
Intervalo de confiança para a média

Quando a população é finita e o tamanho da amostra constitui mais de 5% da


população (n/N x 100% > 5%), devemos aplicar o fator de correção finita na
fórmula da variância da distribuição amostral da média:

  N n   N n
X  z      X  z  
2 n N 1 2 n N 1

Todos os resultados anteriores também são válidos para pequenas amostras


(n30) desde que extraídas de populações normais com variância 2
conhecida.
Histograma dos dados
Exemplo 1 40
amostrais sugere
distribuição populacional não
A seguir são apresentadas os valores mensais 30 normal

(em US$) pagos por 50 indivíduos selecionados


aleatoriamente usuários de provedores 20

comerciais de acesso à internet em agosto de


10
2000 nos EUA. Construa o intervalo de Std. Dev = 7,65

confiança de 95% (=5%). 0


Mean = 20,9
N = 50,00
10,0 20,0 30,0 40,0 50,0
15,0 25,0 35,0 45,0

20 40 22 22 21 21VAR00001 20 10 20 20
20 13 18 50 20 18 15 8 22 25
Xi (i=1,50) 22 10 20 22 22 21 15 23 30 12
9 20 40 22 29 19 15 20 20 20
20 15 19 21 14 22 21 35 20 22

Amostra grande (n>30)


1 50
X   X i  20,9
50 i 1
1 50
       
 Xi  X    X  z  
2
S 
2
 58,4592 X  z  
50  1 i 1 2 n 2 n
Use o comando Excel INV.NORMP(0,975) 18,78    23,02
para obter Z(2,5%) = 1,96
Exemplo 2
Em uma amostra de 15 tubos de imagem, a vida útil média é de 8000
horas. Em geral, a vida útil de tubos de imagem é assumida como sendo
normal. Suponha que o desvio padrão da vida útil dos tubos de imagem
de TV para uma marca particular é conhecido como sendo 500 horas.
Construa o intervalo de confiança de 95% para a vida útil média.

 
X  z 2.5%     X  z 2.5% 
n n z(/2) = z(2,5%)

500 500
8000  1,96     8000  1,96 
15 15

7746,97    8253,04 Use o comando Excel


INV.NORMP(0,975) = Z(2,5%) = 1,96

Como o intervalo acima não contém o total de horas em um ano (8760


horas), é razoável admitir que a vida útil média de um tubo de imagem seja
menor que um ano.
Exemplo 3
Considere uma população, cuja característica de interesse X tenha distribuição
normal com variância 2 = 36. Desta população foi retirada uma amostra
aleatória (com reposição) de tamanho n=16 cuja média amostral é igual a 43.
Construa o intervalo de 90% de confiança da média populacional (amostra
pequena, mas extraída de uma população normalmente distribuída e com 2
conhecido).

X  43 z(/2) = z(5%)
  10%
Dados
 2  36
 6
n =16 Use o comando Excel INV.NORMP(0,95) para obter
Z(5%) = 1,6449

Intervalo com 90% de confiança de


conter a média populacional
   
X  z      X  z   40,54    45,46
2 n 2 n
Intervalo de confiança para a média
Distribuição t

Até o momento admitimos que a variância populacional é conhecida, uma


situação que não acontece na prática.

Em geral 2 não é conhecida e deve ser substituída por sua estimativa


amostral S2.

Em função desta modificação os valores críticos que definem a região de


rejeição, z(/2), passam a ser definidos pela tabela da distribuição t de
Student com n-1 graus de liberdade e não mais pela tabela da distribuição
N(0,1).

Assim, por exemplo, o valor crítico ao nível de significância de 10% é 1,75


(use o comando =INVT(0,1;15) no MS Exel ®), ligeiramente superior ao valor
crítico de 1,64 definido pela N(0,1).

O uso da distribuição t pressupõe que a população seja normalmente


distribuída.
Intervalo de confiança para a média
Distribuição t
Para pequenas amostras (n  30) extraídas de uma população normalmente
distribuída com o estimador S2 no lugar de 2, pois 2 não é conhecido, tem-se
que:
X 
~ t n 1 Variável aleatória com distribuição t de
S2 Student com n-1 graus de liberdade
n
Neste caso deve-se substituir o z-score com distribuição normal pelo t-score ou
t(/2) com distribuição t de Student com n-1 graus de liberdade:

  S   S
2 2
X  t      X  t  
2 n 2 n

Para amostras aleatórias de uma população finita em que n/Nx100% > 5%

  S N n   S N n
2 2
X  t      X  t  
2 n N 1 2 n N 1
Intervalo de confiança para a média
Quando utilizar t ou Z ou nenhum dos dois ?

Distribuição
Tamanho da amostra  Estatística de teste
populacional
Normal Grande (n30) Conhecido Z
Normal Pequeno (n<30) Conhecido Z
t ou Z
Normal Grande (n30) Desconhecido Z é usado como uma
aproximação de t
Normal Pequeno (n<30) Desconhecido t
Z
Desconhecida Grande (n30) Conhecido Teorema do Limite
Central é invocado
t ou Z
Teorema do Limite
Desconhecida Grande (n30) Desconhecido Central é invocado e Z é
usado como uma
aproximação de t
Desconhecida Pequeno (n<30) Conhecido Nenhum
Desconhecida Pequeno (n<30) Desconhecido Nenhum

Testes não paramétricos


ou Bootstrap
Exemplo 4
Uma agência governamental deseja estimar as milhas por galão que um
determinado modelo de veículo é capaz de fazer.

Para isto a agência adquire um destes veículos, enche o tanque de


combustível e um motorista treinado dirige o carro por 100 milhas. Então o
veículo é reabastecido e o mesmo motorista dirige o carro por mais 100 milhas,
ao final do percurso o veículo é novamente reabastecido e assim segue o
experimento. A operação é realizada 10 vezes e o número de galões
necessários para reabastecer o tanque de combustível nestas 10 vezes é
apresentado a seguir:

4,78 4,42 3,94 4,15 4,90 3,92 3,94 4,68 4,32 4,23

Assuma que estes valores são provenientes de uma população normalmente


distribuída e calcule o intervalo com 90% de confiança para o número médio de galões
necessários para percorrer as 100 milhas.

  S   S
2 2
Intervalo de confiança: X  t      X  t  
2 n 2 n
Exemplo 4
Amostra Xi (i=1,10): 4,78 4,42 3,94 4,15 4,90 3,92 3,94 4,68 4,32 4,23

n=10 1 10
X   X i  4,328 S 
2 1 10
 
10  1 i 1
Xi  X 
2
 0,1303 t 5%  1,8331
10 i 1

  S
2
  S
2 Use o comando
X  t      X  t   Excel =INVT(0,1;9)
 
2 n 2 n

0,1303 0,1303
4,328  1,8331    4,328  1,8331
10 10

Intervalo com 90% de confiança para o número


4,119    4,537 médio de galões necessários para percorrer 100
milhas

A partir deste resultado também podemos construir o Intervalo com 90% de confiança a
médio de milhas percorridas por galão de combustível
100/4,537 100/4,119
22,04    24,28
Exemplo 5
A vida útil média de uma amostra de 10 lâmpadas é 4000 horas, com
desvio padrão da amostra de 200 horas. Sabendo que a vida útil de uma
lâmpada é assumida como sendo aproximadamente normal, construa o
intervalo de confiança de 95% para a média da vida útil.
1) A vida útil da lâmpada é uma variável aleatória com distribuição normal
2) Amostra é pequena n = 10
3) Desvio padrão estimado a partir da amostra (s = 200)

Logo deve-se utilizar a distribuição t na definição do intervalo de


confiança para a média

X  t9 2.5%     X  t9 2.5% 
s s
n n
200 200
4000  2,2622     4000  2,2622 
10 10
3856,8    4143,2 =INVT(0.05,9)=2,2622
Intervalo de confiança para a proporção

Em grandes amostras, a aproximação à curva normal pode ser utilizada


em outros estimadores, tal como o estimador de proporção, cuja
distribuição amostral converge para uma normal com média igual a
proporção populacional p e variância igual a p(1-p)/n:
 p1  p  
pˆ ~ N  p, 
 n 

Assim, os limites do intervalo com 100(1-)% de confiança para a


proporção p são determinados conforme a seguir:

  pˆ 1  pˆ    pˆ 1  pˆ 
pˆ  z    p  pˆ  z  
2 n 2 n
Exemplo 6
Uma empresa de pesquisa eleitoral entrevistou por telefone 400 eleitores
registrados, perguntando-lhes se votariam no candidato A ou no candidato B.

Como resultado foi observado que 60% dos entrevistados responderam que
votariam no candidato A.

Deduza o erro padrão, a margem de erro e o intervalo de 95% de confiança para a


proporção dos que indicam preferência pelo candidato A.

Dados pˆ  0,6 estimativa da proporção dos que votam no candidato A


n  400tamanho da amostra
 = 5% nível de significância

pˆ 1  pˆ  0,6  0,4
Erro padrão = sp    0,0245
n 400
Margem de erro = z 2 s p  z2,5% s p  1,96  0,0245  0,048
Intervalo de confiança pˆ  z 2 s p  p  pˆ  z 2 s p  0,552  p  0,648
A vista do intervalo de confiança resultante (55% , 65%) o candidato A pode sentir-se
razoavelmente seguro quanto a suas perspectivas em relação a eleição
Exemplo 7
Uma amostra aleatória de 625 donas-de-casa revela que 70% delas preferem
a marca X de detergente. Construa um intervalo com 90% de confiança para a
proporção de donas-de-casa que preferem X.

Dados: pˆ  0,7
n  625
Use o comando INV.NORMP(0,95) do Excel para obter
  10% Z(5%) = 1,6449
Intervalo de confiança para a proporção p

   pˆ 1  pˆ     pˆ 1  pˆ 
pˆ  z    p  pˆ  z  
2 n 2 n

0,71  0,7  0,71  0,7 


0,7  1,6449   p  0,7  1,6449 
625 625

0,67  p  0,73
Intervalos de confiança para a
diferença nas médias de duas
populações
Amostras independentes x Amostras emparelhadas
Considere a tarefa de formular um experimento com a finalidade de avaliar dois tipos de
tênis em relação ao desgaste da sola: tênis Rosa (R) e tênis Verde (V).

A forma mais simples de elaborar o experimento é escolher, ao acaso, um grupo de


meninos e calçá-los com tênis R e calçar um outro grupo com o tênis V, Este tipo de
experimento é conhecido pelo nome de amostras independentes.

Uma estratégia com maior sensibilidade para detectar as diferenças entre R e V


consiste em escolher aleatoriamente para cada menino o pé no qual calçará o tênis R.
O outro pé calçará o tênis V. Esta classe de experimentos é conhecida pelo nome de
amostras dependentes ou emparelhadas.
Amostras independentes Amostras emparelhadas

http://www.midomenech.com.br/admin/arquivos/Emparelhados.pdf
Intervalo de confiança para a diferença nas médias de duas populações

1 - Caso de duas populações com variâncias iguais


(Amostras independentes)

Considere duas populações Normais com média 1 e 2 possivelmente


distintas e com a mesma variância 12= 22= 2 . Isto é

X ~ N(1,2)

Y ~ N(2,2)

Considere amostras aleatórias de X e Y (amostras independentes) e com


tamanhos m e n respectivamente, isto é

(x1,...,xm) e (y1,...,yn)

Todos os parâmetros são desconhecidos e o objetivo é construir


intervalos com 100(1-)% de confiança para a diferença das médias 1 - 2
Intervalo de confiança para a diferença nas médias de duas populações

1 - Caso de duas populações com variâncias iguais


(Amostras independentes)
A partir dos pressupostos assumidos sabemos que as distribuições
amostrais das médias amostrais são normais:

 2   2 
X ~ N  1 ,  Y ~ N   2 , 
 m  n 

As médias amostrais são independentes então a diferença entre elas


também tem distribuição normal:
   2  2 
X  Y ~ N  1   2 ,    
 m n  
A partir dos resultados acima tem-se que:

X  Y  1   2 
Z ~ N 0,1
 1 1
 2  
m n
Intervalo de confiança para a diferença nas médias de duas populações
1 - Caso de duas populações com variâncias iguais
(Amostras independentes)
A variância 2 não é conhecida e pode ser estimada como

2
S pooled 
m  1S12  n  1S 22
mn2
onde
1 m 2 2
S 
1
2
 
m  1  i 1
xi  m X 

Variância amostral da amostra da população X

1 n 2 2
S 
2
2  
n  1  i 1
yi  nY 

Variância amostral da amostra da população Y

2
Substituindo 2 por seu estimador S pooled tem-se que

X  Y  1   2 
~ tm n2 Distribuição t com m+n-2 graus de liberdade
 1 1
  
2
S pooled
m n
Intervalo de confiança para a diferença nas médias de duas populações

1 - Caso de duas populações com variâncias iguais


(Amostras independentes)
 
 
    X  Y  1   2    
P  t m  n  2     tm n2     1  
 2  1 1  2 
 S pooled 
2
  
  m n  
Valores tabelados

   2  1 1     2  1 1  

P X  Y  tm n 2   S pooled     1  2  X  Y  t m n 2   S pooled     1  
 2 m n 2  m n  

Substituindo as estatísticas amostrais por seus valores numéricos, a expressão
acima deixa de ser uma probabilidade legítima e transforma-se no intervalo com
100(1-)% de confiança de conter a diferença entre as médias populacionais:

  2  1 1    2  1 1 
X  Y  tm n2   S pooled     1   2  X  Y  tm n2   S pooled   
2 m n 2 m n

Para grandes amostras m+n >= 30 pode-se aproximar a distribuição t pela normal
padrão z. (t é aproximado por z)
Intervalo de confiança para a diferença nas médias de duas populações

1 – Exemplo caso de duas populações com variâncias iguais


(Amostras independentes)
De que maneira as empresas que vão à falência diferem daquelas que
continuam a operar?

Para responder a esta questão, um estudo comparou diversas características


de 68 empresas que estão em boa situação com 33 que faliram.

Uma das variáveis estudadas foi a razão entre o patrimônio e as dívidas


atuais. Grosso modo, trata-se do que a firma vale dividido pela quantia que ela
deve. As estatísticas amostrais são apresentadas a seguir:

Empresas bem sucedidas X 1  1,7256 Empresas falidas X 2  0,8236


S1  0,6393 S 2  0,4811

A estimativa da diferença da razão patrimônio/dívidas entre as firmas bem


sucedidas e aquelas que faliram é

X 1  X 2  1,7256  0,8236  0,902

Construa o intervalo de 95% confiança para a diferença das médias


Intervalo de confiança para a diferença nas médias de duas populações

1 – Exemplo caso de duas populações com variâncias iguais


(Amostras independentes)
Vamos admitir populações com variâncias iguais.

Então, primeiro deve-se calcular a variância combinada

2
S pooled 
m  1S12  n  1S 22 68  10,63932  33  10,48112
  0,3514
mn2 68  33  2
O grau de liberdade da estatística t é m+n-2 = 68 + 33 – 2 = 99

Ao nível de confiança  = 95%, o t(2,5%) é 1,9842. No Excel INVT(0,05;99) = 1, 9842


Como as amostras são grandes, então
poderíamos aproximar pela normal 1,96

  2  1 1   1 1
t
A margem de erro é 99   S pooled     1,9842 0,3514    0,2495
2 m n  68 33 

A diferença entre as bem sucedidas e falidas é em média 0,902 com margem de


erro de 0,2495 para uma confiança de 95%. Alternativamente, o intervalo com 95%
confiança para a diferença das médias é 0,902  0,2495 ou (0,6525 , 1,1515).
Intervalo de confiança para a diferença nas médias de duas populações

2 - Caso de duas populações com variâncias diferentes


(Amostras independentes)

Considere duas populações Normais com média 1 e 2 possivelmente


distintas e com variâncias 12 e 22. Isto é

X ~ N(1,12)

Y ~ N(2,22)

Considere amostras aleatórias de X e Y (amostras independentes) e com


tamanhos m e n respectivamente, isto é

(x1,...,xm) e (y1,...,yn)

Todos os parâmetros são desconhecidos e o objetivo é construir


intervalos com 100(1-)% de confiança para a diferença das médias 1 - 2
Intervalo de confiança para a diferença nas médias de duas populações
2 - Caso de duas populações com variâncias diferentes
(Amostras independentes)
A partir dos pressupostos assumidos sabemos que as distribuições
amostrais das médias amostrais são normais:

  12    22 
X ~ N  1 ,  Y ~ N   2 , 
 m  n 

As médias amostrais são independentes então a diferença das médias


amostrais também tem distribuição normal:

   12  22  
X  Y ~ N  1   2 ,    
 m n  

A partir dos resultados acima tem-se que:

X  Y  1   2 
Z ~ N 0,1
 2
 2
1
 2
m n
Intervalo de confiança para a diferença nas médias de duas populações
2 - Caso de duas populações com variâncias diferentes
(Amostras independentes)
A variância de cada população não é conhecida.

Substituindo as variâncias populacionais pelos respectivos estimadores,


obtém-se uma variável aleatória que não tem distribuição t
X  Y  1   2 
S12 S 22

onde m n
1 m 2 2
S 
1
2
 xi  m X  Variância amostral da amostra da população X
m  1  i 1

1 n 2 2
S 
2
2  
n  1  i 1
yi  nY  Variância amostral da amostra da população Y

Porém pode ser aproximada por uma distribuição t com v graus de
liberdade determinado por:  S 2 S 2  2
 1  2 
v  m n 
2 Arredonde o resultado para cima
 2
S1 m  
2
S n
 2
2 2

m 1 n 1
Intervalo de confiança para a diferença nas médias de duas populações
2 - Caso de duas populações com variâncias diferentes
(Amostras independentes)

Intervalo de confiança

   S1 S 2    S1 S 2
2 2 2 2
X  Y  tv     1  2  X  Y  tv   
2 m n 2 m n

Valores tabelados

Onde v é determinado como:


2
 S12 S 22 
  
v m n   2 Arredonde o resultado para cima
 2
S1 m  2
S n
 2
2
2

m 1 n 1
Intervalo de confiança para a diferença nas médias de duas populações

2 – Exemplo caso de duas populações com variâncias diferentes


(Amostras independentes)
De que maneira as empresas que vão à falência diferem daquelas que
continuam a operar?

Para responder a esta questão, um estudo comparou diversas características


de 68 empresas que estão em boa situação com 33 que faliram.

Uma das variáveis estudadas foi a razão entre o patrimônio e as dívidas


atuais. Grosso modo, trata-se do que a firma vale dividido pela quantia que ela
deve. As estatísticas amostrais são apresentadas a seguir:

Empresas bem sucedidas X 1  1,7256 Empresas falidas X 2  0,8236


S1  0,6393 S 2  0,4811

A estimativa da diferença da razão patrimônio/dívidas entre as firmas bem


sucedidas e aquelas que faliram é

X 1  X 2  1,7256  0,8236  0,902

Construa o intervalo de 95% confiança para a diferença das médias


Intervalo de confiança para a diferença nas médias de duas populações

2 – Exemplo caso de duas populações com variâncias diferentes


(Amostras independentes)
Em amostras de tamanhos diferentes não é recomendável admitir a hipótese de
variâncias populacionais iguais, a menos que ambas as amostras sejam
realmente grandes, como neste caso.
Vamos construir o intervalo de confiança admitindo variâncias diferentes.
Então, primeiro deve-se calcular v, o nº de graus de liberdade da estatística t
2 2
 S12 S 22   0,63932 0,48112 
     
v m n   2   68 33 
 2  84,0879  85
2
S1 m  
2
S n
 2
2 2
  2
0,6393 68
2
 

2
0,4811 33
2

Como as amostras são grandes, então
m 1 n 1 68  1 33  1 poderíamos aproximar pela normal 1,96

Ao nível de confiança  = 95% , o t(2,5%) é 1,9883. No Excel INVT(0,05;85) = 1, 9883


   S1 S 2
2 2
0,63932 0,48112
A margem de erro é tv     1,9883   0,2269
2 m n 68 33
A diferença entre as bem sucedidas e falidas é em média 0,902 com margem de
erro de 0,2269 para uma confiança de 95%. Alternativamente, o intervalo com 95%
confiança para a diferença das médias é 0,902  0,2269 ou (0,6751 , 1,1289).

A título de ilustração, admitindo variâncias iguais o intervalo é (0,6525 ; 1,1515)


Amostras emparelhadas

• Quando for necessário comparar, por exemplo, as vendas diárias


de duas filiais que operam com os mesmos produtos, ou os
resultados de um treinamento, confrontando o conhecimento antes
e depois do treinamento, os intervalos de confiança para a
diferenças das médias considerados até este momento não podem
ser aplicados, pois se referem a duas populações independentes.

• Agora, necessitamos analisar duas populações relacionadas, isto é,


duas populações dependentes.

• Neste caso, a variável de interesse será a diferença entre os pares


das duas amostras, no lugar das próprias amostras, que devem ter
o mesmo tamanho.
Intervalo de confiança para a diferença nas médias de duas populações
3- Caso de amostras emparelhadas
Considere duas populações Normais com média 1 e 2 possivelmente distintas e
com variâncias 12 e 22. Isto é

X1 ~ N(1,12) e X2 ~ N(2,22)

Considere amostras aleatórias de X1 e X2 (amostras dependentes ou


emparelhadas) com tamanhos idênticos (n), isto é

(x11,x21), (x12,x22),..., (x1i,x2i),..., (x1n,x2n) formam um conjunto de n observações


emparelhadas.

Em cada par amostrado pode-se calcular o desvio di=x1i-x2i para i=1,...,n

O valor esperado dos desvios é D = E(D) = E(X1-X2) = 1 - 2


Assim, o intervalo de confiança para a diferença entre 1 e 2 pode ser realizado
por meio do intervalo para a média dos desvios D .

   Sd    Sd 1 n 2 2
2 2
1 n
d  tn1     D  d  tn 1   onde d   d i e S d 
2
 di  nd 
2 n 2 n n i 1 n  1  i 1
Valores tabelados são estatísticas amostrais
Intervalo de confiança para a diferença nas médias de duas populações

3- Exemplo caso de amostras emparelhadas


Um fabricante de automóveis coleta dados do consumo de combustível para uma
amostra de n=10 carros em várias categorias de pesos, usando um tipo padrão de
gasolina com e sem determinado aditivo. Os motores foram ajustados para as
mesmas especificações antes de cada teste, e os mesmos motoristas foram
usados para as duas condições de gasolina (sem que o motorista em questão
soubesse qual gasolina estava sendo usada em cada teste particular). Dadas as
informações da amostra construa o intervalo com 95% de confiança para a
diferença do consumo médio com e sem aditivo.

10 10

d
i 1
i  1,7 d
i 1
i
2
 1,31

1 10 1,7
d   di   0,17
10 i 1 10
10

d
2
i
2
 10d
S d2  i 1
 0,1134
9

Para um nível de confiança de 95% tem-se que t9(2,5%)= INVT(0,05;9) = 2,2622


Intervalo de confiança para a diferença nas médias de duas populações

3- Exemplo caso de amostras emparelhadas


O intervalo para a média dos desvios entre os pares de observações das
amostras emparelhadas é

0,1134 0,1134
0,17  2,2622   D  0,17  2,2622
10 10

 0,5919   D  0,9319

Como o intervalo contém o zero não podemos afirmar que as médias dos
consumos com e sem aditivo na gasolina são diferentes.
Outros intervalos de confiança
Intervalo de confiança para a variância da Normal
Considere uma população Normal com média  e variância 2
desconhecidas da qual foi extraída uma amostra de tamanho n.

A partir dos registros amostrais foi calculada a variância amostral:

 
2
1 m
S 
2

m  1 i 1
xi  X

A distribuição amostral de (n-1)S2/2 é qui-quadrado com n-1 graus de


liberdade ou seja 2n-1. Com base nesta distribuição podemos determinar
um intervalo com probabilidade 1- de conter a variância populacional 2.
 
 2 
 2    (n  1) S 2 2     2

P   1
( n 1 ) S ( n 1 ) S
P  n1 1      n 1     1    2 
  2  2
 2   2   2   

 n 1    n 1  1  
Valores tabelados   2   2 
Substituindo a estatística amostra S2 por seu valor numérico, a expressão acima
deixa de ser uma probabilidade legítima e transforma-se no intervalo com 100(1-
)% de confiança de conter a variância da normal
(n  1) S 2 (n  1) S 2
 
2

   
 n21    n21 1  
2  2
Intervalo de confiança para a razão de variâncias

Considere duas populações Normais com média 1 e 2 possivelmente


distintas e com variâncias 12 e 22. Isto é

X ~ N(1,12)

Y ~ N(1,22)

Considere amostras aleatórias e independentes de X e Y e com tamanhos


m e n respectivamente, isto é

(x1,...,xm) e (y1,...,yn)

Todos os parâmetros são desconhecidos e o objetivo é construir


intervalos com 100(1-)% para a razão das variâncias
Intervalo de confiança para a razão de variâncias

As estatísticas amostrais S12 e S22 são independentes e a distribuição


amostral de seus múltiplos é uma distribuição qui-quadrado

(m  1) S12 (n  1) S 22
~  m2 1 ~  n21
 12  22

A razão das duas variáveis aleatórias acima segue uma distribuição F

S12
 m2 1 (m  1)  12  22 S12 Distribuição F com m-1 graus de
 2  2 2 ~ F( m 1;n 1) liberdade no numerador e n-1 graus
 n 1 (n  1) S 2  1 S 2
2
de liberdade no denominador
 22
Intervalo de confiança para a razão de variâncias

Com base nesta distribuição podemos determinar um intervalo com


probabilidade 1- de conter a razão das variâncias populacionais.

     2 S1
2 2
  
P Fm1,n1 1    2 2  Fm1,n 1     1  
  2   1 S2  2 

    S2  2
2 2
   S2 
2
P Fm1,n1 1   2  2  Fm1,n1   2   1  
  2  S1  1  2  S1 

Substituindo as estatísticas amostrais por seus valores numéricos, a


expressão acima deixa de ser uma probabilidade legítima e transforma-se no
intervalo com 100(1-)% de confiança de conter a razão das variâncias:

   S2  2    S2
2 2 2
Fm1,n1 1   2  2  Fm1,n 1   2
 2  S1  1  2  S1
Exercício 1

Numa experiência agronômica pretende-se avaliar o crescimento total de uma


certa espécie de plantas (expresso em peso seco) relativamente a dois regimes de
fertilização A e B. Ao fim de determinado tempo procedeu-se a medições, tendo-se
obtido os seguintes resultados:

a) Numa experiência anterior (com um elevado numero de plantas da mesma


cultivar) relativa ao tratamento A, obteve-se uma variância de 0.42. Verifique se os
dados atuais são consistentes com esse valor. Comente, justificando, se haveria
alguma(s) hipótese(s) necessária(s) à resolução do problema.

b) Verifique se os dois regimes de fertilização A e B evidenciam diferenças


significativas no que respeita ao crescimento das plantas. Explicite as hipóteses
necessárias à resolução do problema
Exercício 1
(a resolução também pode ser encontrada na planilha exercícios.xlsx)
a) Admitindo populações normais, vamos resolver a questão por meio do
intervalo de confiança para a variância da população A.

Primeiro deve ser calculada a variância da amostra extraída de A S A2  0,8197

Na sequência, para um nível de confiança de 95%, devem ser determinados


os valores críticos da distribuição qui-quadrado que deixam 2,5% de
probabilidade na cauda esquerda e 2,5% na cauda direita.

valor crítico da cauda direita = 16,01. No Excel INV.QUI(0,025;7)

valor crítico da cauda esquerda = 1,69. No Excel INV.QUI(0,975;7)

O intervalo com 95% de confiança para variância de A é

(n  1) S 2 (n  1) S 2 (8  1)0,8197 (8  1)0,8197
 
2
  2   0,3538   2  3,3953
    16,01 1,69
 n21    n21 1  
2  2
como o intervalo de confiança contém o valor 0,42 não temos razão para
afirmar, com 95% de confiança, que os dados
Exercício 1
(a resolução também pode ser encontrada na planilha exercícios.xlsx)
b) Admite-se a hipótese de normalidade.

O pressuposto de igualdade das variâncias pode ser avaliado por meio do


intervalo de confiança para a razão das variâncias. Assim, primeiro são
calculadas as variâncias em cada amostra

S A2  0,8197 S B2  0,9346

Na sequência, para um nível de confiança de 95%, devem ser determinados os


valores críticos da distribuição F que deixam 2,5% de probabilidade na cauda
esquerda e 2,5% na cauda direita.

valor crítico da cauda direita = 4,99. No Excel INV.F(0,025;7;7)


valor crítico da cauda esquerda = 0,20. No Excel INV.F(0,975;7;7)

O intervalo com 95% de confiança para a razão das variâncias é

   SA  A    SA 0,8197  A2  A2
2 2 2
0,8197
Fm1,n1 1   2  2  Fm1,n1   2  0,2  2  4,99  0,1756  2  4,3804
 2  B
S  B   B
2 S 0,9346  B 0,9346 B

Como o intervalo contém o 1 não temos razão para afirmar que as variâncias são
diferentes. Portando, o pressuposto de variâncias iguais é plausível,
Exercício 1
(a resolução também pode ser encontrada na planilha exercícios.xlsx)
b) As médias amostrais são X A  5,8033 X B  5,1178

O intervalo de confiança para a diferença das médias onde se admite a


hipótese de populações normais com variâncias iguais é

  2  1 1    2  1 1 
X A  X B  tm n2   S pooled     1   2  X A  X B  tm n2   S pooled   
2 m n 2 m n

onde S 2

8  10,8197  8  10,9346
 0,8772
882
pooled

para um nível de confiança de 95% (=5%), o t crítico com 14 graus de


liberdade é 2,1448. (No Excel usar =INVT(0,05;14) )

O intervalo com 95% de confiança para a diferença das médias é


(-0,3168 ; 1,6899).

Como o intervalo contém o zero não podemos afirmar que as médias são
diferentes.
Exercício 2

Pretende-se verificar se um dado tratamento aos metais tem algum


efeito na quantidade de metal removido numa certa operação.

Uma amostra aleatória de 100 peças foi introduzida num liquido


durante 24 horas sem ser feito o tratamento, obtendo-se uma média
de 12.2 mm de metal removido e um desvio padrão de 1.1 mm.

Uma segunda amostra de 200 peças foi primeiro tratada e depois


introduzida durante 24 horas no tal liquido, resultando uma média de
9.1 mm de metal removido com um desvio padrão de 0.9 mm.

Determine um intervalo de confiança a 98% para a diferença entre as


verdadeiras quantidades médias de metal removido sem tratamento e
com tratamento.

Reduzirá o tratamento a quantidade de metal removido?


Exercício 2
Teste de hipóteses
Teste de hipóteses para a média
As estatísticas amostrais como médias e proporções fornecem estimativas
pontuais dos parâmetros populacionais, porém, em função da variabilidade
inerente à amostragem aleatória, as estatísticas amostrais e os parâmetros
populacionais raramente coincidem.

É justamente na discrepância entre a estatística amostral e a hipótese sobre o


valor de um parâmetro populacional que encontraremos evidências para validar
ou refutar a hipótese acerca do parâmetro.

Desvios pequenos podem ser atribuídos ao erro amostral, inerente ao processo


de amostragem, e neste caso é razoável admitir que a hipótese seja verdadeira,
isto é, que a amostra poderia ter sido extraída de uma população, cujo parâmetro
populacional assume o valor alegado pela hipótese.

Por sua vez, discrepâncias grandes sugerem que a variabilidade não se deve
apenas ao erro amostral, mas a inadequação da hipótese acerca do valor do
parâmetro, ou seja, a hipótese é falsa.

Seguindo esta lógica, os testes de hipóteses decidem pela aceitação


(variabilidade casual atribuída ao erro amostral) ou pela rejeição (variabilidade
real não atribuída apenas ao erro amostral) da hipótese sobre o valor do
parâmetro populacional.
Teste de hipóteses para a média
O teste compara duas hipóteses: a hipótese nula H0 e a hipótese alternativa H1.

Por exemplo, com base no valor da média amostral podemos avaliar a


plausibilidade da hipótese da média populacional  ser igual a um determinado
valor 0. Assim, podemos formular as seguintes hipóteses acerca da média
populacional:

H0: =0 O teste permite avaliar a evidência fornecida


pelos dados sobre alguma afirmação (expressa
H1: 0 na hipótese nula H0) relativa à população.

Note que a hipótese H0 é uma afirmação sobre o valor do parâmetro populacional,


enquanto H1 oferece uma alternativa à alegação feita na hipótese nula.

A hipótese alternativa H1: 0 é bilateral, pois abrange valores menores e


maiores que 0, mas em outras situações pode assumir outras especificações,
por exemplo, nos testes unilaterais: H1: >0 ou H1: <0.

Para realizar o teste é fundamental estabelecer a distribuição amostral do


estimador do parâmetro populacional correspondente às hipóteses. No caso da
média, sabemos pelo Teorema do Limite Central que a distribuição da média
amostral é normal com média igual a média populacional  e variância 2/n.
Teste de hipóteses para a média
Se a hipótese nula é verdadeira, a média amostral X segue distribuição
normal com média igual a 0.

Uma grande discrepância entre X e 0 indica


que o valor da média amostral situa-se nas
Distribuição da média amostral
caudas da distribuição normal, ou seja, é
pouco provável que o valor observado da
média amostral provenha de uma população
com média igual a 0.

Este resultado sugere rejeitar H0: =0.

Um pequeno desvio entre X e 0 sugere que a diferença é


casual e se deve apenas ao erro amostral e, portanto, 0 é
um valor plausível para a média populacional.

Resultado que sugere a aceitar H0: =0.


Teste de hipóteses para a média
X  0 desvio entre a média amostral e a (hipotética) média
populacional 0
Não dá uma idéia da magnitude do desvio se pequeno ou grande

X  0 desvio entre a média amostral e a (hipotética) média


 2 populacional 0 expresso em número de erros-padrão 2 n
n Dá uma idéia da magnitude do desvio (> 2 desvios é grande)

Valores de z como
este são bastante
Teorema do limite central improváveis se H0 é
verdadeira
 2 
X ~ N  0 , 
 n 

z é normal com média


zero e desvio-padrão 1
X  0
~ N 0,1
Estatística Valores de z como
z este são bastante
teste
 n
2
prováveis se H0 é
verdadeira
Teste de hipóteses para a média
Podemos definir uma região com uma pequena probabilidade  de
ocorrência nas caudas da distribuição amostral e rejeitar a hipótese nula
H0: =0 se o valor de z estiver nesta região.

probabilidade 
-z(/2) e z(/2) são valores
tabelados em função do
nível de significância 
(valores críticos)
probabilidade
1-

A região de rejeição tem probabilidade /2 em cada cauda da distribuição.

Neste caso a hipótese alternativa é bilateral, H1: 0, logo grandes


desvios negativos ou positivos indicam que a hipótese nula não é
plausível.

A probabilidade  é o nível de significância do teste e usualmente adota-


se o valor de 1%, 5% ou 10%.
Teste de hipóteses para a média
A regra de decisão é muito simples

valor para a estatística Rejeita-se a hipótese H0: =0


teste z fora do intervalo
[-z(/2), z(/2)]

valor para a estatística


teste z no intervalo Aceita-se a hipótese H0: =0
[-z(/2), z(/2)]

A decisão sobre aceitar ou rejeitar a validade da hipótese


nula baseia-se nos resultados de uma amostra, os quais
estão sujeitos à variabilidade inerente ao processo de
amostragem, logo a regra de decisão não está livre de erros e
decisões incorretas podem ser tomadas.
Teste de hipóteses para a média
1) Se a média populacional é 0 (H0 é verdadeira), podemos
selecionar uma amostra que produza uma estatística teste
cujo valor esteja na região de rejeição.

Neste caso incorremos no erro tipo I: rejeitar uma hipótese


verdadeira.

2) Se a amostra selecionada é proveniente de uma população


com média diferente de 0, o valor da estatística teste pode
pertencer ao intervalo [-z(/2), z(/2)], a região de aceitação
da hipótese nula.

Neste caso, incorremos no erro tipo II: aceitar uma hipótese


falsa.
Teste de hipóteses para a média
O importante é reconhecer que estamos tomando decisões em condições
de incerteza e, portanto, sujeitos a dois tipos de erro:

Erro tipo I : rejeitar H0 quando H0 é verdadeira


Erro tipo II : aceitar H0 quando H0 é falsa

Exemplo:

H0 réu é inocente (todos são inocentes até que se prove o contrário)


H1 réu é culpado
Teste de hipóteses para a média
A probabilidade do erro tipo I é dada pelo nível de significância  especificado para o teste

A probabilidade do erro tipo II é denotada por .

Estas probabilidades estão inversamente relacionadas.

A redução da probabilidade  do erro tipo I aumenta o valor crítico z(/2), o que reduz a região de rejeição
da hipótese nula nas caudas da distribuição amostral e, portanto, aumenta a probabilidade do erro tipo II.

Enquanto a hipótese nula estipula um valor 0 para a média populacional, a hipótese alternativa admite
que a média pode ser qualquer valor desde que diferente de 0.

Assim, não há um único valor para a probabilidade , mas um conjunto de valores calculados para cada
um dos possíveis valores para a média populacional. Em função da dificuldade de calcular , o
procedimento usual em testes de hipóteses consiste em especificar uma pequena probabilidade  de erro
tipo I (nível de significância) e ignorar o erro tipo II (STEVENSON, 1981).

Note que o erro tipo I só pode ocorrer quando a hipótese H0 é verdadeira e o erro tipo II só pode
acontecer quando a hipótese H0 é falsa.

Assim, quando rejeitamos H0 existe uma pequena probabilidade  de estarmos cometendo o erro tipo I.
Porém, quando aceitamos H0 como verdadeira, a probabilidade  de estarmos cometendo o erro tipo II
pode ser grande.

Por esta razão, HOFFMANN (1998) recomenda que quando o resultado de um teste de hipótese é
significativo, a conclusão deve ser escrita em termos de “rejeitar H0 ao nível de significância ”, porém
quando o resultado é não significativo, a conclusão deve ser escrita em termos de “não há razão para
rejeitar H0 ao nível de significância ”, mas não em termos de “aceitar H0”.
Teste de hipóteses para a média

Exemplo 1: Um comprador de tijolos julga que a qualidade dos tijolos


está deteriorando. Sabe-se pela experiência passada que a média de
resistência ao esmagamento destes tijolos é de 400 libras com desvio
padrão de 20 libras. Uma amostra de 100 tijolos deu uma média de 395
libras. Teste a hipótese de que a qualidade média não se alterou contra a
alternativa de que se tenha deteriorado. (considere o nível de
significância de 5%)

H0: μ = 400
Teste bilateral
Ha: μ ≠ 400
Calculando o valor da estatística teste
zc = -1,96 zc = 1,96
= 395 – 400 = -5 = -2,5
20/√100 2

CONCLUSÃO:
Valor da variância é conhecido e a
rejeitamos H0, isto é,
amostra é grande (>30), então podemos aproximar a resistência não é
pela normal. Logo para significância de 5%, zc = 1,96 maior que 400 libras.

Valor calculado está localizado na região de rejeição de H0


Teste de hipóteses para a média
Exemplo 2: Os registros dos últimos anos de um colégio atestam para os calouros
admitidos que a nota média 115 pontos (teste vocacional). Para testar a hipótese de
que a média de uma nova turma é a mesma, tirou-se, ao acaso, uma amostra de 50
notas, obtendo-se uma média 118 e um desvio padrão 20. Admita  = 5%, para efetuar
o teste.
H0:  = 115 (hipótese nula, com 0 =115)
versus
H1:   115 (hipótese alternativa) Teste bilateral
Como  é desconhecida, a estatística do teste é: Usamos a distribuição t, pois
a variância não é conhecida,
X  0 118  115 mas como a amostra é
T= = = 1,06, grande (>30) poderíamos
S n 20 50 aproximar pela normal.
Para = 5% /2 o valor t/2 da tabela t-Student bicaudal com ( n– 1) = 49 graus de liberdade
é t/2 =.2,093.
Como |T| = 1,06 < 2,093, concluímos que não rejeitamos H 0 , isto é, ao nível de 5% de
significância concluímos que a nova turma tem a mesma nota média no teste vocacional que
os do registro dos últimos anos.
Teste de hipóteses para a média
Exemplo 3: Um trecho de uma rodovia, quando é utilizado o radar, são
verificadas em média 7 infrações diárias por excesso de velocidade. O
chefe da polícia acredita que este número pode ter aumentado. Para
verificar isso, o radar foi mantido por 10 dias consecutivos. Os resultados
foram:
8, 9, 5, 7, 8, 12, 6, 9, 6, 10
Os dados trazem evidências do amento das infrações? Use  = 10%
H0: µ ≤ 7
Teste unilateral com região de
Ha: µ > 7 rejeição no lado direito
Média amostral = 8+9+5+7+8+12+6+9+6+10 = 8
10
Não conhecendo σ, estimamos s, onde s = 2,1 t = 1,5 tc = 1,83
A amostra é pequena (<30) com variância desconhecida, CONCLUSÃO: Ao nível de

logo devemos usar a distribuição t, significância de 10 % não

Estatística teste = = 1,5 rejeitamos H0, o que implica que


o número de infrações não teve
um aumento significativo.
Calculando valor crítico (tc) no Excel = INVT(0,10;9) = 1,83
Teste de hipóteses para a média

Exemplo 4: Uma pesquisa feita em universidades mostrou que


professores ganham em média de R$45.678. Um deles contestou a
pesquisa e disse que a real média seria de R$48.000 com um desvio
padrão de R$7.000. Foram analisados 81 professores para que ele
chegasse a essa média amostral. O que o professor disse é válido? (nível
de significância de 5%)

Teste unilateral com


H0: μ ≥ 45.678
região de rejeição no
Ha: μ < 45.678 lado esquerdo
zc = -1,65

A amostra é grande (>30), logo podemos


Aproximar pela normal

= 48.000 – 45.678 = 2.322 = 2,98


7.000/√81 777,77
CONCLUSÃO: O professor está
correto (Não rejeitamos H0). O
Calculando valor crítico no Excel
salário é maior que R$ 45.678
para 5%, zc = INV.NORMP(0,05) = -1,65 considerando o nível de
significância de 5%.
Teste de hipóteses para a proporção
Em grandes amostras, a aproximação à curva normal pode ser utilizada
em outros estimadores, tal como o estimador de proporção, cuja
distribuição amostral converge para uma normal com média igual a
proporção populacional p e variância igual a p(1-p)/n:

 p1  p  
ˆp ~ N  p, 
 n 
Com base na distribuição amostral do estimador pode-se construir um
teste de hipóteses para a proporção populacional semelhante ao teste da
média:

H0: p=p0
H1: pp0
Sob a hipótese nula a estatística teste tem distribuição normal padrão:
pˆ  p0
Estatística teste ~ N 0,1
p0 (1  p0 ) n
Para um dado nível de significância  a hipótese nula é rejeitada se o
valor absoluto da estatística teste for maior que o valor z(/2)
Teste de hipóteses para a proporção
Exemplo 1: Um certo analgésico adotado em determinado hospital é eficaz em 70% dos
casos.

Um grupo de médicos chineses em visita a esse hospital afirma que a utilização de


acupuntura produz melhores resultados.

A direção do hospital resolve testar o método alternativo em 80 pacientes, com a


finalidade de adotá-lo em definitivo se ele apresentar eficiência satisfatória numa
proporção de casos maior que do anestésico atual.

Na amostra foi observado que em 85% dos casos o método de acupuntura apresenta a
eficiência satisfatória. Que decisão tomar ao nível de 5% de significância?

Trata-se de um teste sobre uma proporção p, onde p é a eficiência do método


alternativo.

H0 p=0,7
H1 p>0,7
Teste de hipóteses para a proporção
Proporção amostral pˆ  0,85

p0 1  p0  0,7  0,3
Erro padrão sob a Sp    0,0512
hipótese nula n 80
pˆ  p0 0,85  0,7
Estatística teste z   2,94
Sp 0,0512

H0 p=0,7 Teste unilateral com região


H1 p>0,7 de rejeição no lado direito

1,65
Valor crítico para um nível de significância de 5% Zc = INV.NORMP(0,95) = 1,65

Como z > 1,65 concluímos pela rejeição da hipótese nula ao nível de significância de
5%, isto é, o método de acupuntura produz melhores resultados que o método
tradicional.
Teste de hipóteses para a proporção
Exemplo 2: Uma emissora de TV garante que em determinado horário sua audiência é
de 80%. Uma pesquisa realizada em 100 domicílios revela que 62 aparelhos estavam
ligados na emissora no horário indicado. Teste a hipótese da audiência ser a anunciada,
ao nível de significância de 5%.

Trata-se de um teste sobre uma proporção p, onde p é a audiência.


H0 p=0,8 Teste unilateral com região de
H1 p<0,8 rejeição no lado esquerdo

Proporção amostral pˆ  0,62


-1,65
Erro padrão sob a p0 1  p0  0,8  0,2
hipótese nula Sp    0,04
n 100
pˆ  p0 0,62  0,8
Estatística teste z   4,5
Sp 0,04
Valor crítico para um nível de significância de 5% Zc = INV.NORMP(0,05) = -1,65
Como z < -1,65 concluímos pela rejeição da hipótese nula ao nível de significância de
5%, isto é, não poderemos aceitar a hipótese de uma audiência de 80%, tomando-se
por base os dados coletados em uma amostra de 100 indivíduos.
TESTES DE HIPÓTESES
COM DUAS AMOSTRAS
Teste de hipóteses para a diferença nas médias

O teste de hipóteses da diferença das médias de duas populações é


freqüentemente utilizado para determinar se é ou não razoável concluir
que as médias de duas populações são diferentes. Por exemplo:

– Se o mesmo produto oferecido por dois fornecedores diferentes apresenta a


mesma quantidade de peças com defeitos.

– Determinar se o novo remédio para controle de diabetes é eficiente


acompanhando dois grupos de pacientes, o primeiro grupo que recebeu o
remédio e o outro que recebeu apenas placebo, produto com a mesma
forma, porém sem o elemento ativo.

– O gerente de compras pode estar interessado em determinar se o mesmo


produto oferecido por dois fornecedores diferentes apresenta o mesmo prazo
real de entrega.

– Da mesma forma, o gerente de salários necessita conhecer se os salários da


mesma categoria de trabalhadores têm o mesmo valor em duas cidades
diferentes.
Teste de hipóteses para a diferença nas médias
1 - Caso de duas amostras independentes
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com variâncias 12 e 22, Isto é

X ~ N(1,12)

Y ~ N(1,22)

Considere amostras aleatórias de X e Y (amostras independentes) e com


tamanhos m e n respectivamente, isto é

(x1,...,xm) e (y1,...,yn)

Em cada amostra são calculadas a média e a variância ( X , Y , S12 , S22 ).

Todos os parâmetros são desconhecidos e desejamos testar a diferença


das médias:
H0 1 - 2 =  O critério de rejeição é semelhante ao utilizado
H1 1 - 2   nos testes de hipóteses para a média
Teste de hipóteses para a diferença nas médias
1.1 – Amostras independentes de duas populações com variâncias iguais
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com a mesma variância 12= 22= 2 .
H0 1 - 2 = 
Todos os parâmetros são desconhecidos e desejamos testar
H1 1 - 2  

Sob H0 a estatística teste tem distribuição t com m+n-2 graus de liberdade


X Y  
~ tm n2
 1 1
  
2
S pooled
m n
onde
S 2

m  1S12  n  1S 22
pooled
mn2 Variância combinada

1 m 2 2
S 
1
2
i
m  1  i 1
x  m X 

Variância amostral da amostra da população X

1 n 2 2
S 
2
2  i
n  1  i 1
y  nY 

Variância amostral da amostra da população Y
Teste de hipóteses para a diferença nas médias
1.1 – Exemplo amostras independentes de duas populações com variâncias iguais
Deseja-se estimar a diferença no consumo de combustível (km/l) entre as
versões Caminhonete (C) e Sedan (S) de um determinado modelo de
automóvel. Por estudos já realizados anteriormente (e ainda válidos)
sabe-se que os consumos destes automóveis são normalmente
distribuídos e tem variâncias idênticas. Uma amostra de 30 caminhonetes
e 15 sedans foi analisada obtendo-se as seguintes estatísticas amostrais
para o consumo:

X C  8,1748 km/l X S  8,8742 km/l


Caminhonetes Sedan
SC2  23,2012 (km/l) 2 S S2  38,6108 (km/l) 2

Admitindo um nível de significância de 5%, teste a hipótese de que o


consumos médios sejam idênticos (=0)
X Y  0
H0 C - S = 0 Estatística teste sob H0 ~ t 43
H1 C - S  0  1 1
  
2
S pooled
 30 15 
29SC2  14S S2
S 2
pooled 
43
Teste de hipóteses para a diferença nas médias
1.1 – Exemplo amostras independentes de duas populações com variâncias iguais
Primeiro é calculado o valor da variância combinada.
29  23,2012  14  38,6108
2
S pooled   28,2183
43
8,1748  8,8742
 0,4164
Após obtém-se o valor da estatística teste  1 1
28,2183  
 30 15 
Sob H0 a estatística teste tem distribuição t com 43 graus de liberdade.
O valor crítico ao nível de 5% (valor tabelado obtido pelo Excel) é
tcrítico = INVT(0,05,43) = 2,0167

Valor absoluto calculado (0,4164) < Valor crítico ao nível de 5% (2,0167),


logo não rejeitamos a hipótese nula (H0).

Conclusão: A um nível de 5% de significância não há evidências


amostrais que permitam rejeitar a hipótese de que os consumos médios
dos dois modelos sejam idênticos.
Teste de hipóteses para a diferença nas médias
1.2 – Amostras independentes de duas populações com variâncias diferentes
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com variâncias 12 e 22.
H0 1 - 2 = 
Todos os parâmetros são desconhecidos e desejamos testar
H1 1 - 2  

Sob H0 a estatística teste tem distribuição t com v graus de liberdade


X Y  
~ tv
2 2
S S
2
1
 2

onde  S1  S 2 
2 2
m n
m n 
v    2 Arredonde o resultado para cima
2
S1 m 2
 
S n
 2
2 2

m 1 n 1
1 m 2 2
S 
1
2
i
m  1  i 1
x  m X 

Variância amostral da amostra da população X

1 n 2 2
S 
2
2  i
n  1  i 1
y  nY 

Variância amostral da amostra da população Y
Teste de hipóteses para a diferença nas médias
1.2 – Exemplo amostras independentes de duas populações com variâncias diferentes
Deseja-se estimar a diferença no consumo de combustível (km/l) entre as
versões Caminhonete (C) e Sedan (S) de um determinado modelo de
automóvel. Por estudos já realizados anteriormente (e ainda válidos)
sabe-se que os consumos destes automóveis são normalmente
distribuídos. Uma amostra de 30 caminhonetes e 15 sedans foi analisada
obtendo-se as seguintes estatísticas amostrais para o consumo:

X C  8,1748 km/l X S  8,8742 km/l


Caminhonetes Sedan
SC2  23,2012 (km/l) 2 S S2  38,6108 (km/l) 2
Admitindo um nível de significância de 5%, teste a hipótese de igualdade
das médias (=0)

Estatística teste sob H0 2


 SC2 S S2 
H0 C - S = 0   
XC  XS  0  30 15 
H1 C - S  0 ~ tv onde v  2
S 2
S 2 
2
SC 30  
2 2
S 15
 S
2


C S
30  1 15  1
30 15
Teste de hipóteses para a diferença nas médias
Exemplo para o caso de duas populações com variâncias diferentes
O valor calculado da estatística teste (tcalc) é
8,1748  8,8742
tcalc   0,3823
23,2012 38,6108

30 15  23,2012 38,6108 
2

  
 30 15 
O nº de graus de liberdade v v   2  23
23,2012 30  38,6108 15
2 2

30  1 15  1

O valor crítico ao nível de 5% (valor tabelado obtido pelo Excel) para uma
distribuição t com v graus de liberdade é:
tcrítico = INVT(0,05,23) = 2,0687
Valor absoluto calculado (0,3823) < Valor crítico ao nível de 5% (2,0687),
logo não rejeitamos a hipótese nula (H0).

Conclusão: A um nível de 5% de significância não há evidências


amostrais que permitam rejeitar a hipótese de médias idênticas.
Teste de hipóteses para a diferença nas médias
Exemplo para o caso de duas populações com variâncias diferentes
(teste para igualdade de proporções)
Uma amostra de 50 residências em uma comunidade mostra que 10 delas
estão assistindo, pela TV, a um especial sobre a economia nacional. Em
uma segunda comunidade, 15 de uma amostra aleatória de 50 residências
estão assistindo ao especial na TV. Teste a hipótese de que a proporção
geral de espectadores nas duas comunidades não têm diferença, usando
um nível de significância de 5%.
H0: p1 - p2 = 0 O teste pode ser conduzido como o teste para avaliar a
H1: p1 - p2  0 diferença nas médias para amostras independentes.
pˆ1  pˆ 2  0
Estatística teste sob H0 z  ~ N (0,1)
pˆ1 (1  pˆ1 ) pˆ 2 (1  pˆ 2 )
pˆ1  10 / 50  0,2 n1  50 
pˆ 2  15 / 50  0,3 n2  50 n1 n2

Valor calculado para a estatística teste = z = -1,16


Valor crítico ao nível de 5% = zc = INV.NORMP(0,025) = 1,96
Conclusão: Como valor absoluto de z é menor que o valor crítico,
decidimos não rejeitar a hipótese nula.
Teste de hipóteses para a diferença nas médias
Exemplo para o caso de duas populações com variâncias diferentes
(teste para igualdade de proporções)
Em virtude dos protestes feitos sobre as más condições de trabalho em
certas fábricas de roupas dos EUA, em 1998 uma comissão conjunta do
governo e da indústria recomendou que as empresas que monitoram os
padrõe apropriados de produção tenham a permissão de utilizar uma
etiqueta “No Sweat” em seus produtos. Será que a presença dessas
etiquetas influencia o comportamento dos consumidores?
Uma pesquisa feita com residentes dos EUA e com idade acima de 18
anos perguntou-lhes que chance haveria de eles comprarem uma roupa
com a etiqueta “No Sweat”. Assim, cada entrevistado foi classificado
como um “valorizador da etiqueta” ou “não valorizador da etiqueta”. As
proporções amostrais por sexo são apresentadas na tabela abaixo:

Teste a hipótese de que as proporções dos que valorizam a etiqueta é a


mesma entre os homens e as mulheres. Use  = 5%.
Teste de hipóteses para a diferença nas médias
Exemplo para o caso de duas populações com variâncias diferentes
(teste para igualdade de proporções)
Hipóteses
H0: pM - pH = 0 O teste pode ser conduzido como o teste para avaliar a
H1: pM - pH  0 diferença nas médias para amostras independentes.

pˆ M  pˆ H  0
Estatística teste sob H0 z  ~ N (0,1)
pˆ M (1  pˆ M ) pˆ H (1  pˆ H )
pˆ M  0,213 nM  296 
nM nH
pˆ H  0,108 nH  251

Valor calculado para a estatística teste = z = 3,4181

Valor crítico ao nível de 5% = zc = INV.NORMP(0,025) = 1,96

Conclusão: Como valor absoluto de z é menor que o valor crítico,


decidimos rejeitar a hipótese nula. Ao nível de significância de 5% as
proporções de mulheres e homens que valorizam a etiqueta são
diferentes.
Amostras emparelhadas

• Quando for necessário comparar, por exemplo, as vendas diárias


de duas filiais que operam com os mesmos produtos, ou os
resultados de um treinamento, confrontando o conhecimento antes
e depois do treinamento, os procedimentos de teste de hipóteses
para diferença das médias utilizados até este momento não podem
ser aplicados, pois se referem a duas populações independentes.

• Agora, necessitamos analisar duas populações relacionadas, isto é,


duas populações dependentes.

• Neste caso, a variável de interesse será a diferença entre os pares


das duas amostras, no lugar das próprias amostras, que devem ter
o mesmo tamanho.
Teste de hipóteses para a diferença nas médias
3- Caso com amostras emparelhadas
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com variâncias 12 e 22. Isto é

X1 ~ N(1,12) e X2 ~ N(2,22)

Considere amostras aleatórias de X1 e X2 (amostras dependentes ou


emparelhadas) com tamanhos idênticos (n), isto é

(x11,x21), (x12,x22),..., (x1i,x2i),..., (x1n,x2n) formam um conjunto de n


observações emparelhadas.

Em cada par amostrado pode-se calcular o desvio di=x1i-x2i para i=1,...,n

O valor esperado dos desvios é D = E(D) = E(X1-X2) = 1 - 2

Assim, o teste da diferença entre 1 e 2 pode ser realizado por meio do


teste t com as hipóteses
H0 D = 0
H1 D  0
Teste de hipóteses para a diferença nas médias
3- Caso com amostras emparelhadas
• Como premissa, a população das diferenças tem distribuição
aproximadamente normal e a amostra das diferenças é extraída
aleatoriamente da população das diferenças.

• Assim a estatística teste sob H0 tem distribuição t com n-1 graus de


liberdade

d 0 1 n 1 n 2 2
~ t n 1 onde d   d i e S d 
2
 di  nd 
S d2 n i 1 n  1  i 1
n

• O teste segue o mesmo funcionamento do teste t para a média,


ou seja, a hipótese nula é rejeitada ao nível de significância 
se o valor absoluto da estatística teste é maior que o valor
tabelado para a tn-1(/2).
Teste de hipóteses para a diferença nas médias
3 - Exemplo caso com amostras emparelhadas
Um fabricante de automóveis coleta dados do consumo de combustível para uma
amostra de n=10 carros em várias categorias de pesos, usando um tipo padrão de
gasolina com e sem determinado aditivo. Os motores foram ajustados para as
mesmas especificações antes de cada teste, e os mesmos motoristas foram
usados para as duas condições de gasolina (sem que o motorista em questão
soubesse qual gasolina estava sendo usada em cada teste particular). Dadas as
informações da amostra teste ao nível de significância de 5% a hipótese de que
não há diferença entre o consumo médio obtido com e sem aditivo.

10 10

d
i 1
i  1,7 d
i 1
i
2
 1,31

1 10 1,7
d   di   0,17
10 i 1 10
10

 di2  10d
2

S d2  i 1
 0,1134
9

Para um nível de significância de 5% tem-se que t9(2,5%)= INVT(0,05;9) = 2,2622


Teste de hipóteses para a diferença nas médias
3 - Exemplo caso com amostras emparelhadas
O valor calculado da estatística teste é

d 0
~ t n 1 0,17
 1,59
2 t calculado =
S d 0,1134 10
n

Como o valor calculado da estatística teste (1,59) é maior que o valor crítico (2,262),
então podemos concluir pela não rejeição da hipótese nula, ou seja, não há diferenças
entre o consumo obtido com e sem o aditivo.
Teste de igualdade de variâncias

• Freqüentemente, é necessário verificar se é ou não razoável


concluir que as variâncias das duas populações são
diferentes.

• O teste F é um teste de hipóteses utilizado para verificar se


as variâncias de duas populações com distribuição normal
são diferentes, ou para verificar qual das duas populações
com distribuição normal têm mais variabilidade.

• De outra maneira, conhecidas duas amostras com qualquer


tamanho, o teste F dá condições para determinar se as duas
amostras pertencem à mesma população.
Teste de igualdade de variâncias
Considere duas populações Normais com média 1 e 2 possivelmente
distintas e com variâncias 12 e 22, Isto é

X ~ N(1,12)

Y ~ N(1,22)

Considere amostras aleatórias de X e Y (amostras independentes) e com


tamanhos m e n respectivamente, isto é

(x1,...,xm) e (y1,...,yn)

Em cada amostra são calculadas a média e o desvio-padrão ( X , Y , S12 , S22 ).

Todos os parâmetros são desconhecidos e desejamos testar a igualdade


das variâncias:

alternativamente
Teste de igualdade de variâncias
A estatística teste é a razão das variâncias amostrais

Sob H0 a estatística teste tem distribuição F com m+1 graus de liberdade


no numerador e n-1 graus de liberdade no denominador:

2
A maior variância amostral entra no numerador S 1
~ Fm 1;n 1
2
A menor variância amostral entra no denominador S 2

Comparando o F calculado (Fcalc) com o F crítico (Fc), se Fcalc>Fc, então a


hipótese nula deve ser rejeitada

Fm1;n1
Teste de igualdade de variâncias
Exemplo
Deseja-se verificar se há diferenças no consumo de combustível entre as versões
Caminhonete (C) e Sedan (S) de um determinado modelo de automóvel. Por
estudos anteriores sabe-se que os consumos destes são normalmente
distribuidos e, num processo onde foram coletadoas 30 iobservações para a
Caminhonete e 15 observações para o Sedan, obteve-se respectivamente
variâncias de 23,2012 (km/l)2 e 38,6108 (km/l)2. Teste a hipótese de que as
variâncias para os consumos dos dois modelos sejam idênticas, ao nível de
significância de 5%.
Como a amostra do Sedan apresentou a maior variância amostral, a
estatística teste tem distribuição F com 14 graus de liberdade no
numerador e 29 graus de liberdade no denominador:
S S2
2
~ F14, 29
SC
S S2 38,6108
O valor calculado da estatística teste é 2   1,6642
SC 23,2012
Ao nível de significância de 5% o valor crítico (obtido pelo Excel) é:
Fc = INVF(0,05;14;29) = 2,05
Conclusão: Ao nível de 5% de significância não podemos rejeitar a hipótese de
que as variâncias dos consumos dos dois modelos sejam idênticas, sendo as
diferenças encontradas explicadas por variações estatísticas no processo de
amostragem.

Você também pode gostar