Você está na página 1de 52

MAT02282 - ANÁLISE ESTATÍSTICA

NÃO PARAMÉTRICA

TESTES ENVOLVENDO UMA


AMOSTRA

Profª. Lisiane Selau


Testes para uma amostra

• Teste Binomial

• Teste do Quantil

• Teste Kolmogorov-Smirnov

• Teste de Lilliefors

• Alguns outros testes para verificar suposição de normalidade

• Gráfico Qqplot

2 Profª. Lisiane Selau


Teste Binomial
• É um teste de ajustamento ou aderência.

• O interesse é testar se a distribuição de probabilidade


desta variável é uma Bernoulli.
• A variável envolvida é do tipo binária (sim/não,
sucesso/fracasso,...).
• O objetivo é investigar a hipótese de que a probabilidade
associada a um dos possíveis resultados (digamos o
sucesso) é igual a um determinado valor de interesse.
• Por este motivo é chamado de teste de ajustamento
(aderência).
3 Profª. Lisiane Selau
• Tipo de variável: nominal binária.

• Suposição do teste: as observações constituem o resultado


de n observações independentes (X1,...,Xn) da distribuição de
Bernoulli com probabilidade  de sucesso (desconhecida).

• Hipóteses: seja 0 a probabilidade de sucesso da


distribuição de referência (aquela que queremos testar) e  a
probabilidade de sucesso da variável X na população de
onde a amostra foi selecionada.

H0 :    0
   0

H1 :    0
  
 0
4 Profª. Lisiane Selau
• Estatística de teste (ET): X = número de sucessos
observado na amostra.

• Distribuição exata da ET sob H0:

X ~ B(n; 0), onde E(X) = n0 e Var(X) = n0(1- 0)

• Distribuição assintótica: a medida que o tamanho da


amostra n cresce X ~ N(n0, n0(1-0)). Logo,

X  n 0  0,5
Z  N0,1
n
n 0 1  0 


• O valor (1/2) é uma correção de continuidade que melhora a


aproximação. Este valor deve ser subtraído de (X-n0) quando
(X-n0) > 0 e adicionado caso contrário.
5 Profª. Lisiane Selau
• Regra de decisão (região crítica) no teste exato:

1.Teste bilateral: valores das duas extremidades da distribuição


binomial onde a probabilidade associada aos valores da
extremidade inferior seja igual a 1 , da extremidade superior
igual a 2 , a soma 1 + 2 não exceda o nível de significância 
especificado para o teste e a região crítica contenha o maior
número de valores possível.

2.Teste unilateral a esquerda: valores da extremidade inferior da


distribuição binomial onde a probabilidade associada não exceda
o nível de significância  especificado.

3.Teste unilateral a direita: valores da extremidade superior da


distribuição binomial onde a probabilidade associada não exceda
o nível de significância  especificado.

6 Profª. Lisiane Selau


• Decisão utilizando p-valor:

O cálculo do valor p é feito da seguinte forma.


1.Teste bilateral: soma das probabilidades associadas ao valor
observado na amostra e todos os outros valores cuja
probabilidade é menor ou igual.
2.Teste unilateral a esquerda: soma das probabilidades
associadas ao valor observado na amostra e todos os outros
valores situados a esquerda dele.
3.Teste unilateral a direita: soma das probabilidades associadas
ao valor observado na amostra e todos os outros valores situados
a direita dele.

• Caso Assintótico: no caso do uso da distribuição assintótica


de X (normal), a delimitação da região crítica e o cálculo do
p-valor são uma aplicação direta da distribuição normal.
7 Profª. Lisiane Selau
Exemplo: Um jogador jogou uma moeda 15 vezes e saiu cara
em 13 dessas 15 jogadas. Este resultado deixou o jogador
desconfiado que a moeda pudesse estar viciada em favor de
cara. Teste esta hipótese a um nível de significância de 1%.
 = probabilidade de sair cara em uma jogada
H0:  = ½ (a moeda não está viciada a favor de cara)

H1:  > ½ (a moeda está viciada a favor de cara)

X é o número de caras que saem em 15 jogadas X~B(15; 0,5)

P(X  13) = P(X=13) + P(X=14) + P(X=15)


= 15C13(0,5)13(0,5)2 + 15C14(0,5)14(0,5)1 + 15C15(0,5)15(0,5)0

P(X  13) = 0,00369 = 0,369% 0,369% < 1%

Conclusão: Rejeitamos H0, ou seja, a um nível de significância de 1%,


podemos concluir que a moeda deve estar viciada para cara.
8 Profª. Lisiane Selau
Exemplo: Uma máquina que produz parafusos é considerada sob
controle se a sua produção de defeituosos não ultrapassar 5%.
Uma amostra de 10 parafusos é selecionada aleatoriamente e
verificado que 4 deles são defeituosos. Baseado nesta amostra e
utilizando nível de significância de 5% avalie se a máquina requer
ou não assistência.
 = probabilidade de sair parafuso defeituoso
H0:  = 0,05 (a máquina está sob controle)
H1:  > 0,05 (a máquina requer assistência)
X: nº de parafusos defeituosos na amostra de 10 X~B(10; 0,05)

Teste: Rejeita-se H0 se X é grande  Depende do   Região crítica

P(X = 10)  0 P(X = 9)  0 P(X = 8)  0 P(X = 7)  0

P(X = 6)  0 P(X = 5)  0 P(X = 4)  0 P(X = 3) = 0,01

P(X  3) = 0,0115 P(X  2) = 0,0861

9 Profª. Lisiane Selau


Adotando  = 5%, a região crítica do teste será: RC = {X  3}

Como foi verificado 4 parafusos defeituosos, conclui-se, ao nível e significância


de 5%, que a máquina deve estar desregulada e requer assistência.

p-valor = P (rejeitar H0 | H0 é verdadeira) = P(X  4 |  = 0,05) = 0,001028

Poder = P (rejeitar H0 | H0 é falsa) = P(X  3 |  > 0,05)

P(X  3 |  = 0,06) = 0,0188 P(X  3 |  = 0,07) = 0,0283

P(X  3 |  = 0,08) = 0,0401 P(X  3 |  = 0,09) = 0,0540

Poder
1,0

0,8

0,6

0,4

0,2

0,0
0,2

0,5

0,8
0,05
0,08
0,11
0,14
0,17

0,23
0,26
0,29
0,32
0,35
0,38
0,41
0,44
0,47

0,53
0,56
0,59
0,62
0,65
0,68
0,71
0,74
0,77

0,83
0,86
0,89
0,92
0,95
0,98
10 Profª. Lisiane Selau
Exact binomial test

No R
data: 4 and 10
number of successes = 4, number of trials = 10, p-value = 0.001028
alternative hypothesis: true probability of success is greater than 0.05
> x=seq(0,10) 95 percent confidence interval:
0.1500282 1.0000000
> prob=dbinom(x,10,0.05)
sample estimates:
> esquerda=pbinom(x,10,0.05) probability of success
0.4
> direita=1-pbinom(x-1,10,0.05)

> cbind(x,prob,esquerda,direita)

> plot(x,prob,type="h")

> binom.test(4,10,0.05,"greater")

"two.sided", "greater" ou "less"

11 Profª. Lisiane Selau


No SPSS

 Data
 Weight cases

12 Profª. Lisiane Selau


No SAS

data parafuso;
input defeito $ count;
datalines;
sim 4
nao 6
;
proc freq data= parafuso order= data;
exact bin;
tables defeito / bin(p=0.05 level=1);
weight count;
run;

13 Profª. Lisiane Selau


Exemplo: Certo grupo de ambientalistas decidiu realizar uma
campanha de conscientização sobre a seleção de lixo
reaproveitável em uma comunidade na qual sabe-se que 30% dos
domicílios selecionam lixo. Se, ao final da campanha, 32 de 80
domicílios amostrados aleatoriamente estiverem selecionando o
lixo, você conclui que houve mudança de comportamento na
comunidade (=0,05)?
 = probabilidade do domicílio fazer seleção do lixo
H0:  = 0,3 (não alterou a conscientização)

H1:  > 0,3 (aumentou a conscientização)


X: nº de domicílios que fazem seleção do lixo em 80 X~B(80; 0,3)

Teste: Rejeita-se H0 se X é grande  Depende do   Região crítica

P(X  32) = 0,0360 = p-valor


Como seria a região
crítica se a hipótese
> binom.test(32,80,0.30,"greater") alternativa fosse bilateral?

14 Profª. Lisiane Selau


Utilizando a aproximação normal:
Para  = 0,05 a região crítica é dada por: rejeita H0 se Z ≥ 1,654
onde Z é a estatística do teste assintótico que é dada por:

X  n 0  0,5 32  80 * 0,3   0,5


Z   1,8298
n 0 1  0  80 * 0,3 * 0,7

Conclusão: com 95% de confiança, rejeita-se H0, ou seja, há


evidências estatísticas ( = 0,05) de que a verdadeira proporção
de domicílios que fazem seleção de lixo depois da campanha seja
maior que 30%.
Calculando o p-valor: p-valor = P(Z ≥ 1,8298) = 0,03364
E se não utilizar a correção de continuidade? neste caso o p-valor
seria P(Z ≥ 1,9518) = 0,02548. Note que este valor é menos
próximo do p-valor do teste binomial exato (calculado antes e
igual a 0,0360).
15 Profª. Lisiane Selau
No SAS

data lixo;
input seleciona $ count;
datalines;
sim 32
nao 48
;
proc freq data= lixo order= data;
exact bin;
tables seleciona / bin(p=0.3 level=1
correct);
weight count;
run;

16 Profª. Lisiane Selau


Exercício 1: Certo melhoramento seria introduzido num
determinado bairro da capital, se no mínimo 80% da população
se manifestasse favorável a ele. Numa consulta a 100
moradores, 76 se pronunciaram a favor e 24 contrários. Ao nível
de 1% de significância qual seria o número mínimo de votos
favoráveis para que o melhoramento fosse aprovado?
Resposta: RC = X  90
(pelo menos 90 pessoas favoráveis)

Exercício 2: Admitindo-se a proporção de 3:1 em F1, da lei de


Mendel, para 80 observações obteve-se o seguinte resultado:
dominante: 56 e recessivo: 24. Utilizando  = 5%, verifique se
esses dados estão de acordo com a lei:
a) Teste pela Binomial
Resposta: a) p-valor=0,3027
b) Aproximando pela Normal b) p-valor = 0,3662
c) Resolva com recurso computacional

17 Profª. Lisiane Selau


Exercício 3: Em um estudo sobre efeitos do estresse, um
pesquisador ensinou a 18 estudantes universitários dois métodos
diferentes de dar o mesmo nó. Metade dos estudantes (escolhidos
aleatoriamente) aprendeu primeiro o método A, e metade aprendeu
primeiro o método B. Mais tarde (à meia-noite, depois de um exame final
de 4 horas) cada estudante foi solicitado a dar o nó. A predição era que o
estresse induziria uma regressão, isto é, que os estudantes retornariam
ao primeiro método de dar o nó. Como resultado obteve-se que 16
estudantes utilizaram o primeiro método aprendido e apenas 2 utilizaram
o segundo método. Teste se o estresse induziu à regressão, com nível
de significância de 1%. Resposta: p-valor=0,000656 (RC – X15)

Exercício 4: Suponha que a experiência tenha mostrado que dos


alunos submetidos a determinado tipo de prova, 20% são reprovados.
Se de uma determinada turma de 100 alunos, são reprovados apenas
13, pode-se concluir, ao nível de significância de 5%, que os alunos
desta turma são melhores? Resposta: p-valor (unilateral) = 0,0469
p-valor (bilateral) = 0,0811
18 Profª. Lisiane Selau
Exercício 5: Um exame é composto de 100 testes do tipo certo-
errado. (a) Determine o número mínimo de testes que um aluno deve
acertar para que se possa, ao nível de significância de 5%, rejeitar a
hipótese de que o aluno nada sabe sobre a matéria e respondeu ao
acaso, em favor da hipótese de que o alunos sabia alguma coisa
sobre a matéria do teste? (b) Qual seria este mínimo, se fosse
adotado o nível de significância de 1%? Resposta: a) RC = X  59
b) RC = X  63

Exercício 6: O rótulo de uma caixa de sementes informa que a


taxa de germinação é de 90%. Entretanto, como a data de validade
está vencida, acredita-se que a taxa de germinação seja inferior a
este número. Faz-se um experimento e de 400 sementes, tomadas
ao acaso, 350 germinam. Qual a conclusão ao nível de 5% de
significância? Resposta: p-valor = 0,0601

19 Profª. Lisiane Selau


Teste do Quantil
• Chamaremos de teste do Quantil o teste Binomial quando
utilizado para testar hipóteses sobre algum quantil (por
exemplo, a mediana) de uma distribuição de probabilidades.
• Tipo de variável: no mínimo ordinal.

• Hipóteses Estatísticas: H0 : Q  q0
Q  q0

H1 : Q  q0
Q  q
 0

onde Q é o quantil de interesse (por exemplo, o primeiro quartil,


a mediana, o oitavo decil, ...) na população e q0 é o valor de
referência do respectivo quantil.
20 Profª. Lisiane Selau
• Estatística do Teste:
• T1= número de observações na amostra  q0.

• T2= número de observações na amostra > q0.

• Distribuição da ET sob H0: utiliza-se a distribuição


Binomial(n,0) onde 0 é a probabilidade acumulada no
quantil a ser testado.
mediana  0 =0,5 primeiro quartil  0 =0,25 oitavo decil  0 =0,80

• Assim como no teste binomial a aproximação pela normal


também é válida para tamanhos de amostras grandes.
• Região Crítica e p-valor: utilizam-se as mesmas ideias do
teste binomial para construção.
• Teste (regra de decisão): rejeita-se H0 se T1 pertence a
região crítica (lado esquerdo) ou se T2 pertence a região
crítica (lado direito).
21 Profª. Lisiane Selau
Exemplo: testar a hipótese de que a amostra de dados observada
provém de uma distribuição cujo terceiro quartil é o número 193, com
nível de significância igual a 5%.
{189, 233, 195, 160, 212, 176, 231, 185, 199, 213, 202, 193, 174, 166, 248}

H0: Q3=193
H1: Q3≠193
Estatística do Teste:
T1 = observações ≤ 193 = 7 T2 = observações > 193 = 8
Região Crítica: Se H0 é verdadeira ET~Binomial(15,0,75)
X P(X=x)
0 0,000000
1 0,000000
2 0,000001
3 0,000011
4 0,000103
5 0,000680 Portanto, Rejeita-se H0 se T1≤7 ou T2≥15
6 0,003398
7 0,013107
8 0,039320
9 0,091748
10 0,165146
11 0,225199
12 0,225199
13 0,155907
14 0,066817
22 15 0,013363
Profª. Lisiane Selau
Cálculo do p-valor: mesma ideia do teste binomial.

Neste exemplo: P(X≤7| 0=0,75)=0,0173

Decisão: rejeita-se H0 pois T1=7 pertence a região crítica ou,


equivalentemente, porque p-valor < 0,05.

Conclusão: Há evidências estatísticas (p-valor = 0,0173) de que


o terceiro quartil da população que gerou a amostra seja diferente
de 193. Os dados indicam que seja um valor maior que 193 (dado
que o terceiro quartil amostral é 212,5).

23 Profª. Lisiane Selau


No R:

> x=seq(0,15)
> prob=dbinom(x,15,0.75)
> cbind(x,prob)
> pbinom(7,15,0.75) + (1-pbinom(14,15,0.75))

Cálculo do p-valor:
P(X≤7| 0=0,75)=0,0173

> pbinom(7,15,0.75)

> binom.test(7,15,0.75)

Para calcular o quantil 075 no R utilize o comando:


> y=c(189, 233, 195, 160, 212, 176, 231, 185, 199, 213, 202, 193, 174, 166, 248)
> quantile(y)

24 Profª. Lisiane Selau


No SPSS:

25 Profª. Lisiane Selau


Exercício: um fabricante de automóveis planeja um novo modelo
e deseja que o banco do motorista tenha espaço suficiente para
as pernas (mas sem deixar espaço sobrando). Para tal
planejamento é necessário saber a altura do motorista. Como a
altura dos motoristas é variável a ideia é planejar o banco tal que
pelo menos 80% dos motoristas tenham espaço suficiente.
Pesquisas anteriores apontam que 80% dos motoristas tem altura
até 190 cm. Uma amostra de motoristas é selecionada ao acaso e
as alturas observadas são apresentadas abaixo. Realize um teste
adequado.

alturas = c(177, 178, 177, 179, 177, 180, 182, 179, 180, 183,
181, 176, 181, 179, 177, 183, 177, 181, 178, 179)

Resposta: p-valor = 0,0000

26 Profª. Lisiane Selau


Teste Kolmogorov-Smirnov
• Em 1933 Kolmogorov definiu a estatística e em 1939
Smirnov a utilizou para construir o teste.

• É um teste de ajustamento ou aderência.

• É apropriado em situações onde queremos testar se a


população de onde a amostra foi selecionada apresenta
exatamente uma determinada distribuição de
probabilidade, chamada aqui de referência.

• A distribuição precisa ser totalmente especificada. Se


os parâmetros forem estimados a partir dos dados a
região crítica não é mais válida.
27 Profª. Lisiane Selau
• Tipo de variável: quantitativa contínua.

Pode ser aplicado para variável qualitativa ordinal ou


quantitativa discreta, mas, nestes casos, o teste é conservador.

• Hipóteses Estatísticas:

H0: amostra provêm de uma população cuja distribuição acumulada é F0(x)


H1: amostra não provêm de uma população cuja distribuição acumulada é F0(x)

• Hipóteses alternativas unilaterais podem ser formuladas.

28 Profª. Lisiane Selau


• Estatística do Teste:

D  max  F0 Xi   S X Xi  , F0 Xi   S X Xi-1  


onde SX(X) é a função distribuição acumulada empírica (observada na
amostra) e F0(x) é a função distribuição acumulada da distribuição de
referência (a que queremos testar) – P(X ≤ x) .

• Distribuição da ET sob H0: a distribuição amostral da


estatística D é contínua, exata e tabelada quando o tamanho da
amostra n é pequeno. Para amostras de tamanho grande pode-
se utilizar a distribuição assintótica da ET.

• Teste (regra de decisão): a região crítica do teste é formada


pelo intervalo entre o quantil tabelado e o valor 1.
29 Profª. Lisiane Selau
Exemplo: Suponhamos uma amostra aleatória de tamanho n = 5, com os
seguintes valores para X:
0,28 0,47 0,54 0,63 0,68
Deseja-se saber se os dados são uniformemente distribuídos entre 0 e 1.
Use  = 5%.
H0: X segue o modelo U(0,1)
H1: X não segue o modelo U(0,1) F(x)=x = |0,28-0,20|
= i/n

X S(x) F(X) D- D+ = |0,47-0,20|


Valores
observados 0,28 0,20 0,28 0,08 0,28
em ordem
0,47 0,40 0,47 0,07 0,27
0,54 0,60 0,54 0,06 0,14
0,63 0,80 0,63 0,17 0,03
0,68 1 0,68 0,32 0,12
0,32 0,28
Usando a tabela temos que o valor crítico para D é 0,563 e portanto
a hipótese nula não deve ser rejeitada, ou seja, pode-se considerar
que os dados seguem a distribuição uniforme.
30 Profª. Lisiane Selau
Exemplo: Em um estudo sobre pesos (em gramas) do rim de 36
cachorros obteve-se a tabela abaixo. Deseja-se saber se os
dados são normalmente distribuídos com média 85 gr e desvio
padrão 15 gr. Use  = 5%.

58 78 84 90 97 70 90 86 82
59 90 70 74 83 90 76 88 84
68 93 70 94 70 110 67 68 75
80 68 82 104 92 112 84 98 80

H0: X segue o modelo N (85, 15)


H1: X não segue o modelo N (85, 15)

A maior distância é encontrada para x=90  D=0,1472.

Usando a tabela temos que o valor crítico para D é 0,221 e


portanto a hipótese nula não deve ser rejeitada, ou seja, pode-se
considerar que os dados seguem a distribuição normal.
31 Profª. Lisiane Selau
No R

> amostra=c(58,78,84,90,97,70,90,86,82,59,90,70,74,83,90,76,88,84,68,93,70,
94,70,110,67,68,75,80,68,82,104,92,112,84,98,80)

> ks.test(amostra,"pnorm",85,15)

> plot(ecdf(amostra), verticals = T)

One-sample Kolmogorov-Smirnov test

data: amostra
D = 0.1472, p-value = 0.4162
alternative hypothesis: two-sided

32 Profª. Lisiane Selau


No SPSS
 Analyze
 Nonparametric Tests
 Legacy Dialogs
 1-Sampe K-S

CUIDADO: SPSS e
SAS utilizam média e
desvio padrão
estimados dos dados.

33 Profª. Lisiane Selau


No SAS

data rim;
input normal @@;
datalines;
58 59 67 68 68 68 70 70 70 70 74 75
76 78 80 80 82 82 83 84 84 84 86 88
90 90 90 90 92 93 94 97 98 104 110 112
;
proc univariate data=rim normaltest;
var normal;
run;

34 Profª. Lisiane Selau


Exercício 1: A seguinte amostra de tamanho n = 10 é obtida:
0,230 0,329 0,382 0,477 0,480 0,503 0,554 0,581 0,621 0,710
Teste a hipótese nula de que esta amostra provêm de uma U[0,1],
utilizando  = 0,05.
> ks.test(x,"punif",0,1) Resposta: D = 0.29, p-value = 0.3067

Exercício 2: A seguinte amostra de tamanho n = 5 é obtida


0,2 0,3 0,5 0,7 0,8
Teste a hipótese nula de que esta amostra provém de uma
Exponencial com igual a média 0,5 e utilizando  =0,05. Faça as
contas do exercício e compare com o resultado do R. Teste
também a hipótese de que esta amostra provém de uma
exponencial com média 3.
> ks.test(x,"pexp",2) Resposta: D = 0.3297, p-value = 0.547
> ks.test(x,"pexp",1/3) D = 0.7659, p-value = 0.001416
35 Profª. Lisiane Selau
Exercício 3: Uma amostra de n = 10 valores, forneceu o seguinte
resultado:

7,11 8,84 8,89 9,54 10,98 11,09 11,64 12,30 13,24 14,05

Teste a hipótese de que ela possa ter sido originada de uma população
normal de média 10 e desvio padrão 2. Resposta: D = 0.2879, p-value = 0.3146

Exercício 4: Considere os dados abaixo, resultantes da observação de 40


valores de uma variável aleatória qualquer X. Deseja-se testar a hipótese
de que esta variável aleatória tenha distribuição normal com média μ igual
a 3,6 e variância σ2 igual a 0,8.
2,2 4,1 3,5 4,5 5,0 3,7 3,0 2,6 3,4 1,6
3,1 3,3 3,8 3,1 4,7 3,7 2,5 4,3 4,9 3,6
2,9 3,3 3,9 3,1 4,8 3,1 3,7 4,4 3,2 4,1
1,9 3,4 4,7 3,8 3,0 2,6 3,9 3,0 4,2 3,5

Resposta: D = 0.0937, p-value = 0.8743


36 Profª. Lisiane Selau
Exercício 5: A seguinte amostra de tamanho n=5 é obtida
6 8 10 12 14 16 18
Teste a hipótese nula de que esta amostra provêm de uma Normal com
média igual a 12 e desvio padrão igual a 4.32 (N(12,4.32)), como  = 0.01.
Note que a média da amostra é 12 e o desvio da amostra é 4.32.
> amostra=c(6,8,10,12,14,16,18)

> ks.test(amostra,"pnorm",12,4.32) Resposta: D = 0.1085, p-value = 0.9999

Exercício 6: Utilize o R para gerar uma amostra de tamanho 100 de uma


normal(80,102). Aplique o teste KS para testar se a amostra provém de
uma normal(80,102). Varie a média da normal de referência e aplique
novamente o teste KS. Compare os resultados (em termos de p-valor).
Faça a mesma coisa variando a variância da normal de referência.

37 Profª. Lisiane Selau


Exercício 7: Os gastos dos consumidores em um determinado
supermercado da capital estão listados ao lado. Verifique se eles
podem ser considerados como normalmente distribuídos com
média R$ 90,00 e desvio padrão R$ 12,00. Resposta: D = 0.0779

86,40 74,64 64,58 79,07 109,94 105,65 90,34


74,67 82,16 83,18 112,62 70,65 91,36 86,13
92,93 99,09 85,15 95,85 96,47 90,02 116,33
105,32 95,60 91,62 90,87 100,83 95,44 69,09
104,38 100,50 85,61 99,96 113,03 89,69 81,16
110,80 97,15 86,08 100,34 88,99 77,34 59,07
63,80 73,54 85,56 82,36 83,71 68,70 107,37
87,19 76,61 106,11 78,92 98,10 99,94 80,15
103,14 98,33 88,98 103,33 85,42 95,33 84,85
76,96 93,87 87,77 75,59 99,09 97,41 84,56
81,72 78,72 83,84 71,29 72,67 92,56
69,71 87,11 113,67 98,54 79,83 77,68
67,84 91,58 100,39 97,66 71,74 104,86
78,27 96,69 118,51 116,47 85,65 86,27
80,72 91,66 82,14 107,33 89,61 79,92
38 Profª. Lisiane Selau
Exercício 8: Foi suposto que os nascimentos de crianças são
independentes da hora do dia. Trinta e cinco nascimentos foram
observados e a hora registrada, fornecendo a tabela ao lado.
Teste a hipótese de que a distribuição dos nascimentos, com
base, nestas observações é uniforme, isto é, independe do
horário do dia. Resposta: D = 0.1313

19:02 08:25 15:57 14:17 00:55


23:08 14:02 07:40 21:45 16:09
03:56 23:46 10:45 05:08 19:46
08:12 10:07 15:06 05:49 02:28
08:40 13:56 06:26 06:32 10:36
00:25 18:45 16:44 00:40 11:19
01:24 09:06 12:26 13:30 16:31

39 Profª. Lisiane Selau


Teste de Lilliefors

• É uma extensão do teste de Kolmogorov-Sminorv


adequado para testar a hipótese nula de normalidade sem a
pré-especificação da média e variância.

• Hipóteses Estatísticas

H0: a amostra é oriunda de uma distribuição normal


H1: a amostra não é oriunda de uma distribuição normal

40 Profª. Lisiane Selau


 Estatística do Teste: é a mesma do teste KS, onde SX(X) é a
função distribuição empírica (observada na amostra) e F0(X) é
a função distribuição acumulada da normal com média igual a
média da amostra observada e variância igual a variância da
amostra observada.

 Distribuição da ET sob H0: a distribuição amostral da


estatística D é aproximada e tabelada.

 Teste (regra de decisão): rejeita H0 ao nível de


significância  se o valor calculado para a estatística de
teste D for maior que o valor crítico tabelado.

41 Profª. Lisiane Selau


Exemplo: a amostra X={8,10,12,14,16} é observada, cuja
média é igual a 12 e o desvio igual a 3.16. Teste a hipótese
de que estes dados provém de uma distribuição normal.

NORTEST

> amostra=c(8,10,12,14,16) Pacotes  Instalar pacote(s)...

> lillie.test(amostra) Pacotes  Carregar pacote...

Lilliefors (Kolmogorov-Smirnov) normality test


data: amostra
D = 0.1365, p-value = 0.9912

42 Profª. Lisiane Selau


Alguns outros testes disponíveis no R
para testar normalidade

> amostra=c(6,8,10,12,14,16,18,20)

• Todos os testes precisam da library(nortest)


> library(nortest)

• Teste de Shapiro-Wilks
> shapiro.test(amostra)
Shapiro-Wilk normality test
data: amostra W = 0.9749, p-value = 0.9332

• Teste de Anderson-Darling
> ad.test(amostra)
Anderson-Darling normality test
data: amostra A = 0.134, p-value = 0.9615
43 Profª. Lisiane Selau
Alguns outros testes disponíveis no R
para testar normalidade

• Teste Qui-quadrado de Aderência


> pearson.test(amostra)
Pearson chi-square normality test
data: amostra P = 0.75, p-value = 0.6873

• Teste de Cramer-von Mises


> cvm.test(amostra)
Cramer-von Mises normality test
data: amostra W = 0.0174, p-value = 0.9801

• Teste de Shapiro-Francia
> sf.test(amostra)
Shapiro-Francia normality test
data: amostra W = 0.9897, p-value = 0.9995
44 Profª. Lisiane Selau
Alguns outros testes disponíveis no R
para testar normalidade
Problema para instalar pacote?
> mean(amostra) > Sys.setenv("http_proxy"="http://143.54.226.62:8080/")
[1] 13
OU
> sd(amostra)
[1] 4.898979 Baixar .zip do CRAN e instalar a partir do arquivo zip.

> ks.test(amostra,"pnorm",13,4.898979)
One-sample Kolmogorov-Smirnov test
data: amostra D = 0.1049, p-value = 0.9999
alternative hypothesis: two-sided

> lillie.test(amostra)
Lilliefors (Kolmogorov-Smirnov) normality test
data: amostra D = 0.1049, p-value = 0.9981

45 Profª. Lisiane Selau


No SPSS

 Analyze

 Descripive Statistics

 Explore

46 Profª. Lisiane Selau


No SAS

data amostra;
input normal @@;
datalines;
6 8 10 12 14 16 18 20
;
proc univariate data=amostra normaltest;
var normal;
run;

47 Profª. Lisiane Selau


Qqplot

• Não é um teste de hipóteses, mas é uma ferramenta útil


para avaliar a forma da distribuição de probabilidade de
uma variável na população de interesse.
• É um tipo de análise exploratória gerando um gráfico.

• Muito utilizado para visualizar se os dados amostrais se


ajustam a distribuição normal.
• Não são muito informativos para amostras de tamanho
pequeno (em geral n < 20).

48 Profª. Lisiane Selau


Exemplo: verificar se esses dados se ajustam a distribuição normal.
Amostra Probabilidade Quantil da Amostra Probabilidade Quantil da
Amostral Normal Padrão Amostral Normal Padrão
16,7 0,025 -1,96 25,9 0,525 0,06
17,4 0,075 -1,44 27 0,575 0,19
18,1 0,125 -1,15 35,1 0,625 0,32
18,2 0,175 -0,93 35,8 0,675 0,45
18,8 0,225 -0,76 36,5 0,725 -,60
19,3 0,275 -0,60 37,6 0,775 0,76
22,4 0,325 -0,45 39,8 0,825 0,93
22,5 0,375 -0,32 42,1 0,875 1,15
24 0,425 -0,19 43,2 0,925 1,44
24,7 0,475 -0,06 46,2 0,975 1,96

Probabilidade amostral: (1-0,5)/20=0,025 representa que


aproximadamente 2,5% dos valores da amostra são valores até
16,7. Note que o valor 0,5 desta expressão representa uma
correção de continuidade.

Quantil 0,025 da N(0,1)= -1,96 representa que aproximadamente


2,5% dos valores da N(0,1) são valores até -1,96.
49 Profª. Lisiane Selau
No R

> qqnorm(amostra)

> qqline(amostra)

50 Profª. Lisiane Selau


No SPSS

 Analyse
 Descriptive Statistics
 Q-Q Plots

51 Profª. Lisiane Selau


No SAS

data amostra;

input normal @@;

datalines;

16.7 17.4 18.1 18.2 18.8

19.3 22.4 22.5 24.0 24.7

25.9 27.0 35.1 35.8 36.5

37.6 39.8 42.1 43.2 46.2

proc univariate data=amostra noprint;

qqplot normal/ normal(mu=est sigma=est) square;

run;

52 Profª. Lisiane Selau

Você também pode gostar