Você está na página 1de 15

Docente : Elisete Correia

(ecorreia@utad.pt)

Teste de Kolmogorov Smirnov

Kolmogorov (1933) deduziu a distribuição marginal do supremo da distância entre


a função de distribuição empírica e a função de distribuição postulada na hipótese
nula.
Este teste é apropriado desde que os dados estejam pelo menos em escala ordinal
e a hipótese nula especifique completamente a distribuição.

Objetivo: Decidir se a distribuição da variável sob estudo numa determinada


amostra provem de uma população com uma distribuição especifica.

1
Teste de Kolmogorov Smirnov
Kolmogorov (1933) deduziu a distribuição marginal do supremo da distância entre a
função de distribuição empírica e a função de distribuição postulada na hipótese
nula.
Este teste é apropriado desde que os dados estejam pelo menos em escala ordinal e a
hipótese nula especifique completamente a distribuição.

Objetivo: Decidir se a distribuição da variável sob estudo numa determinada


amostra provem de uma população com uma distribuição especifica.

Pressupostos do teste
▪ a variável X é contínua com função de repartição F(x) desconhecida;
▪ conjetura-se que F(x)=F0(x), onde F0(x) é uma função de repartição contínua
completamente especificada, i.e, os parâmetros de F0(x) são completamente
conhecidos. 3

Teste de Kolmogorov Smirnov

Hipóteses a testar:

H0: Fn (x)=F0(x) vs H1: Fn(x)≠F0(x)

O teste de Kolmogorov-Smirnov baseia-se na maior distância vertical entre a função


distribuição empírica, Fn(x), e a função distribuição conjeturada em H0, F0(x),

2
Teste de Kolmogorov Smirnov

Estatística de teste

Teste de Kolmogorov Smirnov

Exemplo: Durante a semana do Caloiro foram submetidos a uma prova de


velocidade de 50 metros oito alunos do 1º anos de Psicologia, aleatoriamente
selecionados, obtendo-se os seguintes resultados (em segundos): 11.3, 15.9, 16.3,
14.1, 12.8, 11.9, 14.3, 10.6. Teste, ao n.s. de 1%, se podemos admitir que a
distribuição dos tempos é uniforme no intervalo ]10,18[.

X- v.a. “ tempo que um aluno demora a realizar uma prova de velocidade de 50 ”


H0: X~U]10,18[ vs H0: X~U]10,18[
Estatística de teste

3
Teste de Kolmogorov Smirnov
Sob H0 X~ Uniforme ]10,18[, tem-se

Assim, tem-se
10.6 11.3 11.9 12.8 14.1 14.3 15.9 16.3

F(x) 0.6/8= 1.3/8 1.9/8 2.8/8 4.1/8 4.3/8 5.9/8 6.3/8


0,075
Fn(x) 1/8=0, 2/8 3/8 4/8 5/8 6/8 7/8 8/8
125
0.4/8=0,05 0.7/8 1.1/8 1.2/8 0.9/8 1.7/80 1.1/8 1.7/8
,2125
Decisão: Como p= P(D > 0.2125) = 0.7943 > 0.01 não se rejeita H0 ao nível de
significância de 1%, pelo que, se admite que os dados provêm de uma distribuição
Uniforme ]10; 18[. 7

Testes de ajustamento à distribuição normal

Dada a importância da distribuição Normal no âmbito da inferência estatística,


abordamos agora dois testes específicos para averiguar se um conjunto de dados se
pode considerar proveniente de uma população com distribuição normal:

➢ Kolmogorov-Smirnov com correção de Lilliefors;

Lilliefors deduziu extensões do teste K-S para o caso de ser necessário estimar
parâmetros, em populações gaussianas (1967) e em populações exponenciais
(1969).

➢ Shapiro-Wilks.

4
Testes de normalidade de Lillefors (K-S)

Testes de normalidade de Shapiro-Wilk

Nota: xi são os valores da


amostra ordenados e b é uma
constante (calculada por um
dado processo.)

10

5
Testes de normalidade de Shapiro-Wilk
Exemplo: Pretende-se testar se o tempo (em minutos) que uma criança demora a
reagir a um dado estimulo segue uma distribuição normal. Para tal selecionaram-se
aleatoriamente 10 crianças e registaram-se os seus tempos de reação:

Jovens 1 2 3 4 5 6 7 8 9 10
Tempo 3 4 5 6 4 9 7 6 4 6

X- v.a. “tempo de reação a um dado estimulo”


H0: X~Normal vs H1: X~Normal

Kolmogorov-Smirnova Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
Tempo ,185 10 ,200* ,932 10 ,463

Decisão: Como o valor de prova=0.463>0.05, não se rej H0, ou seja, existe


evidência estatística que nos leva a afirmar que os tempos de reação são
normalmente distribuídos. 11

Teste Binomial
O teste binomial é usado para testar a ocorrência de uma, das duas realizações
possíveis de uma variável dicotómica.
Seja A- o acontecimento “sucesso”
Temos duas situações possíveis: ocorrência de A ou não.
p=P(A); 1-P(A)=q; p+q=1
Objetivo: Testar se a probabilidade de sucesso (p) de um evento A, assume
determinado valor.

12
Decisão: rejeitar a hipótese nula se valor de prova (p) <α.

6
Teste Binomial
Exemplo: Um psicólogo afirma que 70% dos seus pacientes sofrem de stress. Para
investigar a veracidade desta informação, observaram-se 15 pacientes, dos quais 10
revelaram sintomas de stress. Ao n.s. de 1%, o que se pode concluir?
Hipóteses:
H0: p=0.7 vs H1: p=0.7
T- v.a. “nº de pacientes com stress, em 15”
T~B (n=15, p=0.7)
valor amostral: t=10
valor de prova=0.7814>0.01

Decisão: Como o p>0.01, não se rejeita a hipótese nula, ou seja, os dados


corroboram a afirmação do terapeuta.
13

Teste Binomial
Se a dimensão da amostra for elevada, usando o TLC, tem –se que:

então, tem-se a seguinte distribuição, com correção de continuidade

onde T+0.5 é usada quando T < np e T-0.5 é usada quando T > np.

14

7
Teste dos Sinais
O teste do Sinal destina-se a testar se o quantil de probabilidade p de
uma variável X, xp, é um valor especificado x0, i.e., se

F(x0)=P(X≤ x0 )=p.
Hipóteses a testar:

Pressupostos:

▪ a variável X é contínua
▪ as observações constituem uma realização de uma amostra
aleatória (a.a.) 15

Teste dos Sinais


O teste do sinal não utiliza o valor numérico das respostas ou da sua
diferença, apenas utiliza o seu sinal ( “+” ou “-”).
O valor de teste é igual ao nº de diferenças (Di=Xi-x0) “+”.
As observações empatadas são ignoradas
Estatística de teste
M= nº de diferenças positivas ~Binomial(n, 1-p).

Decisão: Rej H0, ao n.s. α se p-value < α

Se a dimensão da amostra é > 20 então


16

8
Teste dos Sinais- amostras de dimensão elevada

Estatística de teste

• M + 0.5 é usado quando M < np


• M – 0.5 é usado quando M > np.

Observações:

Se na amostra há valores iguais a xp (i.e., com Di = 0) tais


observações deverão ser eliminadas da amostra e o teste é aplicado à
amostra resultante (de menor dimensão).
17

Teste dos Sinais

Exemplo: Sabe-se que o rendimento familiar mediano numa


determinada região é 600 euros/mês.
Uma amostra aleatória constituída por 12 famílias de uma vila
daquela região revelou os seguintes rendimentos:

440; 466 ; 482; 518 ; 603; 617; 636; 727; 774; 824; 961; 1056

Ao n.s. de 5%, pode concluir que o rendimento mensal mediano na


vila é diferente do rendimento mensal mediano da região onde se
insere? 18

9
Teste dos Sinais

Hipóteses a testar:
H0: mediana= 600 vs H1:mediana600

Obs: a amostra não tem valores iguais a 600, caso contrário esses
valores tinham que ser removidos antes de efetuarmos o teste.

Estatística de teste
M = nº de valores superiores a 600 na amostra~Binomial (n=12, 1-p=0.5)

19

Teste dos Sinais

Valor observado
Avaliando o sinal da diferença entre os valores da amostra e o valor
600

727 466 482 1056 440 518 824 636 603 617 961 774
+ - - + - - + + + + + +

Mcalc= nº de valores superiores a 600 na amostra= 8

No SPSS, Analyze/ Nonparametric Tests/2 Related Samples.


20

10
Teste dos Sinais

21

Teste dos Sinais

No quadro Frequencies podemos ver que há 8 diferenças (600-rendimentos)


negativas, 4 positivas e 0 nulas.

No quadro Test Statistics observamos que o valor de prova do teste bilateral


é igual a 0.388 (Exact Sig. (2-tailed)), então não devemos rejeitar H0, pelo
que não podemos concluir que o rendimento mediano das famílias da vila
em causa é diferente do rendimento mensal mediano da região onde se
insere.

O valor 0.194 (Exact Sig. (1-tailed)) é o valor de prova do teste unilateral


em que a hipótese alternativa está de acordo com a tendência da amostra:
há mais diferenças negativas do que positivas. Outra forma de decidir
consiste em observar, na tabela Descriptive Statistics, valor da mediana
da amostra (626.5> 600). Assim a hipótese alternativa é:

H1: mediana> 600


22

11
Teste de Wilcoxon

O Teste de Wilcoxon é uma alternativa não paramétrica ao teste T


para uma amostra

Pressupostos

•As observações devem ser independentes e retiradas da mesma


população (amostra aleatória);

• A variável X é contínua e deve ser simétrica.


Hipóteses a testar: H 0 :  =  0 vs H1 :    0
 23

Teste de Wilcoxon
Observações:

• Se a distribuição da população for simétrica devemos usar o teste


de Wilcoxon em vez do teste do sinal.

• O teste de Wilcoxon é mais potente do que o teste do sinal, i.e., é


menor a probabilidade de se cometer o erro de aceitar H0 sendo H0
falsa= P(erro tipo II).

• O teste de Wilcoxon é melhor pois tem em conta a magnitude da


diferença entre cada observação e a mediana conjeturada em H0,
enquanto o teste dos sinais só considera o sinal das diferenças.

24

12
Teste de Wilcoxon- metodologia
1. Determinar as diferenças Di = μ - Xi
2. Ordenar os valores das diferenças absolutas, | Di |
3. Retirar os valores de diferenças nulas da amostra e corrigir a dimensão
da amostra.
4. Associar a cada | Di | a sua ordem ou informação sobre o sinal original
de Di
5. Calcular a soma das ordens (ranks) das diferenças Di positivas, T+, e
das diferenças Di negativas, T−.
6. Determinar o menor dos valores

7. Usar a estatística de Wilcoxon (ou ajustada no caso de empates) para


determinar valores de significância de testes bilaterais ou unilaterais.
25

Teste de Wilcoxon

Onde, k representa o nº de grupos de empates e ei é o nº de


observações empatadas no grupo de empates i.

26

13
Teste de Wilcoxon
Exemplo: Considere os seguintes valores de tempos de realização
de uma dada tarefa, em minutos, de 9 crianças do mesmo ano
escolar.
1.9, 2, 2.2, 2.8, 3.1, 3.1, 3.3, 3.4, 3.7
Pretende-se averiguar se podemos considerar que o valor mediano é
de 3.3.
Admitindo a simetria da lei de v.a. em estudo, o que pode concluir?

H 0 :  = 3.3 vs H1 :   3.3

27

TESTE de Wilcoxon
1.9 2.0 2.2 2.8 3.1 3.1 3.3 3.4 3.7 valor

1.4 + + 1.1 + 0.5 0.2 + 0.2 + 0 0.1 - 0.4 - | Di |


+
8 7 6 5 2.5 2.5 __ 1 4 ordens
(2) (3)
T+ T-=5 N=8
=31
(2+3)/2=2.5

Temos um | Di | igual a zero temos de ajustar N para 8. Os


empates (2ª e 3ª posição) ficam com o valor médio das posições,
no exemplo ambas terão a ordem 2.5.
28

14
Na tabela Ranks temos o nº de
diferenças positivas e negativas e as
respetivas médias.
Na tabela Test Statistics temos o valor
observado da estatística de teste
assintótica Z; o respetivo asymp. p-
value.

Decisão: Com p-value 0.068 >0.05, concluímos que não há


evidência estatística para rejeitar a hipótese nula que o aumento de
peso mediano é de 3.3. 29

15

Você também pode gostar