Trabalho de concluso de semestre do curso de Engenharia de Processos
Professor
2
Sumrio
1 - Histrico ............................................................................................................................................. 3 2 - Teste de Kolmogorov-Smirnov ........................................................................................................... 3 3 - O teste de Kolmogorov - Smirnov pode ser utilizado para avaliar as hipteses: .............................. 4 Soluo: ................................................................................................................................................... 7
3
1 - Histrico
Em estatstica, o teste Kolmogorov-Smirnov usado para determinar se duas distribuies de probabilidade subjacentes diferem uma da outra ou se uma das distribuies de probabilidade subjacentes difere da distribuio em hiptese, em qualquer dos casos com base em amostras finitas. O nome uma referncia aos matemticos russos Andrey Kolmogorov e Vladimir Ivanovich Smirnov. A funo distribuio acumulada Fn para n observaes yi definida por
As duas estatsticas de teste Kolmogorov-Smirnov de apenas um lado so dadas por
onde F(x) a distribuio em hiptese ou outra distribuio emprica. As distribuies de probabilidade destas duas estatsticas, dado que a hiptese nula de igualdade das distribuies verdadeira, no depende daquilo que a distribuio em hiptese , desde que ela seja contnua. Donald Knuth faz uma descrio detalhada de como analisar a significncia deste par de estatsticas. Muitas pessoas usam max(Dn+, Dn) alternativamente, mas a distribuio desta estatstica de uso mais difcil. Notar que quando a varivel independente subjacente cclica, como em dias da semana, ento o teste de Kuiper mais apropriado. Note-se ainda que o teste Kolmogorov-Smirnov mais sensvel em pontos prximos da mediana da distribuio do que nas caudas. O teste Anderson-Darling um teste que providencia igual sensibilidade nas caudas.
2 - Teste de Kolmogorov-Smirnov Grande parte dos problemas que encontramos em estatstica so tratados com a hiptese que os dados so retirados de uma populao com uma distribuio de probabilidade especfica. O formato desta distribuio pode ser um dos objetivos da anlise. Por exemplo, suponha que um pequeno nmero de observaes foram retiradas de uma populao com distribuio desconhecida e que estamos interessados em testar hipteses sobre a mdia desta populao. O teste paramtrico tradicional, baseado na distribuio t-student, obtido sob o hiptese de
4
que a populao tem distribuio normal. Nesse sentido, surge a necessidade de certificarmos se essa suposio pode ser assumida. Em alguns casos, assumir a normalidade dos dados o primeiro passo que tomamos para simplificar nossas anlise. Para dar suporte a esta suposio, consideramos, dentre outros, o teste de Kolmogorov - Smirnov.
3 - O teste de Kolmogorov - Smirnov pode ser utilizado para avaliar as hipteses:
Este teste observa a mxima diferena absoluta entre a funo de distribuio acumulada assumida para os dados, no caso a Normal, e a funo de distribuio emprica dos dados. Como critrio, comparamos esta diferena com um valor crtico, para um dado nvel de significncia. Considere uma amostra aleatria simples de uma populao com funo de distribuio acumulada contnua desconhecida. A estatstica utilizada para o teste :
Esta funo corresponde a distncia mxima vertical entre os grficos de F(x) e Fn(x) sobre a amplitude dos possveis valores de x. Em Dn temos que F(x) representa a funo de distribuio acumulada assumida para os dados; Fn(x) representa a funo de distribuio acumulada emprica dos dados. Neste caso, queremos testar a hiptese contra a hiptese alternativa . Para isto, tomamos as observaes aleatrias ordenadas de forma crescente da populao com funo de distribuio contnua . No caso de anlise da normalidade dos dados, assumimos a funo de distribuio da normal. A funo de distribuio acumulada assumida para os dados definida por F(x(i))=P(X x(i)) e a funo de distribuio acumulada emprica definida por uma funo escada, dada pela frmula:
onde IA a funo indicadora. A funo indicadora definida da seguinte forma:
5
Observe que a funo da distribuio emprica Fn(x) corresponde proporo de valores menores ou iguais a x. Tal funo tambm pode ser escrita da seguinte forma
Sob , a distribuio assinttica da estatstica de kolmogorov-Smirnov dada por
Esta distribuio assinttica vlida quando temos conhecimento completo sobre a distribuio de , entretanto, na prtica, especifica uma famla de distribuies de probabilidade. Neste caso, a distribuio assinttica da estatstica de Kolmogorov-Smirnov no conhecida e foi determinada via simulao. Como a funo de distribuio emprica descontnua e a funo de distribuio hipottica contnua, vamos considerar duas outras estatsticas:
para calcularmos a estatstica de kolmogorov-Smirnov. Essas estatsticas medem as distncias (vertical) entre os grficos das duas funes, terica e emprica, nos pontos x(i-1) e x(i). Com isso, podemos utilizar como estatstica de teste
Se Dn maior que o valor crtico, rejeitamos a hiptese de normalidade dos dados com (1- )100% de confiana. Caso contrrio, no rejeitamos a hiptese de normalidade.
6
Resumo das estatsticas de teste. x(ordenad o)
Tabela : Estatsticas de teste.
OBS: O valor de encontrado na tabela da distribuio normal padro. A tabela de valores crticos para a estatstica do teste de Komolgorov-Smirnov dada a seguir. Nvel de Significncia n 0,2 0,1 0,05 0,01
Exemplo : Avaliar a normalidade dos dados referente a medio de 10 peas. 1,90642 2,10288 1,52229 2,61826 1,42738 2,22488 1,69742 3,15435 1,98492 1,99568
Soluo: Aps ordenarmos os dados, obtemos o valor de Fn(x(i)) fazendo a razo entre a posio i e o valor total de dados, n. O valor de F(x(i)) encontrado na tabela da distribuio normal padro, aps transformarmos os dados pela relao
onde a mdia aritmtica e s o desvio padro dos dados.
Considerando = 0,05 e n = 10, encontramos pela tabela de valores crticos o valor 0,41. Como Dn=0,176868 < 0,41, no temos evidncias para rejeitar a hiptese de normalidade dos dados.
Veja a seguir os resultados obtidos pelo software Action.