Escolar Documentos
Profissional Documentos
Cultura Documentos
Alfenas/MG
Novembro de 2011
Sumário
1 Resumo 1
2 Introdução 1
2.1 Métodos de Identificação de Outliers . . . . . . . . . . . . . . . . . . . . . . 2
2.1.1 Teste de Dixon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.2 Teste Z-Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.3 Teste de Peirce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.4 Teste de Chauvenet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.5 Teste de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.6 Teste de Razão Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.7 Teste de Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Taxas de Erros Tipo I e Tipo II . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Justificativa 8
4 Objetivo 9
5 Metodologia 9
5.1 Simulação Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6 Referências bibliográficas 10
7 Resultados esperados 11
8 Cronograma 11
1 Resumo
Sabe-se que em uma amostra grande parte dos dados ficam sujeitos a falhas de equipa-
mentos, erros de medição, erros humanos, entre outros fatores. Um problema que surge em
um conjunto de dados é a presença de outliers, que são dados que se diferem muito dos
demais. Sabendo que a presença de outliers pode acarretar prejuı́zos quanto a confiabilidade
das informações, que serão inferidas através da amostra, torna-se imprescendı́vel a utilização
de métodos estatı́ticos que os identifiquem, para que se possa posteriormente decidir o que
deverá ser feito com estes dados. Duas propriedades importantes em métodos de identi-
ficação de outliers são o poder e a taxa de erro do Tipo I. Dessa forma, pretende-se neste
trabalho estudar alguns testes de detecção de outliers presentes na literatura, avaliando seus
desempenhos quanto ao controle do erro tipo I e seu poder, utilizando simulação Monte Carlo
em diferentes situações, de tamanhos amostrais e número de outliers na série de dados.
2 Introdução
Um outlier é caracterizado pela sua relação com as restantes observações que fazem parte
da amostra. O seu distanciamento em relação a essas observações é fundamental para se
fazer a sua caracterização. Estas observações são também designadas por observações “anor-
mais”, contaminantes, estranhas, extremas ou aberrantes. A preocupação com observações
outliers é antiga e data das primeiras tentativas de analisar um conjunto de dados. Inicial-
mente pensava-se que a melhor forma de lidar com esse tipo de observação seria através da
sua eliminação da análise. Atualmente este procedimento é ainda muitas vezes utilizado,
existindo, no entanto, outras formas de lidar com tal tipo de fenômeno.
Um outlier pode surgir por erros de medição, digitação, de execução ou ser um valor iner-
ente à população. Uma atenção especial deve ser dada aos outliers, pois normalmente essas
observações resultam em alguma violação das pressuposições necessárias para adequação ao
modelo, produzindo conseqüentemente efeitos não confiáveis na eficiência dos estimadores
Segundo Hawkins (1980)[6] um outlier é uma observação que se desvia muitos das demais
observações, a ponto de suspeitar-se que tenha sido gerada por um mecanismo diferenciado.
Já para Barnett e Lewis (1994),[1] um outlier é uma observação (ou subconjunto de ob-
servações) que parece ser inconsistente em relação ao restante do conjunto de dados. Há
uma variedade de aplicações, nas quais os outliers são importantes, entre elas destaca-se:
diagnósticos de falhas; detecção de fraudes; detecção de intrusão em sistemas; monitoração
2
de condições médicas. Nessas aplicações, observações que apresentam outliers precisam ser
detectadas para que possam ser tratadas adequadamente, de acordo com a necessidade da
aplicação. Dependendo da sua natureza, os outliers podem causar um efeito substancial na
análise dos dados. Assim, é importante a identificação destes por várias razões, entre elas:
Dentro deste contexto, faz-se necessário a aplicação de testes confiáveis para identificar
os outliers.
Existe na literatura diversos testes estatı́sticos para identificação de outliers. Entre estes
pode-se destacar: teste Q de Dixon, teste de Z-score, teste de Peirce, teste de Chauvenet,
teste de Cochran, teste da Razão Q, teste de Boxplot.
O teste de Dixon, também conhecido como teste Q de Dixon, é um método utilizado para
a identificação de outliers nos extremos de um conjunto de dados, ou seja, para verificar se o
menor e o maior valor do conjunto são outliers. Inclui uma variedade de cálculos diferenciados
conforme o tamanho do conjunto de dados que está sendo analisado. O teste consiste em
calcular o valor Q para o menor e maior valor da amostra e compará-los com o valor crı́tico
tabelado para o nı́vel de significância desejado. Caso os valores calculados excedam o valor
crı́tico tabelado, são considerados como outliers. Para a aplicação do teste, conforme Ellison,
Barwick e Farrant (2009[5]) seguem-se os passos abaixo:
3. Obter o valor crı́tico tabelado, indicado por Qc , disponı́vel Kanji (2006[7]), para o nı́vel
de significância adequado.
2. Para quaisquer medidas de dados suspeitas, obtenha o desvio absoluto entre o valor
suspeito e a média da amostra de dados, conforme Di = |xi − x̄|;
5. Considere como outliers os valores que forem maiores que a distância máxima permi-
tida, ou seja, quando Di > Dmax ;
8. A aplicação do método se repete até que não sejam identificados novos outliers.
5
De acordo com Soares (2009)[17], o critério proposto por Chauvenet em 1960, especifica
a eliminação de um único valor duvidoso. Para eliminar um segundo valor seria necessário
recalcular a média e o desvio padrão para o novo conjunto de dados e só então aplicar
novamente o critério. Porém, Chauvenet não especifica nenhum limite para a aplicação do
método. Entretanto, como a cada novo cálculo o desvio padrão diminui, é muito provável
que essa aplicação sucessiva resulte na eliminação de um grande número de dados. Assim,
é preferı́vel aplicar o critério uma única vez para cada conjunto de dados, eliminando todos
os valores que se encontram fora do intervalo estabelecido.
O método especifica que um valor medido será considerado um outlier se a probabilidade
do desvio padrão em relação à média, chamado de coeficiente de variação CV = s/x̄, for
menor que 1/2n, sendo n o tamanho da amostra de dados sendo analisada.
Assim, para cada valor da amostra de dados, indicado por xi , a faixa de valores aceitáveis
para que não seja considerado como outlier, será dada por [(x̄ − C × s) < xi < (x̄ + C × s)],
em que x̄ representa a média da amostra de dados sendo analisada, s o desvio padrão e C é
um valor tabelado disponı́vel em Soares (2009)[17]. Logo, valores fora deste intervalo serão
considerado outliers.
da variância para o i-éssimo grupo, e vmax representa o maior valor encontrado no conjunto
como estimativa da variância.
Calculado a estatı́stica do teste (w), compara-se com o valor crı́tico tabelado, disponı́vel
em Kanji (2006)[7]. A hipótese de que há grande variação no grupo analisado em relação
aos demais é rejeitada caso o valor observado de (w) não exceda o valor crı́tico.
6
2. Calcular o desvio absoluto entre o valor suspeito (possı́vel outlier ) e seu vizinho mais
próximo, ou seja, dentre todos os dados, obter o que tenha o menor desvio absoluto
em relação ao dado analisado. Assim, o desvio absoluto calculado será chamado de d;
5. Com base no valor de R calculado e nos valores crı́ticos tabelados em Lopes (2003)[9],
considere como outliers os valores que forem maiores que valores crı́ticos,ou seja,
quando R > Rcritico , caso contrário, não é considerado um outlier ;
Na maioria dos estudos cientı́ficos faz necessária a realização de teste de hipótese sobre
parâmetros populacionais. A realização de teste de hipótese vem acompanhada de certos
riscos como o de tomar decisões erradas, ou seja, cometer erros. Estes erros são referenciados
como sendo erro tipo I e erro tipo II. O erro tipo I é aquele que se comete ao rejeitar uma
hipótese nula, dado que esta hipótese é verdadeira e a probabilidade de incorrer neste tipo
de erro é representada pelo valor de significância α (Mood, Graybill e Boes, 1974 [10]). O
pesquisador não consegue controlar as probabilidades de se cometer os dois tipos de erros ao
mesmo tempo, embora consiga controlar a do erro tipo I. O erro tipo II é o erro que se comete
ao se aceitar a hipótese nula, quando esta hipótese é falsa e a probabilidade associada a esse
erro é representada por β. Para que qualquer teste de hipóteses ou regras de decisão tenham
seus erros reduzidos ao mı́nimo, para um dado tamanho de amostra, não é tão simples,
pois a redução de um certo tipo de erro é acompanhada pelo acréscimo do outro. Deve-se
reforçar a importância sobre o controle do erro tipo I e que os erros, como mencionado,
são inversamente proporcionais (Borges, 2002 [2]). Um equilı́brio entre as taxas de erro é
essencial, de modo que a taxa de erro tipo II não seja excessivamente aumentada.
O poder de um teste, de acordo com Borges (2002) [2], é a probabilidade de detectar
diferenças entre tratamentos quando elas realmente existem, ou seja, 1-β é a probabilidade
de rejeitar a hipótese nula quando ela realmente falsa. Os testes que possuem o valor real
das taxas de erro tipo I menor do que o nominal α são ditos conservadores ou rigorosos. Em
um teste conservador, sob H0 , a probabilidade de se encontrar um resultado significativo é
inferior ao valor α estabelecido (Snedecor e Cochran, 1980 [16]).
Segundo Lim e Loh (1996) [8] para se considerar que um teste é robusto é feito um estudo
do número máximo a ser atingido pelo nı́vel de significância em que este não ultrapasse 10%
para o caso de α=0.05, para todas as situações de hipótese nula.
2.3 Simulação
aleatórios na atualidade. Esta é uma área muito vasta, que cresceu muito. Foi com o
aparecimento e evolução dos computadores que permitiu a um número crescente de pessoas
a possibilidade de realizar simulações, desde simples jogos, até modelos complexos. O im-
portante na simulação é a validação dos modelos, pois, se o modelo reproduzir com alguma
fidelidade a realidade, torna-se claro a influência de certas alterações na realidade e, ainda,
permite que estas alterações sejam testadas, nos modelos, antes de serem levadas para a
realidade, ou seja, com o programa de simulação (Dachs, 1988 [4]).
O uso da simulação de dados tem uma grande diversidade de áreas de aplicação, basica-
mente sob duas linhas de atuação: problemas matemáticos completamente determinı́sticos,
cuja solução é difı́cil ou em problemas que envolvem o processo estocástico Monte Carlo.
Esta técnica de simulação tem base probabilı́stica ou estocástica.
Dachs (1988) [4] descreveu processos de geração de amostras aleatórias a partir de uma
distribuição uniforme (0,1). A linguagem computacional Pascal foi utilizada pelo autor na
implementação dos algoritmos para a geração de sequências aleatórias. Este tipo de con-
strução está baseado no teorema da probabilidade integral, que garante que é possı́vel obter, a
partir de uma distribuição uniforme (0,1), uma amostra de qualquer outra distribuição. Este
teorema afirma que se U tem distribuição uniforme (0,1) e se F é uma função de distribuição
qualquer, a variável X = F −1 (U ) tem função de distribuição F.
O método de Monte Carlo, de uma maneira geral, é um método utilizado para que sejam
simulados dados (variáveis aleatórias) a partir de uma sequência pseudo aleatória, baseada na
distribuição uniforme (0,1). Todo processo simulado que envolve um componente aleatório
de qualquer distribuição é considerado como pertencente ao método de Monte Carlo. A
única restrição para o uso deste método é a sua implicação quanto a distribuições cuja
função distribuição seja desconhecida ou que a inversão não seja possı́vel pela não existência
de algoritmos numéricos. Felizmente, na literatura, existem inúmeros algoritmos eficientes
de inversão das funções de distribuições comumente usadas pelos estatı́sticos (Santos, 2001
[13]). Outros métodos podem ser utilizados, como, por exemplo, o método da aceitação e
rejeição.
3 Justificativa
Um problema que surge na análise de um conjunto de dados é a presença de outliers, que
são dados que se diferem excessivamente dos demais. Uma questão que surge é se estes dados
9
devem ou não ser excluı́dos. Sabendo que a exclusão destes dados pode interferir na inferência
realizada na amostra estudada, verifica-se a importância de testes que detectem os outliers,
para que posteriormente a decisão em relação a exlusão ou não destes dados possa ser tomada
por meio de técnicas estatı́sticas adequadas. Duas propriedades importantes são desejadas
em um teste de detecção de outliers: o poder e a taxa de erro tipo I. Dessa forma é relevante
avaliar o desempenho dos teste de detecção de outliers, pois testes indicarão a presença
de tais dados, o que torna a análise dos dados crı́tica, principalmente em ambientes que
exijam segurança e confiabilidade de dados, uma vez que a presença de dados inconsistentes
prejudica na tomada de decisões, além de afetar a confiabilidade das informações.
4 Objetivo
O objetivo deste trabalho é avaliar, via simulação Monte Carlo, os desempenhos quanto
as taxas de poder e de erro do tipo I dos testes de detecção de outliers: teste Q de Dixon,
teste de Z-score, teste de Peirce, teste de Chauvenet, teste de Cochran, teste da Razão Q,
teste de Boxplot.
5 Metodologia
Para a simulação de dados serão gerados três tamanhos diferentes de séries para cada dis-
tribuição de densidade de probabilidade, dada pela normal e pela gama. Para o processo nor-
mal usar-se-á média 0 e variância 1 e 10, caracterizando assim diferenças na variabilidade do
processo. Para a gama usar-se-á uma média de 30 e variância de 90 e de 300. Para simular os
dados com dependência será assumido um modelo auto-regressivo de ordem 1. Nas situações
do estudo do poder serão inseridos valores atı́picos em pontos estratégicos(aleatórios) da
série em quantidades diferentes.
Os testes descritos na seção 2.1 serão aplicados às séries de dados geradas. Adotar-
se-á dois nı́veis nominais de significância α (0,01 e 0,05). Os p-valores observados serão
confrontados com os valores de α nominais.
A proporção de resultados em que os p-valores de um teste forem inferiores ou iguais ao
valor nominal α será computada. Para o caso de simulação sob H0 , essa proporção refere-se
à taxa de erro tipo I e sob H1 se refere ao poder.
10
6 Referências bibliográficas
Referências
[1] BARNETT, V.; LEWIS, T. Outliers in Statistical Data. John Wiley & Sons, 3ed., 1994.
[2] BORGES, L. C. Poder e taxas de erro tipo I dos testes Scott-Knott, Tukey e
Student-Newman-Keuls sob distribuição normal e não-normais dos resı́duos. Dis-
sertação (Mestrado em Estatı́stica e Experimentação Agropecuária) - Universidade Fed-
eral de Lavras, Lavras - MG, 2002. 94p.
[7] KANJI, G. K. 100 Statistical Test. 2006. 3ed. Sage Publications. 527p.
[10] MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to the theory of statistics.
McGraw-Hill, Singapure, 3th edition, 1974. 564p.
[12] ROSS, STEPHEN M. Peirce’s Criterion for the Elimination of Suspect Experimental
Data. J. Engr. Technology. 2003
[13] SANTOS, A. C. dos. Definição do tamanho amostral usando simulação de Monte Carlo
para os testes de normalidade univariado e multivariado baseados em assimetria e cur-
tose. Dissertação (Mestrado em Estatı́stica e Experimentação Agropecuária) - Univer-
sidade Federal de Lavras, Lavras - MG, 2001. 71p.
[16] SNEDECOR, G. W.; COCHRAN, W. G. Statistical methods. The Iowa State University
Press, Ames, 7ed., 1980. 507p.
7 Resultados esperados
Pretende-se com a pesquisa proposta no presente projeto, realizar uma avaliação dos
testes de detecção de outliers quanto o desempenho em relação a taxa de poder e taxa de
erro de Tipo I, oferecendo a outros pesquisadores informações acerca de qual teste é mais
indicado para detectar a presença de dados incosistestes. Ademais, pretende-se com o projeto
complementar a formação do aluno de iniciação cientı́fica (IC), uma vez que este tema não
é abordado nas disciplinas da graduação.
8 Cronograma
As atividades mensais a serem desenvolvidas neste projeto compõem-se das seguintes
etapas:
12
2012 2013
Atividades
Mar Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev
1 x x x x x x x x x x x x
2 x x x x
3 x x
4 x x x
5 x
6 x x
em que:
1. Revisão de literatura;
3. Gerar os dados via simulação Monte Carlo: A fim de que os testes detecção de outliers
possam ser avaliados, diversas situações serão simuladas. Os detalhes referentes a
simulação Monte Carlos já foram explicitados na seção 5.1 .
4. Calculo do poder e de erro tipo I dos testes de detecção de outliers: Todos os passos
desta etapa também se encontram detalhadas na seção 5.1 .
6. Redação final do trabalho e conclusões de trabalhos: Esta etapa será realizada nos
dois últimos meses do trabalho. A redação final do trabalho será feita mediante a
observação do Manual de normalização para apresentação de trabalhos acadêmicos da
Unifal e a consulta às normas de Informação e Documentação da Associação Brasileira
de Normas Técnicas (ABNT). O relatório final visa contemplar todas as etapas ante-
riores, apresentado de forma integrada todos os resultados obtidos. Cabe ressaltar que
para a realização deste projeto será necessário apenas a utilização de computadores
com boa capacidade de memória para cálculos computacionais, sendo que este recurso
já se encontra disponı́vel no laborátório da matemática.