Avaliacao Do Poder e Taxas de Erro Do Tipo I de Testes de Detecçao de Outliers Via Simulaçao

AVALIAÇÃO DO PODER E TAXAS DE ERRO DO
TIPO I DE TESTES DE DETECÇÃO DE

OUTLIERS VIA SIMULAÇÃO
Projeto de pesquisa submetido à Pró-reitoria

de Pesquisa e Pós-Graduação como parte dos
requisitos para obtenção de bolsa de iniciação
cientı́fica PIBICT/FAPEMIG conforme edi-
tal 006/2011.
Área de concentração: Estatı́stica Aplicada

(Interdisciplinar)
Orientador: Luiz Alberto Beijo.
Discente: Carlos José dos Reis.
Alfenas/MG
Novembro de 2011
Sumário
1 Resumo 1
2 Introdução 1
2.1 Métodos de Identificação de Outliers . . . . . . . . . . . . . . . . . . . . . . 2
2.1.1 Teste de Dixon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.2 Teste Z-Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.3 Teste de Peirce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.4 Teste de Chauvenet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.5 Teste de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.6 Teste de Razão Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.7 Teste de Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Taxas de Erros Tipo I e Tipo II . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Justificativa 8
4 Objetivo 9
5 Metodologia 9
5.1 Simulação Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6 Referências bibliográficas 10
7 Resultados esperados 11
8 Cronograma 11
9 Plano de trabalho do bolsista 12

1
1 Resumo
Sabe-se que em uma amostra grande parte dos dados ficam sujeitos a falhas de equipa-
mentos, erros de medição, erros humanos, entre outros fatores. Um problema que surge em
um conjunto de dados é a presença de outliers, que são dados que se diferem muito dos
demais. Sabendo que a presença de outliers pode acarretar prejuı́zos quanto a confiabilidade
das informações, que serão inferidas através da amostra, torna-se imprescendı́vel a utilização
de métodos estatı́ticos que os identifiquem, para que se possa posteriormente decidir o que
deverá ser feito com estes dados. Duas propriedades importantes em métodos de identi-
ficação de outliers são o poder e a taxa de erro do Tipo I. Dessa forma, pretende-se neste
trabalho estudar alguns testes de detecção de outliers presentes na literatura, avaliando seus
desempenhos quanto ao controle do erro tipo I e seu poder, utilizando simulação Monte Carlo
em diferentes situações, de tamanhos amostrais e número de outliers na série de dados.
2 Introdução
Um outlier é caracterizado pela sua relação com as restantes observações que fazem parte
da amostra. O seu distanciamento em relação a essas observações é fundamental para se
fazer a sua caracterização. Estas observações são também designadas por observações “anor-
mais”, contaminantes, estranhas, extremas ou aberrantes. A preocupação com observações
outliers é antiga e data das primeiras tentativas de analisar um conjunto de dados. Inicial-
mente pensava-se que a melhor forma de lidar com esse tipo de observação seria através da
sua eliminação da análise. Atualmente este procedimento é ainda muitas vezes utilizado,
existindo, no entanto, outras formas de lidar com tal tipo de fenômeno.
Um outlier pode surgir por erros de medição, digitação, de execução ou ser um valor iner-
ente à população. Uma atenção especial deve ser dada aos outliers, pois normalmente essas
observações resultam em alguma violação das pressuposições necessárias para adequação ao
modelo, produzindo conseqüentemente efeitos não confiáveis na eficiência dos estimadores
Segundo Hawkins (1980)[6] um outlier é uma observação que se desvia muitos das demais
observações, a ponto de suspeitar-se que tenha sido gerada por um mecanismo diferenciado.
Já para Barnett e Lewis (1994),[1] um outlier é uma observação (ou subconjunto de ob-
servações) que parece ser inconsistente em relação ao restante do conjunto de dados. Há
uma variedade de aplicações, nas quais os outliers são importantes, entre elas destaca-se:
diagnósticos de falhas; detecção de fraudes; detecção de intrusão em sistemas; monitoração
2
de condições médicas. Nessas aplicações, observações que apresentam outliers precisam ser
detectadas para que possam ser tratadas adequadamente, de acordo com a necessidade da
aplicação. Dependendo da sua natureza, os outliers podem causar um efeito substancial na
análise dos dados. Assim, é importante a identificação destes por várias razões, entre elas:
• Melhor entendimento da série em estudo: um outlier detectado pode ser a evidência

da ocorrência de algum fator externo afetando a série. Por exemplo, falha nos equipa-
mentos de medição;
• Melhor modelagem e estimação: eventos desconhecidos podem afetar na modelagem

e/ou estimação. Assim, não identificar os outliers compromete na estimativa de
parâmetros do modelo, comprometendo a precisão do resultado levando a erros na
previsão;
• Melhor tratamento: a presença de outliers influencia no resultado do tratamento, pois

a qualidade dos dados reflete diretamente nos resultados obtidos.
Dentro deste contexto, faz-se necessário a aplicação de testes confiáveis para identificar
os outliers.
2.1 Métodos de Identificação de Outliers
Existe na literatura diversos testes estatı́sticos para identificação de outliers. Entre estes
pode-se destacar: teste Q de Dixon, teste de Z-score, teste de Peirce, teste de Chauvenet,
teste de Cochran, teste da Razão Q, teste de Boxplot.
2.1.1 Teste de Dixon
O teste de Dixon, também conhecido como teste Q de Dixon, é um método utilizado para
a identificação de outliers nos extremos de um conjunto de dados, ou seja, para verificar se o
menor e o maior valor do conjunto são outliers. Inclui uma variedade de cálculos diferenciados
conforme o tamanho do conjunto de dados que está sendo analisado. O teste consiste em
calcular o valor Q para o menor e maior valor da amostra e compará-los com o valor crı́tico
tabelado para o nı́vel de significância desejado. Caso os valores calculados excedam o valor
crı́tico tabelado, são considerados como outliers. Para a aplicação do teste, conforme Ellison,
Barwick e Farrant (2009[5]) seguem-se os passos abaixo:
1. Ordenar os dados amostrais em ordem crescente;

3
2. De acordo com a quantidade de dados n calcular o valor de Q para o menor e maior ;
• Para 3 ≤ n ≤ 7:fazer Q = (x2 − x1 )/(xn − x1 ) ou Q = (xn − xn−1 )/(xn − x1 )
• Para 8 ≤ n ≤ 12:fazer Q = (x2 − x1 )/(xn−1 − x1 ) ou Q = (xn − xn−1 )/(xn − x2 )
• Para 13 ≤ n ≤ 14:fazer Q = (x3 − x1 )/(xn−2 − x1 ) ou Q = (xn − xn−2 )/(xn − x3 )
3. Obter o valor crı́tico tabelado, indicado por Qc , disponı́vel Kanji (2006[7]), para o nı́vel
de significância adequado.
4. Em seguida, aplicar o teste abaixo:
• Se Q > Qc , o valor é considerado um outlier ;
• Se Q ≤ Qc , o valor não é considerado um outlier ;
2.1.2 Teste Z-Score
O score z ou z-score é uma medida de posição, que descreve a localização de um valor, em

termos de desvios padrões, em relação à média. Assim, um score z igual a 3, por exemplo,
indica que determinado valor está a três desvios padrões acima da média, e um score z de
-3, indica três desvios padrões abaixo da média.
Convertendo os dados em seus valores z-scores correspondentes, pode-se utilizar destes
valores para a identificação de outliers, pois um z-score muito alto indica que determinado
valor está fora do padrão de comportamento do restante do conjunto de dados. Assim, para
a aplicação deste teste, primeiramente, é calculado o z-scores do(s) valor(es) suspeito(s) de
ser(em) outlier(s), conforme.
Z = (xi − x̄)/s (1)
Em seguida, é realizada uma comparação do z-score calculado com um valor padrão

fixado, de acordo com o tamanho da base de dados. Conforme o resultado dessa comparação,
o valor é classificado como um outlier.
Assim, conforme Sarabando (2010)[14], com n indicando o tamanho da amostra de dados
sendo analisada, tem-se:
1. Se n ≤ 50 então: Se Z ≤ −2, 5 ou Z ≥ 2, 5, o valor é considerado um outlier. Caso

contrário, o valor não é considerado um outlier ;
2. Se 50 < n < 1000 então: Se Z ≤ −3 ou Z ≥ 3, o valor é considerado um outlier. Caso

4
3. Se n ≥ 1000 então: Se Z ≤ −3, 3 ou Z ≥ 3, 3, o valor é considerado um outlier. Caso

2.1.3 Teste de Peirce
O critério de Peirce é um método mais elaborado para identificação de outliers, baseado

na teoria de probabilidade. Para ser aplicado, seguem-se os passos abaixo, conforme Ross
(2003)[12]:
1. Calcule a média (x̄) e o desvio-padrão (s) da amostra de dados sendo analisada;
2. Para quaisquer medidas de dados suspeitas, obtenha o desvio absoluto entre o valor
suspeito e a média da amostra de dados, conforme Di = |xi − x̄|;
3. Obtenha o valor de P correspondente ao tamanho do conjunto de dados, a partir da

tabela de valores crı́ticos disponı́veis em Ross (2003)[12] . Suponha para a primeira
aplicação do teste, o caso de um único valor suspeito, mesmo se parece haver mais de
um;
4. Em seguida, calcule a distância máxima permitida, dada por Dmax = P × s;
5. Considere como outliers os valores que forem maiores que a distância máxima permi-
tida, ou seja, quando Di > Dmax ;
6. Se resultar na identificação de algum outlier, assumir o caso de duas observações sus-

peitas e reaplicar o teste, mantendo os valores originais da média, desvio padrão e
tamanho da amostra de dados. Caso resultar na identificação de dois outliers, aplicar
novamente, considerando agora três valores suspeitos. Repita os cálculos em sequência
crescente conforme o número de possibilidades de valores duvidosos até que não haja
mais dados que precisem ser eliminados.
7. Posteriormente, eliminam-se os dados que foram identificados como outliers, calcula

novamente a média e desvio padrão do novo conjunto de dados reduzido e retorna ao
passo 2.
8. A aplicação do método se repete até que não sejam identificados novos outliers.
5
2.1.4 Teste de Chauvenet
De acordo com Soares (2009)[17], o critério proposto por Chauvenet em 1960, especifica
a eliminação de um único valor duvidoso. Para eliminar um segundo valor seria necessário
recalcular a média e o desvio padrão para o novo conjunto de dados e só então aplicar
novamente o critério. Porém, Chauvenet não especifica nenhum limite para a aplicação do
método. Entretanto, como a cada novo cálculo o desvio padrão diminui, é muito provável
que essa aplicação sucessiva resulte na eliminação de um grande número de dados. Assim,
é preferı́vel aplicar o critério uma única vez para cada conjunto de dados, eliminando todos
os valores que se encontram fora do intervalo estabelecido.
O método especifica que um valor medido será considerado um outlier se a probabilidade
do desvio padrão em relação à média, chamado de coeficiente de variação CV = s/x̄, for
menor que 1/2n, sendo n o tamanho da amostra de dados sendo analisada.
Assim, para cada valor da amostra de dados, indicado por xi , a faixa de valores aceitáveis
para que não seja considerado como outlier, será dada por [(x̄ − C × s) < xi < (x̄ + C × s)],
em que x̄ representa a média da amostra de dados sendo analisada, s o desvio padrão e C é
um valor tabelado disponı́vel em Soares (2009)[17]. Logo, valores fora deste intervalo serão
considerado outliers.
2.1.5 Teste de Cochran
O teste de Cochran é utilizado para a identificação de outliers em um grupo de dados

em relação aos demais. Neste teste, comparam-se variâncias, ou seja, verifica se a variância
dos resultados obtidos por um grupo é excessiva em relação à dos demais grupos. Tem como
limitação o fato de que as amostras são retiradas de k grupos distribuı́das normalmente e
também à exigência de que cada grupo possua a mesma quantidade de dados (Kanji, 2006)[7].
Assim, para um conjunto de dados de tamanho n, divididos igualmente em k grupos de
tamanho m ,cada um com desvio padrão amostral si (i = 1, 2, ..., k), o valor w a calcular
para o teste de Cochran é dado por w = vmax / ni=1 vi , em que vi representa a estimativa
P
da variância para o i-éssimo grupo, e vmax representa o maior valor encontrado no conjunto
como estimativa da variância.
Calculado a estatı́stica do teste (w), compara-se com o valor crı́tico tabelado, disponı́vel
em Kanji (2006)[7]. A hipótese de que há grande variação no grupo analisado em relação
aos demais é rejeitada caso o valor observado de (w) não exceda o valor crı́tico.
6
2.1.6 Teste de Razão Q
O teste da Razão Q é um método simples de ser aplicado para a verificação de outliers,

baseado na distância entre o valor suspeito e a amplitude geral do conjunto de dados. Para
a aplicação do teste deve-se executar os seguintes passos, conforme Lopes (2003)[9]:
1. Ordenar os dados de modo decrescente;
2. Calcular o desvio absoluto entre o valor suspeito (possı́vel outlier ) e seu vizinho mais
próximo, ou seja, dentre todos os dados, obter o que tenha o menor desvio absoluto
em relação ao dado analisado. Assim, o desvio absoluto calculado será chamado de d;
3. Calcular a amplitude dos dados, conforme A = |xn − x1 |, em que xn representa o maior

valor da amostra e x1 representa o menor valor da amostra
4. Em seguida, calcular o valor de R = d/A, em que d é o desvio absoluto calculado no

passo 2 e A representa a amplitude calculada no passo anterior;
5. Com base no valor de R calculado e nos valores crı́ticos tabelados em Lopes (2003)[9],
considere como outliers os valores que forem maiores que valores crı́ticos,ou seja,
quando R > Rcritico , caso contrário, não é considerado um outlier ;
2.1.7 Teste de Boxplot
O Boxplot, também conhecido como diagrama em caixa, é um teste baseado no gráfico

proposto por Tukey (1977)[18] frequentemente usado para revelar o centro, a dispersão e a
distribuição dos dados, além da presença de outliers.
É construı́do com base na mediana, no quartil inferior (Q1), no quartil superior (Q3), e
no intervalo interquartil (IQR), que é dado por IQR = Q3 − Q1.
Assim, para a construção do gráfico, traça-se uma linha central marcando a mediana
do conjunto de dados. A parte inferior da caixa é delimitada pelo quartil inferior e a parte
superior pelo quartil superior. As hastes inferiores e superiores se estendem, respectivamente,
do quartil inferior até o limite inferior (LI) e do quartil superior até o limite superior (LS)
são dadas respectivamente por LI = Q1 − 1, 5 × IQR e LS = Q3 + 1, 5 × IQR.
Os valores inferiores ao limite inferior e superiores ao limite superior são caracterizados
como outliers (Silva, 2008[15]).
7
2.2 Taxas de Erros Tipo I e Tipo II
Na maioria dos estudos cientı́ficos faz necessária a realização de teste de hipótese sobre
parâmetros populacionais. A realização de teste de hipótese vem acompanhada de certos
riscos como o de tomar decisões erradas, ou seja, cometer erros. Estes erros são referenciados
como sendo erro tipo I e erro tipo II. O erro tipo I é aquele que se comete ao rejeitar uma
hipótese nula, dado que esta hipótese é verdadeira e a probabilidade de incorrer neste tipo
de erro é representada pelo valor de significância α (Mood, Graybill e Boes, 1974 [10]). O
pesquisador não consegue controlar as probabilidades de se cometer os dois tipos de erros ao
mesmo tempo, embora consiga controlar a do erro tipo I. O erro tipo II é o erro que se comete
ao se aceitar a hipótese nula, quando esta hipótese é falsa e a probabilidade associada a esse
erro é representada por β. Para que qualquer teste de hipóteses ou regras de decisão tenham
seus erros reduzidos ao mı́nimo, para um dado tamanho de amostra, não é tão simples,
pois a redução de um certo tipo de erro é acompanhada pelo acréscimo do outro. Deve-se
reforçar a importância sobre o controle do erro tipo I e que os erros, como mencionado,
são inversamente proporcionais (Borges, 2002 [2]). Um equilı́brio entre as taxas de erro é
essencial, de modo que a taxa de erro tipo II não seja excessivamente aumentada.
O poder de um teste, de acordo com Borges (2002) [2], é a probabilidade de detectar
diferenças entre tratamentos quando elas realmente existem, ou seja, 1-β é a probabilidade
de rejeitar a hipótese nula quando ela realmente falsa. Os testes que possuem o valor real
das taxas de erro tipo I menor do que o nominal α são ditos conservadores ou rigorosos. Em
um teste conservador, sob H0 , a probabilidade de se encontrar um resultado significativo é
inferior ao valor α estabelecido (Snedecor e Cochran, 1980 [16]).
Segundo Lim e Loh (1996) [8] para se considerar que um teste é robusto é feito um estudo
do número máximo a ser atingido pelo nı́vel de significância em que este não ultrapasse 10%
para o caso de α=0.05, para todas as situações de hipótese nula.
2.3 Simulação
Caracteriza um processo para imitar o comportamento de um sistema real, e assim es-

tudar seu funcionamento sob condições alternativas (Dachs, 1988 [4]). Tornou-se cada vez
mais frequente o uso de métodos de simulação para estudar novos procedimentos estatı́sticos
ou para comparar o comportamento de diferentes técnicas estatı́sticas.
A simulação de dados é, possivelmente, a área em que mais se usa geração de números
8
aleatórios na atualidade. Esta é uma área muito vasta, que cresceu muito. Foi com o
aparecimento e evolução dos computadores que permitiu a um número crescente de pessoas
a possibilidade de realizar simulações, desde simples jogos, até modelos complexos. O im-
portante na simulação é a validação dos modelos, pois, se o modelo reproduzir com alguma
fidelidade a realidade, torna-se claro a influência de certas alterações na realidade e, ainda,
permite que estas alterações sejam testadas, nos modelos, antes de serem levadas para a
realidade, ou seja, com o programa de simulação (Dachs, 1988 [4]).
O uso da simulação de dados tem uma grande diversidade de áreas de aplicação, basica-
mente sob duas linhas de atuação: problemas matemáticos completamente determinı́sticos,
cuja solução é difı́cil ou em problemas que envolvem o processo estocástico Monte Carlo.
Esta técnica de simulação tem base probabilı́stica ou estocástica.
Dachs (1988) [4] descreveu processos de geração de amostras aleatórias a partir de uma
distribuição uniforme (0,1). A linguagem computacional Pascal foi utilizada pelo autor na
implementação dos algoritmos para a geração de sequências aleatórias. Este tipo de con-
strução está baseado no teorema da probabilidade integral, que garante que é possı́vel obter, a
partir de uma distribuição uniforme (0,1), uma amostra de qualquer outra distribuição. Este
teorema afirma que se U tem distribuição uniforme (0,1) e se F é uma função de distribuição
qualquer, a variável X = F −1 (U ) tem função de distribuição F.
O método de Monte Carlo, de uma maneira geral, é um método utilizado para que sejam
simulados dados (variáveis aleatórias) a partir de uma sequência pseudo aleatória, baseada na
distribuição uniforme (0,1). Todo processo simulado que envolve um componente aleatório
de qualquer distribuição é considerado como pertencente ao método de Monte Carlo. A
única restrição para o uso deste método é a sua implicação quanto a distribuições cuja
função distribuição seja desconhecida ou que a inversão não seja possı́vel pela não existência
de algoritmos numéricos. Felizmente, na literatura, existem inúmeros algoritmos eficientes
de inversão das funções de distribuições comumente usadas pelos estatı́sticos (Santos, 2001
[13]). Outros métodos podem ser utilizados, como, por exemplo, o método da aceitação e
rejeição.
3 Justificativa
Um problema que surge na análise de um conjunto de dados é a presença de outliers, que
são dados que se diferem excessivamente dos demais. Uma questão que surge é se estes dados
9
devem ou não ser excluı́dos. Sabendo que a exclusão destes dados pode interferir na inferência
realizada na amostra estudada, verifica-se a importância de testes que detectem os outliers,
para que posteriormente a decisão em relação a exlusão ou não destes dados possa ser tomada
por meio de técnicas estatı́sticas adequadas. Duas propriedades importantes são desejadas
em um teste de detecção de outliers: o poder e a taxa de erro tipo I. Dessa forma é relevante
avaliar o desempenho dos teste de detecção de outliers, pois testes indicarão a presença
de tais dados, o que torna a análise dos dados crı́tica, principalmente em ambientes que
exijam segurança e confiabilidade de dados, uma vez que a presença de dados inconsistentes
prejudica na tomada de decisões, além de afetar a confiabilidade das informações.
4 Objetivo
O objetivo deste trabalho é avaliar, via simulação Monte Carlo, os desempenhos quanto
as taxas de poder e de erro do tipo I dos testes de detecção de outliers: teste Q de Dixon,
teste de Z-score, teste de Peirce, teste de Chauvenet, teste de Cochran, teste da Razão Q,
teste de Boxplot.
5 Metodologia
5.1 Simulação Monte Carlo
Para a simulação de dados serão gerados três tamanhos diferentes de séries para cada dis-
tribuição de densidade de probabilidade, dada pela normal e pela gama. Para o processo nor-
mal usar-se-á média 0 e variância 1 e 10, caracterizando assim diferenças na variabilidade do
processo. Para a gama usar-se-á uma média de 30 e variância de 90 e de 300. Para simular os
dados com dependência será assumido um modelo auto-regressivo de ordem 1. Nas situações
do estudo do poder serão inseridos valores atı́picos em pontos estratégicos(aleatórios) da
série em quantidades diferentes.
Os testes descritos na seção 2.1 serão aplicados às séries de dados geradas. Adotar-
se-á dois nı́veis nominais de significância α (0,01 e 0,05). Os p-valores observados serão
confrontados com os valores de α nominais.
A proporção de resultados em que os p-valores de um teste forem inferiores ou iguais ao
valor nominal α será computada. Para o caso de simulação sob H0 , essa proporção refere-se
à taxa de erro tipo I e sob H1 se refere ao poder.
10
Para a simulação serão utilizadas funções do Sistema Computacional Estatı́stico R, con-

forme R Development Core Team [11].
6 Referências bibliográficas
Referências
[1] BARNETT, V.; LEWIS, T. Outliers in Statistical Data. John Wiley & Sons, 3ed., 1994.
[2] BORGES, L. C. Poder e taxas de erro tipo I dos testes Scott-Knott, Tukey e
Student-Newman-Keuls sob distribuição normal e não-normais dos resı́duos. Dis-
sertação (Mestrado em Estatı́stica e Experimentação Agropecuária) - Universidade Fed-
eral de Lavras, Lavras - MG, 2002. 94p.
[3] CEQUINEL FILHO, S. L. C. Análise de Métodos para validação de medições de energia

elétrica. Dissertação de Mestrado. Universidade Federal do Paraná - UFPR. Curitiba,
2008.
[4] DACHS, J. N. Estatı́stica computacional: uma introdução em turbo pascal. Livros

Técnicos e Cientı́ficos, Rio de Janeiro, 1988. 236p.
[5] ELLISON, S. L. R., BARWICK, V. J. & FARRANT, T. J. D. Practical Statistics for

the Analytical Scientist. A Bench Guide. 2ed., 2009.
[6] HAWKINS, D. Identication of outliers. Chapman & HaIl, London, 1980.
[7] KANJI, G. K. 100 Statistical Test. 2006. 3ed. Sage Publications. 527p.
[8] LIM, T. S.; LOH, W. Y. A comparison of tests of equality of variances. Computational

Statistics and Data Analysis. v.22, n.3, p.287-301, 1996.
[9] LOPES, A. L. Estatı́stica Aplicada à Análise de Resultados de Ensaios de Proficiência

na Avaliação de Laboratórios. Instituto Adolfo Lutz, Rio de Janeiro. 2003.
[10] MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to the theory of statistics.
McGraw-Hill, Singapure, 3th edition, 1974. 564p.
[11] R DEVELOPMENT CORE TEAM.An Introduction to R: Version: 2.9 (2011).

Disponı́vel em: < http://www.r-project.org >.
11
[12] ROSS, STEPHEN M. Peirce’s Criterion for the Elimination of Suspect Experimental
Data. J. Engr. Technology. 2003
[13] SANTOS, A. C. dos. Definição do tamanho amostral usando simulação de Monte Carlo
para os testes de normalidade univariado e multivariado baseados em assimetria e cur-
tose. Dissertação (Mestrado em Estatı́stica e Experimentação Agropecuária) - Univer-
sidade Federal de Lavras, Lavras - MG, 2001. 71p.
[14] SARABANDO, P. Outiliers: Conceitos básicos. Disponı́vel em:

< http://www. estv.ipv.pt/PaginasPessoais/psarabando/CET%20%20Ambiente%202008-
2009/Slides/8.%20Outliers.pdf >. Acessado em: 30-abril-2011.
[15] SILVA, R. B. V. Robustez de testes de homogeneidade de covariâncias assintóticos e

bootstrap para popuplações multivariadas. Dissertação (Mestrado em Estatı́stica e Ex-
perimentação Agropecuária) - Universidade Federal de Lavras,Lavras - MG, 2005. 95p.
[16] SNEDECOR, G. W.; COCHRAN, W. G. Statistical methods. The Iowa State University
Press, Ames, 7ed., 1980. 507p.
[17] SOARES, M. 2009. Critério de Chauvenet. Disponı́vel em:

< http://www.mspc.eng.br/tecdiv/med200.shtml >. Acessado em: 21-fev-2011.
[18] TUKEY, JOHN WILDER (1977). Exploratory Data Analysis. Addison-Wesley.
7 Resultados esperados
Pretende-se com a pesquisa proposta no presente projeto, realizar uma avaliação dos
testes de detecção de outliers quanto o desempenho em relação a taxa de poder e taxa de
erro de Tipo I, oferecendo a outros pesquisadores informações acerca de qual teste é mais
indicado para detectar a presença de dados incosistestes. Ademais, pretende-se com o projeto
complementar a formação do aluno de iniciação cientı́fica (IC), uma vez que este tema não
é abordado nas disciplinas da graduação.
8 Cronograma
As atividades mensais a serem desenvolvidas neste projeto compõem-se das seguintes
etapas:
12
2012 2013
Atividades
Mar Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev
1 x x x x x x x x x x x x
2 x x x x
3 x x
4 x x x
5 x
6 x x
em que:
1. Revisão de literatura;
2. Estudo das funções do programa R para a simulação de dados;
3. Gerar os dados via simulação Monte Carlo;
4. Calcular as taxas de poder e de erro tipo I dos testes de detecção de outliers;
5. Organização dos resultados;
6. Redação final do trabalho e conclusões de trabalhos.
9 Plano de trabalho do bolsista

As atividades a serem desenvolvidas serão orientadas e acompanhadas pelo Prof. Dr.
Luiz Alberto Beijo. As atividades serão as seguintes:
1. Revisão de literatura: A revisão de literatura acerca de dados outliers, métodos de

detecção de outliers e simulação Monte Carlo será realizada por intermédio de consulta
a livros, artigos e internet. Também serão realizados encontros semanais no laboratório
da matemática com o orientador, visando sanar dúvidas que possam surgir ao decorrer
da pesquisa.
2. Estudo das funções do programa R para a simulação de dados: Para a realização

das simulações, serão utilizados os pacotes do Sistema Computacional R Development
Core Team (2011). Sendo o software R gratuito e de código aberto, isso faz com que
muitos pesquisadores possam contribuir com pacotes com as mais diversas finalidades,
13
o que aumenta o potencial do software, principalmente com os pacotes voltados para

análise estatı́stica de dados. Assim, este programa será de grande relevância para as
finalidades do presente trabalho.
3. Gerar os dados via simulação Monte Carlo: A fim de que os testes detecção de outliers
possam ser avaliados, diversas situações serão simuladas. Os detalhes referentes a
simulação Monte Carlos já foram explicitados na seção 5.1 .
4. Calculo do poder e de erro tipo I dos testes de detecção de outliers: Todos os passos
desta etapa também se encontram detalhadas na seção 5.1 .
5. Organização dos resultados: Após as simulações e cálculos do poder e da taxa de erro

do Tipo I dos testes de detecção de outliers será realizada a organização dos resultados.
O mês de dezembro de 2012 será reservado para a apuração dos dados, bem como sua
análise e interpretação.
6. Redação final do trabalho e conclusões de trabalhos: Esta etapa será realizada nos
dois últimos meses do trabalho. A redação final do trabalho será feita mediante a
observação do Manual de normalização para apresentação de trabalhos acadêmicos da
Unifal e a consulta às normas de Informação e Documentação da Associação Brasileira
de Normas Técnicas (ABNT). O relatório final visa contemplar todas as etapas ante-
riores, apresentado de forma integrada todos os resultados obtidos. Cabe ressaltar que
para a realização deste projeto será necessário apenas a utilização de computadores
com boa capacidade de memória para cálculos computacionais, sendo que este recurso
já se encontra disponı́vel no laborátório da matemática.

Avaliacao Do Poder e Taxas de Erro Do Tipo I de Testes de Detecçao de Outliers Via Simulaçao

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Avaliacao Do Poder e Taxas de Erro Do Tipo I de Testes de Detecçao de Outliers Via Simulaçao

Enviado por

Direitos autorais:

Formatos disponíveis

AVALIAÇÃO DO PODER E TAXAS DE ERRO DO

TIPO I DE TESTES DE DETECÇÃO DE

Projeto de pesquisa submetido à Pró-reitoria

Área de concentração: Estatı́stica Aplicada

Orientador: Luiz Alberto Beijo.

Discente: Carlos José dos Reis.

9 Plano de trabalho do bolsista 12

• Melhor entendimento da série em estudo: um outlier detectado pode ser a evidência

• Melhor modelagem e estimação: eventos desconhecidos podem afetar na modelagem

• Melhor tratamento: a presença de outliers influencia no resultado do tratamento, pois

2.1 Métodos de Identificação de Outliers

2.1.1 Teste de Dixon

1. Ordenar os dados amostrais em ordem crescente;

2. De acordo com a quantidade de dados n calcular o valor de Q para o menor e maior ;

• Para 3 ≤ n ≤ 7:fazer Q = (x2 − x1 )/(xn − x1 ) ou Q = (xn − xn−1 )/(xn − x1 )

• Para 8 ≤ n ≤ 12:fazer Q = (x2 − x1 )/(xn−1 − x1 ) ou Q = (xn − xn−1 )/(xn − x2 )

• Para 13 ≤ n ≤ 14:fazer Q = (x3 − x1 )/(xn−2 − x1 ) ou Q = (xn − xn−2 )/(xn − x3 )

4. Em seguida, aplicar o teste abaixo:

• Se Q > Qc , o valor é considerado um outlier ;

• Se Q ≤ Qc , o valor não é considerado um outlier ;

2.1.2 Teste Z-Score

O score z ou z-score é uma medida de posição, que descreve a localização de um valor, em

Em seguida, é realizada uma comparação do z-score calculado com um valor padrão

1. Se n ≤ 50 então: Se Z ≤ −2, 5 ou Z ≥ 2, 5, o valor é considerado um outlier. Caso

2. Se 50 < n < 1000 então: Se Z ≤ −3 ou Z ≥ 3, o valor é considerado um outlier. Caso

3. Se n ≥ 1000 então: Se Z ≤ −3, 3 ou Z ≥ 3, 3, o valor é considerado um outlier. Caso

2.1.3 Teste de Peirce

O critério de Peirce é um método mais elaborado para identificação de outliers, baseado

1. Calcule a média (x̄) e o desvio-padrão (s) da amostra de dados sendo analisada;

3. Obtenha o valor de P correspondente ao tamanho do conjunto de dados, a partir da

4. Em seguida, calcule a distância máxima permitida, dada por Dmax = P × s;

6. Se resultar na identificação de algum outlier, assumir o caso de duas observações sus-

7. Posteriormente, eliminam-se os dados que foram identificados como outliers, calcula

2.1.4 Teste de Chauvenet

2.1.5 Teste de Cochran

O teste de Cochran é utilizado para a identificação de outliers em um grupo de dados

2.1.6 Teste de Razão Q

O teste da Razão Q é um método simples de ser aplicado para a verificação de outliers,

1. Ordenar os dados de modo decrescente;

3. Calcular a amplitude dos dados, conforme A = |xn − x1 |, em que xn representa o maior

4. Em seguida, calcular o valor de R = d/A, em que d é o desvio absoluto calculado no

2.1.7 Teste de Boxplot

O Boxplot, também conhecido como diagrama em caixa, é um teste baseado no gráfico

2.2 Taxas de Erros Tipo I e Tipo II

Caracteriza um processo para imitar o comportamento de um sistema real, e assim es-

5.1 Simulação Monte Carlo

Para a simulação serão utilizadas funções do Sistema Computacional Estatı́stico R, con-

[3] CEQUINEL FILHO, S. L. C. Análise de Métodos para validação de medições de energia

[4] DACHS, J. N. Estatı́stica computacional: uma introdução em turbo pascal. Livros

[5] ELLISON, S. L. R., BARWICK, V. J. & FARRANT, T. J. D. Practical Statistics for

[6] HAWKINS, D. Identication of outliers. Chapman & HaIl, London, 1980.

[8] LIM, T. S.; LOH, W. Y. A comparison of tests of equality of variances. Computational

[9] LOPES, A. L. Estatı́stica Aplicada à Análise de Resultados de Ensaios de Proficiência

[11] R DEVELOPMENT CORE TEAM.An Introduction to R: Version: 2.9 (2011).

[14] SARABANDO, P. Outiliers: Conceitos básicos. Disponı́vel em:

[15] SILVA, R. B. V. Robustez de testes de homogeneidade de covariâncias assintóticos e

[17] SOARES, M. 2009. Critério de Chauvenet. Disponı́vel em:

[18] TUKEY, JOHN WILDER (1977). Exploratory Data Analysis. Addison-Wesley.

2. Estudo das funções do programa R para a simulação de dados;

3. Gerar os dados via simulação Monte Carlo;

4. Calcular as taxas de poder e de erro tipo I dos testes de detecção de outliers;

5. Organização dos resultados;