Você está na página 1de 15

AVALIAÇÃO DO PODER E TAXAS DE ERRO DO

TIPO I DE TESTES DE DETECÇÃO DE


OUTLIERS VIA SIMULAÇÃO

Projeto de pesquisa submetido à Pró-reitoria


de Pesquisa e Pós-Graduação como parte dos
requisitos para obtenção de bolsa de iniciação
cientı́fica PIBICT/FAPEMIG conforme edi-
tal 006/2011.

Área de concentração: Estatı́stica Aplicada


(Interdisciplinar)

Orientador: Luiz Alberto Beijo.

Discente: Carlos José dos Reis.

Alfenas/MG
Novembro de 2011
Sumário
1 Resumo 1

2 Introdução 1
2.1 Métodos de Identificação de Outliers . . . . . . . . . . . . . . . . . . . . . . 2
2.1.1 Teste de Dixon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.2 Teste Z-Score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.3 Teste de Peirce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.4 Teste de Chauvenet . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.5 Teste de Cochran . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.6 Teste de Razão Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.1.7 Teste de Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2 Taxas de Erros Tipo I e Tipo II . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Simulação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Justificativa 8

4 Objetivo 9

5 Metodologia 9
5.1 Simulação Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

6 Referências bibliográficas 10

7 Resultados esperados 11

8 Cronograma 11

9 Plano de trabalho do bolsista 12


1

1 Resumo
Sabe-se que em uma amostra grande parte dos dados ficam sujeitos a falhas de equipa-
mentos, erros de medição, erros humanos, entre outros fatores. Um problema que surge em
um conjunto de dados é a presença de outliers, que são dados que se diferem muito dos
demais. Sabendo que a presença de outliers pode acarretar prejuı́zos quanto a confiabilidade
das informações, que serão inferidas através da amostra, torna-se imprescendı́vel a utilização
de métodos estatı́ticos que os identifiquem, para que se possa posteriormente decidir o que
deverá ser feito com estes dados. Duas propriedades importantes em métodos de identi-
ficação de outliers são o poder e a taxa de erro do Tipo I. Dessa forma, pretende-se neste
trabalho estudar alguns testes de detecção de outliers presentes na literatura, avaliando seus
desempenhos quanto ao controle do erro tipo I e seu poder, utilizando simulação Monte Carlo
em diferentes situações, de tamanhos amostrais e número de outliers na série de dados.

2 Introdução
Um outlier é caracterizado pela sua relação com as restantes observações que fazem parte
da amostra. O seu distanciamento em relação a essas observações é fundamental para se
fazer a sua caracterização. Estas observações são também designadas por observações “anor-
mais”, contaminantes, estranhas, extremas ou aberrantes. A preocupação com observações
outliers é antiga e data das primeiras tentativas de analisar um conjunto de dados. Inicial-
mente pensava-se que a melhor forma de lidar com esse tipo de observação seria através da
sua eliminação da análise. Atualmente este procedimento é ainda muitas vezes utilizado,
existindo, no entanto, outras formas de lidar com tal tipo de fenômeno.
Um outlier pode surgir por erros de medição, digitação, de execução ou ser um valor iner-
ente à população. Uma atenção especial deve ser dada aos outliers, pois normalmente essas
observações resultam em alguma violação das pressuposições necessárias para adequação ao
modelo, produzindo conseqüentemente efeitos não confiáveis na eficiência dos estimadores
Segundo Hawkins (1980)[6] um outlier é uma observação que se desvia muitos das demais
observações, a ponto de suspeitar-se que tenha sido gerada por um mecanismo diferenciado.
Já para Barnett e Lewis (1994),[1] um outlier é uma observação (ou subconjunto de ob-
servações) que parece ser inconsistente em relação ao restante do conjunto de dados. Há
uma variedade de aplicações, nas quais os outliers são importantes, entre elas destaca-se:
diagnósticos de falhas; detecção de fraudes; detecção de intrusão em sistemas; monitoração
2

de condições médicas. Nessas aplicações, observações que apresentam outliers precisam ser
detectadas para que possam ser tratadas adequadamente, de acordo com a necessidade da
aplicação. Dependendo da sua natureza, os outliers podem causar um efeito substancial na
análise dos dados. Assim, é importante a identificação destes por várias razões, entre elas:

• Melhor entendimento da série em estudo: um outlier detectado pode ser a evidência


da ocorrência de algum fator externo afetando a série. Por exemplo, falha nos equipa-
mentos de medição;

• Melhor modelagem e estimação: eventos desconhecidos podem afetar na modelagem


e/ou estimação. Assim, não identificar os outliers compromete na estimativa de
parâmetros do modelo, comprometendo a precisão do resultado levando a erros na
previsão;

• Melhor tratamento: a presença de outliers influencia no resultado do tratamento, pois


a qualidade dos dados reflete diretamente nos resultados obtidos.

Dentro deste contexto, faz-se necessário a aplicação de testes confiáveis para identificar
os outliers.

2.1 Métodos de Identificação de Outliers

Existe na literatura diversos testes estatı́sticos para identificação de outliers. Entre estes
pode-se destacar: teste Q de Dixon, teste de Z-score, teste de Peirce, teste de Chauvenet,
teste de Cochran, teste da Razão Q, teste de Boxplot.

2.1.1 Teste de Dixon

O teste de Dixon, também conhecido como teste Q de Dixon, é um método utilizado para
a identificação de outliers nos extremos de um conjunto de dados, ou seja, para verificar se o
menor e o maior valor do conjunto são outliers. Inclui uma variedade de cálculos diferenciados
conforme o tamanho do conjunto de dados que está sendo analisado. O teste consiste em
calcular o valor Q para o menor e maior valor da amostra e compará-los com o valor crı́tico
tabelado para o nı́vel de significância desejado. Caso os valores calculados excedam o valor
crı́tico tabelado, são considerados como outliers. Para a aplicação do teste, conforme Ellison,
Barwick e Farrant (2009[5]) seguem-se os passos abaixo:

1. Ordenar os dados amostrais em ordem crescente;


3

2. De acordo com a quantidade de dados n calcular o valor de Q para o menor e maior ;

• Para 3 ≤ n ≤ 7:fazer Q = (x2 − x1 )/(xn − x1 ) ou Q = (xn − xn−1 )/(xn − x1 )

• Para 8 ≤ n ≤ 12:fazer Q = (x2 − x1 )/(xn−1 − x1 ) ou Q = (xn − xn−1 )/(xn − x2 )

• Para 13 ≤ n ≤ 14:fazer Q = (x3 − x1 )/(xn−2 − x1 ) ou Q = (xn − xn−2 )/(xn − x3 )

3. Obter o valor crı́tico tabelado, indicado por Qc , disponı́vel Kanji (2006[7]), para o nı́vel
de significância adequado.

4. Em seguida, aplicar o teste abaixo:

• Se Q > Qc , o valor é considerado um outlier ;

• Se Q ≤ Qc , o valor não é considerado um outlier ;

2.1.2 Teste Z-Score

O score z ou z-score é uma medida de posição, que descreve a localização de um valor, em


termos de desvios padrões, em relação à média. Assim, um score z igual a 3, por exemplo,
indica que determinado valor está a três desvios padrões acima da média, e um score z de
-3, indica três desvios padrões abaixo da média.
Convertendo os dados em seus valores z-scores correspondentes, pode-se utilizar destes
valores para a identificação de outliers, pois um z-score muito alto indica que determinado
valor está fora do padrão de comportamento do restante do conjunto de dados. Assim, para
a aplicação deste teste, primeiramente, é calculado o z-scores do(s) valor(es) suspeito(s) de
ser(em) outlier(s), conforme.
Z = (xi − x̄)/s (1)

Em seguida, é realizada uma comparação do z-score calculado com um valor padrão


fixado, de acordo com o tamanho da base de dados. Conforme o resultado dessa comparação,
o valor é classificado como um outlier.
Assim, conforme Sarabando (2010)[14], com n indicando o tamanho da amostra de dados
sendo analisada, tem-se:

1. Se n ≤ 50 então: Se Z ≤ −2, 5 ou Z ≥ 2, 5, o valor é considerado um outlier. Caso


contrário, o valor não é considerado um outlier ;

2. Se 50 < n < 1000 então: Se Z ≤ −3 ou Z ≥ 3, o valor é considerado um outlier. Caso


contrário, o valor não é considerado um outlier ;
4

3. Se n ≥ 1000 então: Se Z ≤ −3, 3 ou Z ≥ 3, 3, o valor é considerado um outlier. Caso


contrário, o valor não é considerado um outlier ;

2.1.3 Teste de Peirce

O critério de Peirce é um método mais elaborado para identificação de outliers, baseado


na teoria de probabilidade. Para ser aplicado, seguem-se os passos abaixo, conforme Ross
(2003)[12]:

1. Calcule a média (x̄) e o desvio-padrão (s) da amostra de dados sendo analisada;

2. Para quaisquer medidas de dados suspeitas, obtenha o desvio absoluto entre o valor
suspeito e a média da amostra de dados, conforme Di = |xi − x̄|;

3. Obtenha o valor de P correspondente ao tamanho do conjunto de dados, a partir da


tabela de valores crı́ticos disponı́veis em Ross (2003)[12] . Suponha para a primeira
aplicação do teste, o caso de um único valor suspeito, mesmo se parece haver mais de
um;

4. Em seguida, calcule a distância máxima permitida, dada por Dmax = P × s;

5. Considere como outliers os valores que forem maiores que a distância máxima permi-
tida, ou seja, quando Di > Dmax ;

6. Se resultar na identificação de algum outlier, assumir o caso de duas observações sus-


peitas e reaplicar o teste, mantendo os valores originais da média, desvio padrão e
tamanho da amostra de dados. Caso resultar na identificação de dois outliers, aplicar
novamente, considerando agora três valores suspeitos. Repita os cálculos em sequência
crescente conforme o número de possibilidades de valores duvidosos até que não haja
mais dados que precisem ser eliminados.

7. Posteriormente, eliminam-se os dados que foram identificados como outliers, calcula


novamente a média e desvio padrão do novo conjunto de dados reduzido e retorna ao
passo 2.

8. A aplicação do método se repete até que não sejam identificados novos outliers.
5

2.1.4 Teste de Chauvenet

De acordo com Soares (2009)[17], o critério proposto por Chauvenet em 1960, especifica
a eliminação de um único valor duvidoso. Para eliminar um segundo valor seria necessário
recalcular a média e o desvio padrão para o novo conjunto de dados e só então aplicar
novamente o critério. Porém, Chauvenet não especifica nenhum limite para a aplicação do
método. Entretanto, como a cada novo cálculo o desvio padrão diminui, é muito provável
que essa aplicação sucessiva resulte na eliminação de um grande número de dados. Assim,
é preferı́vel aplicar o critério uma única vez para cada conjunto de dados, eliminando todos
os valores que se encontram fora do intervalo estabelecido.
O método especifica que um valor medido será considerado um outlier se a probabilidade
do desvio padrão em relação à média, chamado de coeficiente de variação CV = s/x̄, for
menor que 1/2n, sendo n o tamanho da amostra de dados sendo analisada.
Assim, para cada valor da amostra de dados, indicado por xi , a faixa de valores aceitáveis
para que não seja considerado como outlier, será dada por [(x̄ − C × s) < xi < (x̄ + C × s)],
em que x̄ representa a média da amostra de dados sendo analisada, s o desvio padrão e C é
um valor tabelado disponı́vel em Soares (2009)[17]. Logo, valores fora deste intervalo serão
considerado outliers.

2.1.5 Teste de Cochran

O teste de Cochran é utilizado para a identificação de outliers em um grupo de dados


em relação aos demais. Neste teste, comparam-se variâncias, ou seja, verifica se a variância
dos resultados obtidos por um grupo é excessiva em relação à dos demais grupos. Tem como
limitação o fato de que as amostras são retiradas de k grupos distribuı́das normalmente e
também à exigência de que cada grupo possua a mesma quantidade de dados (Kanji, 2006)[7].
Assim, para um conjunto de dados de tamanho n, divididos igualmente em k grupos de
tamanho m ,cada um com desvio padrão amostral si (i = 1, 2, ..., k), o valor w a calcular
para o teste de Cochran é dado por w = vmax / ni=1 vi , em que vi representa a estimativa
P

da variância para o i-éssimo grupo, e vmax representa o maior valor encontrado no conjunto
como estimativa da variância.
Calculado a estatı́stica do teste (w), compara-se com o valor crı́tico tabelado, disponı́vel
em Kanji (2006)[7]. A hipótese de que há grande variação no grupo analisado em relação
aos demais é rejeitada caso o valor observado de (w) não exceda o valor crı́tico.
6

2.1.6 Teste de Razão Q

O teste da Razão Q é um método simples de ser aplicado para a verificação de outliers,


baseado na distância entre o valor suspeito e a amplitude geral do conjunto de dados. Para
a aplicação do teste deve-se executar os seguintes passos, conforme Lopes (2003)[9]:

1. Ordenar os dados de modo decrescente;

2. Calcular o desvio absoluto entre o valor suspeito (possı́vel outlier ) e seu vizinho mais
próximo, ou seja, dentre todos os dados, obter o que tenha o menor desvio absoluto
em relação ao dado analisado. Assim, o desvio absoluto calculado será chamado de d;

3. Calcular a amplitude dos dados, conforme A = |xn − x1 |, em que xn representa o maior


valor da amostra e x1 representa o menor valor da amostra

4. Em seguida, calcular o valor de R = d/A, em que d é o desvio absoluto calculado no


passo 2 e A representa a amplitude calculada no passo anterior;

5. Com base no valor de R calculado e nos valores crı́ticos tabelados em Lopes (2003)[9],
considere como outliers os valores que forem maiores que valores crı́ticos,ou seja,
quando R > Rcritico , caso contrário, não é considerado um outlier ;

2.1.7 Teste de Boxplot

O Boxplot, também conhecido como diagrama em caixa, é um teste baseado no gráfico


proposto por Tukey (1977)[18] frequentemente usado para revelar o centro, a dispersão e a
distribuição dos dados, além da presença de outliers.
É construı́do com base na mediana, no quartil inferior (Q1), no quartil superior (Q3), e
no intervalo interquartil (IQR), que é dado por IQR = Q3 − Q1.
Assim, para a construção do gráfico, traça-se uma linha central marcando a mediana
do conjunto de dados. A parte inferior da caixa é delimitada pelo quartil inferior e a parte
superior pelo quartil superior. As hastes inferiores e superiores se estendem, respectivamente,
do quartil inferior até o limite inferior (LI) e do quartil superior até o limite superior (LS)
são dadas respectivamente por LI = Q1 − 1, 5 × IQR e LS = Q3 + 1, 5 × IQR.
Os valores inferiores ao limite inferior e superiores ao limite superior são caracterizados
como outliers (Silva, 2008[15]).
7

2.2 Taxas de Erros Tipo I e Tipo II

Na maioria dos estudos cientı́ficos faz necessária a realização de teste de hipótese sobre
parâmetros populacionais. A realização de teste de hipótese vem acompanhada de certos
riscos como o de tomar decisões erradas, ou seja, cometer erros. Estes erros são referenciados
como sendo erro tipo I e erro tipo II. O erro tipo I é aquele que se comete ao rejeitar uma
hipótese nula, dado que esta hipótese é verdadeira e a probabilidade de incorrer neste tipo
de erro é representada pelo valor de significância α (Mood, Graybill e Boes, 1974 [10]). O
pesquisador não consegue controlar as probabilidades de se cometer os dois tipos de erros ao
mesmo tempo, embora consiga controlar a do erro tipo I. O erro tipo II é o erro que se comete
ao se aceitar a hipótese nula, quando esta hipótese é falsa e a probabilidade associada a esse
erro é representada por β. Para que qualquer teste de hipóteses ou regras de decisão tenham
seus erros reduzidos ao mı́nimo, para um dado tamanho de amostra, não é tão simples,
pois a redução de um certo tipo de erro é acompanhada pelo acréscimo do outro. Deve-se
reforçar a importância sobre o controle do erro tipo I e que os erros, como mencionado,
são inversamente proporcionais (Borges, 2002 [2]). Um equilı́brio entre as taxas de erro é
essencial, de modo que a taxa de erro tipo II não seja excessivamente aumentada.
O poder de um teste, de acordo com Borges (2002) [2], é a probabilidade de detectar
diferenças entre tratamentos quando elas realmente existem, ou seja, 1-β é a probabilidade
de rejeitar a hipótese nula quando ela realmente falsa. Os testes que possuem o valor real
das taxas de erro tipo I menor do que o nominal α são ditos conservadores ou rigorosos. Em
um teste conservador, sob H0 , a probabilidade de se encontrar um resultado significativo é
inferior ao valor α estabelecido (Snedecor e Cochran, 1980 [16]).
Segundo Lim e Loh (1996) [8] para se considerar que um teste é robusto é feito um estudo
do número máximo a ser atingido pelo nı́vel de significância em que este não ultrapasse 10%
para o caso de α=0.05, para todas as situações de hipótese nula.

2.3 Simulação

Caracteriza um processo para imitar o comportamento de um sistema real, e assim es-


tudar seu funcionamento sob condições alternativas (Dachs, 1988 [4]). Tornou-se cada vez
mais frequente o uso de métodos de simulação para estudar novos procedimentos estatı́sticos
ou para comparar o comportamento de diferentes técnicas estatı́sticas.
A simulação de dados é, possivelmente, a área em que mais se usa geração de números
8

aleatórios na atualidade. Esta é uma área muito vasta, que cresceu muito. Foi com o
aparecimento e evolução dos computadores que permitiu a um número crescente de pessoas
a possibilidade de realizar simulações, desde simples jogos, até modelos complexos. O im-
portante na simulação é a validação dos modelos, pois, se o modelo reproduzir com alguma
fidelidade a realidade, torna-se claro a influência de certas alterações na realidade e, ainda,
permite que estas alterações sejam testadas, nos modelos, antes de serem levadas para a
realidade, ou seja, com o programa de simulação (Dachs, 1988 [4]).
O uso da simulação de dados tem uma grande diversidade de áreas de aplicação, basica-
mente sob duas linhas de atuação: problemas matemáticos completamente determinı́sticos,
cuja solução é difı́cil ou em problemas que envolvem o processo estocástico Monte Carlo.
Esta técnica de simulação tem base probabilı́stica ou estocástica.
Dachs (1988) [4] descreveu processos de geração de amostras aleatórias a partir de uma
distribuição uniforme (0,1). A linguagem computacional Pascal foi utilizada pelo autor na
implementação dos algoritmos para a geração de sequências aleatórias. Este tipo de con-
strução está baseado no teorema da probabilidade integral, que garante que é possı́vel obter, a
partir de uma distribuição uniforme (0,1), uma amostra de qualquer outra distribuição. Este
teorema afirma que se U tem distribuição uniforme (0,1) e se F é uma função de distribuição
qualquer, a variável X = F −1 (U ) tem função de distribuição F.
O método de Monte Carlo, de uma maneira geral, é um método utilizado para que sejam
simulados dados (variáveis aleatórias) a partir de uma sequência pseudo aleatória, baseada na
distribuição uniforme (0,1). Todo processo simulado que envolve um componente aleatório
de qualquer distribuição é considerado como pertencente ao método de Monte Carlo. A
única restrição para o uso deste método é a sua implicação quanto a distribuições cuja
função distribuição seja desconhecida ou que a inversão não seja possı́vel pela não existência
de algoritmos numéricos. Felizmente, na literatura, existem inúmeros algoritmos eficientes
de inversão das funções de distribuições comumente usadas pelos estatı́sticos (Santos, 2001
[13]). Outros métodos podem ser utilizados, como, por exemplo, o método da aceitação e
rejeição.

3 Justificativa
Um problema que surge na análise de um conjunto de dados é a presença de outliers, que
são dados que se diferem excessivamente dos demais. Uma questão que surge é se estes dados
9

devem ou não ser excluı́dos. Sabendo que a exclusão destes dados pode interferir na inferência
realizada na amostra estudada, verifica-se a importância de testes que detectem os outliers,
para que posteriormente a decisão em relação a exlusão ou não destes dados possa ser tomada
por meio de técnicas estatı́sticas adequadas. Duas propriedades importantes são desejadas
em um teste de detecção de outliers: o poder e a taxa de erro tipo I. Dessa forma é relevante
avaliar o desempenho dos teste de detecção de outliers, pois testes indicarão a presença
de tais dados, o que torna a análise dos dados crı́tica, principalmente em ambientes que
exijam segurança e confiabilidade de dados, uma vez que a presença de dados inconsistentes
prejudica na tomada de decisões, além de afetar a confiabilidade das informações.

4 Objetivo
O objetivo deste trabalho é avaliar, via simulação Monte Carlo, os desempenhos quanto
as taxas de poder e de erro do tipo I dos testes de detecção de outliers: teste Q de Dixon,
teste de Z-score, teste de Peirce, teste de Chauvenet, teste de Cochran, teste da Razão Q,
teste de Boxplot.

5 Metodologia

5.1 Simulação Monte Carlo

Para a simulação de dados serão gerados três tamanhos diferentes de séries para cada dis-
tribuição de densidade de probabilidade, dada pela normal e pela gama. Para o processo nor-
mal usar-se-á média 0 e variância 1 e 10, caracterizando assim diferenças na variabilidade do
processo. Para a gama usar-se-á uma média de 30 e variância de 90 e de 300. Para simular os
dados com dependência será assumido um modelo auto-regressivo de ordem 1. Nas situações
do estudo do poder serão inseridos valores atı́picos em pontos estratégicos(aleatórios) da
série em quantidades diferentes.
Os testes descritos na seção 2.1 serão aplicados às séries de dados geradas. Adotar-
se-á dois nı́veis nominais de significância α (0,01 e 0,05). Os p-valores observados serão
confrontados com os valores de α nominais.
A proporção de resultados em que os p-valores de um teste forem inferiores ou iguais ao
valor nominal α será computada. Para o caso de simulação sob H0 , essa proporção refere-se
à taxa de erro tipo I e sob H1 se refere ao poder.
10

Para a simulação serão utilizadas funções do Sistema Computacional Estatı́stico R, con-


forme R Development Core Team [11].

6 Referências bibliográficas

Referências
[1] BARNETT, V.; LEWIS, T. Outliers in Statistical Data. John Wiley & Sons, 3ed., 1994.

[2] BORGES, L. C. Poder e taxas de erro tipo I dos testes Scott-Knott, Tukey e
Student-Newman-Keuls sob distribuição normal e não-normais dos resı́duos. Dis-
sertação (Mestrado em Estatı́stica e Experimentação Agropecuária) - Universidade Fed-
eral de Lavras, Lavras - MG, 2002. 94p.

[3] CEQUINEL FILHO, S. L. C. Análise de Métodos para validação de medições de energia


elétrica. Dissertação de Mestrado. Universidade Federal do Paraná - UFPR. Curitiba,
2008.

[4] DACHS, J. N. Estatı́stica computacional: uma introdução em turbo pascal. Livros


Técnicos e Cientı́ficos, Rio de Janeiro, 1988. 236p.

[5] ELLISON, S. L. R., BARWICK, V. J. & FARRANT, T. J. D. Practical Statistics for


the Analytical Scientist. A Bench Guide. 2ed., 2009.

[6] HAWKINS, D. Identication of outliers. Chapman & HaIl, London, 1980.

[7] KANJI, G. K. 100 Statistical Test. 2006. 3ed. Sage Publications. 527p.

[8] LIM, T. S.; LOH, W. Y. A comparison of tests of equality of variances. Computational


Statistics and Data Analysis. v.22, n.3, p.287-301, 1996.

[9] LOPES, A. L. Estatı́stica Aplicada à Análise de Resultados de Ensaios de Proficiência


na Avaliação de Laboratórios. Instituto Adolfo Lutz, Rio de Janeiro. 2003.

[10] MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to the theory of statistics.
McGraw-Hill, Singapure, 3th edition, 1974. 564p.

[11] R DEVELOPMENT CORE TEAM.An Introduction to R: Version: 2.9 (2011).


Disponı́vel em: < http://www.r-project.org >.
11

[12] ROSS, STEPHEN M. Peirce’s Criterion for the Elimination of Suspect Experimental
Data. J. Engr. Technology. 2003

[13] SANTOS, A. C. dos. Definição do tamanho amostral usando simulação de Monte Carlo
para os testes de normalidade univariado e multivariado baseados em assimetria e cur-
tose. Dissertação (Mestrado em Estatı́stica e Experimentação Agropecuária) - Univer-
sidade Federal de Lavras, Lavras - MG, 2001. 71p.

[14] SARABANDO, P. Outiliers: Conceitos básicos. Disponı́vel em:


< http://www. estv.ipv.pt/PaginasPessoais/psarabando/CET%20%20Ambiente%202008-
2009/Slides/8.%20Outliers.pdf >. Acessado em: 30-abril-2011.

[15] SILVA, R. B. V. Robustez de testes de homogeneidade de covariâncias assintóticos e


bootstrap para popuplações multivariadas. Dissertação (Mestrado em Estatı́stica e Ex-
perimentação Agropecuária) - Universidade Federal de Lavras,Lavras - MG, 2005. 95p.

[16] SNEDECOR, G. W.; COCHRAN, W. G. Statistical methods. The Iowa State University
Press, Ames, 7ed., 1980. 507p.

[17] SOARES, M. 2009. Critério de Chauvenet. Disponı́vel em:


< http://www.mspc.eng.br/tecdiv/med200.shtml >. Acessado em: 21-fev-2011.

[18] TUKEY, JOHN WILDER (1977). Exploratory Data Analysis. Addison-Wesley.

7 Resultados esperados
Pretende-se com a pesquisa proposta no presente projeto, realizar uma avaliação dos
testes de detecção de outliers quanto o desempenho em relação a taxa de poder e taxa de
erro de Tipo I, oferecendo a outros pesquisadores informações acerca de qual teste é mais
indicado para detectar a presença de dados incosistestes. Ademais, pretende-se com o projeto
complementar a formação do aluno de iniciação cientı́fica (IC), uma vez que este tema não
é abordado nas disciplinas da graduação.

8 Cronograma
As atividades mensais a serem desenvolvidas neste projeto compõem-se das seguintes
etapas:
12

2012 2013
Atividades
Mar Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev
1 x x x x x x x x x x x x
2 x x x x
3 x x
4 x x x
5 x
6 x x

em que:

1. Revisão de literatura;

2. Estudo das funções do programa R para a simulação de dados;

3. Gerar os dados via simulação Monte Carlo;

4. Calcular as taxas de poder e de erro tipo I dos testes de detecção de outliers;

5. Organização dos resultados;

6. Redação final do trabalho e conclusões de trabalhos.

9 Plano de trabalho do bolsista


As atividades a serem desenvolvidas serão orientadas e acompanhadas pelo Prof. Dr.
Luiz Alberto Beijo. As atividades serão as seguintes:

1. Revisão de literatura: A revisão de literatura acerca de dados outliers, métodos de


detecção de outliers e simulação Monte Carlo será realizada por intermédio de consulta
a livros, artigos e internet. Também serão realizados encontros semanais no laboratório
da matemática com o orientador, visando sanar dúvidas que possam surgir ao decorrer
da pesquisa.

2. Estudo das funções do programa R para a simulação de dados: Para a realização


das simulações, serão utilizados os pacotes do Sistema Computacional R Development
Core Team (2011). Sendo o software R gratuito e de código aberto, isso faz com que
muitos pesquisadores possam contribuir com pacotes com as mais diversas finalidades,
13

o que aumenta o potencial do software, principalmente com os pacotes voltados para


análise estatı́stica de dados. Assim, este programa será de grande relevância para as
finalidades do presente trabalho.

3. Gerar os dados via simulação Monte Carlo: A fim de que os testes detecção de outliers
possam ser avaliados, diversas situações serão simuladas. Os detalhes referentes a
simulação Monte Carlos já foram explicitados na seção 5.1 .

4. Calculo do poder e de erro tipo I dos testes de detecção de outliers: Todos os passos
desta etapa também se encontram detalhadas na seção 5.1 .

5. Organização dos resultados: Após as simulações e cálculos do poder e da taxa de erro


do Tipo I dos testes de detecção de outliers será realizada a organização dos resultados.
O mês de dezembro de 2012 será reservado para a apuração dos dados, bem como sua
análise e interpretação.

6. Redação final do trabalho e conclusões de trabalhos: Esta etapa será realizada nos
dois últimos meses do trabalho. A redação final do trabalho será feita mediante a
observação do Manual de normalização para apresentação de trabalhos acadêmicos da
Unifal e a consulta às normas de Informação e Documentação da Associação Brasileira
de Normas Técnicas (ABNT). O relatório final visa contemplar todas as etapas ante-
riores, apresentado de forma integrada todos os resultados obtidos. Cabe ressaltar que
para a realização deste projeto será necessário apenas a utilização de computadores
com boa capacidade de memória para cálculos computacionais, sendo que este recurso
já se encontra disponı́vel no laborátório da matemática.

Você também pode gostar