Você está na página 1de 28

Dep.

Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Outliers: O que so?


As observaes que apresentam um grande afastamento das restantes ou so inconsistentes com elas so habitualmente designadas por outliers. Estas observaes so tambm designadas por observaes anormais, contaminantes, estranhas, extremas ou aberrantes.

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Outliers: O que fazer com este tipo de observaes?

A preocupao com observaes outliers antiga e data das primeiras tentativas de analisar um conjunto de dados. Inicialmente pensava-se que a melhor forma de lidar com este tipo de observaes seria atravs da sua eliminao da anlise. As opinies no eram unnimes: uns defendiam a rejeio das observaes inconsistentes com as restantes, enquanto outros afirmavam que as observaes nunca deveriam ser rejeitadas simplesmente por parecerem inconsistentes com os restantes dados e que todas as observaes deviam contribuir com igual peso para o resultado final.
2

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Outliers: Causas do seu aparecimento.

Antes de decidir o que dever ser feito s observaes outliers conveniente ter conhecimento das causas que levam ao seu aparecimento. Em muitos casos as razes da sua existncia determinam as formas como devem ser tratadas. Assim, as principais causas que levam ao aparecimento de outliers so: Erros de medio; Erros de execuo; Variabilidade inerente dos elementos da populao.

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Outliers: Aplicao Prticas.

Deteco de fraudes. Comportamento de gastos de consumidores. Em anlises mdicas (resultados no esperados de tratamentos). Pesquisa farmacutica. Marketing. Etc.

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Outliers: Estudo.

O estudo de outliers, independentemente da(s) sua(s) causa(s), pode ser realizado em vrias fases: A fase inicial a da identificao das observaes que so potencialmente aberrantes. A identificao de outliers consiste na deteco, com mtodos subjectivos, das observaes surpreendentes. A identificao feita, geralmente, por anlise grfica ou, no caso de um nmero de dados ser pequeno, por observao directa dos mesmos. So assim identificadas as observaes que tm fortes possibilidades de virem a ser designadas por outliers.
5

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Na segunda fase, tem-se como objectivo a eliminao da subjectividade inerente fase anterior. Pretende-se saber se as observaes identificadas como outliers potenciais o so, efectivamente. So efectuados testes ou s observaes preocupantes. Devem ser escolhidos os testes mais adequados para a situao em estudo. As observaes suspeitas so testadas quanto sua discordncia. Se for aceite a hiptese de algumas observaes serem outliers, elas podem ser designadas como

discordantes. Uma observao diz-se discordante se puder considerar-se inconsistente com os restantes valores depois da aplicao de um critrio estatstico objectivo. Muitas vezes o termo discordante usado como sinnimo de outlier.

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Na ltima fase necessrio decidir o que fazer com as observaes discordantes. A maneira mais simples de lidar com essas observaes elimin-las. Como j foi dito, esta abordagem, apesar de ser muito utilizada, no aconselhvel. Ela s se justifica no caso de os outliers serem devidos a erros cuja correco invivel. Caso contrrio, as observaes consideradas como outliers devem ser tratadas cuidadosamente pois contm informao relevante sobre caractersticas subjacentes aos dados e podero ser decisivas no conhecimento da populao qual pertence a amostra em estudo.

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Outliers: Mtodos de identificao.

Grfico de Box Modelos de discordncia Teste de Dixon Teste de Grubbs Z-scores etc

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Grfico de Box-Plot O grfico de Box construdo da seguinte forma: Calcula-se a mediana, o quartil inferior (Q1) e o quartil superior (Q3); Subtrai-se o quartil superior do quartil inferior = (L) Os valores que estiverem no intervalo de Q3+1,5L e Q3+3L e no intervalo Q1-1,5L e Q1-3L, sero considerados outliers podendo, portanto ser aceitos na populao com alguma suspeita; Os valores que forem maiores que Q3+3L e menores que Q1-3L devem ser considerados suspeitos de pertencer populao, devendo ser investigada a origem da disperso. Estes pontos so chamados de extremos.

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Moroco, J. (2003), Anlise Estatstica de dados com utilizao do SPSS, Edies Slabo, Lisboa, pg. 36

10

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Modelos de discordncia: Num modelo de discordncia considera-se que num dado conjunto de dados, se existirem observaes aberrantes elas tm distribuio diferente das restantes observaes ou distribuies idnticas mas com parmetros diferentes.

H0: a amostra foi retirada de uma populao com distribuio especfica que pode ou no ser conhecida e ser especificada completamente ou no, e onde no existem observaes anormais H1: todas as observaes ou apenas as anormais tm distribuio diferente da da hiptese nula.
11

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

A hiptese nula ser rejeitada a favor da hiptese alternativa se existirem observaes aberrantes.

Para decidir pela aceitao ou rejeio da hiptese nula, da no existncia de outliers necessrio utilizar testes de discordncia que tenham distribuio desconhecida ou valores crticos tabelados. Na utilizao de testes formais de outliers deve ter-se em conta que eles dividem-se em duas classes: aqueles em que as observaes discordantes da amostra so identificadas como sendo outliers, e aqueles que testam a presena de outliers mas no identificam
12

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

observaes particulares.

13

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Teste de Dixon Distribuio normal; teste bilateral. Ordenar os valores de forma crescente de 1 a H. Supor a hiptese de que o menor valor, 1, ou o maior valor, H, so suspeitos como valores outliers.

14

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Critrios : Extremo Inferior


D= z ( 2 ) z (1)

Extremo superior
D= z ( H ) z ( H 1) z ( H ) z (1)

- n=3 a 7

z ( H ) z (1)
z ( 2 ) z (1)

- n=8 a 12

Q=

z ( H 1) z (1)
z ( 3) z (1)

D=

z ( H ) z ( H 1) z ( H ) z ( 2)

- n > 13

D=

z ( H 2 ) z (1)

D=

z ( H ) z ( H 2) z ( H ) z ( 3)

15

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Se D > valor crtico, temos a presena de um outlier. n 3 4 5 6 7 8 9 10 11 12 13 14 Valor crtico de D para P=0,05 0,970 0,829 0,710 0,628 0,569 0,608 0,504 0,530 0,502 0,479 0,611 0,589

16

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Teste de Grubbs Distribuio normal; Calcular desvio di de cada ponto em relao mdia

di = xi x
Calcular o desvio-padro s Calcular G=di/s

xi x G= s
Um valor considerado como outlier quando G maior do que o valor crtico correspondente na tabela.
17

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

n 3 4 5 6 7 8 9 10 11 12 14 16 18 20 50

Gcrit 95 % 1,154 1,481 1,715 1,887 2,020 2,127 2,215 2,290 2,355 2,412 2,507 2,586 2,652 2,708 3,128

18

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Z-Scores

Calcular os z-scores, isto , os valores z-standardizados dos dados. Se o conjunto dos dados pequeno (inferior a 50), valores que tenham zscores inferiores a -2.5 ou superiores a 2.5 devem ser considerados outliers. Se o conjunto dos dados grande, valores que tenham z-socres inferiores a -3.3 ou superiores a 3.3 so tipicamente considerados outliers. Se o conjunto dos dados muito grande (1000 ou mais), tambm valores mais extremos do que +-3.3 podem ser considerados dados normais e no outliers.
19

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Exemplo:
Olhemos para este conjunto de 10 observaes: Observao 1 2 3 4 5 6 7 8 9 10 X 111 92 90 107 98 150 118 110 117 94 Y 68 46 50 59 50 66 54 51 59 97

20

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Utilizando a tcnica dos Z Scores a observao 5 da varivel X um outlier, o mesmo acontece para a observao 10 da varivel Y. Observao 1 2 3 4 5 6 7 8 9 10 z-score de X z-score de Y

0.129702456075883 0.5388159060803247 -0.9417526158553188 -0.9429278356405683 -1.05453736026913 -0.6735198826004059 -0.09586703275173845 -0.06735198826004059 -0.6033983826138867 -0.6735198826004059 2.329004972145192 0.4041119295602435 0.5244490615242204 -0.4041119295602435 0.0733100838689776 -0.6061678943403653 0.4680566893173151 -0.06735198826004059 -0.8289678714415081 2.492023565621502
21

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

possvel detectar os outliers usando histogramas e box-plots:


Histograma de X

22

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Box Plot de Y

23

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Para aplicar o Teste de Dixon varivel X necessrio ordenar os valores por ordem crescente: 90, 92, 94, 98, 107, 110, 111, 117, 118, 150. O ltimo valor suspeito com outlier. Como temos n=10 observaes, calculemos

D = (150-118) / (150 92) = 0.5517

Da tabela apresentada anteriormente para o teste de Dixon, para uma amostra de tamanho 10, o valor crtico de D igual a 0.530 (para p=0.05). Como o valor de D excede esse valor, a observao suspeita efectivamente um outlier.

24

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Da tabela apresentada anteriormente para o teste de Grubbs, para uma amostra de tamanho 10, o valor crtico de G igual a 2.290 (para p=0.05). Como o valor de G, para a observao 97, excede esse valor, a observao um outlier. Yi 68 46 50 59 50 66 54 51 59 97 di 8 14 10 1 10 6 6 9 1 37 G 0,54 0,94 0,67 0,07 0,67 0,4 0,4 0,61 0,07 2,49

Mdia = 60 Desvio padro = 14.8474


25

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Exerccios:
1. Os valores seguintes referem-se s concentraes de nitrito numa amostra de gua de um rio: 0.403, 0.410, 0.401 e 0.380. A ltima observao suspeita: dever ser considerada um outlier? 2. Os dados que se seguem referem-se precipitao (em mm) cada num determinada cidade durante 5 meses: 53.5, 61.5, 62.3, 64.9, 40.6. Algum dos valores referidos anteriormente pode ser considerado um outlier? 3. Os valores seguintes referem-se produo de trigo: 12.0, 12.4, 13.0, 11.8, 14.0, 12.8, 14.0, 13.5, 12.6, 13.0, 12.6, 12.7. Algum dos valores referidos anteriormente pode ser considerado um outlier?

26

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

4. Considere os seguintes tempos de hemodilise (em meses) em 14 doentes transplantados: 51, 24, 55, 75, 24, 27, 22, 23, 48, 18, 96, 24, 26 e 35. Verifique se alguma destas observaes pode ser considerada um outlier.

27

Tratamento Estatstico de Dados

Dep. Matemtica Escola Superior de Tecnologia de Viseu

OUTLIERS Conceitos bsicos

Bibliografia
Figueira, M.M.C, Identificao de Outliers, MILLENIUM n12 Outubro de 1998. Morel P., Validao e Incerteza na Medio Analtica, Ministrio da Sade, ANVISA / GGLAS
http://www.anvisa.gov.br/reblas/cursos_gglas/validacao_incertezas_pierre_2.pdf

Andrade, E.A. e Robin J., Seminrio - Minerao de Excees


www.cin.ufpe.br/~compint/aulas-IAS/kdd-012/Outliers.ppt

Miler, J.C. e Miler, J.N. (1988), Statistics for Analytical Chemistry second edition, John Wiley & Sons, New York, Chichester, Brisbane, Toronto.

28

Tratamento Estatstico de Dados