Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo: Em situações práticas, é comum que um (ou mais resultados suspeitos. Isso é mais do que suficiente para
possivelmente mais) dado difira excessivamente do seu provar que tais testes não podem ser encarados como
conjunto. Neste caso, tal medida é chamada de “outlier”. disciplina rotineira.
Em alguns casos, este valor se destaca tanto dos demais que
O objetivo deste trabalho é aplicar a um mesmo conjunto de
pode ser excluído de maneira intuitiva; no entanto, quando
dados os testes de Dixon, Chauvenet e Grubbs e avaliar a
esta diferença é muito tênue, técnicas estatísticas são
diferença entre eles.
utilizadas para decidir se estes valores devem ser ou não
rejeitados. Obviamente, os valores finais apresentados para
a média e desvio padrão vão depender se estes valores são 2. METODOLOGIA
ou não excluídos. Dentre os testes mais comuns para a
exclusão de “outliers”, podemos destacar: teste de Dixon, É comum um analista se deparar com uma situação onde o
Chauvenet e Grubbs. O objetivo deste trabalho é comparar conjunto de ensaios de uma amostra apresente um ou mais
estes três testes aplicados a um mesmo conjunto de dados, valores discrepantes dos demais. Nestas situações nos
utilizando suas médias e desvios-padrão, após a exclusão de deparamos com a decisão de considerar ou não os dados
“outliers”, quando pertinente, para calcular a incerteza de suspeitos no tratamento estatístico dos dados, uma vez que
medição em uma curva de calibração com ajuste linear. estes irão influenciar diretamente os valores da média,
Para este caso, o teste de Grubbs se mostrou mais severo, exatidão, e desvio padrão, precisão.
excluindo mais valores e minimizando a incerteza de Não é recomendada a exclusão de mais de dois dados ao se
medição em até 10%. trabalhar com amostras pequenas (n ≤ 30). Se, após rejeição
Palavras chave: outliers; valores aberrantes; dispersos; de dois valores, ainda existirem possíveis “outliers”,
Dixon; Chauvenet; Grubbs. recomenda-se a investigação da causa do problema e
aquisição de novo conjunto de dados.
Neste trabalho, o termo em inglês “outlier” é traduzido
1. INTRODUÇÃO
como disperso, discrepante e aberrante.
Dispersos são caracterizados como erros aleatórios, os quais
devem ser minimizados ao máximo para que a média não 2.1. Teste de Dixon [1]
fique distorcida. São definidos como membros de uma série
de valores que são inconsistentes com os membros da série. O teste de Dixon – teste-Q – é uma das maneiras para se
avaliar dados considerados suspeitos de pertencerem de uma
Os valores dispersos devem ser investigados para encontrar população. O valor Q de Dixon é definido como a relação
causas assinaláveis e identificar problemas de medida. Se entre a diferença existente entre o valor suspeito e o valor
ocorrem com freqüência indica má qualidade do processo de mais próximo a este e a diferença entre o maior e o menor
medida, que deve ser alterado, através de ações corretivas. valor do conjunto de medidas.
Segundo a AOAC (Association of Official Analytical O valor de Qcalculado é comparado com o valor de Qtabelado,
Chemists), rejeição de mais de 2/9 dos dados sem para o nível de confiança desejado, caso este não seja maior
explicação (ex.: falha do método, troca de amostras, erro de que o tabelado o valor suspeito é mantido caso contrário é
transcrição) é considerada excessiva. rejeitado.
Para um pequeno número de medidas (de 3 a 5), o valor A estatística utilizada é dada através da tabela de Dixon
disperso não pode ser descartado, sugere-se usar a mediana onde são encontrados os valores críticos (tabelados), que são
que, ao contrário da média, não é tão influenciada por um comparados com os valores retirados da amostra
valor discordante. obedecendo ao seguinte procedimento:
A distribuição normal dos valores medidos determina a 1. Ordenar os dados amostrais em ordem crescente;
faixa de erros aleatórios. Os erros de medidas fora desta
faixa são denominados dispersos ou aberrantes. 2. Calcular o valor de Q;
Existem vários testes de rejeição de dados e, dependendo do 3. Comparar com o valor crítico (tabelado) da tabela de
teste, em um mesmo conjunto podem ser detectados um ou Dixon.
A rejeição de dados deve ser feita com extrema cautela a fim Tabela 1 – Valores críticos de Q (P = 0,05)
de evitar uma superestimativa do sistema de medição. Dados n 3 4 5 6 7 8 9 10
considerados “outliers” ou podem ser, na verdade, um Valor
0,970 0,829 0,710 0,628 0,569 0,608 0,564 0,530
indicativo de erros grosseiros ou erros sistemáticos que crítico
precisam ser detectados e eliminados.
Para conjunto de dados com 3 ≤ n 7, Equação (1):
x 2 x1 x n x n 1
D37 ou (1) 2.2. Teste de Chauvenet [2]
x n x1 x n x1
O teste de Dixon tem como inconveniente o fato que
aumentando o número n de medidas, também aumenta a
Para conjunto de dados com 8 ≤ n 12, Equação (2):
probabilidade de ocorrências de grandes desvios no conjunto
x x1 x n x n 1 de medidas. Por exemplo, em 2000 medidas, a probabilidade
D8 12 2 ou (2)
x n 1 x 1 xn x 2 de ocorrer desvio maior que 3,29 é grande e não tem sentido
descartar a medida. O critério de Chauvenet elimina este
Para conjunto de dados com 13 < n 40, Equação (3): problema. Conforme este critério, uma medida deve ser
rejeitada se
x 3 x1 x n x n2
D13 40
x n 2 x1
ou
x n x3
(3)
d j y j y d ch
onde dch é o limite de rejeição de Chauvenet, definido por:
Exemplo
d ch d ch
1
Foram encontrados os valores apresentados na tabela a po G( )d G( )d G( )d
d ch d ch 2n
seguir para concentração em mg/L, de nitrito em água do
mar. O menor valor, 0,34 parece ser suspeito. Onde G( ) é a função gaussiana. Em outras palavras,
especifica que uma leitura pode ser rejeitada se a
Ensaio 1 2 3 4 5 6 7 8 probabilidade de se obter um dado desvio da média for
mg/L 0,34 0,44 0,47 0,48 0,48 0,49 0,50 0,51
menor do que 1/2n.
Esse critério estabelece que uma medida xi deve ser
Para conjunto de dados com 8 ≤ n < 12, Equação (2). rechaçada se o valor de r calculado pela Equação (4):
0 ,44 0 ,34 xi X
D8 12 0 ,625 r (4)
0 ,50 0 ,34 s( X )
De acordo com a Tabela 1, Qtabelado = 0,608 (n = 8 e é maior que o valor de Rc dado na Tabela 2 em função do
95%).Como Qcalculado > Qtabelado. Logo o valor deve ser número de medições efetuadas:
rejeitado. Tabela 2 – Valores críticos de Rc (P = 0,05)
n 2 3 4 5 6 7 10 15 25 50 100
Para conjunto de dados com 3 n 7, Equação (1).
Rc 1,15 1,38 1,54 1,65 1,73 1,80 1,96 2,13 2,33 2,57 2,81
Ensaio 1 2 3 4 5 6 7
mg/L 0,44 0,47 0,48 0,48 0,49 0,50 0,51 2.3. Teste de Grubbs [3]
O teste de Grubbs é primeiramente realizado verificando a
0 ,47 0 ,44 existência de um valor disperso em cada extremidade do
D37 0 ,429
0 ,51 0 ,44 conjunto. Se nesta primeira análise, um dos dois valores for
considerado disperso, ele é rejeitado, retirado do conjunto e
Qtabelado = 0,569 (n = 7 e 95%). O valor deve ser mantido. novo teste, verificando a existência de um valor disperso em
cada extremidade do conjunto, é realizado e assim
Quando poucas medidas são realizadas deve-se ter muito sucessivamente, caso contrário, se nesta primeira análise,
critério para se rejeitar um valor, o seu peso é muito maior ambos os valores forem aceitos como não dispersos, o teste
nos resultados finais da média e do desvio padrão. é então realizado verificando-se a existência de dois valores
dispersos em cada extremidade do conjunto. Se nesta
segunda análise os dois resultados de uma das extremidades
Média Desvio Padrão
forem considerados como dispersos, eles devem ser
Considerando o rejeitados, retirados do conjunto e novo teste verificando a
0,46 0,054
valor 0,34 existência de dois valores dispersos em cada extremidade do
Desconsiderando conjunto é realizado e assim sucessivamente.
0,48 0,023
o valor 0,34
Um valor discrepante observado
Dado um conjunto de dados gi com i = 1, 2, ..., p,
classificado em ordem ascendente, a determinação, pelo
teste de Grubbs, quanto ao maior valor observado ser um Onde:
valor discrepante, usa o seguinte valor estatístico, Equação
(5): 2
g g
p
S o2 é a diferença quadrática no conjunto com
gi g
i
i 1
GC (5)
s todos os valores;
p2
g g
Com 2
S 2p 1, p p 1, p é a diferença quadrática no
i
p
/ p 1 i 1
2
s gi g (6)
i 1 conjunto, sem os dois maiores valores;
p 2
p 2
O valor de G calculado (Gc) é comparado com um valor gi
g p 1, p é a média do conjunto, sem os dois
crítico, em um nível de significância escolhido. Um valor i 1
aberrante é detectado se Gcalculado > Gtabelado, conforme Tabela maiores valores;
[3].
Alternativamente, para os dois menores valores, Equação
Tabela [3] – Valores críticos de Grubbs (P = 0,05) (8):
n Um valor discrepante Dois valores discrepantes
3 1,155 -
S12,2
4 1,481 0,0002 G (8)
5 1,715 0,0090 S o2
6 1,887 0,0349 Onde:
7 2,020 0,0708
8 2,126 0,1101 2
g g
p
9 2,215 0,1492 S o2 i é a diferença quadrática no conjunto com
i 1
todos os valores;
Exemplo
g g
p
2
No conjunto de resultados abaixo, já dispostos em ordem S12,2 i 1,2 é a diferença quadrática no conjunto,
crescente, considerar no nível 95% de confiança se o valor i 3
discrepante 26,5 é suspeito: 22,1 – 22,4 – 22,9 – 23,0 – 23,5 sem os dois menores valores.
–23,7 –23,9 –26,5
= 0,05 n=8 g = 23,50 s = 1,36 g i 26 ,5 O valor de G calculado é comparado com um valor crítico,
em um nível de significância escolhido. Um valor aberrante
Gcalculado
g i g
26 ,5 23,5 2 ,206 é detectado se Gtabelado > Gcalculado.
s 1,36 Exemplo
Da tabela o valor Gtabelado para n = 8 e = 0,05 é 2,126. Oito observações de uma amostra estão dispostos em ordem
Então, Gtabelado < Gcalculado logo o valor de 26,5 é considerado, crescente, como a seguir: 0,00229 – 0,00236 – 0,00323 –
no nível de significância 0,05, um valor aberrante e deve ser 0,00357 – 0,00363 – 0,00381 – 0,00401 – 0,00408
removido.
Os dois valores mais baixos e mais altos são suspeitos. O
critério de Grubbs para avaliar se esses valores são “outlier”,
Dois valores discrepantes observados: com 95% de confiança:
g g
quadráticas (G), Equação (7): p
S o2 i
i 1
S 2p 1, p
G (7)
So2
0 ,00229 0 ,0035 2 0 ,00236 0 ,0035 2 3. RESULTADOS E DISCUSSÃO
0 ,00323 0 ,00352 0 ,00357 0 ,00352 Estes três testes foram aplicados a mesmos conjuntos de
So
2
3,42 10 6 dados, utilizando suas médias e desvios-padrão, após a
0 ,00363 0 ,00352 0 ,00381 0 ,00352
exclusão de “outliers”, quando pertinente, para calcular a
0 ,00401 0 ,0035 0 ,004089 0 ,0035 incerteza de medição em uma curva de calibração com
2 2
ajuste linear.
0 ,00323 0 ,00357 A incerteza de medição de uma curva de calibração com
0 ,00363 0 ,00381 ajuste linear pode ser calculada da seguinte maneira [4],
0 ,00401 0 ,00408 Equação (9):
g 1,2 0 ,003
6
1 1 c0 c 2
u c0
S
(9)
g g
p
2 B1 p n S xx
S12,2 i 1,2
i 3
Onde:
A B 2
n
0 ,00323 0 ,0037 2 0 ,00357 0 ,0037 2 B1 .c j
j 0
S12,2 0 ,00363 0 ,0037 2 0 ,00381 0 ,0037 2 4 ,92 10 7 S
j 1
n2
0 ,00401 0 ,0037 ( 0 ,00408 0 ,0037 )
2
2
c
n
S xx j c
S12,2 4 ,92 10 7 j 1
G 0 ,144 B1 : coeficiente angular;
S o2 3 ,42 10 6
p : número de medições para determinar c0;
n : número de medições para a calibração;
Conclusão: Como G calculado (0,144) é um valor maior c0 : concentração do analito;
que o G tabelado (0,110), para um nível de confiança de
c : valor médio dos diferentes padrões de calibração
95% então os valores mais baixos não devem ser rejeitados.
(para um número n de medições);
i : índice para o número de padrões de calibração;
Alta dupla:
j : índice para o número de medições para obter a
curva de calibração.
0 ,00229 0 ,00236 0 ,00323 0 ,00357
0 ,00363 0 ,00381 0 ,00401 0 ,00408 Concentração 1ª Leitura 2ª Leitura 3ª Leitura
g 0 ,0035
8 mg/L
0,1 0,56 0,58 0,58
0 ,00229 0 ,0035 0 ,00236 0 ,0035
2 2 0,3 1,68 1,66 1,62
0,5 2,70 2,62 2,66
0 ,00323 0 ,00352 0 ,00357 0 ,0035 2 6 0,7 3,60 3,62 3,66
So
2
3 ,42 10
0 ,00363 0 ,0035 0 ,00381 0 ,0035 0,9 4,30 4,60 4,32
2 2
2
0 ,00401 0 ,0035 0 ,004089 0 ,0035
2
Pelo método dos mínimos quadrados, o ajuste da curva
calibração é: y 4 ,82 x 0 ,174 .
0 ,00229 0 ,00236 0 ,00323 Supondo as seguintes leituras do analito na curva de
0 ,00357 0 ,00363 0 ,00381 calibração: 2,00; 2,10; 2,20; 2,30; 2,30; 2,62 e 3,40.
g7 ,8 0 ,0031
6
3.1. Teste de Dixon
0 ,00229 0 ,0031 0 ,00236 0 ,0031
2 2
2 ,10 2 ,00
S72,8 0 ,00323 0 ,00312 0 ,00357 0 ,00312 2 ,2 10 6 D3 7 0 ,071 e
3,40 2 ,00
0 ,00363 0 ,0031 ( 0 ,00381 0 ,0031 )
2 2
3,40 2 ,62
D3 7 0 ,557
2 ,21 10 6 3,40 2 ,00
Gcalculado 0 ,647
3,42 10 6 Qtabelado = 0,569 (95%). Nenhum valor deve ser excluído.
Conclusão: Como G calculado (0,647) é um valor maior que Neste caso, a incerteza de medição é 0,041 mg/L.
o G tabelado (0,110), para um nível de confiança de 95%
então os valores mais altos não devem ser rejeitados.
3.2. Teste de Chauvenet Conclusão: Como G calculado (0,050) é um valor menor
que o G tabelado (0,071), para um nível de confiança de
xi X 95% então os valores mais altos devem ser rejeitados.
Amostra r Assim sendo a incerteza de medição calculada com os
s( X ) valores remanescentes é 0,037 mg/L.
2,00 0,88
2,10 0,67 3.4. Comparação
2,20 0,46
2,30 0,25 Média Incerteza
Outliers
(mg/L) (mg/L)
2,30 0,25
Dixon Zero 2,42 0,041
2,62 0,43 Chauvenet Um 2,25 0,038
3,40 2,07 Grubbs Dois 2,18 0,037
3 ,40 2 ,42
2
g 6 ,7
2,00 2,10 2,20 2,30 2,30 2,18
5
0 ,068
Gcalculado 0 ,050
1,356