Escolar Documentos
Profissional Documentos
Cultura Documentos
Artigo - Estatística
Artigo - Estatística
5, 888-892, 2011
Educao
STATISTICS APPLIED TO CHEMISTRY: TEN COMMON DOUBTS. Ten common doubts of chemistry students and professionals
about their statistical applications are discussed. The use of the N-1 denominator instead of N is described for the standard deviation.
The statistical meaning of the denominators of the root mean square error of calibration (RMSEC) and root mean square error of
validation (RMSEV) are given for researchers using multivariate calibration methods. The reason why scientists and engineers
use the average instead of the median is explained. Several problematic aspects about regression and correlation are treated. The
popular use of triplicate experiments in teaching and research laboratories is seen to have its origin in statistical confidence intervals.
Nonparametric statistics and bootstrapping methods round out the discussion.
Keywords: linear regression; median; non-parametric statistics.
INTRODUO
As aplicaes da estatstica se desenvolveram de tal forma que
praticamente todas as reas de pesquisa e produo se beneficiam da
utilizao de seus mtodos. Frequentemente estudantes e pesquisadores, que aplicam mtodos estatsticos como ferramenta de anlise
dos dados, encontram dificuldades para compreender e interpretar
alguns conceitos estatsticos importantes.
O objetivo deste trabalho reunir em um s texto, dez dvidas
e respostas que so frequentes entre qumicos quando mtodos estatsticos so aplicados aos seus dados. Essas informaes, embora
possam ser encontradas, esto dispersas em vrias publicaes fora
da rea de Qumica e muitas das quais num vocabulrio pouco familiar aos qumicos.
1. Porque o denominador do desvio padro amostral N-1?
Cursos de estatstica normalmente explicam o denominador (N1)1/2 na equao do desvio padro em termos de graus de liberdade,
(1)
onde, sx o desvio padro de x, xi a i-sima observao, N o n_
mero de observaes e x a mdia das observaes, definida como
o somatrio de todas as observaes dividido pelo nmero total de
observaes.
Para entender a razo do denominador no ser o nmero total
de observaes, N, e sim N-1 imagine 5 amostras com os seguintes
teores de ferro: 70,2; 71,0; 70,8; 73,5 e 70,6%. Normalmente, a estimativa da quantidade de ferro nessas amostras a mdia, 71,22%. As
amostras apresentam cinco resultados de porcentagem de ferro que
no podem ser preditos antes da realizao das anlises, isto , elas
possuem cinco valores no conhecidos ou graus de liberdade para
serem especificados. Mesmo conhecendo a porcentagem de ferro
*e-mail: bruns@iqm.unicamp.br
_
O termo Nx foi substitudo pelo somatrio
(2)
, uma vez que
.
Sendo assim, caso se conhea o valor da mdia das 5 amostras
ser necessrio executar somente 4 anlises para saber a porcentagem de ferro da quinta amostra, ou seja, temos agora 4 graus de
liberdade. A restrio imposta pela Equao 2, que vem do clculo
da mdia, retira um grau de liberdade do conjunto de desvios. Considerando que dos N desvios s N-1 podem flutuar aleatoriamente,
natural que o denominador na definio da varincia amostral
seja N-1 e no N.
importante notar que as consideraes feitas acima no constituem uma prova que a Equao 1 seja uma estimativa sem tendncias
no desvio padro. A prova matemtica disto pode ser encontrada no
livro de Montgomery.1 Pela mesma razo, parmetros normalmente
utilizados em estatstica multivariada, seja para calibrao multivariada ou redes neurais, como a raiz quadrada do erro mdio quadrtico
de calibrao, tem um denominador (N-p)1/2 e no N
(3)
onde, yi a i-sima observao, y^i o i-simo valor previsto pelo
modelo, N o nmero de observaes e p o nmero de parmetros
do modelo de calibrao.
necessrio relembrar que essa frmula a mesma para a raiz
(4)
2. Porque utilizar a mdia e no a mediana?
Considerando as anlises dos teores de ferro descritas no item
1, observa-se que o valor de 73,5% consideravelmente maior do
que os resultados das outras determinaes. Se forem feitos testes
usando os mtodos de Dixon ou de Grubbs,2 entre muitos outros, o
valor de 73,5% seria considerado um outlier em relao aos outros
resultados determinados para o teor de ferro.
A mediana obtida listando-se os N valores em ordem de magnitude e selecionando o valor do centro se N for mpar ou a mdia
dos dois valores centrais se N for par. Sendo assim, a utilizao do
valor mediano menos sensvel incluso ou no de valores extremos
como, por exemplo, o valor da mediana incluindo o teor de ferro
73,5% no clculo 70,6%, excluindo este valor a mediana 70,4%.
Para o valor mdio utilizando os cinco valores dos teores de ferro a
mdia 71,22%, enquanto que rejeitando o valor suspeito a mdia
70,65%, um valor bem diferente.
Podemos concluir que o valor mediano bem mais robusto do
que o valor da mdia para a presena de valores suspeitos no conjunto
de dados. Porm, a mdia preferencialmente utilizada no lugar da
mediana porque existe uma equao simples para calcular o erro no
valor mdio, Sx_, Equao 5,
(5)
onde, N o nmero de observaes e sx o desvio padro de x, apresentado na Equao 1. No existe uma equao, mesmo complexa,
que calcule o erro no valor mediano, lembrando que o erro da mdia
sempre menor do que de uma medida individual.
3. Por que em mtodos de regresso, a melhor reta aquela
que minimiza as soma dos quadrados das distncias verticais
entre os pontos e a reta?
A Figura 1 mostra um grfico que ilustra o princpio do ajuste
por mnimos quadrados normalmente empregado em anlises de
regresso.
889
(6)
(7)
(8)
890
Passari et al.
Quim. Nova
T (K)
pvap (torr)
273
0,044
283
0,075
293
0,122
303
0,190
313
0,288
323
0,422
333
0,601
343
0,829
353
1,124
Figura 2. Grfico (a) dos valores esperados pelos valores observados e (b)
dos resduos deixados pelo ajuste do modelo linear
, com R2 = 0,9997.
Este resultado corresponde a um calor de vaporizao de 32,44
0,22 KJ mol-1.
A Figura 2 contm o grfico dos valores esperados pelos observados, juntamente com o grfico dos resduos3 deixados pelo ajuste
versus os valores esperados pelo modelo linear. Apesar da excelente
concordncia entre os valores observados e esperados e o alto valor
de R2, Figura 2a, h necessidade de incluir um termo quadrtico no
modelo apresentado, pois o grfico dos resduos, Figura 2b, deixa
claro que eles no esto distribudos aleatoriamente. Supondo que
no existam erros sistemticos nos resultados e que a execuo dos
experimentos foi feita em ordem aleatria, os resduos no podem ser
explicados como sendo devidos ao erro experimental. Conclumos
que o modelo linear falho para representar os dados da Tabela 1.
Fazendo um novo ajuste aos dados e adicionando um termo quadrtico temos uma nova equao:
com R = 1,0000.
A Figura 3 mostra o grfico dos resduos deixados pelo ajuste
do modelo quadrtico. Nessa figura os resduos esto distribudos
bem mais aleatoriamente ao redor da linha no valor zero quando
comparados distribuio dos resduos na Figura 2b e, portanto,
no h evidncias fortes para suspeitar que exista falta de ajuste do
modelo quadrtico ajustado aos dados da Tabela 1.
Usando, portanto, o modelo quadrtico e admitindo que a deriva2
da
reta num dado nvel de confiana. Cada vez mais est sendo exigida
a utilizao do critrio da falta de ajuste recomendado por Pimentel
e Barros Neto4 e Danzar e Currie.5
6. Quando o coeficiente de correlao zero, significa que no
existe relao entre as duas variveis?
No. O coeficiente de correlao limitado para investigar relaes lineares entre as variveis. Imagine, por exemplo, a relao
entre a energia potencial de uma ligao qumica e sua distoro na
geometria do equilbrio. Os dados esto representados graficamente
pelos pontos de uma curva anarmnica na Figura 4.
891
(9)
onde N o nmero de pontos na Figura 4 e sx e sy so os desvios
padro das variveis x e y.
Aplicando a equao da correlao para os pontos deste grfico,
observa-se que as contribuies dos dois pontos, (xa, ya) e (-xa, ya), na
equao iro praticamente se cancelar. Este argumento vlido para
qualquer par de pontos que tenham o mesmo valor de yi. De fato, se os
pontos seguissem exatamente uma parbola, a aplicao da Equao
9 resultaria em um coeficiente de correlao igual a zero. Porm,
como as ligaes qumicas no obedecem risca a lei de Hooke, e
por isso no vibram igual a um oscilador harmnico, o coeficiente de
correlao dos dados representados na Figura 4 no ser exatamente
zero e sim, um coeficiente de correlao pequeno que no reflete o
comportamento sistemtico dos dados apresentados no grfico.
7. Porque importante examinar os grficos ao invs de apenas
calcular os parmetros estatsticos?
Parmetros estatsticos como a mdia, o desvio padro e o
coeficiente de correlao so representaes numricas de grande
quantidade de dados. O coeficiente de correlao r, por exemplo,
um nmero que expressa a relao entre duas variveis, obtido pela
Equao 9. Na realidade, as relaes entre variveis so normalmente
muito complexas para serem representadas por um nico nmero.
A Figura 5 mostra um grfico de trs conjuntos de pares de
valores das variveis y plotada em funo das variveis x. Os pontos
representados por bolas cheias mostram uma relao evidentemente
linear entre as variveis x e y, porm, com grandes disperses do
Estes conjuntos de dados possuem algo em comum. Todos apresentam um coeficiente de correlao de Pearson igual a 0,87, porm,
as situaes fsicas apresentadas nos grficos so completamente
diferentes. Os pontos representados por bolas cheias mostram uma
simples relao linear, as bolas vazias uma interseo de dois modelos
lineares, enquanto que os representados por tringulos mostram a
possvel existncia de um outlier, ou seja, um ponto fora do padro.
Se este ponto for retirado do conjunto de dados o coeficiente de
correlao dos pontos na esquerda cai para 0,27.
8. Por que nas aulas de laboratrio de qumica as
determinaes so feitas em triplicata?
A realizao de experimentos em triplicata recomendada nos laboratrios de ensino porque um compromisso aceitvel entre a preciso
e o trabalho. O valor mdio da triplicata a melhor estimativa do teor
do analito na amostra, enquanto que o desvio padro a estimativa do
erro experimental em uma determinao, sendo que o erro padro no
valor mdio da triplicata menor pelo fator de 1/3. Isto pode ser visto
na equao que representa o intervalo de confiana do valor mdio:
(10)
_
onde, x representa a mdia, s corresponde ao desvio padro, N o
nmero de rplicas (3 no caso da triplicata) e t o valor crtico da
distribuio t de Student com N-1 graus de liberdade.
Aumentando o valor de N, o intervalo de confiana ir diminuir
892
Passari et al.
fator menor do que 2, pois o valor de tN - 11/N vai de 3,04 para 1,83.
Quim. Nova
(11)
onde N o nmero de observaes, neste caso 6 e o somatrio de d2
igual a 4. Dessa forma temos um coeficiente de Spearman de 0,89.
Nota-se que este resultado est em boa concordncia com o valor do
coeficiente de correlao de Pearson, 0,87, dado no item 6.
Tabela 2. Dados para calcular o coeficiente de correlao de Spearman
Nmero
Posto
Posto
4,3
4,0
5,0
5,5
-1
6,0
5,0
7,0
7,4
-1
7,9
6,3
8,5
8,4