Você está na página 1de 5

Quim. Nova, Vol. 34, No.

5, 888-892, 2011

Educao

ESTATSTICA APLICADA QUMICA: DEZ DVIDAS COMUNS


Livia Maria Zambrozi Garcia Passari, Patricia Kaori Soares e Roy Edward Bruns*
Instituto de Qumica, Universidade Estadual de Campinas, CP 6154, 13083-970 Campinas - SP, Brasil
Ieda Spacino Scarminio
Departamento de Qumica, Universidade Estadual de Londrina, CP 6001, 86051-990 Londrina - PR, Brasil
Recebido em 28/5/10; aceito em 8/11/10; publicado na web em 18/2/11

STATISTICS APPLIED TO CHEMISTRY: TEN COMMON DOUBTS. Ten common doubts of chemistry students and professionals
about their statistical applications are discussed. The use of the N-1 denominator instead of N is described for the standard deviation.
The statistical meaning of the denominators of the root mean square error of calibration (RMSEC) and root mean square error of
validation (RMSEV) are given for researchers using multivariate calibration methods. The reason why scientists and engineers
use the average instead of the median is explained. Several problematic aspects about regression and correlation are treated. The
popular use of triplicate experiments in teaching and research laboratories is seen to have its origin in statistical confidence intervals.
Nonparametric statistics and bootstrapping methods round out the discussion.
Keywords: linear regression; median; non-parametric statistics.

INTRODUO
As aplicaes da estatstica se desenvolveram de tal forma que
praticamente todas as reas de pesquisa e produo se beneficiam da
utilizao de seus mtodos. Frequentemente estudantes e pesquisadores, que aplicam mtodos estatsticos como ferramenta de anlise
dos dados, encontram dificuldades para compreender e interpretar
alguns conceitos estatsticos importantes.
O objetivo deste trabalho reunir em um s texto, dez dvidas
e respostas que so frequentes entre qumicos quando mtodos estatsticos so aplicados aos seus dados. Essas informaes, embora
possam ser encontradas, esto dispersas em vrias publicaes fora
da rea de Qumica e muitas das quais num vocabulrio pouco familiar aos qumicos.
1. Porque o denominador do desvio padro amostral N-1?
Cursos de estatstica normalmente explicam o denominador (N1)1/2 na equao do desvio padro em termos de graus de liberdade,

(1)

onde, sx o desvio padro de x, xi a i-sima observao, N o n_
mero de observaes e x a mdia das observaes, definida como
o somatrio de todas as observaes dividido pelo nmero total de
observaes.
Para entender a razo do denominador no ser o nmero total
de observaes, N, e sim N-1 imagine 5 amostras com os seguintes
teores de ferro: 70,2; 71,0; 70,8; 73,5 e 70,6%. Normalmente, a estimativa da quantidade de ferro nessas amostras a mdia, 71,22%. As
amostras apresentam cinco resultados de porcentagem de ferro que
no podem ser preditos antes da realizao das anlises, isto , elas
possuem cinco valores no conhecidos ou graus de liberdade para
serem especificados. Mesmo conhecendo a porcentagem de ferro
*e-mail: bruns@iqm.unicamp.br

em 5 amostras analisadas, no possvel prever a porcentagem da


prxima amostra que ser analisada.
Com a soma dos valores de todos os desvios a situao diferente,
porque este somatrio igual a zero:



_
O termo Nx foi substitudo pelo somatrio


(2)
, uma vez que

.
Sendo assim, caso se conhea o valor da mdia das 5 amostras
ser necessrio executar somente 4 anlises para saber a porcentagem de ferro da quinta amostra, ou seja, temos agora 4 graus de
liberdade. A restrio imposta pela Equao 2, que vem do clculo
da mdia, retira um grau de liberdade do conjunto de desvios. Considerando que dos N desvios s N-1 podem flutuar aleatoriamente,
natural que o denominador na definio da varincia amostral
seja N-1 e no N.
importante notar que as consideraes feitas acima no constituem uma prova que a Equao 1 seja uma estimativa sem tendncias
no desvio padro. A prova matemtica disto pode ser encontrada no
livro de Montgomery.1 Pela mesma razo, parmetros normalmente
utilizados em estatstica multivariada, seja para calibrao multivariada ou redes neurais, como a raiz quadrada do erro mdio quadrtico
de calibrao, tem um denominador (N-p)1/2 e no N

(3)


onde, yi a i-sima observao, y^i o i-simo valor previsto pelo
modelo, N o nmero de observaes e p o nmero de parmetros
do modelo de calibrao.
necessrio relembrar que essa frmula a mesma para a raiz

Estatstica aplicada Qumica: dez dvidas comuns

Vol. 34, No. 5

quadrada do erro mdio quadrtico de validao, Equao 4, salvo


que neste caso o denominador N1/2 porque os valores de yi no foram
utilizados para determinar o modelo de calibrao. Nesta equao N
refere-se ao nmero de amostras de validao.

(4)


2. Porque utilizar a mdia e no a mediana?
Considerando as anlises dos teores de ferro descritas no item
1, observa-se que o valor de 73,5% consideravelmente maior do
que os resultados das outras determinaes. Se forem feitos testes
usando os mtodos de Dixon ou de Grubbs,2 entre muitos outros, o
valor de 73,5% seria considerado um outlier em relao aos outros
resultados determinados para o teor de ferro.
A mediana obtida listando-se os N valores em ordem de magnitude e selecionando o valor do centro se N for mpar ou a mdia
dos dois valores centrais se N for par. Sendo assim, a utilizao do
valor mediano menos sensvel incluso ou no de valores extremos
como, por exemplo, o valor da mediana incluindo o teor de ferro
73,5% no clculo 70,6%, excluindo este valor a mediana 70,4%.
Para o valor mdio utilizando os cinco valores dos teores de ferro a
mdia 71,22%, enquanto que rejeitando o valor suspeito a mdia
70,65%, um valor bem diferente.
Podemos concluir que o valor mediano bem mais robusto do
que o valor da mdia para a presena de valores suspeitos no conjunto
de dados. Porm, a mdia preferencialmente utilizada no lugar da
mediana porque existe uma equao simples para calcular o erro no
valor mdio, Sx_, Equao 5,

(5)


onde, N o nmero de observaes e sx o desvio padro de x, apresentado na Equao 1. No existe uma equao, mesmo complexa,
que calcule o erro no valor mediano, lembrando que o erro da mdia
sempre menor do que de uma medida individual.
3. Por que em mtodos de regresso, a melhor reta aquela
que minimiza as soma dos quadrados das distncias verticais
entre os pontos e a reta?
A Figura 1 mostra um grfico que ilustra o princpio do ajuste
por mnimos quadrados normalmente empregado em anlises de
regresso.

889

Nesse mtodo a melhor localizao da reta especificada pelos


coeficientes b0 e b1 da equao
aquela que minimiza
a soma dos quadrados dos comprimentos dos segmentos verticais,
indicado pelas linhas slidas, que ligam os pontos experimentais
reta. Este critrio implica que os valores de X sejam fixos, definidos
pelo pesquisador no planejamento estatstico, e os valores de yi as
variveis aleatrias afetadas por erros experimentais.
Se ambas as variveis X e y forem afetadas por erros experimentais
da mesma grandeza, a minimizao da soma quadrtica das distncias
ortogonais, representadas pelas linhas tracejadas, seria a mais apropriada.2 No entanto na prtica isto no ocorre, pois os qumicos usam
padres na construo da curva e os erros gerados pelo procedimento
de mensurao so muitos maiores do que o preparo dos padres.
O aluno normalmente se pergunta por que no minimizar a soma
das distncias verticais em lugar da soma dos quadrados. A resposta
que minimizando as distncias verticais, teramos um nmero infinito
de retas que satisfariam a condio
, pois desvios positivos da reta cancelariam os desvios negativos. Este cancelamento
poderia ser evitado, minimizando-se a soma dos valores absolutos das
distncias verticais. Na prtica isto no feito porque no existem
derivadas para as Equaes 6 e 7, necessrias para gerar as equaes
lineares que determinam os valores de b0 e b1 .

(6)

(7)

4. possvel determinar um modelo quadrtico usando


regresso linear?
O modelo quadrtico frequentemente representado pela seguinte
equao genrica:

(8)

Os primeiros dois termos do lado direito representam o modelo


linear muito usado pelos qumicos para calibrao de mtodos analticos, determinao de quantidades fsico-qumicas bem como para
relacionar medidas empricas. Uma vez que a aproximao linear tem
sua validade limitada, o terceiro termo (b2 2) pode ser adicionado ao
modelo, permitindo melhor ajuste dos dados.
O termo regresso linear usado pelos estatsticos corresponde
aos parmetros b, ou seja, s incgnitas no modelo. As variveis independentes X so valores fixados pelo experimentador em diferentes
nveis como, por exemplo, as concentraes para a curva de calibrao
ou temperaturas para determinar as mudanas na presso de vapor,
enquanto que as respostas, valores de y, so medidas experimentais.
Um exemplo de modelo no linear nos parmetros estatsticos

, embora esse modelo possa ser linearizado resolvendo o logaritmo.


5. Como um cientista ou engenheiro pode testar se uma curva
de calibrao realmente uma reta?

Figura 1. Reta ajustada por mnimos quadrados

Muitos modelos de calibrao so baseados na suposio de


que a relao entre a propriedade medida (sinal analtico, logaritmo
da presso de vapor, etc) e o nvel do fator controlado pelo experimentador (concentrao, inverso da temperatura, etc) linear. Mas
ser que isto sempre verdade? Como obter evidncia objetiva de
que a relao entre a propriedade medida e o fator controlado pelo
pesquisador realmente linear?

890

Passari et al.

Quim. Nova

A resposta para essas perguntas poder ser obtida apenas se


os experimentos forem executados em replicatas, pois s assim os
resultados fornecero uma estimativa do erro experimental da propriedade que est sendo investigada. Se este erro for da mesma grandeza
das diferenas entre os valores experimentais e aqueles previstos
pelo modelo, podemos afirmar que a suposio sobre a linearidade
est correta. Este procedimento equivalente a fazer experimentos
confirmatrios para testar um modelo. Mesmo assim preciso fazer
rplicas para determinar se os resultados confirmatrios esto dentro
dos limites do erro experimental.
Na Tabela 1 encontram-se os valores da presso de vapor de
tetracloreto de carbono (CCl4) para diferentes valores de temperatura
(T) obtidos no laboratrio de fsico-qumica.3
Tabela 1. Variao da presso de vapor do CCl4 com a temperatura
Ensaio

T (K)

pvap (torr)

273

0,044

283

0,075

293

0,122

303

0,190

313

0,288

323

0,422

333

0,601

343

0,829

353

1,124

Se a entalpia de vaporizao for constante e no depender da


temperatura e a Equao de Clausius-Clapeyron for validada nessas
condies, o grfico de ln pvap vs. (1/T) ser uma reta.
Uma regresso linear usando ln pvap como varivel dependente e (1/T) como a varivel independente resultar na equao:

Figura 2. Grfico (a) dos valores esperados pelos valores observados e (b)
dos resduos deixados pelo ajuste do modelo linear

, com R2 = 0,9997.
Este resultado corresponde a um calor de vaporizao de 32,44
0,22 KJ mol-1.
A Figura 2 contm o grfico dos valores esperados pelos observados, juntamente com o grfico dos resduos3 deixados pelo ajuste
versus os valores esperados pelo modelo linear. Apesar da excelente
concordncia entre os valores observados e esperados e o alto valor
de R2, Figura 2a, h necessidade de incluir um termo quadrtico no
modelo apresentado, pois o grfico dos resduos, Figura 2b, deixa
claro que eles no esto distribudos aleatoriamente. Supondo que
no existam erros sistemticos nos resultados e que a execuo dos
experimentos foi feita em ordem aleatria, os resduos no podem ser
explicados como sendo devidos ao erro experimental. Conclumos
que o modelo linear falho para representar os dados da Tabela 1.
Fazendo um novo ajuste aos dados e adicionando um termo quadrtico temos uma nova equao:

com R = 1,0000.
A Figura 3 mostra o grfico dos resduos deixados pelo ajuste
do modelo quadrtico. Nessa figura os resduos esto distribudos
bem mais aleatoriamente ao redor da linha no valor zero quando
comparados distribuio dos resduos na Figura 2b e, portanto,
no h evidncias fortes para suspeitar que exista falta de ajuste do
modelo quadrtico ajustado aos dados da Tabela 1.
Usando, portanto, o modelo quadrtico e admitindo que a deriva2

da

uma estimativa mais realista de

Figura 3. Resduos do modelo quadrtico ajustado aos dados da Tabela 1

, podemos concluir que o calor de vaporizao do CCl4 na


verdade varia entre 30,39 e 34,54 KJ mol-1, no intervalo de temperatura considerado.
Atualmente, a verificao de linearidade da reta de calibrao em
qumica analtica frequentemente analisada usando o coeficiente de
correlao fornecido pelo programa computacional empregado para
fazer a regresso. Infelizmente, no existe um teste estatstico que
possa ser aplicado a este coeficiente para comprovar a linearidade da

Vol. 34, No. 5

Estatstica aplicada Qumica: dez dvidas comuns

reta num dado nvel de confiana. Cada vez mais est sendo exigida
a utilizao do critrio da falta de ajuste recomendado por Pimentel
e Barros Neto4 e Danzar e Currie.5
6. Quando o coeficiente de correlao zero, significa que no
existe relao entre as duas variveis?
No. O coeficiente de correlao limitado para investigar relaes lineares entre as variveis. Imagine, por exemplo, a relao
entre a energia potencial de uma ligao qumica e sua distoro na
geometria do equilbrio. Os dados esto representados graficamente
pelos pontos de uma curva anarmnica na Figura 4.

891

modelo de regresso representado pela reta. Os pontos representados


por bolas vazias apresentam uma relao no linear. Observa-se que
os quatro pontos na esquerda tm um arranjo linear, diferente dos
pontos na direita que tambm apresentam uma distribuio quase
linear, porm com uma inclinao diferente dos pontos da esquerda.
Por fim, os pontos representados por tringulos apresentam um arranjo
de pontos completamente diferente, o ponto na direita tem um valor
bem distinto dos pontos na esquerda.

Figura 5. Trs conjuntos de dados com o mesmo coeficiente de correlao,


r = 0,87, mas representando realidades muito diferentes
Figura 4. Relao entre a energia potencial de uma ligao qumica e sua
distoro na geometria do equilbrio

O coeficiente de correlao linear dado pela equao:


(9)


onde N o nmero de pontos na Figura 4 e sx e sy so os desvios
padro das variveis x e y.
Aplicando a equao da correlao para os pontos deste grfico,
observa-se que as contribuies dos dois pontos, (xa, ya) e (-xa, ya), na
equao iro praticamente se cancelar. Este argumento vlido para
qualquer par de pontos que tenham o mesmo valor de yi. De fato, se os
pontos seguissem exatamente uma parbola, a aplicao da Equao
9 resultaria em um coeficiente de correlao igual a zero. Porm,
como as ligaes qumicas no obedecem risca a lei de Hooke, e
por isso no vibram igual a um oscilador harmnico, o coeficiente de
correlao dos dados representados na Figura 4 no ser exatamente
zero e sim, um coeficiente de correlao pequeno que no reflete o
comportamento sistemtico dos dados apresentados no grfico.
7. Porque importante examinar os grficos ao invs de apenas
calcular os parmetros estatsticos?
Parmetros estatsticos como a mdia, o desvio padro e o
coeficiente de correlao so representaes numricas de grande
quantidade de dados. O coeficiente de correlao r, por exemplo,
um nmero que expressa a relao entre duas variveis, obtido pela
Equao 9. Na realidade, as relaes entre variveis so normalmente
muito complexas para serem representadas por um nico nmero.
A Figura 5 mostra um grfico de trs conjuntos de pares de
valores das variveis y plotada em funo das variveis x. Os pontos
representados por bolas cheias mostram uma relao evidentemente
linear entre as variveis x e y, porm, com grandes disperses do

Estes conjuntos de dados possuem algo em comum. Todos apresentam um coeficiente de correlao de Pearson igual a 0,87, porm,
as situaes fsicas apresentadas nos grficos so completamente
diferentes. Os pontos representados por bolas cheias mostram uma
simples relao linear, as bolas vazias uma interseo de dois modelos
lineares, enquanto que os representados por tringulos mostram a
possvel existncia de um outlier, ou seja, um ponto fora do padro.
Se este ponto for retirado do conjunto de dados o coeficiente de
correlao dos pontos na esquerda cai para 0,27.
8. Por que nas aulas de laboratrio de qumica as
determinaes so feitas em triplicata?
A realizao de experimentos em triplicata recomendada nos laboratrios de ensino porque um compromisso aceitvel entre a preciso
e o trabalho. O valor mdio da triplicata a melhor estimativa do teor
do analito na amostra, enquanto que o desvio padro a estimativa do
erro experimental em uma determinao, sendo que o erro padro no

valor mdio da triplicata menor pelo fator de 1/3. Isto pode ser visto
na equao que representa o intervalo de confiana do valor mdio:

(10)


_
onde, x representa a mdia, s corresponde ao desvio padro, N o
nmero de rplicas (3 no caso da triplicata) e t o valor crtico da
distribuio t de Student com N-1 graus de liberdade.
Aumentando o valor de N, o intervalo de confiana ir diminuir

por causa da diminuio do valor tN-1 e do fator 1/N. No nvel de


95% de confiana, os valores de tN-1 so 12,71; 4,30; 3,18; 2,78 e 2,57
quando N vai de 2 para 6. Para o mesmo intervalo de N, a expresso

1/N vai de 1,000; 0,707; 0,577; 0,500 at 0,408. Os produtos de

tN - 11/N ficam progressivamente menores, indo de 12,71; 3,04; 1,83;


1,39 at 1,13. Sendo assim, quando se realiza uma triplicata ao invs
de uma duplicata, ocorre um melhoramento da preciso de 12,71

892

Passari et al.

para 3,04 (fator de 4). Entretanto, realizando uma quadruplicata ao


invs de uma triplicata, ocorre um melhoramento da preciso por um

fator menor do que 2, pois o valor de tN - 11/N vai de 3,04 para 1,83.

A Figura 6 apresenta um grfico de tN - 1/N vs. N ilustrando como


a preciso diminui quando se aumenta o nmero de replicas. Nota-se
que a preciso muito pouco melhorada com a execuo de cinco
ou mais replicatas.

Quim. Nova

colocando-se os dados em ordem crescente e atribuindo-se posto 1


para o menor valor, posto 2 o segundo menor, etc. Depois de determinar os postos para ambos os dados, x e y, calcula-se a diferena entre
os postos que esto apresentados na ltima coluna d. O coeficiente
de correlao obtido por meio da Equao 11

(11)


onde N o nmero de observaes, neste caso 6 e o somatrio de d2
igual a 4. Dessa forma temos um coeficiente de Spearman de 0,89.
Nota-se que este resultado est em boa concordncia com o valor do
coeficiente de correlao de Pearson, 0,87, dado no item 6.
Tabela 2. Dados para calcular o coeficiente de correlao de Spearman

Figura 6. Grfico de t/N contra o nmero de rplicas N, ilustrando como a


preciso diminui quando se aumenta o nmero de rplicas

9. Qual a diferena entre a estatstica paramtrica e a no


paramtrica?
A grande maioria dos qumicos utiliza mtodos de estatstica paramtrica para resolver problemas no laboratrio como, por exemplo,
determinar se um valor experimental igual a um valor padro, se os
resultados provenientes de diferentes laboratrios so iguais, se o erro
mdio quadrtico de validao de um mtodo analtico maior do que
o erro de outro mtodo, etc. Nestes casos, considera-se que os dados
seguem uma distribuio normal, uma vez que a comparao de valores
mdios no to problemtica porque estes valores tendem a seguir
distribuies normais devido ao teorema do limite central,3 mesmo se
os dados das determinaes individuais no seguirem nenhuma distribuio conhecida. Por isto, planejamentos estatsticos de experimentos
produzem resultados confiveis. Como os valores dos parmetros dos
modelos associados a estes planejamentos so combinaes lineares de
resultados experimentais, eles tendem a seguir uma distribuio normal.
Os mtodos de estatstica no paramtrica so usados quando o
pesquisador precisa testar dados que no seguem uma distribuio bem
caracterizada (normal ou no). Muitos mtodos bsicos de estatstica
paramtrica tm seu anlogo no paramtrico como, por exemplo, o
teste da soma dos postos de Wilcoxon (Wilcoxons rank sum test)
o equivalente no paramtrico do teste t para duas mdias.6 O teste
t pareado paramtrico corresponde ao teste dos sinais de Wilcoxon
(Wilcoxons signed rank test). O teste de Kruskal- Wallis (KruskalWallis test) o equivalente no paramtrico da anlise de varincia
(ANOVA) para dados obtidos em ordem completamente aleatria. Para
dados obtidos com aleatorizao por blocos pode ser usado o mtodo
no paramtrico teste de Friedman-R (Friedman-R test). Tambm
existe um coeficiente de correlao no paramtrico chamado teste do
coeficiente de correlao de Spearman (Spearman rank coefficient of
correlation) anlogo ao coeficiente de correlao de Pearson.
Todos estes mtodos no paramtricos utilizam os postos dos
dados em lugar dos dados em si. A Tabela 2 apresenta os valores e
postos dos dados x e y correspondendo aos pontos representados por
bolas cheias no grfico da Figura 5. Os postos foram determinados

Nmero

Posto

Posto

4,3

4,0

5,0

5,5

-1

6,0

5,0

7,0

7,4

-1

7,9

6,3

8,5

8,4

10. Mtodos que utilizam o poder do computador para fazer


clculos podem resolver problemas que no so resolvidos
usando estatstica clssica?
Esta questo refere-se a aplicaes para as quais no existem equaes analticas para resolver o problema de interesse. Por exemplo,
seria possvel saber se o valor mediano de um conjunto de resultados
estatisticamente igual ao valor mediano de um grupo de controle? Usando
a estatstica clssica a resposta para esta questo no, pois no existem
equaes analticas que possam ser utilizadas para determinar se os
dois valores medianos so realmente diferentes ou se a diferena uma
mera flutuao estatstica causada pelo erro experimental. Entretanto,
possvel resolver este problema empregando a metodologia do bootstrap7
que consiste em reamostrar de um conjunto de dados, diretamente ou
via um modelo ajustado, a fim de criar rplicas dos dados para avaliar a
variabilidade da quantidade de interessse, sem usar clculos analticos.
Para cada grupo, usa-se um computador para criar centenas ou at milhares de amostras do mesmo tamanho por amostragem aleatria com
substituio. Por exemplo, para um valor mediano de seis resultados do
laboratrio (x1, x2, x3, x4, x5, x6) uma amostra bootstrap pode ser (x3, x5, x1,
x6, x5, x2). Este procedimento feito vrias vezes para cada grupo e depois
construdo um histograma das diferenas dos clculos medianos, onde
podem ser determinados intervalos no nvel de 95% de confiana. O
mesmo histograma serve para intervalos com outros nveis de confiana.
REFERNCIAS
1. Montgomery, D. C.; Design and Analysis of Experiments, 3rd ed., Wiley:
New York, 1991, p. 22.
2. Irvin, J. A.; Quickenden, T. I.; J. Chem. Educ. 1983, 60, 711.
3. Barros Neto, B.; Bruns, R. E.; Scarminio, I. E.; Como fazer
experimentos, 4a ed., Artmed: Porto Alegre, 2010, p. 260-263.
4. Pimentel, M. F.;, Barros Neto, B. de; Quim. Nova 1996, 19, 268.
5. Danzar, K.; Currie, L. A.; Pure Appl. Chem. 1998, 70, 993.
6. Wagner, S. F.; Introduction to Statistics, Harper Collins: New York,
1992, chap. 14.
7. Efron, B.; Tibshirani, R. J.; An Introduction to the Bootstrap, Chapman
& Hall/CRC: Boca Raton, 1994.

Você também pode gostar