Você está na página 1de 5

Quim. Nova, Vol. 34, No.

5, 888-892, 2011 ESTATSTICA APLICADA QUMICA: DEZ DVIDAS COMUNS

Educao

Livia Maria Zambrozi Garcia Passari, Patricia Kaori Soares e Roy Edward Bruns* Instituto de Qumica, Universidade Estadual de Campinas, CP 6154, 13083-970 Campinas - SP, Brasil Ieda Spacino Scarminio Departamento de Qumica, Universidade Estadual de Londrina, CP 6001, 86051-990 Londrina - PR, Brasil Recebido em 28/5/10; aceito em 8/11/10; publicado na web em 18/2/11

STATISTICS APPLIED TO CHEMISTRY: TEN COMMON DOUBTS. Ten common doubts of chemistry students and professionals about their statistical applications are discussed. The use of the N-1 denominator instead of N is described for the standard deviation. The statistical meaning of the denominators of the root mean square error of calibration (RMSEC) and root mean square error of validation (RMSEV) are given for researchers using multivariate calibration methods. The reason why scientists and engineers use the average instead of the median is explained. Several problematic aspects about regression and correlation are treated. The popular use of triplicate experiments in teaching and research laboratories is seen to have its origin in statistical confidence intervals. Nonparametric statistics and bootstrapping methods round out the discussion. Keywords: linear regression; median; non-parametric statistics.

INTRODUO As aplicaes da estatstica se desenvolveram de tal forma que praticamente todas as reas de pesquisa e produo se beneficiam da utilizao de seus mtodos. Frequentemente estudantes e pesquisadores, que aplicam mtodos estatsticos como ferramenta de anlise dos dados, encontram dificuldades para compreender e interpretar alguns conceitos estatsticos importantes. O objetivo deste trabalho reunir em um s texto, dez dvidas e respostas que so frequentes entre qumicos quando mtodos estatsticos so aplicados aos seus dados. Essas informaes, embora possam ser encontradas, esto dispersas em vrias publicaes fora da rea de Qumica e muitas das quais num vocabulrio pouco familiar aos qumicos. 1. Porque o denominador do desvio padro amostral N-1? Cursos de estatstica normalmente explicam o denominador (N1)1/2 na equao do desvio padro em termos de graus de liberdade, (1) onde, sx o desvio padro de x, xi a i-sima observao, N o n_ mero de observaes e x a mdia das observaes, definida como o somatrio de todas as observaes dividido pelo nmero total de observaes. Para entender a razo do denominador no ser o nmero total de observaes, N, e sim N-1 imagine 5 amostras com os seguintes teores de ferro: 70,2; 71,0; 70,8; 73,5 e 70,6%. Normalmente, a estimativa da quantidade de ferro nessas amostras a mdia, 71,22%. As amostras apresentam cinco resultados de porcentagem de ferro que no podem ser preditos antes da realizao das anlises, isto , elas possuem cinco valores no conhecidos ou graus de liberdade para serem especificados. Mesmo conhecendo a porcentagem de ferro
*e-mail: bruns@iqm.unicamp.br

em 5 amostras analisadas, no possvel prever a porcentagem da prxima amostra que ser analisada. Com a soma dos valores de todos os desvios a situao diferente, porque este somatrio igual a zero: (2) , uma vez que

_ O termo Nx foi substitudo pelo somatrio .

Sendo assim, caso se conhea o valor da mdia das 5 amostras ser necessrio executar somente 4 anlises para saber a porcentagem de ferro da quinta amostra, ou seja, temos agora 4 graus de liberdade. A restrio imposta pela Equao 2, que vem do clculo da mdia, retira um grau de liberdade do conjunto de desvios. Considerando que dos N desvios s N-1 podem flutuar aleatoriamente, natural que o denominador na definio da varincia amostral seja N-1 e no N. importante notar que as consideraes feitas acima no constituem uma prova que a Equao 1 seja uma estimativa sem tendncias no desvio padro. A prova matemtica disto pode ser encontrada no livro de Montgomery.1 Pela mesma razo, parmetros normalmente utilizados em estatstica multivariada, seja para calibrao multivariada ou redes neurais, como a raiz quadrada do erro mdio quadrtico de calibrao, tem um denominador (N-p)1/2 e no N

(3)

^ o i-simo valor previsto pelo onde, yi a i-sima observao, y i modelo, N o nmero de observaes e p o nmero de parmetros do modelo de calibrao. necessrio relembrar que essa frmula a mesma para a raiz

Vol. 34, No. 5

Estatstica aplicada Qumica: dez dvidas comuns

889

quadrada do erro mdio quadrtico de validao, Equao 4, salvo que neste caso o denominador N1/2 porque os valores de yi no foram utilizados para determinar o modelo de calibrao. Nesta equao N refere-se ao nmero de amostras de validao.

2. Porque utilizar a mdia e no a mediana?

(4)

Considerando as anlises dos teores de ferro descritas no item 1, observa-se que o valor de 73,5% consideravelmente maior do que os resultados das outras determinaes. Se forem feitos testes usando os mtodos de Dixon ou de Grubbs,2 entre muitos outros, o valor de 73,5% seria considerado um outlier em relao aos outros resultados determinados para o teor de ferro. A mediana obtida listando-se os N valores em ordem de magnitude e selecionando o valor do centro se N for mpar ou a mdia dos dois valores centrais se N for par. Sendo assim, a utilizao do valor mediano menos sensvel incluso ou no de valores extremos como, por exemplo, o valor da mediana incluindo o teor de ferro 73,5% no clculo 70,6%, excluindo este valor a mediana 70,4%. Para o valor mdio utilizando os cinco valores dos teores de ferro a mdia 71,22%, enquanto que rejeitando o valor suspeito a mdia 70,65%, um valor bem diferente. Podemos concluir que o valor mediano bem mais robusto do que o valor da mdia para a presena de valores suspeitos no conjunto de dados. Porm, a mdia preferencialmente utilizada no lugar da mediana porque existe uma equao simples para calcular o erro no _, Equao 5, valor mdio, Sx onde, N o nmero de observaes e sx o desvio padro de x, apresentado na Equao 1. No existe uma equao, mesmo complexa, que calcule o erro no valor mediano, lembrando que o erro da mdia sempre menor do que de uma medida individual. 3. Por que em mtodos de regresso, a melhor reta aquela que minimiza as soma dos quadrados das distncias verticais entre os pontos e a reta? A Figura 1 mostra um grfico que ilustra o princpio do ajuste por mnimos quadrados normalmente empregado em anlises de regresso. (5)

Nesse mtodo a melhor localizao da reta especificada pelos coeficientes b0 e b1 da equao aquela que minimiza a soma dos quadrados dos comprimentos dos segmentos verticais, indicado pelas linhas slidas, que ligam os pontos experimentais reta. Este critrio implica que os valores de X sejam fixos, definidos pelo pesquisador no planejamento estatstico, e os valores de yi as variveis aleatrias afetadas por erros experimentais. Se ambas as variveis X e y forem afetadas por erros experimentais da mesma grandeza, a minimizao da soma quadrtica das distncias ortogonais, representadas pelas linhas tracejadas, seria a mais apropriada.2 No entanto na prtica isto no ocorre, pois os qumicos usam padres na construo da curva e os erros gerados pelo procedimento de mensurao so muitos maiores do que o preparo dos padres. O aluno normalmente se pergunta por que no minimizar a soma das distncias verticais em lugar da soma dos quadrados. A resposta que minimizando as distncias verticais, teramos um nmero infinito de retas que satisfariam a condio , pois desvios positivos da reta cancelariam os desvios negativos. Este cancelamento poderia ser evitado, minimizando-se a soma dos valores absolutos das distncias verticais. Na prtica isto no feito porque no existem derivadas para as Equaes 6 e 7, necessrias para gerar as equaes lineares que determinam os valores de b0 e b1 . (6)

(7)

4. possvel determinar um modelo quadrtico usando regresso linear? O modelo quadrtico frequentemente representado pela seguinte equao genrica: (8)

Os primeiros dois termos do lado direito representam o modelo linear muito usado pelos qumicos para calibrao de mtodos analticos, determinao de quantidades fsico-qumicas bem como para relacionar medidas empricas. Uma vez que a aproximao linear tem sua validade limitada, o terceiro termo (b2 2) pode ser adicionado ao modelo, permitindo melhor ajuste dos dados. O termo regresso linear usado pelos estatsticos corresponde aos parmetros b, ou seja, s incgnitas no modelo. As variveis independentes X so valores fixados pelo experimentador em diferentes nveis como, por exemplo, as concentraes para a curva de calibrao ou temperaturas para determinar as mudanas na presso de vapor, enquanto que as respostas, valores de y, so medidas experimentais. Um exemplo de modelo no linear nos parmetros estatsticos , embora esse modelo possa ser linearizado resolvendo o logaritmo. 5. Como um cientista ou engenheiro pode testar se uma curva de calibrao realmente uma reta? Muitos modelos de calibrao so baseados na suposio de que a relao entre a propriedade medida (sinal analtico, logaritmo da presso de vapor, etc) e o nvel do fator controlado pelo experimentador (concentrao, inverso da temperatura, etc) linear. Mas ser que isto sempre verdade? Como obter evidncia objetiva de que a relao entre a propriedade medida e o fator controlado pelo pesquisador realmente linear?

Figura 1. Reta ajustada por mnimos quadrados

890

Passari et al.

Quim. Nova

A resposta para essas perguntas poder ser obtida apenas se os experimentos forem executados em replicatas, pois s assim os resultados fornecero uma estimativa do erro experimental da propriedade que est sendo investigada. Se este erro for da mesma grandeza das diferenas entre os valores experimentais e aqueles previstos pelo modelo, podemos afirmar que a suposio sobre a linearidade est correta. Este procedimento equivalente a fazer experimentos confirmatrios para testar um modelo. Mesmo assim preciso fazer rplicas para determinar se os resultados confirmatrios esto dentro dos limites do erro experimental. Na Tabela 1 encontram-se os valores da presso de vapor de tetracloreto de carbono (CCl4) para diferentes valores de temperatura (T) obtidos no laboratrio de fsico-qumica.3
Tabela 1. Variao da presso de vapor do CCl4 com a temperatura Ensaio 1 2 3 4 5 6 7 8 9 T (K) 273 283 293 303 313 323 333 343 353 pvap (torr) 0,044 0,075 0,122 0,190 0,288 0,422 0,601 0,829 1,124

Se a entalpia de vaporizao for constante e no depender da temperatura e a Equao de Clausius-Clapeyron for validada nessas condies, o grfico de ln pvap vs. (1/T) ser uma reta. Uma regresso linear usando ln pvap como varivel dependente e (1/T) como a varivel independente resultar na equao: , com R2 = 0,9997. Este resultado corresponde a um calor de vaporizao de 32,44 0,22 KJ mol-1. A Figura 2 contm o grfico dos valores esperados pelos observados, juntamente com o grfico dos resduos3 deixados pelo ajuste versus os valores esperados pelo modelo linear. Apesar da excelente concordncia entre os valores observados e esperados e o alto valor de R2, Figura 2a, h necessidade de incluir um termo quadrtico no modelo apresentado, pois o grfico dos resduos, Figura 2b, deixa claro que eles no esto distribudos aleatoriamente. Supondo que no existam erros sistemticos nos resultados e que a execuo dos experimentos foi feita em ordem aleatria, os resduos no podem ser explicados como sendo devidos ao erro experimental. Conclumos que o modelo linear falho para representar os dados da Tabela 1. Fazendo um novo ajuste aos dados e adicionando um termo quadrtico temos uma nova equao:
2

Figura 2. Grfico (a) dos valores esperados pelos valores observados e (b) dos resduos deixados pelo ajuste do modelo linear

,
Figura 3. Resduos do modelo quadrtico ajustado aos dados da Tabela 1

com R = 1,0000. A Figura 3 mostra o grfico dos resduos deixados pelo ajuste do modelo quadrtico. Nessa figura os resduos esto distribudos bem mais aleatoriamente ao redor da linha no valor zero quando comparados distribuio dos resduos na Figura 2b e, portanto, no h evidncias fortes para suspeitar que exista falta de ajuste do modelo quadrtico ajustado aos dados da Tabela 1. Usando, portanto, o modelo quadrtico e admitindo que a derivada uma estimativa mais realista de

, podemos concluir que o calor de vaporizao do CCl4 na verdade varia entre 30,39 e 34,54 KJ mol-1, no intervalo de temperatura considerado. Atualmente, a verificao de linearidade da reta de calibrao em qumica analtica frequentemente analisada usando o coeficiente de correlao fornecido pelo programa computacional empregado para fazer a regresso. Infelizmente, no existe um teste estatstico que possa ser aplicado a este coeficiente para comprovar a linearidade da

Vol. 34, No. 5

Estatstica aplicada Qumica: dez dvidas comuns

891

reta num dado nvel de confiana. Cada vez mais est sendo exigida a utilizao do critrio da falta de ajuste recomendado por Pimentel e Barros Neto4 e Danzar e Currie.5 6. Quando o coeficiente de correlao zero, significa que no existe relao entre as duas variveis? No. O coeficiente de correlao limitado para investigar relaes lineares entre as variveis. Imagine, por exemplo, a relao entre a energia potencial de uma ligao qumica e sua distoro na geometria do equilbrio. Os dados esto representados graficamente pelos pontos de uma curva anarmnica na Figura 4.

modelo de regresso representado pela reta. Os pontos representados por bolas vazias apresentam uma relao no linear. Observa-se que os quatro pontos na esquerda tm um arranjo linear, diferente dos pontos na direita que tambm apresentam uma distribuio quase linear, porm com uma inclinao diferente dos pontos da esquerda. Por fim, os pontos representados por tringulos apresentam um arranjo de pontos completamente diferente, o ponto na direita tem um valor bem distinto dos pontos na esquerda.

Figura 5. Trs conjuntos de dados com o mesmo coeficiente de correlao, r = 0,87, mas representando realidades muito diferentes Figura 4. Relao entre a energia potencial de uma ligao qumica e sua distoro na geometria do equilbrio

O coeficiente de correlao linear dado pela equao: onde N o nmero de pontos na Figura 4 e sx e sy so os desvios padro das variveis x e y. Aplicando a equao da correlao para os pontos deste grfico, observa-se que as contribuies dos dois pontos, (xa, ya) e (-xa, ya), na equao iro praticamente se cancelar. Este argumento vlido para qualquer par de pontos que tenham o mesmo valor de yi. De fato, se os pontos seguissem exatamente uma parbola, a aplicao da Equao 9 resultaria em um coeficiente de correlao igual a zero. Porm, como as ligaes qumicas no obedecem risca a lei de Hooke, e por isso no vibram igual a um oscilador harmnico, o coeficiente de correlao dos dados representados na Figura 4 no ser exatamente zero e sim, um coeficiente de correlao pequeno que no reflete o comportamento sistemtico dos dados apresentados no grfico. 7. Porque importante examinar os grficos ao invs de apenas calcular os parmetros estatsticos? Parmetros estatsticos como a mdia, o desvio padro e o coeficiente de correlao so representaes numricas de grande quantidade de dados. O coeficiente de correlao r, por exemplo, um nmero que expressa a relao entre duas variveis, obtido pela Equao 9. Na realidade, as relaes entre variveis so normalmente muito complexas para serem representadas por um nico nmero. A Figura 5 mostra um grfico de trs conjuntos de pares de valores das variveis y plotada em funo das variveis x. Os pontos representados por bolas cheias mostram uma relao evidentemente linear entre as variveis x e y, porm, com grandes disperses do (9)

Estes conjuntos de dados possuem algo em comum. Todos apresentam um coeficiente de correlao de Pearson igual a 0,87, porm, as situaes fsicas apresentadas nos grficos so completamente diferentes. Os pontos representados por bolas cheias mostram uma simples relao linear, as bolas vazias uma interseo de dois modelos lineares, enquanto que os representados por tringulos mostram a possvel existncia de um outlier, ou seja, um ponto fora do padro. Se este ponto for retirado do conjunto de dados o coeficiente de correlao dos pontos na esquerda cai para 0,27. 8. Por que nas aulas de laboratrio de qumica as determinaes so feitas em triplicata? A realizao de experimentos em triplicata recomendada nos laboratrios de ensino porque um compromisso aceitvel entre a preciso e o trabalho. O valor mdio da triplicata a melhor estimativa do teor do analito na amostra, enquanto que o desvio padro a estimativa do erro experimental em uma determinao, sendo que o erro padro no valor mdio da triplicata menor pelo fator de 1/3. Isto pode ser visto na equao que representa o intervalo de confiana do valor mdio: (10)

_ onde, x representa a mdia, s corresponde ao desvio padro, N o nmero de rplicas (3 no caso da triplicata) e t o valor crtico da distribuio t de Student com N-1 graus de liberdade. Aumentando o valor de N, o intervalo de confiana ir diminuir por causa da diminuio do valor tN-1 e do fator 1/N. No nvel de 95% de confiana, os valores de tN-1 so 12,71; 4,30; 3,18; 2,78 e 2,57 quando N vai de 2 para 6. Para o mesmo intervalo de N, a expresso 1/N vai de 1,000; 0,707; 0,577; 0,500 at 0,408. Os produtos de tN - 11/N ficam progressivamente menores, indo de 12,71; 3,04; 1,83; 1,39 at 1,13. Sendo assim, quando se realiza uma triplicata ao invs de uma duplicata, ocorre um melhoramento da preciso de 12,71

892

Passari et al.

Quim. Nova

para 3,04 (fator de 4). Entretanto, realizando uma quadruplicata ao invs de uma triplicata, ocorre um melhoramento da preciso por um fator menor do que 2, pois o valor de tN - 11/N vai de 3,04 para 1,83. A Figura 6 apresenta um grfico de tN - 1/N vs. N ilustrando como a preciso diminui quando se aumenta o nmero de replicas. Nota-se que a preciso muito pouco melhorada com a execuo de cinco ou mais replicatas.

colocando-se os dados em ordem crescente e atribuindo-se posto 1 para o menor valor, posto 2 o segundo menor, etc. Depois de determinar os postos para ambos os dados, x e y, calcula-se a diferena entre os postos que esto apresentados na ltima coluna d. O coeficiente de correlao obtido por meio da Equao 11 onde N o nmero de observaes, neste caso 6 e o somatrio de d2 igual a 4. Dessa forma temos um coeficiente de Spearman de 0,89. Nota-se que este resultado est em boa concordncia com o valor do coeficiente de correlao de Pearson, 0,87, dado no item 6.
Tabela 2. Dados para calcular o coeficiente de correlao de Spearman Nmero 1 2 3 4 5 6 x 4,3 5,0 6,0 7,0 7,9 8,5 Posto 1 2 3 4 5 6 y 4,0 5,5 5,0 7,4 6,3 8,4 Posto 1 3 2 5 4 6 d 0 -1 1 -1 1 0

(11)

Figura 6. Grfico de t/N contra o nmero de rplicas N, ilustrando como a preciso diminui quando se aumenta o nmero de rplicas

9. Qual a diferena entre a estatstica paramtrica e a no paramtrica? A grande maioria dos qumicos utiliza mtodos de estatstica paramtrica para resolver problemas no laboratrio como, por exemplo, determinar se um valor experimental igual a um valor padro, se os resultados provenientes de diferentes laboratrios so iguais, se o erro mdio quadrtico de validao de um mtodo analtico maior do que o erro de outro mtodo, etc. Nestes casos, considera-se que os dados seguem uma distribuio normal, uma vez que a comparao de valores mdios no to problemtica porque estes valores tendem a seguir distribuies normais devido ao teorema do limite central,3 mesmo se os dados das determinaes individuais no seguirem nenhuma distribuio conhecida. Por isto, planejamentos estatsticos de experimentos produzem resultados confiveis. Como os valores dos parmetros dos modelos associados a estes planejamentos so combinaes lineares de resultados experimentais, eles tendem a seguir uma distribuio normal. Os mtodos de estatstica no paramtrica so usados quando o pesquisador precisa testar dados que no seguem uma distribuio bem caracterizada (normal ou no). Muitos mtodos bsicos de estatstica paramtrica tm seu anlogo no paramtrico como, por exemplo, o teste da soma dos postos de Wilcoxon (Wilcoxons rank sum test) o equivalente no paramtrico do teste t para duas mdias.6 O teste t pareado paramtrico corresponde ao teste dos sinais de Wilcoxon (Wilcoxons signed rank test). O teste de Kruskal- Wallis (KruskalWallis test) o equivalente no paramtrico da anlise de varincia (ANOVA) para dados obtidos em ordem completamente aleatria. Para dados obtidos com aleatorizao por blocos pode ser usado o mtodo no paramtrico teste de Friedman-R (Friedman-R test). Tambm existe um coeficiente de correlao no paramtrico chamado teste do coeficiente de correlao de Spearman (Spearman rank coefficient of correlation) anlogo ao coeficiente de correlao de Pearson. Todos estes mtodos no paramtricos utilizam os postos dos dados em lugar dos dados em si. A Tabela 2 apresenta os valores e postos dos dados x e y correspondendo aos pontos representados por bolas cheias no grfico da Figura 5. Os postos foram determinados

10. Mtodos que utilizam o poder do computador para fazer clculos podem resolver problemas que no so resolvidos usando estatstica clssica? Esta questo refere-se a aplicaes para as quais no existem equaes analticas para resolver o problema de interesse. Por exemplo, seria possvel saber se o valor mediano de um conjunto de resultados estatisticamente igual ao valor mediano de um grupo de controle? Usando a estatstica clssica a resposta para esta questo no, pois no existem equaes analticas que possam ser utilizadas para determinar se os dois valores medianos so realmente diferentes ou se a diferena uma mera flutuao estatstica causada pelo erro experimental. Entretanto, possvel resolver este problema empregando a metodologia do bootstrap7 que consiste em reamostrar de um conjunto de dados, diretamente ou via um modelo ajustado, a fim de criar rplicas dos dados para avaliar a variabilidade da quantidade de interessse, sem usar clculos analticos. Para cada grupo, usa-se um computador para criar centenas ou at milhares de amostras do mesmo tamanho por amostragem aleatria com substituio. Por exemplo, para um valor mediano de seis resultados do laboratrio (x1, x2, x3, x4, x5, x6) uma amostra bootstrap pode ser (x3, x5, x1, x6, x5, x2). Este procedimento feito vrias vezes para cada grupo e depois construdo um histograma das diferenas dos clculos medianos, onde podem ser determinados intervalos no nvel de 95% de confiana. O mesmo histograma serve para intervalos com outros nveis de confiana. REFERNCIAS
1. Montgomery, D. C.; Design and Analysis of Experiments, 3rd ed., Wiley: New York, 1991, p. 22. 2. Irvin, J. A.; Quickenden, T. I.; J. Chem. Educ. 1983, 60, 711. 3. Barros Neto, B.; Bruns, R. E.; Scarminio, I. E.; Como fazer experimentos, 4a ed., Artmed: Porto Alegre, 2010, p. 260-263. 4. Pimentel, M. F.;, Barros Neto, B. de; Quim. Nova 1996, 19, 268. 5. Danzar, K.; Currie, L. A.; Pure Appl. Chem. 1998, 70, 993. 6. Wagner, S. F.; Introduction to Statistics, Harper Collins: New York, 1992, chap. 14. 7. Efron, B.; Tibshirani, R. J.; An Introduction to the Bootstrap, Chapman & Hall/CRC: Boca Raton, 1994.