Você está na página 1de 5

Quim. Nova, Vol. 30, No.

2, 436-440, 2007 CONSEQNCIAS DA ANLISE INCORRETA DE EXPERIMENTOS BLOCADOS

Divulgao

Joo Alexandre Bortoloti e Roy Edward Bruns* Departamento de Fsico-Qumica, Instituto de Qumica, Universidade Estadual de Campinas, CP 6154, 13084-971 Campinas SP, Brasil Recebido em 26/9/05; aceito em 16/5/06; publicado na web em 24/10/06

THE CONSEQUENCES OF INCORRECT ANALYSIS OF BLOCKED EXPERIMENTS. Errors are always present in experimental measurements so, it is important to identify them and understand how they affect the results of experiments. Statistics suggest that the execution of experiments should follow random order, but unfortunately the complete randomization of experiments is not always viable for practical reasons. One possible simplification is blocked experiments within which the levels of certain factors are maintained fixed while the levels of others are randomized. However this has a cost. Although the experimental part is simplified, the statistical analysis becomes more complex. Keywords: optimization; split-plot design; factorial design.

INTRODUO Em muitos trabalhos que envolvem a realizao de experimentos, comum os qumicos se depararem com a questo: como avaliar se os resultados obtidos so confiveis? Com certeza o simples surgimento desta dvida j um bom sinal e indica que o experimentalista se preocupa com a qualidade de seu trabalho. Sabese que qualquer medida realizada sempre afetada por erros. Erros muito pequenos no traro grandes implicaes. Contudo, se forem significativos, podero prejudicar seriamente os resultados levando a falsas concluses. Portanto, conhecer a natureza dos erros e preparar planejamentos que possam minimiz-los uma estratgia que deve estar presente no dia-a-dia de todo pesquisador. Existem dois tipos de erros, o erro sistemtico e o erro aleatrio. O primeiro, tem como caracterstica afetar os resultados dos experimentos sempre na mesma direo, seja para mais ou para menos. Um exemplo simples deste tipo de situao o caso de uma balana descalibrada que pode indicar sempre massas maiores que as reais. Mas vale notar que os erros sistemticos podem ser identificados e, portanto, evitados. Por outro lado, h um outro tipo de erro que afeta as medidas sem nenhuma tendncia clara. As medidas podem oscilar, ora para mais, ora para menos. Este tipo de erro chamado de erro aleatrio e, infelizmente, sempre estar presente em maior ou menor grau. Ao fazer um estudo sempre interessante realizar replicatas, pois isto permite que o erro presente nas medidas seja investigado. Alm disso, com a realizao de vrias replicatas aumentam as chances de se aproximar mais do valor exato. Isto evidenciado por um importante princpio da estatstica: o teorema do limite central, que comprova que o erro no valor mdio menor que o erro de uma observao individual1. Todavia, para garantir a confiabilidade da anlise estatstica as replicatas devem ser autnticas, ou seja, a ordem em que sero realizados os experimentos e as replicatas deve ser sorteada aleatoriamente. No correto simplesmente realizar duas medidas do mesmo experimento de forma seqencial, pois um erro que afetar a primeira medida certamente ir, de forma sistemtica, afetar a seguinte2,3. Todas as condies para executar o experimento devem ser refeitas, para garantir a autenticidade da replicata e a qualidade da anlise estatstica1-4. Contudo, muitas vezes as caractersticas do procedimento expe*e-mail: bruns@iqm.unicamp.br

rimental dificultam muito a execuo de replicatas autnticas5,6. No so raros os casos em que o ajuste das condies experimentais extremamente trabalhoso ou lento, como, por ex., nas situaes em que necessrio aguardar por equilbrios trmicos ou efeito de memria em anlise qumica. Portanto, parece haver um dilema, realizar medidas com duplicatas autnticas e arcar com o custo do trabalho envolvido, mas garantir a qualidade das medidas, ou evitar um grande esforo no laboratrio, mas correr o risco de ter todo seu trabalho prejudicado. neste contexto que surge uma interessante possibilidade, a blocagem dos experimentos5,7. BLOCAGEM DE EXPERIMENTOS Uma possibilidade de blocagem dos experimentos a manuteno de uma ou mais condies experimentais fixas, enquanto outras so modificadas aleatoriamente. No incomum que o qumico algumas vezes faa a blocagem de forma at inconsciente, contudo, blocar os experimentos tem um custo. A anlise estatstica envolvida diferente daquela que trata dados provenientes de experimentos com replicatas autnticas, tornando-se mais complexa5,8,9. Assim, usar a anlise estatstica convencional em situaes de blocagem poder levar a resultados incorretos. Uma forma de blocar os experimentos atravs de um mtodo conhecido como split-plot que empregado em diferentes situaes. Um caso tpico para aplicao do mtodo split-plot a otimizao conjunta que envolve variveis de processo, como por ex., temperatura, e variveis de mistura. Uma possibilidade seria escolher um valor para a temperatura e mant-la fixa, depois diferentes composies de misturas seriam sorteadas aleatoriamente e preparadas. E, assim, na temperatura ajustada, alguma propriedade da mistura seria medida; em seguida, outra composio de mistura deveria ser sorteada e preparada e, ainda na mesma temperatura, medida a propriedade de interesse. Note que neste caso os experimentos so executados sempre em uma mesma temperatura, portanto, esta varivel foi blocada, j as diferentes composies de mistura foram aleatoriamente sorteadas. A varivel blocada no mtodo split-plot chamada de main-plot, e em determinada condio do main-plot (bloco), neste caso certa temperatura, so sorteados os nveis das outras variveis, constituindo o chamado subplot, neste caso, as diferentes composies de mistura.

Vol. 30, No. 2

Conseqncias da anlise incorreta de experimentos blocados

437

O fato dos experimentos no serem completamente aleatrios, mas haver a blocagem de uma varivel e dentro de um bloco aleatoriamente serem sorteados os nveis das outras variveis, levar a duas fontes de erro diferentes, uma para o main-plot e outra para o sub-plot. Isto implica em uma anlise estatstica mais complexa, especfica para o mtodo split-plot. Assim, claramente h vantagem no procedimento experimental mas, em contrapartida, a anlise dos resultados ser mais complexa5. GRFICOS DE PROBABILIDADE ACUMULADA Em virtude do erro experimental, ocorre uma disperso natural nas medidas. Ao se modelar um sistema, provavelmente, alguns parmetros do modelo estaro descrevendo somente as variaes ocasionadas por este erro. Mas, obviamente, estes parmetros no esto descrevendo efeitos significativos das variveis de interesse e, portanto, devem ser descartados. Sabe-se que estatisticamente os parmetros que descrevem erros aleatrios so exemplos de hiptese nula, uma vez que o valor verdadeiro de cada um deles seria zero. Portanto, estes parmetros, se colocados em um grfico em papel de probabilidade normal, devem seguir uma reta centrada em zero. Os efeitos significativos no se incluem na reta, pois no fazem parte da mesma distribuio1. A Figura 1 um exemplo de grfico de probabilidade acumulada, onde os parmetros significativos so representados pelos crculos preenchidos e os no significativos por crculos vazios.

preender como quatro variveis afetam a resistncia de um plstico. As variveis estudadas foram temperatura (T), porcentagem de aditivo (a), velocidade de agitao (v) e tempo de processamento (t). Para facilitar o procedimento experimental, a temperatura foi escolhida como main-plot e as outras trs variveis formaram o sub-plot. A temperatura foi fixada em dois nveis e aleatoriamente sorteou-se os nveis do sub-plot. A Figura 2 mostra a estratgia adotada. A Tabela 1 indica os resultados obtidos com os experimentos em duplicata.

Figura 2. Ilustrao do planejamento fatorial pelo mtodo split-plot para quatro variveis, (T) temperatura, (a) porcentagem de aditivo, (v) velocidade de agitao e (t) tempo de processamento

Tabela 1. Planejamento fatorial pelo mtodo split-plot para otimizar a resistncia de um plstico Temperatura 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 Aditivo 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 Velocidade 1 1 1 1 -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 1 1 1 1 -1 -1 -1 -1 Tempo 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 Resposta 70,8 73,3 66,2 64,0 66,8 61,5 51,9 65,6 68,5 68,0 61,3 58,6 59,5 64,2 58,5 59,5 63,9 63,2 58,1 62,6 57,5 63,3 57,4 65,0 56,4 62,7 56,5 56,1 53,2 63,9 59,5 66,6

Figura 1. Grfico de probabilidade acumulada para efeitos significativos ( ) e no significativos ( )

Para se utilizar o grfico de probabilidade acumulada deve-se tomar alguns cuidados. Primeiro, tentar plotar simplesmente os valores dos parmetros no grfico trar provavelmente resultados incorretos, pois muitos parmetros que apresentam valores altos podem tambm possuir grandes erros associados, assim, sua significncia talvez seja nula. Segundo, diferentes fontes de erro so agregadas ao clculo dos erros dos parmetros. Desta forma, a dimenso do erro pode variar muito entre os diferentes tipos de parmetros (como os do sub-plot e main-plot). Devido s diferentes ordens de grandeza dos parmetros, estes devem ser normalizados para serem comparados. Isto feito dividindo-se os valores dos parmetros pelos valores dos erros. Com isso, obtmse a razo que indica o quanto um parmetro supera seu erro9. Exemplo de um procedimento split-plot Um interessante trabalho foi publicado por Kowalski10, que utilizou o mtodo split-plot em um planejamento fatorial 24 para com-

O procedimento adotado exige que a anlise de varincia seja especfica, ou seja, a anlise split-plot. Uma anlise convencional, considerando experimentos executados de forma completamente aleatria, pode levar a concluses erradas sobre os efeitos significativos nesta otimizao. Para ilustrar estas situaes, as duas anlises de varincia foram realizadas.

438

Bortoloti e Bruns

Quim. Nova

Inicialmente necessrio ajustar um modelo e, neste caso, o escolhido foi o bilinear, ^ = + T + a + + t + Ta + T + a + at + t y (1)

para o qual representa a mdia global e T, a, v, t efeitos dos fatores identificados por seus smbolos apropriados. A primeira anlise trata os dados como provenientes de experimentos completamente aleatrios e, portanto, com uma nica fonte de erro. A Tabela 2 traz os coeficientes, o erro padro e, em negrito, os parmetros considerados significativos pelo teste t; as equaes empregadas para estes clculos esto indicadas na referncia 1 e so apresentadas no Apndice A. Temperatura, tempo e interao temperatura-velocidade e temperatura-tempo so significativos a 95% de confiana, e com 90% inclui-se as variveis aditivo, velocidade e interao velocidade-tempo. Com os coeficientes dos parmetros foi construdo um grfico de probabilidade acumulada mostrado na Figura 3. Os parmetros significativos a 95% esto preenchidos em preto, os preenchidos em cinza so significativos a 90% de confiana. Tabela 2. Coeficientes, erro padro e a razo coeficiente/erro dos parmetros ajustados no modelo bilinear. Os parmetros significativos a 95% esto em negrito Efeito Intercepto T a v t Ta Tv Tt av at vt
a Graus de liberdade

sentes: o erro main-plot e o erro sub-plot. Assim, a varivel temperatura, que constitui o main-plot, afetada por uma fonte de erro diferente daquela que afeta as variveis do sub-plot. Ento, considerando-se o tratamento adequado para o planejamento foi refeita a anlise estatstica. Inicialmente foi calculada a ANOVA para os resultados dos experimentos, apresentada na Tabela 3. As equaes empregadas so apresentadas no Apndice B. Tabela 3. ANOVA split-plot para os dados da Tabela 1 Fonte Replicatas Main-plot Erro main-plot Sub-plot Interao main-sub-plot Erro sub-plot SQ 84,83 85,48 27,56 244,63 145,70 174,81 GL 1 1 1 7 7 14 MQ 84,83 85,48 27,56 34,95 20,81 12,70

GLa Coeficientes 1 1 1 1 1 1 1 1 1 1 1 62,00 1,63 1,19 1,13 1,54 0,18 1,57 1,40 0,93 0,30 1,17

Erro padro Razo coef./erro 0,67 0,67 0,67 0,67 0,67 0,67 0,67 0,67 0,67 0,67 0,67 93,07 2,45 1,79 1,70 2,31 0,28 2,35 2,10 1,40 0,46 1,76

Figura 3. Grfico de probabilidade acumulada para os coeficientes da Tabela 2

Pela Figura 3 e Tabela 2 nota-se que a varivel temperatura apresenta um efeito pronunciado, destacando-se entre os termos significativos. Todavia, no se deve esquecer que os experimentos no foram realizados de forma completamente aleatria, mas com um procedimento split-plot. Portanto, no h apenas uma fonte de erro afetando os resultados. Na verdade, duas fontes de erro esto pre-

A ANOVA da Tabela 3 permite separar as fontes de erro do mainplot, sub-plot e a soma quadrtica devida s replicatas. Kowalski10 sugere que a soma quadrtica devida replicata e ao erro mainplot podem ser somadas. Desta forma, o valor da mdia quadrtica referente ao erro main-plot seria de 56,20 com 2 graus de liberdade. Pode-se, ento, fazer um teste F entre o efeito do main-plot e o erro presente em suas medidas pela razo 85,48/56,20 = 1,52, que no significativo, comparado ao valor de F1; 2; 95% = 18,51 ou F1; 2; 90% = 8,53. O que nos permite concluir que o efeito main-plot no significativo. Por outro lado, autores como Cornell5 adicionam ao erro sub-plot as possveis faltas de ajuste do modelo escolhido como adequado obtendo mais graus de liberdade para tratar o erro, alm de adicionar ao erro sub-plot o erro proveniente da interao mainsub-plot com o mesmo objetivo. Para exemplificar a maneira como as somas quadrticas so tratadas, um modelo com 31 termos foi gerado, o que esgota toda a falta de ajuste e toda varincia explicada pelos parmetros ajustados. A Tabela 4 traz os 31 parmetros do modelo e a soma quadrtica explicada por cada um na regresso. O valor da soma quadrtica devido replicata (r) de 84,83 e a interao da replicata com o main-plot, erro main-plot (rT), de 27,56, plenamente concordantes com ao valores da Tabela 3. O valor do efeito main-plot (T) igual a 85,48 e o efeito do sub-plot pode ser obtido pela somatria das somas quadrticas dos termos a, v, av, t, at, vt e avt, com 7 graus de liberdade e equivalendo a 244,64. Para determinar o erro sub-plot, basta somar os termos de interao entre (a,v,t) e replicata (r), ra + rv + rav + rt + rat + rvt + ravt = 117,30; j o erro da interao main-sub-plot pode ser determinado pelas interaes de r e t com a, v e t, cuja soma vale 57,51. Os valores do erro sub-plot e main-sub-plot so somados no mtodo splitplot, o que equivale a 174,81 com 14 graus de liberdade. Para comparar a ANOVA split-plot com a que considera todos os experimentos completamente aleatrios ajustou-se o mesmo modelo da Equao (1), que leva em conta apenas interaes binrias entre os efeitos. Assim, os termos de interao superior no participam do modelo, sendo equivalentes falta de ajuste e, portanto, adicionados ao erro sub-plot: erro sub-plot + soma quadrtica de termos no ajustados = 174,81 + 11,06 = 185,87, contendo 19 graus de liberdade. A mdia quadrtica do erro ser, portanto, igual a 9,78. Com as somas quadrticas dos efeitos pode-se realizar um teste F para determinar os parmetros significativos a 95%, F1, 19, 95% = 4,38, e 90%, F1, 19, 90% = 2,99. A Tabela 5 indica as razes entre as mdias quadrticas obtidas por regresso dos parmetros e a mdia quadrtica do erro. Comparando os valores da Tabela 2 e Tabela 5 percebem-se algumas

Vol. 30, No. 2

Conseqncias da anlise incorreta de experimentos blocados

439

alteraes. Primeiro, a temperatura que inicialmente era um fator muito significativo, na segunda anlise no o . Segundo, o aditivo que foi considerado significativo na primeira anlise com apenas 90% de confiana passou a ser significativo com 95%. Terceiro, a interao velocidade-tempo teve um efeito significativo apenas com 90% de confiana na anlise considerando os experimentos completamente aleatrios, mas na anlise split-plot o efeito desta interao significativo j em 95% de confiana. A Figura 4 mostra o grfico de probabilidade acumulada para as razes dos coeficientes/erro padro para o modelo da Equao 1 pelo mtodo split-plot. Os valores dos coeficientes e seus erros so indicados na Tabela 6, as equaes para obteno dos valores presentes nesta tabela esto presentes na referncia 5 e foram includas no Apndice C. Tabela 4. Modelo com 31 parmetros ajustado aos dados da Tabela 1 Fonte R T RT A Ra Ta RTa V Rv Tv RTv Av Rav Tav RTav T
a

GL 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

SQa 84,83 85,48 27,57 45,36 0,002 1,09 5,04 41,18 46,32 78,44 0,63 27,94 0,30 0,17 0,07 75,95

Fonte rt Tt rTt at rat Tat rTat vt rvt Tvt rTvt avt ravt Tavt rTavt

GL 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

SQ 0,81 62,44 4,28 2,94 43,95 0,75 0,26 43,95 14,99 2,82 15,82 7,32 10,93 0,003 31,40

Figura 4. Grfico de probabilidade acumulada para os valores das razes coeficientes/erro padro da Tabela 6; os crculos preenchidos em preto so significativos a 95% e os em cinza, a 90%

Comparando a Figura 3 com a Figura 4 nota-se claramente que a varivel temperatura, na anlise split-plot, aps ser corrigida por seu erro, deixa de ser significativa como antes, uma vez que na anlise correta o verdadeiro valor de seu erro muito maior que na anlise convencional. CONCLUSES Realizar os experimentos em ordem aleatria de extrema importncia para que a anlise estatstica convencional seja vlida; todavia, muitas vezes limitaes de ordem experimental inviabilizam a realizao de replicatas autnticas. Desta forma, uma alternativa realizar os experimentos com mtodos alternativos, como o split-plot, que facilitam o trabalho no laboratrio, mas exigem uma anlise estatstica mais complexa. importante salientar que ao planejar um conjunto de experimentos o qumico tambm dever se preocupar em como tratar seus resultados, pois realizar uma anlise incorreta implicar, muitas vezes, na determinao de erros no verdadeiros e pode levar a concluses injustificadas, prejudicando todo o trabalho. AGRADECIMENTOS Fundao de Amparo Pesquisa do Estado de So Paulo (FAPESP) pela bolsa de estudo concedida a J. A. Bortoloti (Processo 00/14261-0) e pelos recursos fornecidos para a atividade de pesquisa (Processo 01/14371-3). REFERNCIAS
1. Barros Neto, B.; Scarminio, I. S.; Bruns, R. E.; Como fazer experimentos: pesquisa e desenvolvimento na cincia e na indstria, Ed. da Unicamp: Campinas, 2001. 2 . Box, G. E. P.; Hunter W.G.; Hunter, J. S.; Statistics for experimenters. An introduction to design, data analysis and model building, Wiley: New York, 1978. 3. Anderson, R. L.; Bancroft, T. A.; Statistical Theory in Research, McGrawHill: New York, 1952. 4. Wooding, W. M.; J. Qual. Tech. 1973, 5, 16. 5. Cornell, J. A.; J. Qual. Tech. 1988, 20, 2. 6 . Cornell, J. A.; J. Am. Stat. Assoc. 1971, 66, 42. 7. Hicks, C. R.; Fundamental Concepts in the Design of Experiments, 2nd ed., Holt, Rinehart and Winston: New York, 1973. 8. Bortoloti, J. A.; Andrade, J. C.; Bruns, R. E.; J. Braz. Chem. Soc. 2004, 15, 241. 9. Bortoloti, J. A.; Bruns, R. E.; Andrade, J. C.; Vieira, R. K.; Chem. Intel. Lab. System 2004, 70, 113. 10. Kowalski, S. M.; Potcner, K. J.; Qual. Progress 2003, 36, 60.

a soma quadrtica, SQ, para um efeito pode ser obtida por: (efeito)2.(32), onde 32 o nmero de experimentos.

Tabela 5. Somas quadrticas referentes ao modelo da Equao 1 para o mtodo split-plot Efeito T A V T Ta Tv Tt Av At Vt
*

SQ 85,48 45,36 41,18 75,95 1,08 78,44 62,44 27,94 2,94 43,95

GL 1 1 1 1 1 1 1 1 1 1

MQ 85,48 45,36 41,18 75,95 1,08 78,44 62,44 27,94 2,94 43,95

MQerro Razo MQ/MQerro 56,20 9,78 9,78 9,78 9,78 9,78 9,78 9,78 9,78 9,78 1,52 4,63 * 4,21 7,77 * 0,11 8,02 * 6,38 * 2,86 0,30 4,49 *

parmetro significativo a 95%;

parmetro significativo a 90%

Tabela 6. Coeficientes e erros para o modelo split-plot Efeito T a v t Ta Tv Tt av at vt Coeficiente 1,63 1,19 1,13 1,54 0,18 1,57 1,40 0,93 0,30 1,17 Erro 0,93 0,55 0,55 0,55 0,55 0,55 0,55 0,55 0,55 0,55 Razo coef,/erro 1,76 2,15 2,05 2,79 0,33 2,83 2,53 1,69 0,55 2,12

440

Bortoloti e Bruns

Quim. Nova

APNDICE A - Equaes empregadas para a obteno dos valores presentes na Tabela 2 O vetor b que contm os parmetros do modelo obtido por regresso dado por b = (XtX)-1Xty onde X a matriz planejamento e y o vetor resposta. Os erros dos parmetros so obtidos extraindo-se a raiz quadrada dos elementos da diagonal principal da matriz obtida pela expresso V(b) = (XtX)-1 2 em que 2 a varincia do erro aleatrio. APNDICE B - Equaes empregadas para a obteno dos valores presentes na Tabela 3 As somas quadrticas (SQ) so obtidas pelas equaes SQreplicata = SQmain-plot = SQsub-plot = SQerro main-plot = [ SQinterao main-sub-plot = SQtotal = , ] . m, . r, , , , ,

= mdia da i-sima replicata de todas as composies em uma jyij. sima condio de processo; i.. = mdia da i-sima replicata de y todas as composies em todas as condies de processo; .j. = my dia de todas as composies e replicatas na j-sima condio de processo; .jk = mdia das replicatas na j-sima condio de procesy so e k-sima composio de mistura; .j. = mdia de todas as comy posies e replicatas na j-sima condio de processo; ..k = mdia y de todos os tratamentos e replicatas na k-sima composio de mistura; n = nmero total de respostas. APNDICE C - Equaes empregadas para a obteno dos valores presentes na Tabela 6 O vetor b contendo os coeficientes dos parmetros do modelo ajustado obtido por b = (XtV-1X)-1XtV-1y onde V dada por

SQsub-plot error = SQtotal - ( SQreplicata + SQmain-plot + SQsub-plot + SQerro main-plot + SQinterao main-sub-plot) onde: i = 1, 2, 3,.., r (replicatas); j =1, 2, 3,.., p (condies de processo); k = 1, 2, 3,..., m (misturas); ... = mdia global das respostas; y

sendo que J uma matriz com blocos diagonalizados com valores unitrios para todos os elementos das diagonais dos blocos e valores nulos para os elementos restantes. I so matrizes identidades e n, r, m e p so os nmeros de experimentos, replicatas, misturas e condies de processo, respectivamente. Os termos 2R, 2RZ e 2eso estimativas das varincias dos erros das replicatas, do main-plot e sub-plot, respectivamente, sendo calculados a partir dos resultados da ANOVA para planejamentos contendo replicatas. A matriz de covarincia de b para determinao dos erros associados aos parmetros do modelo, para casos com mais de uma fonte de erro, dada por ^ Co( ^ = (XtX)-1XtVX(XtX)-1 b)

Você também pode gostar