Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo
Quando se quer estabelecer relaes que possibilitem predizer uma ou
mais variveis em funo de outras, a anlise de regresso a tcnica
apropriada. Existindo medidas repetidas da varivel independente X, para
diferentes medidas da varivel dependente Y, o modelo de regresso pode
ser ajustado de trs maneiras diferentes: utilizando os valores individuais de X e Y (considerando todos os dados); com as mdias de Y para os
nveis de X (tratamento); e, ainda, utilizando as mdias ponderadas de Y
pelo nmero de repeties de cada nvel de X. O objetivo deste trabalho
ajustar um modelo de regresso linear simples, atravs de valores individuais, com as mdias ponderadas e no ponderadas dos tratamentos, a fim de testar os pressupostos para adequao do modelo, bem
como, realizar a anlise de varincia, decompondo a soma de quadrados
do erro em seus componentes, avaliando-se a falta de ajuste. Todas as
tcnicas foram realizadas atravs do suporte computacional SAS. Ob-
UFSM, 33(2)
serva-se que os modelos ajustados para dados individuais e mdias ponderadas apresentam os mesmos coeficientes. O teste para falta de ajuste
s possvel de ser realizado com os dados individuais. A escolha da
melhor estratgia adotada para analisar os dados deve ser decidida pelo
pesquisador, mas sugere-se que, na disponibilidade dos dados individuais, a melhor estratgia seria estimar o modelo com estes, visto que apresentam informaes mais precisas em relao variabilidade do conjunto de dados, em relao ao uso das mdias das variveis.
Palavras-chave: ajuste de modelos de regresso, decomposio dos resduos, teste de pressupostos.
Abstract
It is appropriate to use regression analysis establish relations that allow
to predict tone or more variables in terms of others. When there are
repeated measurements for independent variable X for different
measurements for dependent variable Y, the regression model may be
adjusted in three different ways: using individual values of X and Y
(considering all data); with means of Y for levels of X (treatments) and,
using weighted means of Y by the number of repetitions of each level of
X (treatment). The objective of this study is to adjust a linear regression
model by individual values with weighted and not weighted means of
the treatments in order to test the presuppositions for the adequacy of
the model and to analyze the variance decomposing the sum of squares
of error in its components, thus evaluating the Lack of Fit. The
adjustments of the models and its presuppositions were done in SAS.
Thus, it was observed that the adjusted models for individual data and
weighted means present the same coefficients. The test for Lack of Fit is
only possible with individual data. The choice of best strategy to analyze
the data should be decided by the researcher but it is suggested that,
when all data of the research are accessible, the best strategy would be
to estimate the model using individualized data since it presents more
precise information regarding the variability of the data set which does
not happen when working with means of variables.
Keywords: regression models adjustment, decomposition of residue, test
of presuppositions.
7-22, 2011
Introduo
Nos diversos ramos da cincia, surge a necessidade de se estabelecer
relaes quantitativas entre o fenmeno observado e algumas variveis
independentes. Ou seja, ajustar um modelo matemtico que seja capaz
de explicar o fenmeno observado e que tambm seja capaz de proporcionar previses dentro e, se possvel, fora dos limites investigados. Para
tanto, utiliza-se a tcnica de anlise de regresso.
Ao estabelecer um modelo de regresso, necessrio seguir alguns
pressupostos que, de acordo com LEVINE et al. (2005), destacam-se os
seguintes: homocedasticidade, normalidade dos resduos, independncia dos erros e linearidade. Depois de estabelecido o modelo de regresso, torna-se necessrio verificar a qualidade do ajuste. Conforme COSTA et al. (2006), o mtodo empregado para se avaliar quantitativamente
a qualidade do ajuste de um modelo a anlise de varincia (ANOVA).
Os principais objetivos da anlise de varincia so: verificar se h
falta de ajuste no modelo (lack of fit); obter a estimativa correta para a
varincia do modelo de regresso ( s 2 ); e estimar o grau de ajuste e
significncia do modelo (GAUDIO & ZONDONADE, 2001). Quando o
modelo proposto correto, a mdia dos quadrados dos resduos ( s 2 )
um estimador sem vis da verdadeira varincia ( 2 ) . Entretanto, quando o modelo no adequado, ( s 2 )estar estimando algo maior do que
inadequao do modelo.
Nesse sentido, GAUDIO & ZONDONADE (2001) e SOUZA (1998)
argumentam que o desvio padro do modelo um critrio de ajuste do
modelo ( s 2 ). No entanto, s possvel saber se ( s 2 ) a estimativa correta de se no houver falta de ajuste no modelo. Sendo assim, para romper este ciclo, verifica-se, em primeiro lugar, a falta de ajuste do modelo
proposto, atravs dos resduos da regresso. Ainda, conforme os autores acima, os resduos de um modelo de regresso contm toda a informao necessria compreenso dos motivos que fazem com que ele
no consiga explicar 100% da variabilidade dos dados observados de Y.
Existem basicamente dois motivos para que isso ocorra, sendo estes:
presena de erros aleatrios relativos determinao dos valores de Y e
a especificao imprpria do modelo (falta de ajuste).
A anlise de um modelo de regresso linear tem uma relao muito
UFSM, 33(2)
Yi - Y = (Yi - Y ) + (Yi - Yi )
(1)
10
7-22, 2011
(Y - Y ) = ( Y - Y )+ ( Y - Y )
i
(2)
(Y - Y ) = ( Y - Y ) + 2 ( Y - Y )( Y - Y )+ ( Y - Y )
i
(3)
(Y - Y ) = ( Y - Y ) + ( Y - Y )
i
(4)
(5)
11
UFSM, 33(2)
ni
(6)
(7)
ni
(Y
i
ij
ni
ni
- Yi )2 = (Yij - Yi )2 + (Yi - Yi )2
(8)
O primeiro somatrio do lado direito reflete a disperso do sinal (resposta) Yij, em torno de suas mdias, Yi oferecendo uma medida do erro
aleatrio e, sendo, portanto, denominado de soma quadrtica devida ao
erro puro, SQep.
O segundo somatrio decorre do modelo e sua magnitude depende
do afastamento da estimativa Yi da respectiva mdia Yi . Esse termo fornece uma medida da falta de ajuste do modelo s respostas observadas,
sendo chamado, por isso, de soma quadrtica, devido falta de ajuste,
SQfaj. Assim, com a decomposio da soma quadrtica, obtm-se a tabela de anlise de varincia. A mdia quadrtica obtida pela diviso da
soma quadrtica pelo respectivo nmero de graus de liberdade.
Quando existirem medidas repetidas da varivel independente X para
diferentes medidas da varivel dependente Y, o modelo de regresso pode
ser ajustado de trs maneiras diferentes: utilizando os valores individuais de X e Y (considera todos os dados); com as mdias de Y para os
nveis de X (tratamentos) e, ainda, utilizando as mdias ponderadas de
Y pelo nmero de repeties de cada nvel de X (tratamento).
12
7-22, 2011
Material e mtodos
Os dados utilizados para o ajuste do modelo foram oriundos de um
experimento realizado em rea experimental do Departamento de
Fitotecnia da Universidade Federal de Santa Maria - RS. Neste experimento, foi estudado o efeito de trs densidades de plantas (tratamentos,
X) sobre a produo de fitomassa seca da parte area (MS, Y) de mamona
(kg). As densidades foram de 1,0, 1,2 e 1,4 m entre plantas, mantendo-se
constante o espaamento entre linhas, de 1,0 m. As programaes, realizadas no SAS v. 8.0, para aplicao da tcnica proposta, encontram-se
no Apndice 1.
Ajustaram-se os modelos de regresso, utilizando-se trs estratgias: os valores individuais de X e Y, as mdias ponderadas de Y pelo nmero de repeties dos nveis X e as mdias no ponderadas. Depois de
estabelecido o modelo de regresso, verificou-se a qualidade do ajuste.
O mtodo empregado para se avaliar numericamente a qualidade do
ajuste de um modelo foi a anlise de varincia (ANOVA) (Costa et al.,
2006). Para realizar a validao dos modelos, utilizaram-se procedimentos do SAS. As hipteses testadas, em termos gerais, para a validao dos modelos foram: H0: o modelo segue determinado pressuposto,
13
UFSM, 33(2)
Resultados
Observa-se na, Tabela 1, que na anlise dos dados individuais e das mdias ponderadas, as estimativas dos parmetros do modelo so as mesmas. Porm, na anlise das mdias no ponderadas, h estimativas diferentes dos outros dois critrios, pelo fato de apresentar nmeros desiguais de repeties para os tratamentos (nveis de X). Quanto aos coeficientes de determinao, verifica-se que estes so sensivelmente melhores para os modelos obtidos atravs dos valores mdios. Uma regresso
com valores mdios sugere maior capacidade preditiva do que uma regresso sobre os dados individuais, uma vez que os valores mdios apresentam menor variabilidade que os valores individuais. Outro fato que
indica um melhor ajuste para os modelos com valores mdios o desvio
padro ( s) , que aparece com valores menores do que com os dados
individuais.
O desvio padro do modelo uma medida de variabilidade da distribuio condicional de Y para valores fixos de X. Utilizam-se todos os
resduos da reta ajustada de regresso para calcular o desvio padro do
modelo, pois se supe que todas as distribuies condicionais tenham a
mesma varincia. Dessa forma, o desvio padro do modelo serve como
referncia para a escolha do melhor modelo, isto , aquele que tem o
menor desvio padro (Hill et al., 1999).
As programaes para os ajustes dos modelos podem ser verificadas
no Apndice 1.
A falta de ajuste testada, com 1 e 18 graus de liberdade, no foi significativa, sendo o nvel de significncia alfa de 0,772 (Tabela 2). Isso mostra
que o modelo adequado para descrever o comportamento da produo
de fitomassa seca de mamona, em relao s diferentes densidades de
14
7-22, 2011
R2
b0
Pr>t
Da d os i n d i vi d ua i s
996,84
Md i a s pon d era d a s
996,84
Md i a s n o pon d era d a s
998,21
R2ajustado
b1
Pr>t
< 0 ,0 0 0
5 7 0 ,1
< 0 ,0 0 0 1
0,8958
0,8953
33,15
0,0106
5 7 0 ,1
0,015
0,9994
0,9989
9,99
0,0103
568,98
0,015
0,9994
0,9989
3 ,7 9
15
UFSM, 33(2)
GL
SQ
QM
P r >F
Regress o
179535
179535
163,31
0 ,0 0 0 1
Res d uos
19
20887,22
1099,32
99,85
99,85
0,086461
0,7720
Erro puro
18
20787,37
1154,854
Tota l
20
200422
1797,88
0,0150
1803,00
0,0150
Fa lta d e a juste
Md i a s Pon d era d a s
Regress o
179535
179535
Res d uos
99,85
99,85
Tota l
179634
Md i a s n o Pon d era d a s
Regress o
25899
25899
Res d uos
14,365
14,365
Tota l
25914
Tabela 3 . Testes para validao dos modelos de regresso ajustados para a relao
densidade de plantas (X) de mamona e produo de massa seca da parte area (Y),
conforme os valores individuais de X e Y, as mdias ponderadas de Y pelo nmero de
repeties dos nveis de X e as mdias no ponderadas.
Testes
Cri tri os
Sha pi ro-Wi lk
Va lor
Whi te
Durb i n Wa tson
Va lor
Va lor
P<WD
P>DW
Da d os i n d i vi d ua i s
0 ,8 2
0,11
0,95
0,62
1,71
0,1788
0,8212
Md i a s pon d era d a s
0 ,8 1
0,15
2,00
0 ,5 7
2,99
Md i a s n o pon d era d a s
0 ,7 5
0,10
3 ,0 0
0,22
3 ,0 0
16
7-22, 2011
17
UFSM, 33(2)
Concluso
Por meio das trs estratgias utilizadas para modelagem em anlise de
regresso, usando dados individuais, mdias ponderadas e mdias no
ponderadas, as duas primeiras apresentaram os mesmos valores para
os parmetros do modelo ajustado. Na anlise de varincia para o modelo com os dados individuais, foi possvel verificar a decomposio da
soma de quadrados do resduo em seus componentes, erro puro e falta
de ajuste. Verificou-se que o teste s possvel se existirem repeties
nos nveis ou tratamentos. Pelas anlises dos pressupostos, o modelo
ajustado com os dados individuais apresentou resultados mais conclusivos em relao aos outros dois modelos. O SAS apresenta-se como
ferramenta verstil para a realizao dos procedimentos de anlises dos
modelos de regresso.
Referncias
CHARNET, R. et al. Anlise de modelos de regresso linear com
aplicaes. Campinas, SP: Unicamp, 1999.
COSTA, T. M. et al. Utilizao de planilha eletrnica para calibrao
instrumental, anlise da varincia e testes de significncia de um
mtodo espectromtrico. Revista Analytica, n. 21, p. 46-51, 2006.
DRAPER, N. R.; SMITH, H. Applied Regression Analysis.
JohnWiley&Sons:New York, 1981.
18
7-22, 2011
19
UFSM, 33(2)
APNDICE 1
Programao do SAS para execuo das anlises
dm output; clear; log; clear;;
options formdlim=* pageno=001 ls=80;
DATA reg;
INPUT X Y;
CARDS;
1 1572.08
1 1650.25
1.2
1638.34
1.2
1668.75
1.4
1775.38
1.4
1875.38;
;
PROC REG DATA=reg;
MODEL y= x; /*SQr*/
TITLE Anlise de regresso com as
observaes individulisadas;
run;
PROC ANOVA
DATA=reg;
CLASS X; MODEL Y = X ; /* SQep */
TITLE Obtendo a soma de quadrados
relacionada ao erro puro;
run;
PROC MEANS N MEAN NWAY;
CLASS X; VAR Y; OUTPUT OUT=MEANS N=NUM
MEAN=MY;
run;
PROC REG DATA=MEANS; WEIGHT NUM; /*
Residual = falta de ajuste */
TITLERegresso com as mdias ponderadas
dos tratamentos;
MODEL MY = X;
run;
PROC REG DATA=MEANS;
20
7-22, 2011
21
UFSM, 33(2)
22