Escolar Documentos
Profissional Documentos
Cultura Documentos
Aprendendo A Usar o Sas 9.2 Estatistica
Aprendendo A Usar o Sas 9.2 Estatistica
LAVRAS
Minas Gerais - Brasil
21 de maro de 2007
ii
Ferreira, D.F.
Sumrio
Lista de Tabelas
ix
Lista de Figuras
xi
1.1
Entrada de dados . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Transformaes de variveis . . . . . . . . . . . . . . . . . .
1.3
Ordenamento de dados . . . . . . . . . . . . . . . . . . . . .
1.4
10
11
2.1
Estatsticas descritivas . . . . . . . . . . . . . . . . . . . . .
11
2.2
Estimao de Parmetros . . . . . . . . . . . . . . . . . . .
16
2.2.1
16
2.2.2
Estimao de Propores . . . . . . . . . . . . . . .
17
2.2.3
19
2.2.4
20
2.2.5
2.3
Emparelhados . . . . . . . . . . . . . . . . . . . . . .
23
Testes de Hipteses . . . . . . . . . . . . . . . . . . . . . . .
25
2.3.1
25
2.3.2
2.3.3
2.3.4
Teste de Normalidade . . . . . . . . . . . . . . . . .
33
Ferreira, D.F.
iv
SUMRIO
3 Regresso Linear
35
3.1
36
3.2
40
3.3
O Proc Reg . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
3.4
Seleo de Modelos . . . . . . . . . . . . . . . . . . . . . . .
56
3.5
58
3.5.1
Anlise de resduos . . . . . . . . . . . . . . . . . . .
59
3.5.2
63
3.5.3
64
3.5.4
65
3.5.5
67
3.5.6
Comandos SAS . . . . . . . . . . . . . . . . . . . . .
67
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
3.6
4 Regresso No-Linear
4.1
69
70
4.1.1
Mtodo do Gradiente . . . . . . . . . . . . . . . . . .
74
4.1.2
Mtodo de Newton . . . . . . . . . . . . . . . . . . .
75
4.1.3
Mtodo de Gauss-Newton . . . . . . . . . . . . . . .
75
4.1.4
Mtodo de Marquardt . . . . . . . . . . . . . . . . .
76
4.1.5
. . . . . . . . . . . .
77
4.2
O Proc Nlin . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
4.3
Modelos Segmentados . . . . . . . . . . . . . . . . . . . . .
80
4.4
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
89
5.1
O Proc Anova . . . . . . . . . . . . . . . . . . . . . . . . . .
90
5.2
93
5.3
5.4
5.5
5.6
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
Ferreira, D.F.
SUMRIO
117
6.1
6.2
6.3
6.4
6.5
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
7 Componentes de Varincia
135
7.1
7.2
7.3
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
143
8.1
8.2
Aditividade . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
8.3
8.4
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Referncias Bibliogrficas
151
ndice Remissivo
153
Ferreira, D.F.
vi
Ferreira, D.F.
SUMRIO
Lista de Tabelas
3.1
3.2
Crescimento de uma planta Y aps ser submetida a um tempo X de exposio solar em horas. . . . . . . . . . . . . . .
3.3
39
41
Testes de hiptese do tipo H0 : i = 0, com i = 0, 1, 2 utilizando a distribuio t de Student com = 5 graus de liberdade. 46
3.4
Dados de uma amostra de n = 10 rvores de araucria (Araucaria angustifolia) mensuradas em relao ao volume Y , rea
basal X1 , rea basal relativa X2 e altura em ps X3 . . . . .
3.5
48
3.6
Resumo da anlise de varincia do ajuste de regresso mltipla aos dados do volume das rvores de araucria. . . . . .
3.7
51
5.1
49
52
5.2
93
Anlise de varincia para o delineamento inteiramente casualizado com um fator (raes) com quatro nveis e cinco
repeties. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
Ferreira, D.F.
viii
5.3
LISTA DE TABELAS
Anlise da variao contendo as fontes de variao do modelo
para o delineamento inteiramente casualizado das raes. . .
5.4
Teste de SNK e mdias para a fonte de variao raes juntamente com as diferenas mnimas significativas dms. . . .
5.5
95
96
5.6
Anlise da variao para o modelo de regresso para o exemplo fatorial da adubao com 2 fatores. . . . . . . . . . . . . 104
5.7
Estimativas dos parmetros do modelo com seus erros padres e teste da hiptese para i = 0 fornecidas originalmente
pelo SAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.8
Estimativas dos parmetros do modelo com seus erros padres e teste da hiptese para i = 0 devidamente corrigidas. 106
5.9
6.2
6.3
Resumo da anlise da variao para o modelo fatorial (2 fatores) em um delineamento de blocos casualizados, destacando
as somas de quadrados tipo I, II e III e as significncias correspondentes. . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Ferreira, D.F.
LISTA DE TABELAS
6.4
ix
6.5
Esperana dos quadrados mdios e resumo da anlise da variao para o modelo de anlise conjunta (2 locais) em um
delineamento de blocos casualizados. . . . . . . . . . . . . . 133
7.1
7.2
Ferreira, D.F.
Ferreira, D.F.
LISTA DE TABELAS
Lista de Figuras
3.1
4.1
45
4.2
81
5.1
. . . . . . . . . . . . . . . 107
Ferreira, D.F.
xii
Ferreira, D.F.
LISTA DE FIGURAS
Captulo 1
Ferreira, D.F.
1.1
Entrada de dados
uma linha. Esta a estrutura utilizada pela maioria dos programas de anlise estatstica. Internamente, ao criarmos o banco de dados e executarmos
o programa, temos que dar um nome, o qual o programa SAS utilizar para
criar no seus diretrios de trabalho SASWORK ou SASUSER o conjunto
de dados que estamos utilizando. Este conjunto de dados SAS Data Set.
Antes dos dados devemos criar trs linhas de comando indicando o nome
deste conjunto de dados, as variveis e um comando de iniciao da leitura
dos dados.
Cada linha de comando do SAS tem algumas palavras reservadas de
comandos e termina com um <;>. Apesar de termos inmeros comandos
diferentes para entrarmos com o SAS Data Set, utilizaremos quase sempre
a seguinte estrutura:
Ferreira, D.F.
Um segundo exemplo com mais de uma varivel apresentado na seqncia com dados de dez rvores de Araucaria angustifolia. A primeira varivel
Y o volume em m3 /acre, a segunda varivel X1 a rea basal das rvores,
a terceira varivel X2 esta mesma rea basal, mas tomada com referncia
a rea basal de outra espcie (Pinus taeda) e a quarta varivel X3 a altura das rvores em ps. Observamos que a utilizao do @@ possibilita a
leitura dos dados em uma estrutura de uma aparente desorganizao. No
entanto, podemos observar que existe uma seqncia dos valores obedecendo
a seqncia das variveis do input Y , X1 , X2 e X3 .
Ferreira, D.F.
93 87 96 62 96 95 84 67
104 100 78 70
113 101 96 71
;
proc print;
var Y X1 X3;
run;
/*exemplo de um arquivo com dados experimentais fictcios, onde os nveis dos tratamentos so alfanumricos.*/
data exper;
input bl trat $ prod;
cards;
1 A 12.23
1 B 10.31
1 C 11.90
2 A 14.56
2 B 10.17
2 C 13.45
3 A 16.11
3 B 19.12
3 C 14.73
4 A 12.78
4 B 10.67
4 C 11.34
;
proc print data=exper;
run;
Ferreira, D.F.
1.2
Transformaes de variveis
Ferreira, D.F.
run;
Ferreira, D.F.
1.3
Ordenamento de dados
Podemos utilizar o proc sort do SAS para ordenarmos conjuntos de dados especificando as variveis que almejamos utilizar como chaves do processo de ordenao dos valores do conjunto de dados. Podemos ordenar
em ordem crescente ou decrescente. Por default o SAS ordena em ordem
crescente cada varivel chave. Se quisermos uma ordem decrescente, devemos utilizar o comando descending. Ilustramos o uso do proc sort em um
exemplo, em que uma sala de aula foi dividida em dois grupos de acordo
com os lugares que os alunos sentavam. Os da bancada da direita foram
denominados de grupo 1 e os da esquerda de grupo 2. Foram mensurados os
pesos e altura destes alunos. Usamos o proc sort para ordenar por grupos
em ordem crescente e por peso em ordem decrescente dentro de cada grupo.
Ferreira, D.F.
10
1.4
Ferreira, D.F.
Captulo 2
2.1
Estatsticas descritivas
Ferreira, D.F.
12
f (x) =
(x )2
2 2 ,
e
(2.1)
2 2
em que os parmetros e 2 so a mdia e a varincia respectivamente.
Este modelo simtrico em relao mdia e o parmetro usado para
medir a simetria o coeficiente de assimetria que pode ter dois estimadores,
o estimador beta e o estimador gama. No SAS o estimador gama de simetria
obtido e o seu valor de referncia na distribuio normal o valor 0. Este
estimador (Ferreira, 2005[3]) dado por:
g1 =
em que mr =
Pn
i=1 (Xi
m3
p
n(n 1)
3/2
(2.2)
(n 2)m2
ordem r, sendo r 2.
O coeficiente de curtose populacional da distribuio normal tem como
referncia o valor zero, se for considerado o estimador gama ou o valor 3
se for considerado o estimador beta. O coeficiente de curtose mede o grau
de achatamento da curva. Como o SAS estima somente o parmetro gama,
temos o seguinte estimador do coeficiente de curtose:
(n 1) (n + 1)m4 3(n 1)m22
.
g2 =
(n 2)(n 3)m22
(2.3)
Assim uma distribuio com coeficiente de assimetria igual a zero considerada simtrica; se o coeficiente de assimetria for maior que zero, esta
distribuio ser assimtrica direita e se for menor que zero, assimtrica
esquerda. Da mesma forma uma distribuio com coeficiente de curtose
igual a 0 ser considerada mesocrtica; se o coeficiente de curtose for negativo, ser considerada platicrtica e se for maior que zero, ser considerada
leptocrtica.
Caracterizada a distribuio, o interesse se volta para a caracterizao
da locao e da disperso da populao. A mdia amostral dada por:
n
X
. = 1
Xi .
X
n
(2.4)
i=1
Ferreira, D.F.
13
n
1
X 2
S =
Xi
n1
i=1
2
n
X
!2
Xi
i=1
(2.5)
O SAS estima ainda vrias outras estatsticas descritivas, como o desvio padro S, o coeficiente de variao CV , o erro padro da mdia SX , a
mediana md , a soma de quadrados corrigida e no corrigida, alguns percentis entre outras estimativas. Podemos utilizar o proc univariate para esta
finalidade. Este procedimento ainda apresenta a vantagem de propiciar a
estimao do histograma, bem como de permitir um ajuste da distribuio
normal a este histograma. Permite que outras distribuies sejam plotadas e que seus parmetros sejam estimados. Estas distribuies so: beta,
exponencial, gama, Weibull e lognormal. Permite ainda que um estimador
de Kernel de densidade seja estimado e plotado no mesmo grfico. Calcula
ainda grficos de probabilidade e os qqplots para as mesmas distribuies
utilizadas no comando histogram. Na seqncia apresentamos os principais
comandos do proc univariate, descrevendo suas principais opes.
Vamos ilustrar a utilizao do proc univariate com um conjunto de dados de feijo, onde foram avaliadas as produtividades em g/planta de 20
plantas da gerao F2 . Neste programa optamos por apresentar no mesmo
histograma o estimador kernel com suas trs opes (normal, quadratic e
triangular) e com o tamanho do parmetro de suavizao de cada igual a
1. A opo c = 1 1 1 que definiu este valor para cada mtodo. Escolhemos a opo normal para ajustar o polgono da normal ao histograma e
tambm traamos os grficos da probabilidade e dos quantis utilizando os
comandos qqplot e probplot.
Ferreira, D.F.
14
cards;
1.38
3.65
3.78
3.87
4.14
4.54
5.64
5.67
6.23
6.79
8.21
9.79
12.13
12.56
13.19
15.60
17.12
19.68
21.26
24.57
;
proc univariate data=feijao;
var prod;
histogram prod/ normal kernel(c=1 1 1 k=normal quadratic triangular);
probplot prod/normal;
qqplot prod/normal;
run;
Ao observamos os resultados, podemos verificar que embora as evidncias descritivas no sejam muito fortes, no parece haver uma boa concordncia da distribuio dos dados amostrais com a distribuio normal.
Testes formais precisam ser feitos para que haja uma confirmao ou no
destas evidncias descritivas. Um outro comentrio simples que gostaramos de fazer neste instante diz respeito forma que devemos sumariar os
resultados descritivos de posio e disperso em um trabalho cientfico. Em
geral, se a distribuio simtrica utilizamos a mdia como medida de posio. Associada a esta medida devemos apresentar uma medida de disperso.
Podemos escolher o desvio padro ou o erro padro, conforme o objetivo do
trabalho. Se queremos retratar a variabilidade dos dados populacionais em
relao a mdia desta populao, devemos utilizar o desvio padro como
uma estimativa desta medida. O coeficiente de variao tambm pode ser
utilizado se pretendemos apresentar esta variabilidade em uma escala relativa e no absoluta. Se por outro lado desejamos caracterizar a preciso
com que a mdia populacional foi estimada, ou seja, a preciso da estimativa
obtida, deveremos reportar o erro padro da mdia.
A forma como estas medidas devem ser apresentadas tambm alvo de
muita polmica no meio cientfico. Muitas crticas surgem quando apresen . S ou por X
. S .
tamos em uma tabela ou no texto, os resultados por X
X.
15
os casos deve ficar claro para o leitor que se trata da estimativa da mdia
seguida, entre parnteses, pelo desvio padro ou pelo erro padro. No temos restries ao uso particular de um destes estimadores: coeficiente de
variao, desvio padro ou erro padro. Isto porque podemos calcular a
partir de um deles os demais. Ento se torna preponderante a apresentao
do tamanho da amostra n utilizado no experimento ou no levantamento
amostral (Ferreira, 2005[3]).
Podemos utilizar ainda o proc summary para obtermos algumas estatsticas descritivas. Este procedimento interessante por realizar estimao
por intervalo de mdias de populaes normais. Assim, podemos complementar a informao do proc univariate que realiza testes de hipteses paramtricos e no-paramtricos sobre a mdia. Utilizamos os dados de feijo
anteriormente apresentados para mostrar uma aplicao do proc summary
e de sua sintaxe bsica. Por default este procedimento no produz output. Devemos utilizar a opo print para obtermos o resultado na janela
de sada. As estatsticas descritivas que almejamos devem ser solicitadas ao
procedimento. A lista de opes : alpha, clm, range, css, skewness (skew),
cv, stddev (std), kurtosis (kurt), stderr, lclm, sum, max, sumwgt, mean,
uclm, min, n, uss, var, nmiss. As opes de quantis so: median (p50), q3
(p75), p1, p90, p5, p95, p10, p99, q1 (p25) e qrange. A opo qrange
a amplitude interquartlica: p75 p25. O exemplo final com algumas das
opes :
3.65
3.78
3.87
4.14
4.54
5.64
5.67
6.23
6.79
8.21
9.79
12.13
12.56
13.19
15.60
17.12
19.68
21.26
24.57
Ferreira, D.F.
16
;
proc summary data=feijao print range css skew cv std kurt stderr sum max mean min n
uss var nmiss p5 p95 qrange;
var prod;
run;
2.2
Estimao de Parmetros
2.2.1
Vamos apresentar o procedimento SAS para estimao intervalar de mdias de uma populao normal. Para isso vamos utilizar novamente o proc
summary. Neste caso utilizamos a opo clm (confidence limits for the
mean) e a opo alpha para determinarmos o valor do coeficiente de confiana que dado por 1 . Por default o SAS utiliza = 0, 05. O intervalo
de confiana para a mdia de uma normal dado por:
. t/2; S ,
IC1 () : X
n
(2.6)
17
/*Exemplo da utilizao dos dados de feijo para obtermos o intervalo de 95% para a
mdia.*/
proc summary data=feijao print alpha=0.05 mean stderr n std clm;
var prod;
run;
(2.7)
/*Exemplo da utilizao dos dados de feijo para obtermos o intervalo de 95% para a
mdia, desvio padro e varincia.*/
proc univariate data=feijao alpha=0.05 cibasic;
var prod;
run;
2.2.2
Estimao de Propores
Ferreira, D.F.
18
Estes mtodos sero implementados no proc iml para ilustrarmos a sua utilizao e a de algumas funes do SAS para obteno de quantis dos modelos
probabilsticos necessrios em cada caso. Dada uma amostra de tamanho
n de eventos Bernoulli independentes e com probabilidade de sucesso constante p, em que exatamente y sucessos foram observados, o intervalo de
confiana normal aproximado para p dado por:
r
IC1 (p) : p z/2
p(1 p)
,
n
(2.8)
IC1 (p) :
1
1
,
;
y
(n y + 1)F/2;2(ny+1),2y 1 +
1+
(y
+
1)F
/2;2(y+1),2(ny)
y
(2.9)
Ferreira, D.F.
19
y=2;n=10;p=y/n;alpha=0.05;
if y=0 then F1=0;
else F1=Finv(1-alpha/2,2*(n-y+1),2*y);
if y=n then F2=0;
else F2=Finv(1-alpha/2,2*(y+1),2*(n-y));
if y=0 then LIE=0;
else LIE=1/(1+(n-y+1)*F1/y);
if y=n then LSE=1;
else LSE=1/(1+(n-y)/(F2*(y+1)));
print IC exato para p: LIE LSE alpha: alpha phat: p;
/*Intervalo de confiana normal aproximado*/;
z=probit(1-alpha/2);
LIap=p-z*(p*(1-p)/n)**0.5;
LSap=p+z*(p*(1-p)/n)**0.5;
print IC aproximado para p: LIap LSap alpha: alpha;
quit;
2.2.3
Para estimar o intervalo de confiana do coeficiente de variao popula . o estimador do coeficiente de variao.
cional de uma normal, seja
= S/X
O intervalo aproximado proposto por Vangel (1996)[15] dado por:
IC1 () :
LI = v
u
2
2/2
u /2 + 2
t
2
1
+
+1
(2.10)
LS = v
,
u
2
2
+
2
1/2
1/2
1
2 +
+1
Ferreira, D.F.
20
2.2.4
21
s
IC1 (1 2 ) : X1 X2 t/2;
Sp2
1
1
+
,
n1 n2
(2.11)
Sp2 =
(2.12)
s
IC1 (1 2 ) : X1 X2 t/2;
S12 S22
+
.
n1
n2
(2.13)
2
S12 S22
+
n1
n2
= 2 2 2 2 .
S1
S2
n1
n2
+
n1 1
n2 1
(2.14)
O procedimento mais apropriado para estimar duas mdias populacionais por intervalo requer que tenhamos o conhecimento sobre a homogeneidade ou no das varincias das duas populaes. Como se tratam de
parmetros desconhecidos podemos inferir apenas a este respeito. Para isso
podemos utilizar o teste F. Um artifcio que utilizamos considerar a varincia maior no numerador da expresso, multiplicando o valor encontrado
por 2. Assim, para testarmos a hiptese H0 : 12 = 22 calculamos:
Uso de Recursos Computacionais
Ferreira, D.F.
22
Fc =
2
SM
aior
2
SM
enor
(2.15)
Ferreira, D.F.
23
LSA=xb1-xb2+t*(s21/n1+s22/n2)**0.5;
print LI LIA LS LSA;
end;
quit;
2.2.5
n
X
d =
i=1
di
.
(2.16)
Ferreira, D.F.
24
n
X
1
Sd2 =
d2i
n1
i=1
n
X
!2
di
i=1
(2.17)
sd
IC1 () : d t/2;=n1 .
n
(2.18)
/*Utilizao do Proc Summary para a obteno de intervalos de confiana para o diferena de duas mdias emparelhadas, utilizando uma confiana de (1 )100%.*/
data leite;
input X Y;
d=Y-X;
cards;
12.00 12.56
11.58 13.98
11.67 14.23
12.32 14.56
Ferreira, D.F.
25
11.23 13.71
11.25 16.78
;
proc summary data=leite print alpha=0.05 n mean std stderr clm;
var d;
run;quit;
2.3
Testes de Hipteses
Neste seo trataremos dos testes de hipteses sobre os principais parmetros de uma ou duas populaes. Antes de apresentarmos os mtodos
e recursos computacionais para realizarmos os testes de hipteses, devemos
atentar para o fato de que existe uma relao estreita entre os procedimentos
de estimao e deciso.
Se j temos um intervalo de confiana construdo, podemos testar uma
hiptese bilateral apenas verificando se este intervalo contm o valor hipottico. Caso o valor hipottico pertena ao intervalo de confiana no temos
evidncias significativas para rejeitar a hiptese nula. Por outro lado, se o
valor hipottico no pertence ao intervalo de confiana, podemos concluir
a favor da hiptese alternativa, rejeitando a hiptese nula. Assim, vamos
apresentar somente os procedimentos para testarmos mdias de uma populao e de duas, sejam elas independentes ou emparelhadas. Testes sobre
varincias, desvios padres ou coeficientes de variao podero ser realizados com o uso dos intervalos de confiana apresentados anteriormente.
2.3.1
tc =
0
X
.
S
(2.19)
Ferreira, D.F.
26
o valor-p por P (t > |tc |); se a hiptese alternativa for unilateral do tipo
H1 : > 0 , calculamos o valor-p por P (t > tc ); e se a hiptese alternativa
for unilateral do tipo H1 : < 0 , calculamos o valor-p por P (t < tc ).
Finalmente, confrontamos o valor-p com o valor nominal do nvel de significncia . Se o valor-p for inferior ou igual a , devemos rejeitar a hiptese
nula neste nvel de significncia; caso contrrio, no devemos rejeitar H0 .
Se a distribuio dos dados no for normal podemos utilizar dois testes
no-paramtricos: o teste do sinal e o teste dos postos com sinais de Wilcoxon. Vamos descrever o teste do sinal com detalhes e realizar apenas uma
breve descrio do teste de Wilcoxon.
Para aplicarmos o teste do sinal, inicialmente calculamos o nmero de
sinais positivos e negativos para a diferena de cada observao amostral
com o valor hipottico. Se Xi 0 representa esta diferena, ento podemos
definir n+ como o nmero de observaes para as quais Xi > 0 (sinais
positivos) e n com o nmero de observaes para as quais Xi < 0 (sinais
negativos). Devemos desprezar todas as observaes para as quais Xi = 0 .
Assim, o nmero de observaes efetivas amostrais ne = n+ + n . Ao
realizarmos este teste estamos supondo que se a hiptese nula for verdadeira,
o nmero de sinais positivos deve ser igual ao nmero de sinais negativos.
Aplicamos, ento, um teste binomial para p = 1/2, em que p a proporo
de sinais positivos ou negativos. Assim, a estatstica do teste sinal dada
por:
Mc =
n+ n
.
2
(2.20)
(2.21)
j=0
O valor-p confrontado com o valor de e tomamos a deciso de rejeitar ou no a hiptese nula utilizando procedimentos semelhantes ao que
apresentamos anteriormente para o teste t.
Ferreira, D.F.
27
A estatstica do teste do sinal com postos de Wilcoxon obtida calculando-se todos os desvios das observaes em relao ao valor hipottico e
tomando-se os postos dos valores destas diferenas em mdulo di = |Xi 0 |.
Se algum valor amostral for igual a zero, devemos elimin-lo da amostra,
como fazemos no teste do sinal. Se houver empates, tomamos a mdia dos
postos que seriam atribudos a estas observaes empatadas. Retornamos
os sinais de Xi 0 aos postos das diferenas e somamos os valores positivos.
Esta soma representada por W + e a estatstica do teste. Os valores-p
podem ser obtidos utilizando-se uma aproximao normal ou a distribuio
nula da estatstica W + , derivada pela atribuio de sinais positivos ou negativos a cada posto amostral em todas as combinaes possveis. O teste
de Wilcoxon , em geral, mais poderoso do que o teste do sinal. Nenhum
detalhe adicional ser apresentado neste material.
Podemos utilizar o proc univariate para testarmos hipteses sobre a
mdia de uma populao. O proc univariate utiliza as trs opes apresentadas nesta seo para realizarmos o teste de hiptese. Devemos optar pelo
teste mais apropriado conforme for o caso. Esta escolha deve ser pautada
no atendimento ou no das pressuposies bsicas de cada teste. Um procedimento SAS apresentado na seqncia para testarmos a hiptese da
igualdade da mdia do peso dos coelhos hbridos Norfolk abatidos aos 90
dias a 2, 50 kg, ou seja, para testarmos H0 : = 2, 50. Se vrias variveis
so apresentadas no comando var, devemos utilizar a opo mu0 = 0.5 2.5
, indicando que o valor sob H0 para a primeira varivel 0, 5, para a
segunda 2, 5 e assim sucessivamente at completar o nmero de variveis
do comando var. O programa resultante :
/*Utilizao do Proc Univariate para testarmos a hiptese sobre a mdia de uma populao normal e no normais (testes no-paramtricos). Utilizamos o exemplo dos coelhos
Norfolk para ilustrar os testes.*/
data coelhos;
input peso @@;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
Ferreira, D.F.
28
2.3.2
Quando temos dados emparelhados, antes e aps a aplicao de um tratamento podemos estar interessados em testes de hipteses sobre o efeito
deste tratamento. Podemos utilizar o mesmo procedimento descrito anteriormente para mdia e assim testar hipteses sobre o efeito do tratamento.
A hiptese nula de interesse dada por H0 : = 0 . Podemos utilizar o
teste t de Student se as variveis (Xi , Yi ) tiverem distribuio normal bivariada ou, em caso contrrio, os testes no-paramtricos do sinal e do sinal
com postos de Wilcoxon.
Seja di = Yi Xi a diferena entre a observao da i-sima unidade
amostral aps Yi e antes Xi da aplicao do tratamento, sendo i = 1, 2, n.
Sejam d e S 2 a mdia e a varincia amostral destas n observaes, ento a
d
tc =
d 0
,
Sd
(2.22)
29
Ferreira, D.F.
30
/*Utilizao do Proc ttest para testarmos a hiptese de no haver efeito do plano governamental panela cheia na melhoria da produtividade leiteira das fazendas da cidade de
Marechal Cndido Rondom no Paran.*/
data leite;
input X Y;
cards;
12.00 12.56
11.58 13.98
11.67 14.23
12.32 14.56
11.23 13.71
11.25 16.78
;
proc ttest data=leite h0=0;
paired y*x;
run;quit;
2.3.3
Finalmente podemos testar a hiptese da igualdade de duas mdias populacionais independentes. Para este caso o SAS possui um procedimento
especializado, o proc ttest. Conforme j apresentamos na seo de estimao
por intervalo, devemos inicialmente aplicar o teste de igualdade de varincias e de acordo com os resultados obtidos, escolhemos entre o teste t de
Student exato ou aproximado. O teste exato ocorre quando as varincias
so consideradas homogneas; o teste aproximado quando as varincias
so heterogneas. Devemos neste ltimo caso utilizar o ajuste de graus de
liberdade pelo procedimento de Satterthwaite (1946)[11] ou o procedimento
Ferreira, D.F.
31
(2.23)
Ferreira, D.F.
32
(2.24)
segue aproximadamente a distribuio t de Student com graus de liberdade obtidos com o uso da expresso 2.14.
Para utilizarmos o proc ttest devemos especificar o valor 0 . Isto feito
utilizando a opo H0 = 0 . A opo Cochran tambm foi utilizada. Devemos, no entanto, alertar o leitor que, via de regra, os dois procedimentos
utilizados para ajustar os graus de liberdade ou as probabilidades, fornecem
resultados similares dos testes. Alm disso, a deciso tomada, em geral,
a mesma. O programa SAS utilizando o exemplo dos grupos de alunos
dado por:
33
variveis vamos analisar com o comando var e o valor hipottico. Infelizmente o SAS no permite especificar um valor diferente para cada varivel
com o comando H0. Se quisermos testar um valor diferente para cada varivel, devemos fazer vrios comandos repetidos, como no programa anterior,
especificando um valor hipottico diferente para cada varivel. Por default
o proc ttest utiliza o valor zero se nada for especificado. Obtivemos para
ambas variveis resultados no significativos para os testes da igualdade
varincias e de mdias dos dois grupos, como era esperado.
O proc ttest nos permite calcular o intervalo de confiana para a mdia
de cada populao e para a diferena de mdias. Tambm fornece o intervalo de confiana para as varincias. No entanto, o intervalo de confiana
da diferena de duas mdias deste procedimento do SAS ignora completamente o teste de igualdade de varincias e estima a diferena de duas mdias
por intervalo utilizando o procedimento de quando as varincias so homogneas. Assim, se o teste de homogeneidade de varincias for rejeitado, o
intervalo de confiana fornecido via de regra muito impreciso e deve ser
desconsiderado. Recomendamos o uso do programa utilizando o proc iml
que fornecemos anteriormente.
2.3.4
Teste de Normalidade
O SAS nos permite realizar teste de normalidade para os dados amostrais coletados em n unidades. Anteriormente j apresentamos alguns destes
testes quando utilizamos o comando histogram prod/normal; no proc univariate. Os testes aplicados no SAS so Kolmogorov-Smirnov, Cramer-von
Mises e Anderson-Darling. Tambm possvel chamar o teste de normalidade sem solicitar o histograma e a estimao dos parmetros da normal.
Podemos utilizar a seguinte linha de comando: proc univariate data=feijao
normal;. Assim, teremos os mesmos testes de normalidade, incorporando,
porm, o poderoso teste de Shapiro-Wilk.
O SAS fornece o valor da estatstica de cada teste e o valor-p associado.
Se este valor-p for menor do que o valor nominal de significncia previamente adotado, ento devemos rejeitar a hiptese nula de normalidade;
caso contrrio, no haver evidncias significativas neste nvel para rejeitar
Uso de Recursos Computacionais
Ferreira, D.F.
34
a hiptese de normalidade.
Devemos enfatizar que o teste de normalidade aplicado no contexto de
uma amostra aleatria simples onde no h controle local e efeitos de diferentes tratamentos atuando totalmente justificvel, pois estamos diante
de um modelo linear simples do tipo:
Yi = + i ,
em que Yi a observao amostral da i-sima unidade amostral, a mdia
geral e i o erro associado a i-sima unidade amostral.
Nos modelos lineares a suposio de normalidade feita sobre os resduos e no sobre a varivel dependente. Neste modelo linear simples, ao
erro de todas as observaes acrescido uma nica constante e esta constante somente faz uma translao dos valores de Y , no alterando a sua
distribuio. Assim, testar a normalidade de Y ou de so procedimentos
equivalentes. O que muitos pesquisadores fazem muitas vezes dentro do
contexto da experimentao testar a hiptese de normalidade da varivel resposta para verificar se esta pressuposio foi atendida, para validar
as inferncias realizadas. Isto muitas vezes incorreto, pois se pressupe
resduos e no variveis respostas normais. Ento, sob um modelo mais
complexo, onde existe controle local, efeito de bloco (j ) e\ou efeitos de
tratamentos (i ), a varivel resposta Y ter uma distribuio que na verdade uma mistura de distribuies normais com diferentes mdias. Observe
que para o modelo linear
Yij = + j + i + ij ,
a varivel Yij tem a seguinte mdia: E(Yij ) = +j +i . Assim, se variarmos
a unidade experimental (i, j), teremos diferentes valores mdios para Yij .
Como supomos independncia e homocedasticidade de varincias, a mistura
de distribuies ter diferentes distribuies normais com diferentes mdias,
mas com a mesma varincia. Ento, em uma amostra de tamanho n, no
podemos testar a hiptese de normalidade utilizando os valores de Y , mas
devemos estimar o erro cuja mdia zero e a varincia constante para
realizarmos tal teste.
Ferreira, D.F.
Captulo 3
Regresso Linear
Os modelos de regresso linear desempenham um grande papel nas mais
diferentes reas do conhecimento. Os pesquisadores buscam sempre modelar
seus dados por um modelo e ento passam a compreender melhor o fenmeno
sob estudo. Os modelos lineares so apenas uma das classes utilizadas
pelos pesquisadores na compreenso dos problemas de suas pesquisas. A
classificao de um modelo como linear muitas vezes confundida com
o tipo de curva matemtica que aquele modelo descreve e, ainda, mal
compreendida. Assim, iniciaremos nossa discusso com a classificao de
dois modelos como linear ou no-linear. O primeiro modelo dado por
Yi = 0 + 1 Xi2 + i , em que Yi e Xi2 so as variveis resposta e regressoras,
respectivamente; 0 e 1 so os seus parmetros; e i o resduo ou erro.
O segundo modelo Yi = 0 Xi1 + i . Ambos os modelos descrevem curvas
que no so uma reta simples. Esta uma das causas de confuses na
classificao de um modelo como linear. Nestes exemplos, o primeiro modelo
linear e o segundo no-linear.
Para esclarecermos e definirmos um modelo como linear, devemos apresentar inicialmente um conceito filosfico. Dizemos que um modelo linear
ou no-linear nos parmetros e com isso no estamos interessado no tipo
de curva que a funo representa. Formalmente, podemos dizer que um
modelo linear se as derivadas parciais da varivel dependente em relao
a cada parmetro no forem funes dos prprios parmetros. Assim, as
derivadas parciais do primeiro modelo so: Yi /0 = 1 e Yi /1 = Xi2 .
Uso de Recursos Computacionais
Ferreira, D.F.
36
Regresso Linear
3.1
O proc reg foi idealizado para ajustar modelos lineares e fornecer vrias
ferramentas de diagnstico da qualidade de ajuste. Seja o modelo linear de
regresso com m + 1 parmetros definido por:
(3.1)
em que Yi a i-sima observao da varivel resposta; Xhi i-sima observao da h-sima varivel; h so os parmetros do modelo; i o resduo
de regresso associado a i-sima unidade amostral; h = 0, 1, 2, , m e
Ferreira, D.F.
37
i = 1, 2, , n; X0i constante com todos os valores iguais a 1; m representa o nmero de variveis e n o tamanho da amostra.
O mtodo dos quadrados mnimos baseado na idia de minimizar a
P
soma de quadrados dos resduos dos modelos lineares. Assim, se Q = ni 2i
a soma de quadrados de resduos, o seu valor mnimo deve ser encontrado
para obtermos uma soluo de quadrados mnimos. Matricialmente temos
o modelo 3.1 expresso da seguinte forma:
Y = X +
(3.2)
resduos (n 1).
Os resduos podem ser isolados por = Y X e a soma de quadrados
Q= =
Q = 0 =
Y X
Y X
Y 0 Y 2 0 X 0 Y + 0 X 0 X
X 0 X = X 0 Y
(3.3)
Ferreira, D.F.
38
Regresso Linear
A matriz de derivadas parciais ou de modelo X, em geral, possui posto
= (X 0 X)1 X 0 Y
(3.4)
Y = X
(3.5)
= Y 0 Y 0 X 0 Y
Q
0
SQModelo = X 0 Y
(3.6)
39
parmetros. Desta forma podemos definir dois tipos bsicos de soma de quadrados: a seqencial (tipo I) e a parcial (tipo II). Na seqencial tomamos o
modelo completo e o reduzimos eliminando a varivel m. Obtemos a soma
de quadrado do modelo completo, que representamos por R(0 , 1 , , m ),
e a do modelo reduzido, representada por R(0 , 1 , , m1 ). A notao R indica uma reduo particular do modelo que estamos abordando.
Se tomarmos a diferena da soma de quadrados dos dois modelos teremos
R(m /0 , 1 , , m1 ) = R(0 , , m )-R(0 , , m1 ). Se do modelo
com m 1 variveis eliminarmos a ltima e repetirmos este procedimento,
teremos a soma de quadrado da (m 1)-sima varivel ajustada para todas
as outras que a precedem. Se fizermos isso repetidas vezes at reduzirmos
o modelo ao termo constante apenas, teremos as somas de quadrados de
cada varivel ajustada para todas as outras que a precedem, ignorando as
variveis que a sucedem. Esta a soma de quadrados tipo I ou seqencial.
Para obtermos as somas de quadrados parciais ou do tipo II, devemos
a partir do modelo completo formar um novo modelo eliminando uma das
variveis. A soma de quadrados do modelo reduzido comparada com a
soma de quadrado do modelo completo e a sua diferena a soma de quadrados do tipo II. Assim, teremos o ajuste de cada varivel para todas as
outras do modelo. Podemos perceber que as somas de quadrados tipo I e
tipo II da m-sima varivel so iguais. Via de regra as somas de quadrados
tipo I e tipo II no sero iguais para as demais variveis, a menos de ortogonalidade. Podemos resumir o dois tipos de somas de quadrados conforme
esquema apresentado na Tabela 3.1.
Tabela 3.1: Tipos de somas de quadrados de um modelo de regresso contendo m variveis.
FV
SQ Tipo I
SQ Tipo II
X1
R(1 /0 )
R(1 /0 , 2 , , m )
X2
..
.
R(2 /0 , 1 )
..
.
R(2 /0 , 1 , , m )
..
.
Xm
R(m /0 , 1 , , m1 )
R(m /0 , 1 , , m1 )
Ferreira, D.F.
40
Regresso Linear
(X 0 X)1
x0m
x10 x11
= .
..
..
..
.
.
xm0 xm1
x1m
..
.
x00
x01
(3.7)
xmm
R(h /0 , , h1 , h+1 , , m ) =
3.2
h2
xhh
(3.8)
Yi = 0 + 1 Xi + 2 Xi2 + i
(3.9)
41
0,1
0,88
0,2
0,90
0,3
0,99
0,5
1,12
0,8
1,40
1,0
1,62
1,5
2,20
2,0
3,10
X=
1 0, 1 0, 01
1 0, 2 0, 04
1 0, 3 0, 09
1 0, 5 0, 25
1 0, 8 0, 64
1 1, 0 1, 00
1 1, 5 2, 25
1 2, 0 4, 00
=
1
2
Ferreira, D.F.
42
Regresso Linear
Y =
0, 88
0, 90
0, 99
1, 12
1, 40
1, 62
2, 20
3, 10
Desta forma podemos formular o programa IML para ajustar este modelo e obter as somas de quadrados e testes de hipteses relativo aos parmetros. Vamos apenas ilustrar uma parte de todos os clculos, pois felizmente
podemos utilizar o proc reg do SAS que nos fornece todas as estimativas
e testes de hipteses que desejarmos, com comando mais simples. O nosso
objetivo possibilitar ao leitor obter um maior conhecimento de todo o
processo de regresso linear. O programa resultante desta anlise :
Ferreira, D.F.
43
n=nrow(y);
xlx=t(x)*x;
xly=t(x)*y;
print xlx xly;
ixlx=inv(xlx);
print ixlx;
betam1=ixlx*xly;
print betam1;
/*somas de quadrados*/
glm1=3;
sqb0b1b2=t(betam1)*xly;
sqtotal=t(y)*y;
sqresm1=sqtotal-sqb0b1b2;
glrm1=n-glm1;
print sqb0b1b2 sqtotal sqresm1;
/*Soma de quadrados do tipo II*/
sqb1=betam1[2]**2/(ixlx[2,2]);
sqb2=betam1[3]**2/(ixlx[3,3]);
print sqb1 sqb2;
/*teste t H0 bi=0*/
b0=betam1[1];
tcb0=(b0-0)/(ixlx[1,1]*sqresm1/glrm1)**0.5;
prtcb0=2*(1-probt(abs(tcb0),glrm1));
print b0 tcb0 prtcb0;
b1=betam1[2];
tcb1=(b1-0)/(ixlx[2,2]*sqresm1/glrm1)**0.5;
prtcb1=2*(1-probt(abs(tcb1),glrm1));
print b1 tcb1 prtcb1;
b2=betam1[3];
tcb2=(b2-0)/(ixlx[3,3]*sqresm1/glrm1)**0.5;
prtcb2=2*(1-probt(abs(tcb2),glrm1));
print b2 tcb2 prtcb2;
quit;
Ferreira, D.F.
44
Regresso Linear
6, 4
8, 28
X 0X =
8, 28 13, 048
6, 4
12, 21
X 0Y =
13, 365
20, 2799
A matriz inversa (X 0 X)1 dada por:
0, 7096 1, 5667
0, 6461
(X 0 X)1 =
4, 8322 2, 2213
1, 5667
0, 6461 2, 2213
1, 0927
Finalmente, o vetor estimado por:
0, 8289504
=
0,
4048794
0, 3607692
Portanto, o modelo de regresso ajustado Yi = 0, 8289504 + 0, 4048794
Xi + 0, 3607692Xi2 . O grfico desta funo quadrtica est apresentado na
Figura (3.1)
As somas de quadrados para modelo (0 , 1 , 2 ), total no corrigido e
resduo foram iguais a 22, 84906, 22, 8533 e 0, 0042399, respectivamente.
O R2 , proporo da variao total corrigida explicada pelo modelo de regresso, dado por: R2 = 1 sqresduo/sqtotal corrigida = 99, 90%. Um
excelente ajuste foi encontrado, mas necessrio que se faa a anlise de
resduo para termos uma confirmao disto, o que no ser feito neste instante. A soma de quadrado total corrigida foi obtida por SQtotal nc =
n
X
sqtotal c G2 /n, em que G =
Yi = 12, 21.
i=1
Ferreira, D.F.
45
1
0
0,5
1,5
2,5
3,5
Ferreira, D.F.
46
Regresso Linear
tc
0,82895
33,793
4, 267 107
0,40488
6,325
0, 0014562
0,36077
11,852
0, 0000753
Parmetro
proc reg, para o qual, anteriormente, j apontamos suas principais caractersticas, ou seja, as anlises com que capaz de lidar. Como o IML um
procedimento poderoso, mas que requer conhecimentos especiais de estatstica e de lgebra matricial, no abordaremos mais o proc iml, neste captulo.
Faremos todas as anlises de modelos lineares de regresso utilizando o proc
reg.
3.3
O Proc Reg
Vamos apresentar o proc reg para realizarmos o ajuste do modelo anterior e em seguida apresentaremos um exemplo de regresso mltipla, onde
aparentemente ocorre um resultado paradoxal na inferncia realizada. Utilizamos este exemplo para elucidar aspectos de testes de hipteses que so
muitas vezes ignorados. Inicialmente vamos apresentar os comandos necessrios para ajustarmos o modelo (3.9). O proc reg no permite a criao
de variveis no prprio modelo como faz um outro procedimento do SAS
chamado glm. Neste caso, devemos criar o arquivo de dados e aps o input
criar a varivel X2 = X 2 . Assim, criamos nosso arquivo com as variveis
necessrias e o programa simplificado para o ajuste dado por:
Ferreira, D.F.
47
0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20
2.0 3.10
;
proc reg data=rlq;
model y=x x2/ss1 ss2;
run;quit;
A linha de comando do proc reg dada por <model y=x x2/ss1 ss2;>,
nos permite fazer o ajuste do modelo (3.9). As opes ss1 e ss2 solicitam o
clculo das somas de quadrados dos tipos I e II. No necessitamos especificar
nada mais, pois por default o SAS apresenta as estimativas dos parmetros
do modelo com seus erros padres e testes de hipteses associados, a anlise
de varincia, o R2 , mdia geral e algumas outras estimativas de parmetros
especficos. O teste F da anlise de varincia est relacionado a seguinte
hiptese:
H0 : 1 = 2 = 3 = = m = 0
H1 : i 6= 0
Para algum i = 1, 2, , m
(3.10)
Neste exemplo observamos que o F observado foi igual a 2484, 4 e o valor associado P r(F > Fc ) < 0, 0001. Assim a hiptese nula global de que
nenhuma varivel explica significativamente a variao na varivel resposta
Yi foi rejeitada. O SAS realiza o teste t para as hipteses do tipo H0 : i = 0,
i = 1, 2, , m. Neste exemplo os valores da estatstica t e as respectivas
significncias esto apresentadas na Tabela 3.3. Conclumos que ambas
as variveis tem efeito significativamente diferente de zero na variao de
Y . O teste t de Student equivalente ao teste F parcial. Embora este
teste tenha sido aplicado por ser padro no SAS, conveniente utilizar
para este exemplo um teste seqencial. Isto porque esta anlise refere-se
ao ajuste de um modelo polinomial e usualmente nestes casos utilizamos
Uso de Recursos Computacionais
Ferreira, D.F.
48
Regresso Linear
X1
X2
X3
65
41
79
35
78
71
48
53
82
90
80
64
86
80
81
59
87
93
61
66
90
90
70
64
93
87
96
62
96
95
84
67
104
100
78
70
113
101
96
71
Yi = 0 + 1 Xhi + i ,
Para
h = 1, 2 ou 3,
i = 1, 2, , n
(3.11)
O programa para realizarmos estes ajustes, para cada uma das variveis
regressoras, mas de forma simultnea simultnea, dado por:
Ferreira, D.F.
49
79
35
78
71
48
53
82
90
80
64
86
80
81
59
87
93
61
66
90
90
70
64
93
87
96
62
96
95
84
67
104
100
78
70
113
101
96
71
;
proc reg data=arvores;
model y=x1;
model y=x2;
model y=x3;
run;quit;
Na Tabela 3.5 apresentamos os resultados mais importantes destes ajustes, que iremos mencionar futuramente. Selecionamos o F calculado e sua
significncia e o R2 do modelo.
Tabela 3.5: Resultados mais importantes do ajuste dos modelos lineares
simples para os dados dos volumes das n = 10 rvores de araucria Araucaria angustifolia.
Fc
P r(F > Fc )
R2
1: E(Yi ) = 0 + 1 X1i
24,17
0,0012
0,7513
2: E(Yi ) = 0 + 1 X2i
2,43
0,1579
0,2328
3: E(Yi ) = 0 + 1 X3i
24,73
0,0011
0,7556
Modelo
Ferreira, D.F.
50
Regresso Linear
(3.12)
O programa SAS, que faz uso do proc reg para ajustar o modelo 3.12,
dado por:
79
35
78
71
48
53
82
90
80
64
86
80
81
59
87
93
61
66
90
90
70
64
93
87
96
62
96
95
84
67
104
100
78
70
113
101
96
71
;
proc reg data=arvores;
model y=x1 x2 x3;
run;quit;
Os principais resultados obtidos do ajuste do modelo 3.12 so apresentados e discutidos na seqncia. A princpio, vamos apresentar (Tabela 3.6)
o resumo da anlise de varincia.
Podemos concluir que pelo menos uma varivel explica significativamente a variao que ocorre na varivel resposta Y , ou seja, a hiptese
nula (3.10) deve ser rejeitada se for considerado o nvel nominal de 5%.
Ferreira, D.F.
51
QM
Fc
P r(F > Fc )
Regresso
455, 85296
10, 65
0, 0081
Erro
42, 80685
Total Corrigido
FV
(3.13)
O estimador desta varincia obtido substituindo a varincia paramtrica pelo estimador da varincia (S 2 = QM E). Assim, temos o estimador
da varincia do estimador dos parmetros dada por:
= (X 0 X)1 S 2
(3.14)
S(i ) =
xii S 2
(3.15)
tc =
i 0
S(i )
(3.16)
Ferreira, D.F.
52
Regresso Linear
S(i )
tc
-33,82268
75,35853
-0,45
0,6693
-2,22672
4,02805
-0,55
0,6004
0,26976
0,15332
1,76
0,1290
4,76590
6,78649
0,70
0,5088
Parmetros
53
fornece uma medida mais adequada para comparar modelos com diferentes
quantidades de parmetros. O R2 ajustado dado por:
2
RAj.
=1
ni
1 R2
np
(3.17)
/*Exemplo do proc reg para realizar regresso linear mltipla utilizando SS1 e SS2.*/
proc reg data=arvores;
model y=x1 x2 x3/ss1 ss2;
run;quit;
Ferreira, D.F.
54
Regresso Linear
X2i
Yi = z 0 = 0 + 1 X1i + + 1 Xmi
(3.18)
S(Yi ) =
z 0 (X 0 X)1 z S 2
(3.19)
Yi t/2, S(Yi )
(3.20)
Yi t/2, S(Yi )
(3.21)
S(Yi ) =
rh
i
1 + z 0 (X 0 X)1 z S 2
(3.22)
55
/*Exemplo do proc reg para realizar regresso linear mltipla utilizando p clm e cli.*/
proc reg data=arvores;
model y=x1 x2 x3/alpha=0.05 p clm cli;
run;quit;
Podemos utilizar ainda algumas outras opes do modelo de regresso. Particularmente interessante so os coeficientes de determinaes semiparciais dos tipos I e II. Os comandos para obtermos estas correlaes semiparciais quadrticas so scorr1 e scorr2. Os coeficientes de determinao
semi-parciais so estimados por:
R(h /0 , , h1 )
SQtotal corrigida
(3.23)
R(h /0 , , h1 , h+1 , , m )
SQtotal corrigida
(3.24)
2
Rsp1
=
2
Rsp2
=
2
2
em que Rsp1
e Rsp2
so os coeficientes de determinao semi-parciais dos
2
Rp1
=
R(h /0 , , h1 )
R(h /0 , , h1 ) + SQE
(3.25)
2
Rp2
=
R(h /0 , , h1 , h+1 , , m )
R(h /0 , , h1 , h+1 , , m ) + SQE
(3.26)
Ferreira, D.F.
56
Regresso Linear
/*Exemplo do proc reg para realizar regresso linear mltipla e ilustrar a obteno dos
coeficientes de determinao parciais e semi-parciais.*/
proc reg data=arvores;
model y=x1 x2 x3/ss1 ss2 scorr1 scorr2 pcorr1 pcorr2;
run;quit;
3.4
Seleo de Modelos
57
Ferreira, D.F.
58
Regresso Linear
/*Exemplo do proc reg para realizar seleo de modelos de regresso linear mltipla.*/
proc reg data=arvores;
model y=x1 x2 x3/selection=backward slstay=0.05;
model y=x1 x2 x3/selection=forward slentry=0.05;
model y=x1 x2 x3/selection=stepwise slentry=0.05 slstay=0.05;
run;quit;
Nos trs mtodos obtivemos o mesmo modelo ajustado, da varivel resposta Y em funo da varivel X3 . Algumas vezes os procedimentos podem
resultar em concluses conflitantes quanto ao modelo e o pesquisador deve
escolher o que melhor lhe convier. Esta escolha, entre outras coisas, pode
ser embasada na anlise de resduos e na qualidade da predio da varivel
aleatria Y .
3.5
resduos (n 1) no observveis e com E = 0 e V = I 2 .
Ferreira, D.F.
59
Na metodologia clssica de modelos lineares, onde se encontram os modelos de regresso linear, pressupomos que exista uma linearidade nos parmetros do preditor e aditividade dos erros e, ainda, que os erros so independentes, tm mdia zero, varincia constante e que sua distribuio seja
iid
normal, ou seja, i N (0, 2 ). Alm disso outras condies so importantes, como por exemplo, supomos que algumas poucas observaes no devam
ter influncia demasiada sobre as estimativas dos parmetros do modelo e
de suas varincias. Assim, diagnsticos numricos so funes dos dados cujos valores permitem detectar respostas que so anormalmente grandes ou
pequenas (outliers ou valores discrepantes) ou que esto afastadas do grupo
majoritrio dos dados, influenciando em demasia o ajustamento. Assim,
temos interesse particular nas anlises denominadas de influncia, onde utilizamos um conjunto de tcnicas destinadas a deteco de pontos influentes
e/ou discrepantes que podem afetar o ajustamento.
Muitas causas podem ser atribudas a alguns problemas normalmente
encontrados na anlise de regresso. Algumas destas possibilidades so,
entre outras, devidas medidas erradas ou erro no registro da realizao da
varivel resposta, ou ainda, erros de transcrio; observaes tomadas em
condies distintas das demais; modelo mal especificado; e distribuio no
normal dos resduos, apesar de o modelo e a escala estarem corretos.
A forma utilizada normalmente para verificar a influncia de uma observao retir-la do modelo e verificar como as estimativas dos parmetros,
predies e varincias so afetadas. Assim, se retirarmos a i-sima observao e reestimarmos as quantidades mais importantes do modelo, poderemos
avaliar a influncia da observao retirada na estimao destes parmetros
de interesse. Podemos, no entanto, evitar que todos os clculos sejam refeitos, utilizando algumas relaes e propriedades apresentadas por Velleman
e Welsch, (1981)[16]. Vrios mtodos de avaliar a influncia de observaes
no ajuste de um modelo de regresso linear so apresentados por Chatterjee
e Hadi (1986)[2].
3.5.1
Anlise de resduos
Ferreira, D.F.
60
Regresso Linear
e = Y X
(3.27)
X2i
zi 0 ]0 ,
e = (I H)Y
(3.28)
h
i
E e =E (I H)Y = (I H)E Y
=[I X(X X)
X ]X = X X(X 0 X)1 X 0 X
=X X = 0
e =(I H)V Y (I H) = (I H)I 2 (I H)0
61
V (ei ) = (1 hi ) 2
(3.29)
zi =
ei
S
(3.30)
(3.31)
Ferreira, D.F.
62
Regresso Linear
A ltima proposta de padronizao foi feita para contornar este pro-
blema e tem ainda algumas propriedades mais interessantes do que as demais formas de padronizao. Esta ltima padronizao resulta nos resduos
estudentizados externamente, tambm denominados de resduos de jackknife. A idia eliminar a i-sima observao e obtermos uma estimador
2 . O subscrito i apresentado entre parnteses foi
da varincia, digamos, S(i)
2
S(i)
=
e2i
(n m 1)S 2
nm2
(n m 2)(1 hi )
(3.32)
(3.33)
nm2
n m 1 ri2
63
3.5.2
Ferreira, D.F.
64
Regresso Linear
3.5.3
DF BET Aij =
j ij
V j
(3.34)
(i) =
1
(X 0 X)1 Zi ei
1 hi
(3.35)
i-sima observao.
Tambm sabemos que o vetor de estimadores dos parmetros dado
por:
= (X 0 X)1 X 0 Y = CY
Ferreira, D.F.
(3.36)
65
ei
1 hi
(3.37)
cji ti
DF BET Aij = r
(3.38)
(1 hi )Cj 0 Cj
cujos |DF BET Aij | > 2/ n devem ter ateno especial, pois o vetor de
estimativas pode ter sofrido alteraes significativas.
3.5.4
O impacto da i-sima observao no i-simo valor predito pode ser medido pela padronizao da mudana no valor predito na presena e ausncia
desta observao. A estatstica utilizada para fazer tal mensurao denominada de DF F IT S e dada por:
Yi Yi(i)
r
hi
DF F IT Si = q
= |ti |
2
1 hi
(1 hi )S(i)
(3.39)
Ferreira, D.F.
66
Regresso Linear
Como vimos anteriormente hi /(1hi ) est relacionada a uma medida da distncia entre as linhas de X. Assim, a grandeza do valor de DF F IT S pode
ser atribuda discrepncia do valor da resposta, do conjunto de valores das
variveis preditoras ou de ambos. Um ponto geral para a determinao de
observaes influentes considerado o valor 2. Um ponto de corte ajustado
p
para determinar a influncia 2 (m + 1)/n.
A distncia de Cook outra estatstica utilizada para medir a influncia
de uma observao na predio dos valores da varivel resposta Y . Esta
estatstica pode ser vista como a distncia Euclidiana entre os valores preditos com e sem a i-sima observao. O estimador da distncia de Cook
dado por:
Di =
hi
1
r2
(m + 1) (1 hi ) i
(3.40)
= |ti |
hi (n m 1)
= DF F IT S
(1 hi )(m + 1)
nm1
m+1
(3.41)
67
Dado o limite mximo estabelecido para DF F IT S, um valor da distncia modificada de Cook maior que 2 pode ser considerado um indicativo de
observao influente.
3.5.5
Uma medida da influncia da i-sima observao na V obtida
comparando a razo de varincias generalizadas (determinantes) da estimativa da covarincia com e sem a i-sima observao. Esta estatstica dada
por:
1
2
0 X
det S(i)
X(i)
(i)
h
i
COV RAT IOi =
det S 2 (X 0 X)1
n m 1 ri2
nm2
=
(1 hi )
m+1
(3.42)
3.5.6
Comandos SAS
Felizmente todas estes mtodos de diagnstico em regresso linear podem ser obtidas utilizando duas opes simples do comandos model: r e
influence. Apresentamos na seqncia um exemplo do programa SAS utilizado para obter o diagnstico de regresso para o exemplo do volume de
madeira das rvores.
/*Exemplo do proc reg para realizar anlise de diagnose em modelos de regresso linear
mltipla.*/
proc reg data=arvores;
Ferreira, D.F.
68
Regresso Linear
model y=x1 x2 x3/r influence;
run;quit;
3.6
Exerccios
1
+ i
X3i
1
+ i
X3i
Ferreira, D.F.
Captulo 4
Regresso No-Linear
Outro assunto extremamente importante para os pesquisadores em geral
o ajuste de regresses no-lineares em suas pesquisas aplicadas. Temos o
objetivo de apresentar neste captulo as principais idias sobre os processos
de estimao de parmetros de modelos no-lineares e os comandos do proc
nlin para realizar esta tarefa. O que devemos considerar que os modelos
no-lineares nos parmetros tm uma maior plasticidade e portanto so
considerados mais apropriados para modelarem fenmenos biolgicos.
Neste captulo vamos discutir um pouco sobre mtodos de estimao de
parmetros de modelos no-lineares e sobre a sintaxe do proc nlin. Vamos
apresentar programas de modelos de Response Plateau linear e no-linear.
Ambos so no-lineares nos parmetros, mas descrevem curvas lineares e
quadrticas, respectivamente, alm do plateau no ponto de juno dos segmentos, que uma linha reta paralela abscissa.
Os procedimentos de estimao no-linear so em geral iterativos. O
processo deve iniciar para um valor especfico inicial de seus parmetros
e a soma de quadrado do resduo avaliada. Ento uma nova estimativa
dos parmetros obtida, buscando-se minimizar a soma de quadrados do
resduo. Este processo repetido at que este mnimo seja alcanado. Vrios algoritmos e mtodos existem para realizar este processo de estimao.
No faremos uma descrio detalhada destes mtodos, que aceleram a convergncia e so eficientes para estimarmos os parmetros que conduzem ao
mnimo global para a soma de quadrados de resduos, por causa de as diUso de Recursos Computacionais
Ferreira, D.F.
70
Regresso No-Linear
4.1
m ]0
[Z1j
Z2j
Zpj ] por
Yj = Fj
, Z
+ j .
(4.1)
Y =F
+ .
(4.2)
, simplesmente por F .
Para ficar claro a notao que estamos utilizando, consideremos o modelo Yj = Zj + j . Neste caso temos um vetor de parmetros dado por
0 = [ ] e uma nica varivel regressora Z. O vetor do modelo dado
por:
Ferreira, D.F.
Z1
Z2
F = .
..
Zn
71
Y1
Y =
Y2
..
.
Yn
Finalmente, o vetor de resduos dado por:
1
=
2
..
.
n
O modelo pode ser escrito por:
Y1
Z2
= .
..
Yn
Zn
Z1
Y2
..
.
1
2
..
.
n
0
L =0 = Y F
Y F = Y 0 Y 2Y 0 F + F 0 F
0
F
F 0 F
L 2Y
=
+
Mas,
Uso de Recursos Computacionais
Ferreira, D.F.
72
Regresso No-Linear
2Y 0 F
2Y 0 F
= 2Y 0 X
F 0 F
F 0 F
= 2F 0 X
Logo,
L
= 2Y 0 X + 2F 0 X
X 0F = X 0Y
(4.3)
seja minimizada.
Se considerarmos o modelo Yj = Zj +j , que utilizamos anteriormente
para ilustrar alguns aspectos do modelo, podemos construir a matriz X das
derivadas parciais facilmente. Sejam as derivadas parciais Yj / = Zj e
Yj / = Zj (Zj 1)
Ferreira, D.F.
Z1
Z1 (Z1 1)
Z2
X= .
..
Zn
Z2 (Z2 1)
..
.
Zn (Zn 1)
73
"
Z1
Zn
Z1 (Z1 1)
"
=
Z1
Zn (Zn 1)
Zn
Z1 (Z1 1)
Zn (Zn 1)
Z1
#
Z2
.
..
Zn
Y1
#
Y2
.
..
Yn
de parmetros, devemos
calcular a matriz X e estimar o vetor de resduos
por e = Y F k . No ponto inicial (k = 0), avaliamos X e o vetor
SQE k +
< SQE k
Gradiente:
Gauss-Newton:
= X0 e
Newton:
Marquardt:
= G X 0 e
= (X 0 X) X 0 e
(4.4)
= [X 0 X + diag(X 0 X)] X 0 e
Ferreira, D.F.
74
Regresso No-Linear
4.1.1
Mtodo do Gradiente
1
2
L k
= X 0 Y + X 0 F = X 0 e
k+1 = k +
(4.5)
SQE k +
< SQE k .
(4.6)
4.1.2
75
Mtodo de Newton
= G X 0 e
(4.7)
em que
G = (X X) +
n
X
Hj k ej
(4.8)
j=1
sendo que a matriz Hj , de dimenso r r, avaliada para o vetor de parmetros k no k-simo passo para a j-sima observao amostral, a matriz
Hessiana do vetor de erros . O elemento (`, k) desta matriz, [Hj ]`k , dado
por:
2 j
=
` k
[Hj ]`k
(4.9)
`k
"
Hj =
4.1.3
Zj (Zj 1)
Mtodo de Gauss-Newton
Ferreira, D.F.
76
Regresso No-Linear
X F =X 0 Y
=X 0 Y
X 0 F 0 + X 0
0
0
0
X X 0 =X Y X F 0
0
X 0 X =X 0 e
e portanto,
=(X 0 X) X 0 e
(4.10)
4.1.4
Mtodo de Marquardt
= (X 0 X) + diag(X 0 X) X 0 e
(4.11)
= /10 na prximaiterao;
se por
outro lado ocorrer o contrrio, ou
seja, se SQE 0 + > SQE 0 , ento = 10. Assim, se a soma de
quadrados do resduo decresce a cada iterao, estaremos utilizando essencialmente o mtodo de Gauss-Newton; se ocorrer o contrrio o valor de
aumentado em cada iterao, sendo que passaremos a utilizar o mtodo de
gradiente.
Ferreira, D.F.
4.1.5
77
devemos reduzir o valor pela metade em cada passo SQE k + 0, 5 ,
SQE k + 0, 25 , e assim por diante at que um quadrado mdio do re
4.2
O Proc Nlin
Ferreira, D.F.
78
Regresso No-Linear
para a escala original, quando for o caso, so utilizadas como valores iniciais. Algumas vezes, antes da linearizao, podemos efetuar algum tipo de
reparametrizao e proceder da mesma forma. Os processos iterativos possuem convergncia bem mais rpida, quando os valores iniciais esto mais
prximos das estimativas de mnimos quadrados.
Para apresentarmos os comandos bsicos do proc nlin, vamos utilizar os
dados da Tabela 3.2 e o seguinte modelo no-linear nos parmetros:
yi = xi + i
(4.12)
Data regnlm1;
input X Y;
Cards;
0.1 0.88
0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20
Ferreira, D.F.
79
2.0 3.10
;
Proc nlin Method=Gauss;
Parms a=0.5 b=1.8;
Model y=a*(b**x);
Der.a=b**x;
Der.b=a*x*(b**(x-1));
run;quit;
1 0, 00276/4, 2178 = 0, 9993, indicando que 99, 93% da variao do crescimento das plantas foi explicado pelo modelo de regresso.
Vamos ilustrar o proc nlin com o ajuste de mais um modelo aos dados
da Tabela 3.2 dado por:
yi = xi + i
(4.13)
As derivadas parciais em relao a cada parmetro so dadas pelas funes yi / = xi e yi / = xi ln (xi ). O programa correspondente a
este exemplo dado por:
Data regnlm2;
input X Y;
Cards;
Ferreira, D.F.
80
Regresso No-Linear
0.1 0.88
0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20
2.0 3.10
;
Proc nlin Method=Gauss maxiter=500;
Parms a=0.5 b=1.8;
Model y=a*(x**b);
Der.a=x**b;
Der.b=a*x**b*log(x);
run;quit;
4.3
Modelos Segmentados
81
2.5
1.5
0.5
0
0
0.5
1.5
Yi =
0 + 1 Xi + 2 X 2 se Xi < X0
i
(4.14)
P se X X
i
0
Para valores de X < X0 , os de Y so explicados por um modelo quadrtico (parbola) e para valores de X X0 , a equao explicativa constante
Uso de Recursos Computacionais
Ferreira, D.F.
82
Regresso No-Linear
Y
P
X
0
dYi
= 1 + 22 Xi
dXi
Se igualarmos esta deriva a zero, resolvermos a equao resultante em
X e substituirmos o valor de X por X0 , ponto em que a curva deve ser
contnua e suavizada, obtemos:
Ferreira, D.F.
83
X0 =
1
22
Substituindo esse valor na equao (4.14) obtemos o mximo, que corresponde ao plat almejado. Assim, este plat dado por:
Y = P = 0 + 1 X0 + 2 X02 = 0
2 2
12
2
+ 1 2 = 0 1
22
42
42
Neste caso temos apenas trs parmetros efetivos, pois tanto X0 , quanto
P so determinados a partir de 0 , 1 e 2 . Este um modelo no linear
nos parmetros, pois as derivadas parciais de Y so funes dos parmetros
em alguns casos, justificando o uso do proc nlin. O programa final apresentado na seqncia. Podemos destacar que ele dividido em duas partes:
a primeira com a parte quadrtica polinomial e a segunda, com a parte
do plat. Em cada ciclo do processo iterativo imprimimos nos resultados,
juntamente com os demais parmetros, as estimativas de X0 e de P . Utilizamos o proc plot para produzir um grfico de baixa qualidade dos valores
ajustados. Neste modelo, a representa 0 , b representa 1 e c representa 2 .
Ferreira, D.F.
84
Regresso No-Linear
dc=0.5*b/c**2; /* derivada de xo em relao a c */
if x<x0 then /* parte quadrtica do modelo */
do;
model y=a+b*x+c*x**2;
der.a=1;
der.b=x;
der.c=x**2;
end;
else /* parte do modelo relativo ao plat de resposta*/
do;
model y=a+b*x0+c*x0**2;
der.a=1;
der.b=x0+b*db+2*c*x0*db;
der.c=b*dc+x0*x0+2*c*x0*dc;
end;
if _obs_=1 then
do;
plateau=a+b*x0+c*x0**2;
put x0= plateau=;
end;
output out=reg1 predicted=yp;
run;quit;
proc plot data=reg1;
plot y*x yp*x="*"/overlay vpos=35;
run;quit;
Yi =
0 + 1 Xi + i se Xi X0
85
(4.15)
P + se X > X
i
i
0
comum utilizarmos uma varivel binria (Dummy) para representarmos o modelo. Neste caso utilizaremos a varivel Zi , que receber o
valor 1 se Xi X0 , ou 0 se Xi > X0 . Este modelo poder ser reescrito por
Yi = (0 + 1 Xi ) Zi +P (1Zi ). Para termos continuidade em X0 , devemos
igualar 0 + 1 X0 = P , ou seja, X0 = (P 0 )/1 .
Neste caso temos um modelo com trs parmetros (0 , 1 e P ). Diferentemente do modelo anterior, P no pde ser expresso em funo dos
demais parmetros. Apesar de as variveis parciais no dependerem dos
parmetros, este um modelo no-linear uma vez que a matriz Jacobiana
depende de X0 para ser construda, sendo que X0 funo de 0 , 1 e de P .
Assim, as derivadas parciais, dadas por Yi /0 = Zi , Yi /1 = Xi Zi e
Yi /P = 1 Zi , dependem dos parmetros por meio de X0 . A cada passo
do processo iterativo, o parmetro X0 estimado e a matriz do modelo
composta, pois os Zi s ficam completamente definidos.
Utilizamos os recursos do proc nlin para estimar os parmetros deste
modelo segmentado do tipo LRP. O resultado final est apresentado na
seqncia para um conjunto simulado de dados. Neste conjunto de dados
os parmetros so 0 = 2, 1 = 2 e P = 10.
4.10
2.0
5.90
2.5
7.10
3.0
7.80
4.0
9.90
Ferreira, D.F.
86
Regresso No-Linear
5.0
10.10
6.0
10.20
7.0
9.80
8.0
9.78
;
proc nlin data=LRP;
parms a=1 b=2 p=2.0;
X0=(p-a)/b;
if x<=x0 then /* Parte no-plateau do modelo */
do;
model y=a+b*x;
der.a=1;
der.b=X;
end;
else /* Parte plateau do modelo */
do;
model y=p;
der.a=0;
der.b=0;
der.p=1;
end;
if _obs_=1 then /*Para imprimir a sada se for a 1a observao*/
do;
put x0=;
end;
output out=saida predicted=yp Residual=Res parms=a b p ess=sqe;
run;quit;
Ferreira, D.F.
87
Ferreira, D.F.
88
Regresso No-Linear
do;
put x0=;
end;
output out=saida predicted=yp Residual=Res parms=a b p ess=sqe;
run;quit;
4.4
Exerccios
+ i
0 + i Xi
Ferreira, D.F.
Captulo 5
H0 : 1 = 2 = = ` =
(5.1)
Ferreira, D.F.
90
5.1
O Proc Anova
91
Ferreira, D.F.
92
93
5.2
Os delineamentos inteiramente casualizados, com um fator, sero utilizados para ilustrarmos inicialmente os comandos bsicos do proc anova.
Para isso, utilizaremos os dados apresentados por Gomes (2000)[5], onde os
efeitos no ganho de peso de animais em kg de 4 raes foram comparados.
Os dados esto apresentados na Tabela 5.1.
Tabela 5.1: Ganho de peso (gp), em kg, de animais que foram submetidos
a uma dieta com determinadas raes. Um delineamento inteiramente casualizado com cinco repeties (animais) e 4 raes foi utilizado (Gomes,
2000)[5].
1
35
40
39
27
19
35
27
12
31
46
20
13
15
41
29
28
30
33
45
30
Ferreira, D.F.
94
Yij = + i + ij
(5.2)
Ferreira, D.F.
95
G.L.
SQ
QM
823,7500
274,5833
Erro
16
1100,0000
68,7500
total corrigido
19
1923,7500
Modelo
R2
0,4282
CV
27,8708
Mdia
29,7500
Pr > F
3,99
0,0267
G.L.
SQ
QM
823,7500
274,5833
Pr > F
3,99
0,0267
O resultado do teste F da anlise de varincia indica que devemos rejeitar a hiptese nula de igualdade de efeitos das raes. Assim, pelo menos
uma delas difere das demais. Devemos utilizar um teste de comparaes
mltiplas para identificar estas diferenas. Neste exemplo foi utilizado o
teste SNK para identificar quais raes diferiram entre si. Na Tabela 5.4
apresentamos o resultado do teste SNK e as respectivas diferenas mnimas significativas (dms). As mdias que possuem a mesma letra no so
Uso de Recursos Computacionais
Ferreira, D.F.
96
Mdia
ri
Raes
39,000
AB
32,000
AB
26,000
22,000
dms3 =13,53137,
dms2 =15,003329.
dms4 =11,116861,
97
Ferreira, D.F.
98
so muito liberais e apresentam elevadas taxas de erro tipo I por experimento, com baixas taxas de erro tipo II ou com elevado poder. Por causa de
no haver controle do erro tipo I por experimento os elevados poderes no
so vantajosos. O teste SNK, como j afirmamos, controla o erro tipo I sob
a hiptese de nulidade completa, mas no sob a nulidade parcial. O teste
t com proteo de Bonferroni na maioria das vezes mais conservador do
que o teste de Tukey, da mesma forma que ocorre com teste Scheff quando
utilizado no contexto de comparaes mltiplas.
Uma importante pressuposio na anlise de varincia a homogeneidade de varincias. Podemos testar hipteses de igualdade de varincias
facilmente no SAS. Como j mencionamos em outra oportunidade, devemos utilizar a opo hovtest do comando means. A hiptese de interesse
neste caso dada por:
H0 : 2 = 2 = = 2 = 2
1
2
k
(5.3)
(n
2c
Ferreira, D.F.
k) ln(Sp2 )
k
X
(ni 1) ln(Si2 )
i=1
=
1
1+
3(k 1)
"
k
X
i=1
1
ni 1
nk
(5.4)
99
(n k)
Fc =
(k 1)
k
X
ni Zi. Z..
i=1
ni
k X
X
2
(5.5)
Zij Zi.
2
i=1 j=1
em que:
ni
X
Zi. =
ni
k X
X
Zij
j=1
ni
Z.. =
Zij
i=1 j=1
Ferreira, D.F.
100
1 19
1 31
1 15
1 30
2 40
2 35
2 46
2 41
2 33
3 39
3 27
3 20
3 29
3 45
4 27
4 12
4 13
4 28
4 30
;
proc anova;
class racoes;
model gp=racoes;
means racoes / hovtest=levene(type=abs);
run; quit; /* fim do programa */
5.3
Em muitas situaes experimentais temos delineamentos mais complexos que o inteiramente casualizado, ou mesmo para este delineamento, podemos ter mais de um fator em estruturas mais intrincadas. Entre estes delineamentos mais complexos, encontram-se os blocos casualizados, os
quadrados latinos e os ltices. Alm da estrutura experimental ser mais
Ferreira, D.F.
101
complexa, a estrutura de tratamentos tambm pode no ser a de um simples fator. Uma estrutura muito comum a cruzada, onde os fatores so
combinados fatorialmente. Como a modelagem no SAS bastante simples,
independentemente das estruturas experimental e de tratamentos, vamos
ilustrar o seu uso com um caso onde temos um delineamento em blocos casualizados com dois fatores quantitativos (adubo mineral e torta de filtro).
Foram utilizados os nveis 0 e 20 kg/ha de adubo mineral e 10% e 20%
de torta de filtro. Cada combinao fatorial dos tratamentos foi repetida 4
vezes e a produtividade das plantas foi mensurada. O programa SAS para a
anlise de varincia deste modelo est apresentado na seqncia. O modelo
estatstico da anlise de variao dado por:
Yijk = + i + j + k + jk + ijk
(5.6)
Ferreira, D.F.
102
0 10 4 11.4
20 10 4 20.6
0 20 4 15.8
20 20 4 20.2
;
proc anova data=fat;
class A T bloco;
model prod = bloco A T A*T;
run; quit;
SQ
QM
Bloco
37,83
12,6100
3,01
0,09
131,10
131,1000
31,30
0,00
12,60
12,6000
3,01
0,12
A*T
27,55
27,5500
6,58
0,03
Erro
37,70
4,1889
Total
15
246,80
FV
Pr > F
103
(5.7)
Ferreira, D.F.
104
0 10 3 9.4
20 10 3 18.6
0 20 3 14.6
20 20 3 18.4
0 10 4 11.4
20 10 4 20.6
0 20 4 15.8
20 20 4 20.2
;
proc reg data=fat;
model prod= A T AT/ss1;
Run;Quit;
Como fizemos as anlises utilizando os dados originais, a soma de quadrados de modelo de regresso (171, 2675), apresentada na Tabela 5.6, representa a soma das somas de quadrados de A, T e A T (131,10, 12,60 e
27,55) obtidas na anlise de varincia (Tabela 5.5). A soma de quadrados do
resduo (75, 53) desta anlise contempla a soma de quadrados do erro puro
(37, 70) e a soma de quadrados de blocos (37, 83). Tambm conteria a soma
de quadrados do desvio do modelo ajustado, se no tivssemos utilizado um
modelo completo. Como neste exemplo esgotamos os graus de liberdade do
modelo, no houve desvios. Devemos sempre isolar todos estes componentes
manualmente, pois o SAS no tem uma opo que nos possibilita ajustar
o modelo dentro do contexto da anlise de varincia. Devemos utilizar o
proc reg e os resultados obtidos devem ser corrigidos posteriormente pelo
usurio.
Tabela 5.6: Anlise da variao para o modelo de regresso para o exemplo
fatorial da adubao com 2 fatores.
FV
G.L.
SQ
QM
171,27
57,0900
Erro
12
75,53
6,2942
Total
15
246,80
Modelo
Pr > F
9,070
0,002
105
H0 : i = 0
P r > |t|
GL
Estimativas
Erro padro
7,4500
2,8049
2,66
0,021
0,6800
0,1983
3,43
0,005
0,4400
0,1774
2,48
0,029
-0,0263
0,0125
-2,09
0,058
Ferreira, D.F.
106
H0 : i = 0
P r > |t|
GL
Estimativas
Erro padro
7,4500
2,2882
3,26
0,010
0,6800
0,1618
4,20
0,002
0,4400
0,1447
3,04
0,014
-0,0263
0,0102
-2,58
0,030
G.L.
SQ
QM
Modelo
171,27
57,0900
Desvios
Erro
37,70
4,1889
Tratamento
171,27
Pr > F
13,62
0,001
107
20
18
16
14
12
20
18
16
14
0
12
15
10 A
20
10
Ferreira, D.F.
108
5.4
(5.8)
109
Ferreira, D.F.
110
SQ
QM
Pr > F
0,00080000
0,00080000
6,86
0,1201
(2)
(0,01750000)
0,00875000
75,00
0,0132
RL
0,01687000
0,01687000
144,60
0,0068
Desvio
0,00062500
0,00062500
5,35
0,1468
Erro a
0,00023333
0,00011667
Ms
0,06043333
0,03021667
1.813,00
0,0006
Erro b
0,00003333
0,00001667
Trat*Ms
0,00016667
0,00004167
0,20
0,9259
Erro
0,00083333
0,00020833
Total
17
0,08000000
FV
Bloco
Trat
Ferreira, D.F.
111
5.5
Ferreira, D.F.
112
uma matriz p p e os testes de hipteses envolvem estatsticas que so relacionadas com razes de determinantes ou de funes dos autovalores das
matrizes de somas de quadrados e produtos associadas hiptese e ao erro.
Os modelos lineares multivariados podem ser escritos matricialmente
por:
Y = X +
(5.9)
= (X 0 X)g X 0 Y
(5.10)
H = R() = 0 X 0 Y
(5.11)
113
Ferreira, D.F.
114
proc anova;
class met;
model n1 n2 = met;
manova h = met / printe printh;
run;quit;
G.L.
SQ
QM
60,6051
30,3025
Erro
28
932,8788
33,3171
Tratamento
30
993,4839
Mtodos
Pr > F
0,91
0,4143
G.L.
SQ
QM
49,7359
24,8679
Erro
28
1243,9416
44,4265
Tratamento
30
1293,6774
Mtodos
Pr > F
0,56
0,5776
115
"
E=
932, 8788
1018, 6818
"
e
H=
1, 0000
0, 94564
< 0, 0001
R=
0, 945640 1, 0000
< 0, 0001
Conclumos que as duas variveis so altamente correlacionadas, eliminando-se o efeito dos mtodos. Os testes de hipteses multivariados sobre a
igualdade do vetor de mdias so feitos basicamente por 4 critrios distintos.
O critrio de Wilks um deles e um teste via razo de verossimilhanas.
Muitos pesquisadores preferem tomar a deciso de rejeitar a hiptese nula
quando pelo menos 3 dos 4 critrios apresentarem estimativas significativas
das estatsticas dos testes. Outros preferem utilizar o critrio de Wilks
para tomar esta deciso. Para testarmos a hiptese nula, qualquer que
seja a opo escolhida, os valores destas estatsticas so convertidos para
F, que a distribuio utilizada para aproximar as exatas. Em alguns
casos dependendo do nmero de tratamentos e de variveis a estatstica F
resultante possui distribuio F exata. Na verso 9, o SAS j apresenta uma
opo para solicitar que os testes exatos sejam computados. Os resultados
do teste de hiptese de igualdade dos vetores de mdias dos trs mtodos
foram apresentados na Tabela 5.13. Todos os critrios apresentaram valores
correspondentes de F significativos.
Uma outra observao que pode ser feita neste exemplo, refere-se ao
fato de os nveis de significncia multivariados terem sido muito menores
que os univariados, indicando os casos clssicos em que os testes univariados
Uso de Recursos Computacionais
Ferreira, D.F.
116
GL
Estatstica
Estimativa
num.
den.
Pr > F
Wilks Lambda
0,67310116
2,95
54
0,0279
Pillais Trace
0,33798387
2,85
56
0,0322
Hotelling-Lawley Trace
0,46919220
3,13
31,389
0,0281
0,43098027
6,03
28
0,0066
falham em detectar alguma diferena entre os tratamentos, mas os multivariados no. Este fato provavelmente pode ser em parte explicado pela alta
correlao parcial entre as variveis respostas.
5.6
Exerccios
Ferreira, D.F.
Captulo 6
Ferreira, D.F.
118
Yijk = + i + j + ij + ijk
(6.1)
SQ Tipo I
SQ Tipo II
SQ Tipo III
R(/)
R(/, )
R( / , , )
R(/, )
R(/, )
R( / , , )
R(/, , )
R(/, , )
R( / , , )
119
6.1
Ferreira, D.F.
120
1 19
1 31
1 15
1 30
2 40
2 35
2 46
2 41
2 33
3 39
3 27
3 20
3 29
3 45
4 27
4 12
4 13
4 28
4 30
;
proc glm;
class racoes;
model gp=racoes;
means racoes / tukey alpha = 0.05 lines;
lsmeans racoes / pdiff adjust = tukey;
lsmeans racoes / pdiff = control(1) adjust = dunnett;
contrast 1 vs 2, 3 e 4 racoes 3 -1 -1 -1;
contrast 2 vs 3 e 4 racoes 0 2 -1 -1;
contrast 3 vs 4 racoes 0 0 1 -1;
estimate 1 vs 2, 3 e 4 racoes 3 -1 -1 -1/divisor=3;
estimate 2 vs 3 e 4 racoes 0 2 -1 -1/divisor=2;
estimate 3 vs 4 racoes 0 0 1 -1;
run; quit; /* fim do programa */
121
ignorados neste exemplo e somente os resultados dos contrastes e das estimativas devem ser considerados. Somente o contraste entre os tipos de
origem das protenas na formulao das raes da firma B foi significativo
(P < 0, 0177). Como a estimativa positiva, podemos afirmar que em
mdia teremos um ganho superior em 12 kg/animal/perodo, se utilizarmos rao com protena animal em vez de protena de origem vegetal. No
solicitamos somas de quadrados de nenhum tipo, mas o padro do glm
apresentar tanto a soma de quadrados do tipo I, quanto do tipo III. Nos
modelos lineares para os quais temos apenas um efeito, alm do intercepto
e do erro, no faz sentido diferenciar as somas de quadrados, pois todas elas
so idnticas. Neste caso, a soma de quadrados do tipo I para raes foi de
823, 75, sendo o mesmo resultado obtido para as somas de quadrados dos
tipos II e III.
Ferreira, D.F.
122
6.2
Para ilustramos a anlise de modelos mais complexos, onde temos conjuntos de dados no-balanceados, vamos retornar ao exemplo apresentado
na seo 5.3, simulando algumas perdas de parcelas. Com este exemplo,
vamos mostrar as dificuldades existentes para realizar uma anlise de dados
no-balanceados e as diferenas entre os trs tipos de somas de quadrados que estamos considerando. Posteriormente consideraremos, ainda, uma
anlise de covarincia. Os dados apresentados na seo 5.3 com algumas
perdas de unidades experimentais simuladas e o modelo da equao (5.6)
foram utilizados. Temos um delineamento em blocos casualizados com 4
repeties e 2 fatores (adubo mineral e torta de filtro) com 2 nveis cada.
O programa ilustrando a anlise de varincia e os principais resultados
alcanados esto apresentados na seqncia. Vamos destacar o uso da opo slice do comando lsmeans neste programa, a qual possibilita que seja
realizado o desdobramento de interaes entre efeitos do modelo.
Ferreira, D.F.
123
SQ
QM
Pr > F
Modelo
180,89
30,15
6,75
0,0120
Erro
31,29
4,47
Total
13
212,17
FV
CV = 12,92%
Y... = 16, 36
Houve uma diferena muito grande entre algumas das somas de quadrados, sendo que no efeito da adubao mineral, isto foi mais pronunciado.
Era esperado, por exemplo, que as somas de quadrados do tipo I e do tipo
II para efeito da torta de filtro fossem iguais, considerando a ordem que os
fatores entraram no modelo. Dessa forma, podemos observar a importncia
de saber exatamente o que testamos, para interpretar adequadamente as
sadas do proc glm. Detalhes tcnicos a respeito das hipteses associadas a
estas somas de quadrados podem ser obtidos em publicaes especializadas.
Uso de Recursos Computacionais
Ferreira, D.F.
124
Tabela 6.3: Resumo da anlise da variao para o modelo fatorial (2 fatores) em um delineamento de blocos casualizados, destacando as somas de
quadrados tipo I, II e III e as significncias correspondentes.
FV
G.L.
SQ I
SQ II
Bloco
53,1543ns
42,7233ns
42,7233ns
88,7520
66,9780
77,0133
27,3780
27,3780
17,7633ns
A*T
11,6033ns
11,6033ns
11,6033ns
SQ III
Se observarmos as sadas do SAS, podemos verificar que existem diferenas entre as mdias ajustadas e no-ajustadas, destacando-se a importncia
de utilizar o comando adequado para o caso balanceado. Neste exemplo
observamos que tanto para torta de filtro, como para a adubao mineral,
obtivemos diferenas significativas para as mdias. No entanto, quando utilizamos o teste com correo de Tukey sobre as mdias ajustadas, somente
detectamos diferenas significativas para adubo mineral, mas no para torta
de filtro.
Finalmente o comando slice nos possibilita obter a anlise do desdobramento da interao A T . Solicitamos os dois tipos de desdobramento: o
de A dentro dos nveis de T e o de T fixados os nveis de A. Nenhum destes
dois casos sero apresentados, pois a interao foi no significativa. Assim, recomendamos utilizar a maior dose de adubo mineral (teste marginal
significativo) e a menor porcentagem de torta de filtro (teste marginal no
significativo).
Reiteramos que as somas de quadrados do tipo I so afetadas pela ordem dos efeitos na especificao do modelo. Podemos ver claramente que
se alterarmos esta ordem, teremos diferentes somas de quadrados do tipo
I, mas as mesmas somas de quadrados dos tipos II e III obtidas anteriormente. O caso mais crtico desta alterao ocorre quando colocamos o efeito
da interao dos fatores antes dos efeitos principais. Como o espao paramtrico da interao contm os espaos paramtricos dos efeitos principais,
teremos resultados nulos para os graus de liberdade e somas de quadrados
Ferreira, D.F.
125
Ferreira, D.F.
126
/* Exemplo da utilizao do proc GLM para uma estrutura fatorial dos tratamentos com
covarivel em um DBC no-balanceado*/
data Fat;
input A T bloco prod N;
cards;
0 10 1 18.0 3
20 10 1 20.6 4
0 20 1 19.6 5
0 10 2 8.6 3
0 20 2 15.0 4
20 20 2 19.6 4
0 10 3 9.4 6
20 10 3 18.6 5
0 20 3 14.6 2
20 20 3 18.4 7
0 10 4 11.4 4
0 20 4 15.8 3
20 20 4 20.2 3
;
proc glm data=fat;
class A T bloco;
model prod = bloco A T A*T N/solution ss1 ss2 ss3;
means A T/Tukey;
lsmeans A T/pdiff adjust=Tukey;
Ferreira, D.F.
127
Se realizarmos uma anlise de varincia com e sem a covarivel podemos observar que os resultados para este exemplo apresentam uma ligeira
diferena nas somas de quadrados dos dois modelos. claro que a soma de
quadrados do tipo I no foi afetada, pois a covarivel apareceu aps todos os
demais efeitos do modelo. A opo solution permitiu que fosse apresentada
a soluo de mnimos quadrados. A covarivel foi nico efeito do modelo
cuja estimativa era no viesada. As demais concluses so similares s j
apresentadas anteriormente para este modelo de anlise de variao.
6.3
(6.2)
Ferreira, D.F.
128
Ferreira, D.F.
129
model alt = bloco trat bloco*trat mes bloco*mes mes*trat/ss1 ss2 ss3;
test h=bloco trat e=bloco*trat / htype = 3 etype = 3;
test h=mes e=bloco*mes /htype = 3 etype = 3;
lsmeans trat/e=bloco*trat etype = 3 stderr;
lsmeans mes/e=bloco*mes etype = 3 pdiff stderr adjust=Tukey;
lsmeans trat*mes/ etype = 3 stderr slice = trat slice = mes;
run; quit;
Ferreira, D.F.
130
6.4
Componentes de Varincia
131
O interesse reside no componente de varincia para cultivar, que foi considerada de efeito aleatrio. O efeito de bloco, em geral, considerado como
aleatrio na literatura. Pelo fato de o efeito de cultivar ter sido considerado
aleatrio e o de local fixo, a interao considerada aleatria. Os comandos
SAS, necessrios para estimarmos os componentes de varincia dos efeitos
aleatrios, so dados por:
Ferreira, D.F.
132
Merecem destaques alguns comandos e especificaes de modelo utilizados. O comando <model prod = bl(local) cult local cult*local / e3 ss3;>
possui o efeito de bloco hierarquizado em local. No podemos especificar
apenas o efeito de bloco, pois estaramos ignorando o fato de que os blocos
dos diferentes locais no so os mesmos. Assim, o bloco 1 do local 1 diferente do bloco 1 do local 2. As opes e3 e ss3 indicam que as esperanas
dos quadrados mdios, utilizando somas de quadrados do tipo III, devem
ser utilizadas. No comando <random bl(local) cult cult*local / test;>, que
aparece aps o comando model, indicamos ao proc glm quais so os efeitos
aleatrios do modelo. Neste exemplo foram os efeitos de bloco dentro de
local, de cultivar e da interao cultivar local.
Inicialmente o SAS apresenta o resultado da anlise de varincia do tipo
III, cujo resumo apresentamos na Tabela 6.4. Se o modelo possui efeitos
aleatrios, os testes de significncia (teste F ) apresentados nesta anlise
provavelmente podem estar incorretos. Neste exemplo, como apenas o efeito
de local considerado fixo, sendo todos os demais aleatrios, a maioria dos
testes F est incorreta. O correto utilizar as esperanas dos quadrados
mdios para especificar os testes de hipteses adequados e tambm para
estimar os componentes de varincia.
Tabela 6.4: Anlise da variao para o modelo de anlise conjunta (2 locais)
em um delineamento de blocos casualizados.
FV
G.L.
SQ III
QM
Pr > F
Modelo
(11)
(52,9816)
4,8165
13,65
0,0011
bl(local)
5,4450
2,7225
7,72
0,0170
cult
27,4770
6,8693
19,47
0,0007
local
0,7111
0,7111
2,02
0,1987
cult*local
15,5483
3,8871
11,02
0,0038
Erro
2,4700
0,3529
Total
18
55,4516
CV = 8,27%
Y... = 7, 1789
133
esto sumariados na Tabela 6.5. Uma anlise das esperanas dos quadrados
mdios mostra que o testador para bloco(local) e para a interao cultivar
local o erro experimental. O testador para cultivar a interao cultivar
local e o testador para local tem de ser obtido por uma combinao de
quadrados mdios. A opo test do comando random nos permite obter as
estatsticas destes testes automaticamente.
Tabela 6.5: Esperana dos quadrados mdios e resumo da anlise da variao para o modelo de anlise conjunta (2 locais) em um delineamento de
blocos casualizados.
FV
G.L.
QM
E(QM)
bl(local)
2,7225
2
2 + 4, 5b(L)
cult
6,8693
2 + 3, 6667 2
2 + 1, 8333CL
C
local
0,7111
2 + 4, 4444 2
2 + 1, 7778CL
b(L) + QL
cult*local
3,8871
2
2 + 1, 8333CL
Erro
0,3529
C = (QM Cult QM Cult Local)/3, 6667 = 0, 8133. Os demais componentes de varincia podem ser obtidos de maneira similar. Muitas vezes temos dificuldades em determinar qual o quadrado mdio que devemos subtrair do quadrado mdio correspondente ao fator aleatrio para o qual desejamos estimar o componente. Para a interao, isso foi obtido de uma maneira bastante simples por
CL = (QM Cult Local QM Erro)/1, 8333 =
1, 9278. Quando precisamos combinar quadrados mdios, o melhor indicativo para determinarmos esta combinao fornecida pelo comando test.
Por exemplo, se desejssemos testar a hiptese de que o efeito quadrtico
QL devido a local, que fixo, seja nulo, poderamos utilizar a seguinte combinao de quadrados mdios como denominador da expresso da estatstica
do teste F :
0,9877QMbl(local) + 0,9697QMcult local - 0,9574QMErro,
cujos graus de liberdade associados seriam obtidos pelo processo de SatUso de Recursos Computacionais
Ferreira, D.F.
134
terthwaite (1946)[11].
Utilizando os testes adequados apenas os efeitos de bloco(local) e da
interao cultivar local foram significantes, indicando que os componentes de varincia associados so diferentes de zero. Para cultivar no foi
detectada significncia estatstica, sendo considerado nulo o componente de
varincia associado. Outras tipos de somas de quadrados podem ser utilizadas para estimarmos componentes de varincia e para realizarmos os testes
F . Para selecionarmos, por exemplo, as somas de quadrados do tipo II,
bastaria trocar o comando <model prod = bl(local) cult local cult*local / e3
ss3;> por <model prod = bl(local) cult local cult*local / e2 ss2;>. Quando
aplicamos esta mudana, os resultados dos testes so praticamente idnticos
aos obtidos com as somas de quadrados do tipo III.
O SAS possui outros procedimentos para estimarmos componentes de
varincia. Podemos destacar o proc mixed e o proc proc varcomp. Estes procedimentos so muitas vezes mais adequados para estimarmos componentes
de varincia, alm de oferecerem mais alternativas de mtodos. Discutiremos o varcomp posteriormente neste material. Os modelos mistos so uma
generalizao dos modelos lineares utilizados no proc glm.
6.5
Exerccios
Ferreira, D.F.
Captulo 7
Componentes de Varincia
O varcomp foi designado para lidar com modelos lineares que possuam
efeitos aleatrios. Efeitos aleatrios so fatores cujos nveis so amostras
aleatrias de uma populao de possveis infinitos nveis. O proc varcomp
estima a contribuio de cada fator aleatrio para a varincia da varivel
resposta. Vrios mtodos existem para a estimao dos componentes de varincia. O proc varcomp possui implementado os mtodos type 1 (baseado
no cmputo da soma de quadrados do tipo I para cada efeito do modelo),
MIVQUE0, mxima verossimilhana (ML) e mxima verossimilhana restrita (REML).
Componentes de varincia so, por definio, positivos. No entanto,
estimativas negativas podem ocorrer. Algumas razes potenciais para que
estimativas negativas de componentes de varincia ocorram podem ser destacadas por:
Variabilidade muito grande dos dados, produzindo estimativas negativas, apesar do valor verdadeiro do componente ser positivo;
Presena de outliers nos dados experimentais;
Especificao incorreta do modelo estatstico.
Alguns mtodos especficos para lidarmos com cada uma destas situaes existem. No caso de outliers, anlises exploratrias de dados podem
ser aplicadas facilmente para identificao e eliminao destas observaes
Uso de Recursos Computacionais
Ferreira, D.F.
136
Componentes de Varincia
7.1
7.2
O Proc Varcomp
137
Ferreira, D.F.
138
Componentes de Varincia
o comando <model prod = local bl(local) cult cult*local /fixed = 1;>, informamos ao programa que temos um efeito fixo (fixed=1 ) e que o efeito
de local este efeito fixo. O programa ao ser informado do nmero de
efeitos fixos, comea a reconhec-los a partir da igualdade (primeiro efeito
do modelo) entre a parte dependente e independente do modelo. Devemos,
portanto, posicionar os efeitos fixos antes dos efeitos aleatrios no modelo
especificado, quando utilizamos o proc varcomp.
O SAS apresenta entre os seus resultados a anlise de varincia e as
esperanas dos quadrados mdios para o mtodo Type 1. Para os demais
mtodos, alguns outros resultados particulares so apresentados. Em todos os casos temos as estimativas dos componentes de varincia dos efeitos
aleatrios. Alteramos a opo method = type1, considerando as demais possibilidades, para estimarmos os componentes de varincia utilizando todos
os mtodos (mivque0, ml ou reml ) e apresentamos os resultados na Tabela
7.1.
Tabela 7.1: Estimativas dos componentes de varincia para o modelo de
anlise conjunta (2 locais) em um delineamento de blocos casualizados utilizando os 4 mtodos de estimao do proc varcomp.
Mtodo
G.L.
Type 1
Mivque0
ML
REML
bl(local)
0,69760
0,71978
0,38173(0,37)
0,54146(0,62)
cult
0,83428
0,89047
0,78798(1,18)
0,96363(1,55)
cult*local
1,92776
2,03984
1,51873(1,10)
1,79084(1,39)
Erro
0,35286
0,19096
0,35252(0,20)
0,34854(0,17)
FV
139
verossimilhana.
Um segundo exemplo, para ilustrar a estimao de componentes de varincia negativos, apresentado na seqncia. Para isso um delineamento em
blocos casualizados com 5 cultivares e 2 repeties foi considerado. Duas
repeties dentro de cada bloco foram obtidas. Uma das repeties dentro
do bloco 1, para a cultivar 5, foi perdida. O modelo foi considerado aleatrio
e dado por:
(7.1)
Ferreira, D.F.
140
Componentes de Varincia
3 1 2 3.5
3 2 2 4.9
4 1 2 7.4
4 2 2 8.8
5 1 2 8.9
5 2 2 9.0
;
proc varcomp data=vc2 maxiter=500 method=type1;
class cult bl;
model prod = cult bl bl*cult;
run; quit;
G.L.
Type 1
Mivque0
ML
REML
cult
2,11787
1,96139
1,70757(1,54)
2,30153(2,12)
bl
-0,30145
-0,34551
0,00000(0,00)
0,00000(0,00)
Erro
0,63854
0,80142
0,40027(0,85)
0,39980(0,85)
Erro amostral
1,66611
1,66676
1,62392(0,75)
1,62262(0,75)
nentes de varincia. Uma delas so as estimativas negativas dos componentes de varincia nos mtodos Type 1 e Mivque0. uma prtica comum
tratar as estimativas negativas como se elas fossem nulas. Nos mtodos ML
e REML este procedimento j feito automaticamente durante o processo
de estimao e componentes de varincia negativos so evitados.
Ferreira, D.F.
7.3 Exerccios
7.3
141
Exerccios
varincia de cultivar.
Ferreira, D.F.
142
Ferreira, D.F.
Componentes de Varincia
Captulo 8
Pressuposies da Anlise de
Varincia
A validade da anlise de varincia depende que algumas condies pressupostas sejam atendidas. Quando um estatstico formula um modelo e
estima seus parmetros e prope algum mtodo de estimao ou teste, h a
necessidade de que algumas condies sejam ratificadas. A validade desta
inferncia depende de algumas restries impostas aos efeitos deste modelo,
como por exemplo, a suposio de normalidade dos erros. Se o pesquisador
obtiver um conjunto de dados amostrais, em que essas condies no foram
obedecidas, ento a validade das inferncias realizadas no mnimo questionvel. Especificamente no caso dos modelos lineares, fazemos suposies
de distribuio normal dos erros, aditividade dos efeitos do modelo e homogeneidade das varincias dos erros associados aos nveis de um determinado
efeito ou fator. Estas pressuposies muitas vezes no so checadas, o que
pode comprometer a validade dos resultados dos testes e da estimao realizados. Desta forma, o pesquisador pode eventualmente tomar decises
errneas.
Uma das razes de se ignorar a checagem das pressuposies para validade da anlise de varincia a dificuldade de se encontrar recursos computacionais para realizar esta tarefa. A maioria dos softwares no checa estas
pressuposies, ou no possui rotinas para realizao destes testes.
O programa SAS, pela sua flexibilidade e facilidade de programao,
Uso de Recursos Computacionais
Ferreira, D.F.
144
permite que muitos mtodos, existentes para esta finalidade, sejam implementados. No entanto, os testes existentes na literatura, para checarmos
se as pressuposies foram atendidas, so especficos para alguns modelos,
o que dificulta a sua aplicao em casos mais gerais. Um outro fator limitante diz respeito ao fato de que estes procedimentos ficariam limitados a
pesquisadores que tivessem uma maior familiaridade com a linguagem SAS.
Desta forma, a busca de procedimentos mais gerais e mais fceis de utilizar, facilitaria a verificao das pressuposies feitas aos efeitos do modelo.
Para isso, Gill (1978)[4] apresenta alguns mtodos mais abrangentes, que
so tratados nas prximas sees. Vamos apresentar os testes para verificar
a normalidade dos resduos e a aditividade dos efeitos do modelo.
8.1
145
Yij = + i + j + ij
(8.1)
o vetor de solues de
vetor de observaes, X matriz do modelo e
Ferreira, D.F.
146
4 1 13.45
4 2 16.78
4 3 17.89
;
proc glm data=press1;
class bl trat;
model prod = bl trat;
output out=norm P=pred R=res;
run;quit;
proc univariate data=norm normal;
var res;
run;quit;
Realizamos a anlise de varincia para estimarmos os resduos, utilizando o proc glm para isso. Armazenamos os resduos e os valores preditos em um SAS data set utilizando o comando <output out=norm P=pred
R=res;>. Definimos que a varivel correspondente aos valores preditos seria
denominada de pred e a dos resduos de res. Utilizamos o proc univariate na
seqncia para aplicar o teste de normalidade a varivel res do SAS data set
norm. O resultado que nos interessa o do teste de Shapiro-Wilk. O valor
observado da estatstica foi W = 0, 946844 e o valor-p associado foi igual
a 0, 5914. Assim, no devemos rejeitar a hiptese nula de normalidade dos
resduos, se considerarmos um nvel nominal de significncia de = 0, 05.
8.2
Aditividade
Em um modelo linear, assumimos que os efeitos so aditivos e no multiplicativos (Tukey, 1949[14]). O mtodo de Tukey decompe a soma de
quadrado do erro em duas partes. Uma delas com apenas 1 grau de liberdade e a outra com os graus de liberdade remanescentes. Um teste
F aplicado e denominado de teste da no-aditividade de Tukey. Este
teste da no-aditividade de Tukey pode ser generalizado para possibilitar
sua aplicao em diversos modelos lineares. Esta generalizao consiste em
obtermos os valores preditos e em seguida introduzirmos o seu quadrado
como covarivel no modelo de anlise de varincia. Esta anlise se prestar
Ferreira, D.F.
8.2 Aditividade
147
unicamente para testarmos a hiptese de aditividade dos efeitos. Se houver efeito significativo da covarivel, deveremos rejeitar a hiptese nula de
efeitos aditivos.
Utilizando o exemplo da seo 8.1 e definindo os valores preditos por
(8.2)
Ferreira, D.F.
148
4 2 16.78
4 3 17.89
;
proc glm data=press2;
class bl trat;
model prod = bl trat;
output out=norm P=pred R=res;
run;quit;
data norm; set norm;
pred2=pred*pred;
run;quit;
proc glm data=norm;
class bl trat;
model prod= bl trat pred2;
run;quit;
8.3
Homogeneidade de Varincias
8.4 Exerccios
149
8.4
Exerccios
Ferreira, D.F.
150
Ferreira, D.F.
Referncias Bibliogrficas
[1] BECKMAN, R. J.; TRUSSELL, H. J. The distribution of an arbitrary
studentized residual and the effects of updating in multiple regression.
Journal of the American Statistical Association, 69:179201, 1974. 62
[2] CHATTERJEE, S.; HADI, A. S. Influential observations, high leverage
points, and outliers in linear regression. Statistical Science, 1(3):379
393, 1986. 59, 61, 62, 64
[3] FERREIRA, D. F. Estatstica bsica. Editora UFLA, Lavras, 2005.
676p. 12, 15, 92, 98, 99, 148
[4] GILL, J. W. Design and analysis of experiments in the animal and
medical sciences., volume 2. Iowa State University, Ames, 1978. 301p.
144, 148
[5] GOMES, F. P. Curso de estatstica experimental. Esalq/Usp, Piracicaba, 14 edition, 2000. 476p. vii, 93
[6] GOODNIGTH, J. H.; HEMMERLE, W. J. A simplified algorithm for
the W-transformation in variance component estimation. Technometrics, 21:265268, 1978. 136
[7] HARTLEY, H. O.; RAO, J. N. K.; LaMOTTE, L. A simple synthesisbased method of variance component estimation. Biometrics, 34:233
244, 1978. 136
[8] HEMMERLY, W. J.; HARTLEY, H. O. Computing maximum likelihood estimates for mixed AOV model using the W-transformation.
Technometrics, 15:819831, 1973. 136
Uso de Recursos Computacionais
Ferreira, D.F.
152
REFERNCIAS BIBLIOGRFICAS
[9] ONEILL, R.; WETHERILL, G. B. The present state of multiple comparison methods. Journal of the Royal Statistical Society, 33(2):218
250, 1971. 97
[10] PATTERSON, H. D.; THOMPSON, R. Recovery of inter-block information when block sizes are unequal. Biometrika, 58:545554, 1971.
136
[11] SATTERTHWAITE, F. E. An approximate distribution of estimates
of variance components. Biometrics Bulletin, 2(6):110114, 1946. 21,
30, 32, 134
[12] SEARLE, S. R. Linear models. John Wiley, New York, 1971. 532p. 40
[13] SEARLE, S. R. Linear models for unbalanced models. John Wiley, New
York, 1987. 536p. 40
[14] TUKEY, J. W. One degree of freedom for non-additivity. Biometrics,
5(3):232242, 1949. 146, 148
[15] VANGEL, M. G. Confidence intervals for a normal coefficient of variation. The American Statistician, 15(1):2126, 1996. 19
[16] VELLEMAN, P. F.; WELSCH, R. E. Efficient computing of regression
diagnostics. The American Statistician, 35(4):234242, 1981. 59, 63
Ferreira, D.F.
ndice Remissivo
ajuste
critrio
da distribuio
de Wilks, 115
normal, 13
das probabilidades
derivadas
parciais, 35
Cochran e Cox, 31
dos valores-p
desconexo
estatstica, 117
Tukey, 121
anlise
desdobramento
da interao, 122
de covarincia, 125
assist, 2
desvio padro
estimao
backward, 56
intervalar, 17
dfbeta, 64, 65
caselas, 117
dffits, 65
coeficiente
distncia
de assimetria, 12
de Cook, 66
de confiana, 16
modificada, 66
de curtose, 12
de determinao
efeitos
ajustado, 53
aditivos, 143
coeficientes
de determinao
fixos, 131
parciais, 55
semi-parciais, 55
hierrquizados, 89
equaes
contrastes, 120
normais, 37
correlao
parcial, 116
covratio, 67
Uso de Recursos Computacionais
modelos no-lineares, 72
erro
tipo I, 96
Ferreira, D.F.
154
NDICE REMISSIVO
tipo II, 96
erro padro
coeficiente
regresso, 51
do valor predito, 54
hiptese
nula, 25
histograma, 13
homogeneidade
de varincias, 98, 143
valor predito
futuro, 54
inferncia
individual, 97
erros
normais, 143
estatstica
do teste
sinal, 26
estatsticas
descritivas, 11, 13, 15
estimador
beta, 12
do coeficiente
de assimetria, 12
de curtose, 12
simultnea, 97
influncia, 63
influence, 67
interao
de efeitos, 89
intervalo
de confiana
assinttico, 86
intervalo de confiana, 11
aproximado
diferena de mdias, 21
gama, 12
para CV, 19
Kernel
para p, 18
de densidade, 13
estimativas
negativas
componentes de varincia, 135
componentes de varincia, 140
estrutura
de dados
balanceada, 90
no balanceada, 117
forward, 56
exato
diferena de mdias, 20
para p, 18
mdias
dados emparelhados, 24, 30
valor predito
futuro, 54
mdio, 54
inversa
nica, 38
de Moore-Penrose, 74
graus
de liberdade, 38
Ferreira, D.F.
de parte
da inversa, 40
Uso de Recursos Computacionais
NDICE REMISSIVO
generalizada, 74
155
no-linear, 35
reflexiva, 74
nos parmetros, 70
modelos
jackknife, 61
janela
de erros, 1
de programas, 1
normalidade
dos resduos, 34
de sada, 1
parmetros
de disperso, 12
mdia
ajustada, 121
amostral, 12
apresentao da, 14
de locao, 12
parcela
subdividida
estimao
intervalar, 16
mtodo
no tempo, 108
pp-plots, 13
pressuposio
de DUD, 77
de homocedasticidade, 34
dos momentos
de independncia, 34
iml, 18, 19
nlin, 69
summary, 11
ttest, 11, 31
univariate, 11
procedimentos
de comparaes
mltiplas, 97
processo
iterativo, 83
programa
R, 1
SAS, 1
propores
estimao
intervalar, 17
Ferreira, D.F.
156
NDICE REMISSIVO
proteo
de Bonferroni, 98
qq-plots, 13
resduos, 37
estudentizados
externamente, 62
internamente, 61
response
plateau, 69, 80
linear, 84
quadrtico, 81
teste
aproximado
diferenas de mdias, 31
da falta
de ajuste, 111
da no-aditividade
de Tukey, 146
de Bartlett, 98
de Browb e Forsythe, 99
de hiptese
mdias normais, 25
de homogeneidade
de varincias, 21, 31
Satterthwaite, 21
simulao
de dados, 85
soluo
do sistema
de EN, 38
soma
de quadrados
do resduo, 38
modelo, 38
parcial, 39
seqencial, 39
tipo I, 39
tipo II, 39, 40
stepwise, 56
superfcie
de resposta, 102
de Levene, 99
de normalidade
de Shapiro-Wilk, 145
de Wilcoxon, 26, 27
dados emparelhados, 28
do sinal, 26
dados emparelhados, 28
dos postos
com sinais, 26
Duncan, 97
Dunnett, 121
exato
diferenas de mdias, 31
F, 89
conservador, 148
OBrien, 100
Scheff, 98
Shapiro-Wilk, 33
taxa
de erro
por comparao, 97
por experimento, 97
Ferreira, D.F.
SNK, 98
t de Student
na regresso, 51
Uso de Recursos Computacionais
NDICE REMISSIVO
157
Tukey, 97
testes
de autocorrelao, 121
de comparaes
mltiplas, 91
de homogeneidade
de varincias, 91, 98
tipos
somas de quadrados, 39, 47, 117,
118
transformao
de dados, 148
valores
perdidos, 2
preditos, 38, 54
varivel
binria, 85
dummy, 85
varincia
amostral, 13
dados emparelhados, 23
combinada, 21
estimao
intervalar, 17
varincias
complexas, 129
homogneas, 20
Ferreira, D.F.