Aprendendo A Usar o Sas 9.2 Estatistica

UNIVERSIDADE FEDERAL DE LAVRAS
DEPARTAMENTO DE CINCIAS EXATAS

Uso de Recursos Computacionais
Daniel Furtado Ferreira
LAVRAS
Minas Gerais - Brasil
21 de maro de 2007
ii
Ferreira, D.F. Uso de Recursos Computacionais
Sumrio
Lista de Tabelas ix
Lista de Figuras xi
1 Introduo ao sistema SAS 1
1.1 Entrada de dados . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Transformaes de variveis . . . . . . . . . . . . . . . . . . 7
1.3 Ordenamento de dados . . . . . . . . . . . . . . . . . . . . . 9
1.4 Procedimentos para anlise estatstica . . . . . . . . . . . . 10
2 Estatstica bsica no SAS 11
2.1 Estatsticas descritivas . . . . . . . . . . . . . . . . . . . . . 11
2.2 Estimao de Parmetros . . . . . . . . . . . . . . . . . . . 16
2.2.1 Estimao de Mdias, Desvio Padro e Varincias . . 16
2.2.2 Estimao de Propores . . . . . . . . . . . . . . . 17
2.2.3 Estimao de Coecientes de Variao . . . . . . . . 19
2.2.4 Diferena de Duas Mdias Independentes . . . . . . 20
2.2.5 Estimao da Diferenas de Duas Mdias Em Dados
Emparelhados . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Testes de Hipteses . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.1 Teste Sobre Mdias . . . . . . . . . . . . . . . . . . . 25
2.3.2 Teste Sobre Mdias de Duas Populaes Emparelhadas 28
2.3.3 Teste Sobre Mdias de Duas Populaes Independentes 30
2.3.4 Teste de Normalidade . . . . . . . . . . . . . . . . . 33
Uso de Recursos Computacionais Ferreira, D.F.
iv SUMRIO
3 Regresso Linear 35
3.1 Mtodo dos Quadrados Mnimos . . . . . . . . . . . . . . . 36
3.2 Um Exemplo de Regresso Pelo Proc IML . . . . . . . . . . 40
3.3 O Proc Reg . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4 Seleo de Modelos . . . . . . . . . . . . . . . . . . . . . . . 56
3.5 Diagnstico em Regresso Linear . . . . . . . . . . . . . . . 58
3.5.1 Anlise de resduos . . . . . . . . . . . . . . . . . . . 59
3.5.2 Inuncia no Espao das Variveis Preditoras . . . . 63
3.5.3 Inuncia no Vetor de Estimativas dos Parmetros . 64
3.5.4 Inuncia no Vetor de Valores Preditos . . . . . . . . 65
3.5.5 Inuncia na Matriz de Covarincias . . . . . . . . . 67
3.5.6 Comandos SAS . . . . . . . . . . . . . . . . . . . . . 67
3.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4 Regresso No-Linear 69
4.1 Introduo aos Modelos No-Lineares . . . . . . . . . . . . . 70
4.1.1 Mtodo do Gradiente . . . . . . . . . . . . . . . . . . 74
4.1.2 Mtodo de Newton . . . . . . . . . . . . . . . . . . . 75
4.1.3 Mtodo de Gauss-Newton . . . . . . . . . . . . . . . 75
4.1.4 Mtodo de Marquardt . . . . . . . . . . . . . . . . . 76
4.1.5 Tamanho do passo da iterao . . . . . . . . . . . . 77
4.2 O Proc Nlin . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.3 Modelos Segmentados . . . . . . . . . . . . . . . . . . . . . 80
4.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5 Anlise de Varincia para Dados Balanceados 89
5.1 O Proc Anova . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.2 Delineamento Inteiramente Casualizado . . . . . . . . . . . 93
5.3 Estrutura Cruzada de Tratamentos . . . . . . . . . . . . . . 100
5.4 Modelos Lineares Com Mais de Um Erro . . . . . . . . . . . 108
5.5 Modelos lineares multivariados . . . . . . . . . . . . . . . . 111
5.6 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
SUMRIO v
6 Anlise de Varincia para Dados No-Balanceados 117
6.1 Delineamento Inteiramente Casualizado . . . . . . . . . . . 119
6.2 Estrutura Cruzada de Tratamentos . . . . . . . . . . . . . . 122
6.3 Modelos Com Mais de Um Erro . . . . . . . . . . . . . . . . 127
6.4 Componentes de Varincia . . . . . . . . . . . . . . . . . . . 130
6.5 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
7 Componentes de Varincia 135
7.1 Mtodos de Estimao de Componentes de Varincia . . . . 136
7.2 O Proc Varcomp . . . . . . . . . . . . . . . . . . . . . . . . 136
7.3 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
8 Pressuposies da Anlise de Varincia 143
8.1 Normalidade dos Resduos . . . . . . . . . . . . . . . . . . . 144
8.2 Aditividade . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
8.3 Homogeneidade de Varincias . . . . . . . . . . . . . . . . . 148
8.4 Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Referncias Bibliogrcas 151
ndice Remissivo 153
vi SUMRIO
Lista de Tabelas
3.1 Tipos de somas de quadrados de um modelo de regresso
contendo m variveis. . . . . . . . . . . . . . . . . . . . . . . 39
3.2 Crescimento de uma planta Y aps ser submetida a um tem-
po X de exposio solar em horas. . . . . . . . . . . . . . . 41
3.3 Testes de hiptese do tipo H
0
:
i
= 0, com i = 0, 1, 2 utili-
zando a distribuio t de Student com = 5 graus de liberdade. 46
3.4 Dados de uma amostra de n = 10 rvores de araucria (Arau-
caria angustifolia) mensuradas em relao ao volume Y , rea
basal X
1
, rea basal relativa X
2
e altura em ps X
3
. . . . . 48
3.5 Resultados mais importantes do ajuste dos modelos lineares
simples para os dados dos volumes das n = 10 rvores de
araucria Araucaria angustifolia. . . . . . . . . . . . . . . . 49
3.6 Resumo da anlise de varincia do ajuste de regresso ml-
tipla aos dados do volume das rvores de araucria. . . . . . 51
3.7 Estimativas dos parmetros e teste t de Student para a nuli-
dade das estimativas. . . . . . . . . . . . . . . . . . . . . . . 52
5.1 Ganho de peso (gp), em kg, de animais que foram submetidos
a uma dieta com determinadas raes. Um delineamento
inteiramente casualizado com cinco repeties (animais) e 4
raes foi utilizado (Gomes, 2000)[5]. . . . . . . . . . . . . . 93
5.2 Anlise de varincia para o delineamento inteiramente ca-
sualizado com um fator (raes) com quatro nveis e cinco
repeties. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
viii LISTA DE TABELAS
5.3 Anlise da variao contendo as fontes de variao do modelo
para o delineamento inteiramente casualizado das raes. . . 95
5.4 Teste de SNK e mdias para a fonte de variao raes jun-
tamente com as diferenas mnimas signicativas dms. . . . 96
5.5 Anlise da variao para o modelo fatorial (2 fatores) em um
delineamento de blocos casualizados. . . . . . . . . . . . . . 102
5.6 Anlise da variao para o modelo de regresso para o exem-
plo fatorial da adubao com 2 fatores. . . . . . . . . . . . . 104
5.7 Estimativas dos parmetros do modelo com seus erros pa-
dres e teste da hiptese para
i
= 0 fornecidas originalmente
pelo SAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.8 Estimativas dos parmetros do modelo com seus erros pa-
dres e teste da hiptese para
i
= 0 devidamente corrigidas. 106
5.9 Anlise da variao devidamente corrigida para o modelo de
regresso do exemplo fatorial da adubao com 2 fatores. . . 106
5.10 Anlise da variao devidamente apresentada para o modelo
de parcela subdividida no tempo. . . . . . . . . . . . . . . . 110
5.11 Anlise da variao para nota da disciplina 1 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino. . . 114
5.12 Anlise da variao para nota da disciplina 2 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino. . . 114
5.13 Testes de hipteses multivariados para a igualdade dos efeitos
dos mtodos de ensino. . . . . . . . . . . . . . . . . . . . . . 116
6.1 Tipos de somas de quadrados de um modelo de anlise de
varincia contendo dois fatores e e interao . . . . . . 118
6.2 Anlise da variao para o modelo fatorial (2 fatores) em um
delineamento de blocos casualizados, destacando-se as fontes
de variao de modelo e erro. . . . . . . . . . . . . . . . . . 123
6.3 Resumo da anlise da variao para o modelo fatorial (2 fato-
res) em um delineamento de blocos casualizados, destacando
as somas de quadrados tipo I, II e III e as signicncias cor-
respondentes. . . . . . . . . . . . . . . . . . . . . . . . . . . 124
LISTA DE TABELAS ix
6.4 Anlise da variao para o modelo de anlise conjunta (2
locais) em um delineamento de blocos casualizados. . . . . . 132
6.5 Esperana dos quadrados mdios e resumo da anlise da va-
riao para o modelo de anlise conjunta (2 locais) em um
delineamento de blocos casualizados. . . . . . . . . . . . . . 133
7.1 Estimativas dos componentes de varincia para o modelo de
anlise conjunta (2 locais) em um delineamento de blocos
casualizados utilizando os 4 mtodos de estimao do proc
varcomp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.2 Estimativas dos componentes de varincia para o modelo de
blocos casualizados com repetio dentro de cada bloco em
um ensaio de cultivares, utilizando os 4 mtodos de estimao
do proc varcomp. . . . . . . . . . . . . . . . . . . . . . . . . 140
x LISTA DE TABELAS
Lista de Figuras
3.1 Equao quadrtica resultante do ajuste de quadrados mni-
mos do exemplo tratado. . . . . . . . . . . . . . . . . . . . . 45
4.1 Modelos no lineares ajustados - modelo y
i
= 1, 8548x
0,575
i
iniciando pela origem e modelo y
i
= 0, 8117 1, 9542
x
i
inici-
ando pelo ponto 0, 8117. . . . . . . . . . . . . . . . . . . . . 81
4.2 Modelo segmentado considerando um plateau no ponto X =
X
0
com valor de Y = P e um modelo crescente para X < X
0
. 82
5.1 Modelo ajustado de superfcie de resposta para os dados de
produo em funo da adubao mineral (A) e da adubao
orgnica com torta de ltro (T). . . . . . . . . . . . . . . . 107
xii LISTA DE FIGURAS
Captulo 1
Introduo ao sistema SAS
O sistema SAS um dos melhores software existentes na atualidade.
Atualmente somente o programa R tem competido com o SAS
. O sis-
tema SAS um software que propicia grandes vantagens no tratamento de
bancos de dados, nas anlises estatsticas e na gerao de relatrios das
mais variadas formas. Para utilizarmos o SAS precisamos conhecer como
sua estrutura e como se d o seu funcionamento. O ambiente de interao
com o usurio do SAS possui trs janelas, que por sua vez possuem funes
especcas, a saber:
1. Janela de programas: nesta janela digitamos os programas, que so
seqncias de passos e comandos para utilizarmos o sistema SAS de
acordo com a nalidade que almejamos. Temos que utilizar deter-
minados comandos especcos para chamar rotinas prontas do SAS
ou podemos utilizar programas desenvolvidos para um ambiente de
programao interativo, o IML.
2. Janela de erros: esta janela conhecida como janela log e deve ser
utilizada para consultarmos a ocorrncia de erros de sintaxe em nossos
comandos ou programas. O SAS marca os erros com letras em cor
vermelha e aponta a linha do programa onde este erro ocorreu.
3. Janela de sada ou output: nesta janela obtemos os resultados no
grcos da anlise recm executada. O seu contedo pode ser salvo
em diferentes formatos ou impressos diretamente.
2 Introduo ao sistema SAS
Todo o contedo das janelas pode ser salvo, marcado e eliminado uti-
lizando os recursos do Windows e da barra de ferramentas. No daremos
maiores detalhes destes procedimentos por julg-los muito simples. Deve-
mos ter o cuidado nico de que esses comandos so especcos para a janela
que estiver ativa e no para o contedo de todas elas.
O SAS infelizmente no um programa com muita interatividade, a me-
nos que o mdulo ASSIST esteja presente. Um outro recurso extremamente
til ao se utilizar o SAS o sistema de auxlio (help on line), que permite
a consulta, atravs de uma navegao no linear, dos principais comandos
e bibliotecas do programa. Existem manuais on line em HTML e que po-
dem ser consultados pela internet e ainda manuais em PDF que podem ser
baixados e utilizados gratuitamente. Nestas notas veremos apenas os prin-
cipais procedimentos do sistema SAS para realizarmos anlises estatsticas.
Enfatizaremos os principais recursos relacionados as anlises de estatstica
bsica, regresso e estatstica experimental. Estes recursos so os mais va-
riados e exveis e so abordados de maneira simples, sendo que daremos
nfase nas interpretaes estatsticas dos fundamentos dos mtodos e da
inferncia. Utilizaremos apenas exemplos acadmicos simples, que muitas
vezes foram simulados ou so dados ctcios.
1.1 Entrada de dados
O SAS possui inmeros recursos de importao dos mais diferentes banco
de dados e planilhas. Utilizaremos o recurso mais comum de simplesmente
colarmos os dados de outro programa na janela de programa e salvarmos
o arquivo resultante como texto (ASCII). Este formato mais robusto, livre
de vrus, alm de os arquivos resultantes ocuparem menos memria. Quando
possumos valores perdidos no nosso arquivo ou banco de dados, podemos
substituir a clula do arquivo que foi perdida por um ponto. Este o default
do programa SAS, podendo ser mudado de acordo com a preferncia do
usurio.
O arquivo SAS pode ser lido de inmeras maneiras diferentes, porm
utilizaremos as formas mais simples. Temos que pensar que cada varivel
deve ocupar uma coluna do arquivo e cada observao ou unidade amostral
1.1 Entrada de dados 3
uma linha. Esta a estrutura utilizada pela maioria dos programas de an-
lise estatstica. Internamente, ao criarmos o banco de dados e executarmos
o programa, temos que dar um nome, o qual o programa SAS utilizar para
criar no seus diretrios de trabalho SASWORK ou SASUSER o conjunto
de dados que estamos utilizando. Este conjunto de dados SAS Data Set.
Antes dos dados devemos criar trs linhas de comando indicando o nome
deste conjunto de dados, as variveis e um comando de iniciao da leitura
dos dados.
Cada linha de comando do SAS tem algumas palavras reservadas de
comandos e termina com um <;>. Apesar de termos inmeros comandos
diferentes para entrarmos com o SAS Data Set, utilizaremos quase sempre
a seguinte estrutura:
/*exemplo de um arquivo de dados com peso em kg de coelhos hbridos Norfolk abatidos
aos 90 dias de idade. Tudo que est aqui dentro um comentrio do programa.*/
data coelhos;
input peso;
cards;
2.50
2.58
2.60
2.62
2.65
2.66
2.58
2.70
2.55
2.57
2.70
2.62
2.59
2.54
2.53
2.20
;
proc print;
var peso;
run;
Podemos explicar os comandos usados neste simples programa da se-
guinte forma:
1. <data coelhos;>: este comando indica o nome do SAS Data Set. A
palavra data um comando do SAS para indicar o nome do conjunto
de dados e coelhos foi o nome que escolhemos para este exemplo es-
pecco. Podemos observar que terminamos sempre com um ; a linha
de comando. Assim, apesar de no ter vantagem alguma, podera-
mos colocar data em uma linha, coelhos na outra e o ponto e vrgula
na terceira. Fisicamente teramos trs linhas, mas uma s linha de
comando.
2. <input peso;>: este comando vem com a palavra input para desig-
nar as variveis que o nosso conjunto de dados possui. Como temos
somente o peso dos coelhos hbridos Norfolk abatidos aos 90 dias em
kg, somente esta varivel apareceu aps o comando input. Se hou-
vesse mais variveis, estas deveriam ser separadas por pelo menos um
espao em branco, antes do ponto e vrgula.
3. <cards;>: este comando indica que os dados viro na seqncia.
4. <proc print;>: este um dos procedimentos, procedure, do SAS. Os
procedimentos aparecem depois da palavra proc, utilizada como indi-
cativo de procedimento e seguida do nome do procedimento, no caso,
print. Este procedimento utilizado para gerar relatrios de impres-
so na janela output.
5. <run;>: comando utilizado aps cada procedimento para indicar ao
SAS para execut-lo.
Depois de digitados estes comandos e colocados na janela de programas
do SAS devemos submet-lo ao compilador do programa. Para isso utili-
zamos o comando submit, que possui o atalho por meio da tecla F8 ou do
cone (run) correspondente na janela de programas.
Podemos utilizar na linha de comando do input os seguintes caracteres
@@. Isto nos permite digitar o arquivo na seqncia de variveis do arquivo,
1.1 Entrada de dados 5
mas no necessariamente obedecendo a estrutura de colunas. Para este
exemplo teramos:
aos 90 dias de idade. Tudo que est aqui dentro um comentrio do programa.*/
data coelhos;
input peso @@;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
2.54 2.53 2.20
;
proc print;
var peso;
run;
Um segundo exemplo com mais de uma varivel apresentado na seqn-
cia com dados de dez rvores de Araucaria angustifolia. A primeira varivel
Y o volume em m
3
/acre, a segunda varivel X
1
a rea basal das rvores,
a terceira varivel X
2
esta mesma rea basal, mas tomada com referncia
a rea basal de outra espcie (Pinus taeda) e a quarta varivel X
3
a al-
tura das rvores em ps. Observamos que a utilizao do @@ possibilita a
leitura dos dados em uma estrutura de uma aparente desorganizao. No
entanto, podemos observar que existe uma seqncia dos valores obedecendo
a seqncia das variveis do input Y , X
1
, X
2
e X
3
.
/*exemplo de um arquivo de dados com dados de 10 rvores de araucria, com 4 variveis.
*/
data arvores;
input Y X1 X2 X3 @@;
cards;
65 41 79 35 78 71 48 53
82 90 80 64 86 80 81 59
87 93 61 66 90 90 70 64
93 87 96 62 96 95 84 67
104 100 78 70
113 101 96 71
;
proc print;
var Y X1 X3;
run;
Uma importante situao que acontece em exemplos reais a ocorrncia
de variveis qualitativas. Estas variveis so identicadas por nomes alfa-
numricos e o SAS permite sua presena. Assim, se um conjunto de dados
possui 3 variveis, sendo por exemplo blocos, tratamentos e produo e a
varivel tratamento possui seus nveis qualitativos (nomes), ento devemos
formar o conjunto de dados normalmente e no input aps as variveis cu-
jos nveis so alfanumricos, devemos colocar um $, conforme o exemplo a
seguir. Isto indicar que aquelas variveis possuem nveis que so nomes e
no nmeros.
/*exemplo de um arquivo com dados experimentais ctcios, onde os nveis dos trata-
mentos so alfanumricos.*/
data exper;
input bl trat $ prod;
cards;
1 A 12.23
1 B 10.31
1 C 11.90
2 A 14.56
2 B 10.17
2 C 13.45
3 A 16.11
3 B 19.12
3 C 14.73
4 A 12.78
4 B 10.67
4 C 11.34
;
proc print data=exper;
run;
1.2 Transformaes de variveis 7
1.2 Transformaes de variveis
Para obtermos novas variveis no SAS a partir de um grupo de variveis
j existentes, no precisamos cri-las sicamente no SAS data set que temos.
Podemos fazer isso utilizando alguns comandos em determinados lugares de
nosso programa utilizando as funes dos SAS. O arquivo interno do SAS
ter as variveis criadas ou transformadas. Vamos descrever duas formas
bsicas de fazermos isso. A primeira delas utilizamos simples comandos
de transformao de variveis situados entre a linha de comando do input
e do cards. Podemos utilizar uma srie de operadores, sejam eles lgicos
ou no. Alguns exemplos destes operadores so: +: soma; : subtrao;
log: logaritmo neperiano; log 2: logaritmo na base 2; log 10: logaritmo na
base 10; : multiplicao; /: diviso; e : potenciao do tipo X
Y
, que
no SAS obtido por X Y . O comando no reconhecido pelo SAS
para potenciao. Operadores lgicos como >, GE (), <, LE () ou =
podem ser usados tambm. Estruturas condicionais if then; else so
permitidas, entre outras.
Apresentamos um exemplo na seqncia um exemplo utilizando algumas
destas transformaes de variveis para ilustrarmos os procedimentos.
aos 90 dias de idade.*/
data coelhos;
input peso @@;
sqrtp=peso**0.5;
pln=log(peso);
if peso<2.55 then classe=1;
else classe=2;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
2.54 2.53 2.20
;
proc print;
var peso sqrtp pln classe;
run;
A segunda alternativa nos possibilita realizarmos transformaes sobre
variveis de um SAS Data Set em um lugar qualquer do programa aps a
denio do data set original. Usamos o comando Data para denominarmos
um novo ou o mesmo conjunto de dados e o comando Set para selecionar o
conjunto de dados existente para realizarmos as programaes que almejar-
mos. Apresentamos o seguinte exemplo utilizando o data set coelhos, onde
no alteramos o seu nome. Veja que teremos o mesmo efeito do exemplo
anterior.
aos 90 dias de idade.*/
data coelhos;
input peso @@;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
2.54 2.53 2.20
;
data coelhos; set coelhos;
sqrtp=peso**0.5;
pln=log(peso);
if peso<2.55 then classe=1;
else classe=2;
run;quit;
proc print;
var peso sqrtp pln classe;
run;
1.3 Ordenamento de dados 9
1.3 Ordenamento de dados
Podemos utilizar o proc sort do SAS para ordenarmos conjuntos de da-
dos especicando as variveis que almejamos utilizar como chaves do pro-
cesso de ordenao dos valores do conjunto de dados. Podemos ordenar
em ordem crescente ou decrescente. Por default o SAS ordena em ordem
crescente cada varivel chave. Se quisermos uma ordem decrescente, deve-
mos utilizar o comando descending. Ilustramos o uso do proc sort em um
exemplo, em que uma sala de aula foi dividida em dois grupos de acordo
com os lugares que os alunos sentavam. Os da bancada da direita foram
denominados de grupo 1 e os da esquerda de grupo 2. Foram mensurados os
pesos e altura destes alunos. Usamos o proc sort para ordenar por grupos
em ordem crescente e por peso em ordem decrescente dentro de cada grupo.
/*exemplo de ordenao utilizando o proc sort.*/
data sala;
input grupo peso alt;
cards;
2 72 1.80
1 48.5 1.58
2 88 1.80
1 86 1.83
2 62 1.72
1 79 1.69
2 95 1.93
1 53 1.60
;
proc sort data=sala;
by grupo descending peso;
run;
proc print data=sala;
run;
1.4 Procedimentos para anlise estatstica
Vamos utilizar neste material basicamente alguns procedimentos SAS
para realizarmos anlise estatstica. Estes procedimentos no SAS so re-
ferenciados por proc que a abreviatura de procedure. Vamos neste ma-
terial apresentar a lgica de tais procedimentos, suas sintaxes e principal-
mente vamos enfatizar os mtodos estatsticos que esto envolvidos neste
procedimento. Vamos procurar tambm mostrar o proc IML. O programa
SAS/IML fornece ao usurio uma poderosa e exvel linguagem de pro-
gramao (Interactive Matrix Language) em um ambiente dinmico e in-
terativo. O objeto fundamental da linguagem uma matriz de dados. A
programao dinmica por causa do dimensionamento das matrizes e da
alocao de memria serem feitos de forma automtica.
Vamos utilizar alguns procedimentos do SAS para efetuarmos anlises
de estatstica bsica, quais sejam, proc univariate, proc summary e proc
ttest. Para realizarmos anlises de regresso linear utilizaremos o proc reg
e para regresso no-linear o proc nlin. Para anlises de modelos lineares
vamos utilizar o proc anova, proc glm e o proc mixed para modelos lineares
mistos. Estimaremos componentes de varincias com o proc varcomp. Po-
deremos eventualmente utilizar algum outro procedimento especco para
realizarmos algumas anlises multivariadas.
O SAS um programa que consideramos praticamente completo. Vamos
neste material abordar situaes especcas da estatstica para fazermos
uma introduo ao sistema SAS. No temos de forma alguma a pretenso
de que este seja um material de consulta imprescindvel, mas que sirva de
um roteiro bsico para aqueles que desejam ter uma noo inicial de como
efetuar anlises estatsticas pelo SAS.
Captulo 2
Estatstica bsica no SAS
O SAS possui muitos recursos para realizarmos anlises estatsticas des-
critivas de uma amostra de tamanho n. Neste captulo vamos abordar
as principais estatsticas descritivas utilizando o proc univariate e o proc
summary. Vamos ilustrar a obteno de estimativas pontuais de vrios pa-
rmetros, histogramas e estimadores de Kernel. Vamos realizar inferncia
sobre mdia de uma populao e de dados emparelhados, tanto testes de
hipteses como estimao intervalar e vamos inferir sobre a distribuio de
probabilidade dos dados amostrais. Para dados de duas amostras indepen-
dentes vamos utilizar o proc ttest para inferirmos sobre a mdia e sobre a
varincia das populaes amostradas. Para alguns parmetros vamos utili-
zar o IML para construirmos intervalos de conana utilizando os recursos
do SAS e a teoria de inferncia. Vamos utilizar diferentes recursos dentro
do contexto da estatstica bsica.
2.1 Estatsticas descritivas
Vamos utilizar basicamente o proc univariate e summary para obtermos
as estatsticas descritivas de uma populao. Vamos supor que temos uma
populao com parmetros desconhecidos. Vamos considerar inicialmente
que essa populao possui uma determinada distribuio de probabilidade
e que este modelo probabilstico o normal, dado por:
12 Estatstica bsica no SAS
f(x) =
1
2
2
e
(x )
2
2
2
, (2.1)
em que os parmetros e
2
so a mdia e a varincia respectivamente.
Este modelo simtrico em relao mdia e o parmetro usado para
medir a simetria o coeciente de assimetria que pode ter dois estimadores,
o estimador beta e o estimador gama. No SAS o estimador gama de simetria
obtido e o seu valor de referncia na distribuio normal o valor 0. Este
estimador (Ferreira, 2005[3]) dado por:
g
1
=
m
3
_
n(n 1)
(n 2)m
3/2
2
, (2.2)
em que m
r
=

n
i=1
(X
i

X
.
)
r
/n o estimador de centrado de momento de
ordem r, sendo r 2.
O coeciente de curtose populacional da distribuio normal tem como
referncia o valor zero, se for considerado o estimador gama ou o valor 3
se for considerado o estimador beta. O coeciente de curtose mede o grau
de achatamento da curva. Como o SAS estima somente o parmetro gama,
temos o seguinte estimador do coeciente de curtose:
g
2
=
(n 1)
_
(n + 1)m
4
3(n 1)m
2
2
(n 2)(n 3)m
2
2
. (2.3)
Assim uma distribuio com coeciente de assimetria igual a zero con-
siderada simtrica; se o coeciente de assimetria for maior que zero, esta
distribuio ser assimtrica direita e se for menor que zero, assimtrica
esquerda. Da mesma forma uma distribuio com coeciente de curtose
igual a 0 ser considerada mesocrtica; se o coeciente de curtose for nega-
tivo, ser considerada platicrtica e se for maior que zero, ser considerada
leptocrtica.
Caracterizada a distribuio, o interesse se volta para a caracterizao
da locao e da disperso da populao. A mdia amostral dada por:
X
.
=
1
n
n
i=1
X
i
. (2.4)
2.1 Estatsticas descritivas 13
A varincia amostral dada por:
S
2
=
1
n 1
_
_
n
i=1
X
2
i

_
n
i=1
X
i
_
2
n
_
_
. (2.5)
O SAS estima ainda vrias outras estatsticas descritivas, como o des-
vio padro S, o coeciente de variao CV , o erro padro da mdia S
X
, a
mediana m
d
, a soma de quadrados corrigida e no corrigida, alguns percen-
tis entre outras estimativas. Podemos utilizar o proc univariate para esta
nalidade. Este procedimento ainda apresenta a vantagem de propiciar a
estimao do histograma, bem como de permitir um ajuste da distribuio
normal a este histograma. Permite que outras distribuies sejam plota-
das e que seus parmetros sejam estimados. Estas distribuies so: beta,
exponencial, gama, Weibull e lognormal. Permite ainda que um estimador
de Kernel de densidade seja estimado e plotado no mesmo grco. Calcula
ainda grcos de probabilidade e os qqplots para as mesmas distribuies
utilizadas no comando histogram. Na seqncia apresentamos os principais
comandos do proc univariate, descrevendo suas principais opes.
Vamos ilustrar a utilizao do proc univariate com um conjunto de da-
dos de feijo, onde foram avaliadas as produtividades em g/planta de 20
plantas da gerao F
2
. Neste programa optamos por apresentar no mesmo
histograma o estimador kernel com suas trs opes (normal, quadratic e
triangular) e com o tamanho do parmetro de suavizao de cada igual a
1. A opo c = 1 1 1 que deniu este valor para cada mtodo. Esco-
lhemos a opo normal para ajustar o polgono da normal ao histograma e
tambm traamos os grcos da probabilidade e dos quantis utilizando os
comandos qqplot e probplot.
/*Exemplo de um arquivo de dados com n = 20 plantas F
2
de feijo com o peso de cada
uma em g/plantas.*/
data feijao;
input prod @@;
cards;
1.38 3.65 3.78 3.87
4.14 4.54 5.64 5.67
6.23 6.79 8.21 9.79
12.13 12.56 13.19 15.60
17.12 19.68 21.26 24.57
;
proc univariate data=feijao;
var prod;
histogram prod/ normal kernel(c=1 1 1 k=normal quadratic triangular);
probplot prod/normal;
qqplot prod/normal;
run;
Ao observamos os resultados, podemos vericar que embora as evidn-
cias descritivas no sejam muito fortes, no parece haver uma boa con-
cordncia da distribuio dos dados amostrais com a distribuio normal.
Testes formais precisam ser feitos para que haja uma conrmao ou no
destas evidncias descritivas. Um outro comentrio simples que gostara-
mos de fazer neste instante diz respeito forma que devemos sumariar os
resultados descritivos de posio e disperso em um trabalho cientco. Em
geral, se a distribuio simtrica utilizamos a mdia como medida de posi-
o. Associada a esta medida devemos apresentar uma medida de disperso.
Podemos escolher o desvio padro ou o erro padro, conforme o objetivo do
trabalho. Se queremos retratar a variabilidade dos dados populacionais em
relao a mdia desta populao, devemos utilizar o desvio padro como
uma estimativa desta medida. O coeciente de variao tambm pode ser
utilizado se pretendemos apresentar esta variabilidade em uma escala re-
lativa e no absoluta. Se por outro lado desejamos caracterizar a preciso
com que a mdia populacional foi estimada, ou seja, a preciso da estimativa
obtida, deveremos reportar o erro padro da mdia.
A forma como estas medidas devem ser apresentadas tambm alvo de
muita polmica no meio cientco. Muitas crticas surgem quando apresen-
tamos em uma tabela ou no texto, os resultados por

X
.
S ou por

X
.
S
X
.
.
O uso do muito criticado, pois gera ambigidade dos resultados e das
interpretaes. Isto porque pode dar idia de que o resultado se trata de
2.1 Estatsticas descritivas 15
um intervalo de conana, o que no verdade. Assim, prefervel que
os resultados sejam apresentados por

X
.
(S) ou por

X
.
_
S
X
.
_
. Em ambos
os casos deve car claro para o leitor que se trata da estimativa da mdia
seguida, entre parnteses, pelo desvio padro ou pelo erro padro. No te-
mos restries ao uso particular de um destes estimadores: coeciente de
variao, desvio padro ou erro padro. Isto porque podemos calcular a
partir de um deles os demais. Ento se torna preponderante a apresentao
do tamanho da amostra n utilizado no experimento ou no levantamento
amostral (Ferreira, 2005[3]).
Podemos utilizar ainda o proc summary para obtermos algumas estats-
ticas descritivas. Este procedimento interessante por realizar estimao
por intervalo de mdias de populaes normais. Assim, podemos comple-
mentar a informao do proc univariate que realiza testes de hipteses pa-
ramtricos e no-paramtricos sobre a mdia. Utilizamos os dados de feijo
anteriormente apresentados para mostrar uma aplicao do proc summary
e de sua sintaxe bsica. Por default este procedimento no produz out-
put. Devemos utilizar a opo print para obtermos o resultado na janela
de sada. As estatsticas descritivas que almejamos devem ser solicitadas ao
procedimento. A lista de opes : alpha, clm, range, css, skewness (skew),
cv, stddev (std), kurtosis (kurt), stderr, lclm, sum, max, sumwgt, mean,
uclm, min, n, uss, var, nmiss. As opes de quantis so: median (p50), q3
(p75), p1, p90, p5, p95, p10, p99, q1 (p25) e qrange. A opo qrange
a amplitude interquartlica: p75 p25. O exemplo nal com algumas das
opes :
/*Exemplo de um arquivo de dados com n = 20 plantas F
2
de feijo com o peso de cada
uma em g/plantas.*/
data feijao;
input prod @@;
cards;
1.38 3.65 3.78 3.87
4.14 4.54 5.64 5.67
6.23 6.79 8.21 9.79
12.13 12.56 13.19 15.60
17.12 19.68 21.26 24.57
;
proc summary data=feijao print range css skew cv std kurt stderr sum max mean min n
uss var nmiss p5 p95 qrange;
var prod;
run;
2.2 Estimao de Parmetros
Vamos apresentar vrios procedimentos para estimao dos principais
parmetros de uma populao. Nesta seo vamos considerar a estimao
de mdia, proporo, varincia, desvio padro, coeciente de variao e
diferenas de mdias.
2.2.1 Estimao de Mdias, Desvio Padro e Varincias
Vamos apresentar o procedimento SAS para estimao intervalar de m-
dias de uma populao normal. Para isso vamos utilizar novamente o proc
summary. Neste caso utilizamos a opo clm (condence limits for the
mean) e a opo alpha para determinarmos o valor do coeciente de con-
ana que dado por 1 . Por default o SAS utiliza = 0, 05. O intervalo
de conana para a mdia de uma normal dado por:
IC
1
() :

X
.
t
/2;
S
n
, (2.6)
em que t
/2;
o quantil superior 100/2% da distribuio t de Student
com = n 1 graus de liberdade.
O programa SAS para realizarmos a estimao por intervalo para a
mdia de uma populao normal, considerando os dados de feijo como
exemplo, est apresentado na seqncia. Vamos a partir deste instante fa-
zer algumas simplicaes nos programas, apresentando somente a parte
contendo os comandos de interesse e omitindo a parte de entrada de dados.
S apresentaremos a parte de entrada de dados quando se tratar de conjun-
tos de valores que ainda no foram descritos anteriormente. O programa
simplicado :
2.2 Estimao de Parmetros 17
/*Exemplo da utilizao dos dados de feijo para obtermos o intervalo de 95% para a
mdia.*/
proc summary data=feijao print alpha=0.05 mean stderr n std clm;
var prod;
run;
Tambm podemos utilizar o proc univariate para realizarmos intervalo
de conana para mdia, desvio padro e varincia de uma populao nor-
mal utilizando a opo cibasic. O intervalo de conana para a varincia
de uma populao normal dado por:
IC
1
(
2
) :
_
(n 1)S
2
2
/2;
;
(n 1)S
2
2
1/2;
_
, (2.7)
em que
2
/2;
e
2
1/2;
so os quantis superiores 100/2% e 100(1
/2)% da distribuio qui-quadrado com = n 1 graus de liberdade,
respectivamente.
O intervalo de conana para o desvio padro populacional () ob-
tido calculando a raiz quadrada dos limites do intervalo de conana para
varincia. O programa SAS para obteno destes intervalos, utilizando os
dados do feijo, dado por:
/*Exemplo da utilizao dos dados de feijo para obtermos o intervalo de 95% para a
mdia, desvio padro e varincia.*/
proc univariate data=feijao alpha=0.05 cibasic;
var prod;
run;
2.2.2 Estimao de Propores
Para estimarmos por intervalo propores binomiais podemos utilizar a
aproximao normal em grandes amostras e o intervalo de conana exato.
Estes mtodos sero implementados no proc iml para ilustrarmos a sua utili-
zao e a de algumas funes do SAS para obteno de quantis dos modelos
probabilsticos necessrios em cada caso. Dada uma amostra de tamanho
n de eventos Bernoulli independentes e com probabilidade de sucesso cons-
tante p, em que exatamente y sucessos foram observados, o intervalo de
conana normal aproximado para p dado por:
IC
1
(p) : p z
/2
_
p(1 p)
n
, (2.8)
em que p = y/n estimador pontual de p e z
/2
o quantil superior /2
da distribuio normal padro.
O intervalo de conana exato para as propores binomiais deve ser
utilizado principalmente se n for pequeno e se p se afastar muito de 1/2.
Este intervalo baseado na relao da binomial com a beta incompleta
e portanto com a distribuio F. O intervalo de conana exato para as
propores binomiais dado por:
IC
1
(p) :
1
1 +
(n y + 1)F
/2;2(ny+1),2y
y
;
1
1 +
n y
(y + 1)F
/2;2(y+1),2(ny)
, (2.9)
em que F
/2;
1
,
2
o quantil superior 100/2% da distribuio F com
1
e
2
graus de liberdade.
Implementamos um programa no proc iml utilizando os recursos da lin-
guagem SAS, onde o usurio deve trocar os valores de y e de n apresentados
no programa, conforme forem os resultados de sua pesquisa. O valor de
tambm deve ser alterado se tivermos interesse em outro coeciente de con-
ana do que aquele utilizado no programa.
/*Utilizao do Proc IML para a obteno de intervalos exato e aproximado para o
parmetro binomial p em uma amostra de tamanho n, com coeciente de conana de
(1 )100%, onde foram observados y sucessos.*/
proc iml;
/*Intervalo de conana exato*/;
y=2;n=10;p=y/n;alpha=0.05;
if y=0 then F1=0;
else F1=Finv(1-alpha/2,2*(n-y+1),2*y);
if y=n then F2=0;
else F2=Finv(1-alpha/2,2*(y+1),2*(n-y));
if y=0 then LIE=0;
else LIE=1/(1+(n-y+1)*F1/y);
if y=n then LSE=1;
else LSE=1/(1+(n-y)/(F2*(y+1)));
print IC exato para p: LIE LSE alpha: alpha phat: p;
/*Intervalo de conana normal aproximado*/;
z=probit(1-alpha/2);
LIap=p-z*(p*(1-p)/n)**0.5;
LSap=p+z*(p*(1-p)/n)**0.5;
print IC aproximado para p: LIap LSap alpha: alpha;
quit;
2.2.3 Estimao de Coecientes de Variao
Para estimar o intervalo de conana do coeciente de variao popula-
cional de uma normal, seja = S/

X
.
o estimador do coeciente de variao.
O intervalo aproximado proposto por Vangel (1996)[15] dado por:
IC
1
() :
_
_
LI =

_
_
2
/2
+ 2
+ 1
1
_

2
+

2
/2
LS =

_
_
2
1/2
+ 2
+ 1
1
_

2
+

2
1/2
,
(2.10)
em que
2
/2
e
2
1/2
so os quantis superiores 100/2% e 100(1 /2)%
da distribuio de qui-quadrado com = n 1 graus de liberdade.
Novamente utilizamos o proc iml para obter o intervalo de conana
para o coeciente de variao, dadas as estimativas da varincia e da mdia
e o tamanho da amostra. O programa resultante dado por:
/*Utilizao do Proc IML para a obteno de intervalos de conana para o coeciente
de variao em uma amostra de tamanho n, com coeciente de conana de (1)100%,
sendo dado a mdia e varincia amostral.*/
proc iml;
/*Intervalo de conana para o CV*/
xbar=194.8333;S2=26.2947;n=6;alpha=0.05;
khat=S2**0.5/xbar;
qui1=cinv(1-alpha/2,n-1);
qui2=cinv(alpha/2,n-1);
LICV=khat/(((qui1+2)/n-1)*khat**2+qui1/(n-1))**0.5;
LSCV=khat/(((qui2+2)/n-1)*khat**2+qui2/(n-1))**0.5;
print IC para o CV: LICV LSCV alpha: alpha khat: khat;
quit;
2.2.4 Diferena de Duas Mdias Independentes
Esta uma situao de muito interesse para os pesquisadores, pois
muito comum obter amostras independentes de duas populaes. O obje-
tivo obter o intervalo de conana para a diferena das mdias
1
2
das
duas populaes. Algumas suposies so feitas para a utilizao dos pro-
cedimentos estatsticos adequados. Inicialmente pressupomos que ambas as
populaes possuem distribuio normal com mdias
1
e
2
e varincias
2
1
e
2
2
, respectivamente. Ao obtermos as amostras aleatrias de tamanhos
n
1
e n
2
das populaes 1 e 2, respectivamente, devemos supor independn-
cia entre as observaes das diferentes amostras e tambm das observaes
dentro das duas amostras. Finalmente, supomos que as varincias das duas
populaes so homogneas, ou seja, que
2
1
=
2
2
.
Sejam

X
1
e

X
2
os estimadores das mdias da populaes 1 e 2 e S
2
1
e S
2
2
os estimadores das varincias populacionais obtidos em amostras de
tamanho n
1
e n
2
, respectivamente, ento duas situaes distintas podem
ser consideradas. A primeira quando
2
1
=
2
2
e a segunda quando
2
1
=
2
2
.
Estas duas situaes esto destacadas na seqncia.
a. Se
2
1
=
2
2
: O intervalo de conana quando as varincias so homog-
neas dado por:
IC
1
(
1
2
) :

X
1

X
2
t
/2;
S
2
p
_
1
n
1
+
1
n
2
_
, (2.11)
em que t
/2;
o quantil superior /2 da distribuio t de Student com
= n
1
+n
2
2 graus de liberdade e S
2
p
a varincia combinada (pooled)
dada por:
S
2
p
=
(n
1
1)S
2
1
+ (n
2
1)S
2
2
n
1
+n
2
2
. (2.12)
b. Se
2
1
=
2
2
: Neste caso a distribuio t de Student no mais exata
para obtermos o intervalo de conana. No entanto, esta distribuio
utilizada de forma aproximada, ajustando somente os graus de liberdade.
Este ajuste aos graus de liberdade atribudo a Satterthwaite (1946)[11].
O intervalo de conana aproximado dado por:
IC
1
(
1
2
) :

X
1

X
2
t
/2;
S
2
1
n
1
+
S
2
2
n
2
. (2.13)
Neste caso os graus de liberdade para a obteno do quantil superior
da distribuio t de Student ajustado (Satterthwaite, 1946) por:

=
_
S
2
1
n
1
+
S
2
2
n
2
_
2
_
S
2
1
n
1
_
2
n
1
1
+
_
S
2
2
n
2
_
2
n
2
1
. (2.14)
O procedimento mais apropriado para estimar duas mdias populacio-
nais por intervalo requer que tenhamos o conhecimento sobre a homoge-
neidade ou no das varincias das duas populaes. Como se tratam de
parmetros desconhecidos podemos inferir apenas a este respeito. Para isso
podemos utilizar o teste F. Um artifcio que utilizamos considerar a vari-
ncia maior no numerador da expresso, multiplicando o valor encontrado
por 2. Assim, para testarmos a hiptese H
0
:
2
1
=
2
2
calculamos:
F
c
=
S
2
Maior
S
2
Menor
(2.15)
e o valor-p determinado por 2 P(F > F
c
). Se valor-p for menor ou
igual ao valor nominal , rejeitamos H
0
. O programa SAS resultante deste
procedimento dado por:
/*Utilizao do Proc IML para a obteno de intervalos de conana para o diferena
de duas mdias, testando antes a igualdade de varincias, utilizando uma conana de
(1 )100%.*/
proc iml;
/*Dados amostrais H pop. 1 e M= pop 2*/;
h={72,88,62,95};m={48.5,86,79,53};
n1=nrow(h);n2=nrow(m);alpha=0.05;
xb1=sum(h)/n1;xb2=sum(m)/n2;
s21=(t(h)*h-sum(h)**2/n1)/(n1-1);
s22=(t(m)*m-sum(m)**2/n2)/(n2-1);
/*teste de hiptese*/
smaior=max(s21,s22);
smenor=min(s21,s22);
if s21>s22 then v1=n1-1;
else v1=n2-1;
if s21>s22 then v2=n2-1;
else v2=n1-1;
Fc=smaior/smenor;
pval=2*(1-probF(fc,v1,v2));
print FC fc alpha: alpha pval: pval;
if pval>alpha then
do;
sp=((n1-1)*s21+(n2-1)*s22)/(n1+n2-2);
t=tinv(1-alpha/2, n1+n2-2);
LIE=xb1-xb2-t*(sp*(1/n1+1/n2))**0.5;
LSE=xb1-xb2+t*(sp*(1/n1+1/n2))**0.5;
print LI LIE LS LSE;
end;
else do;
v=(s21/n1+s22/n2)**2/((s21/n1)**2/(n1-1)+(s22/n2)**2/(n2-1));
t=tinv(1-alpha/2, v);
LIA=xb1-xb2-t*(s21/n1+s22/n2)**0.5;
LSA=xb1-xb2+t*(s21/n1+s22/n2)**0.5;
print LI LIA LS LSA;
end;
quit;
2.2.5 Estimao da Diferenas de Duas Mdias Em Dados
Emparelhados
Em muitas ocasies experimentais nos deparamos com a necessidade de
inferir sobre o efeito de algum medicamento, fertilizante, fungicida entre
outros tratamentos. Realizamos experimentos onde temos o maior grau de
controle local possvel, ou seja, mensuramos os indivduos ou as unidades
experimentais antes da aplicao do tratamento e aps a sua aplicao.
Neste experimento temos a mesma unidade experimental servindo de con-
trole local. Isto torna este experimento mais eciente que o experimento em
que as amostras so tomadas de forma independente na populao tratada
e no tratada. Uma alternativa a este delineamento experimental possvel
de ser obtida se utilizarmos duas parcelas experimentais locadas e subme-
tidas sob as mesmas condies e sorteamos uma para receber o tratamento
e a outra para no receb-lo.
Se X
i
e Y
i
so as respostas mensuradas antes e aps a aplicao do trata-
mento, respectivamente, na isima unidade amostral, para i = 1, 2, , n,
ento podemos gerar a varivel aleatria d
i
= Y
i
X
i
. A estimao pontual
do valor esperado desta varivel aleatria E(d
i
) = =
Y

X
pode ser
feita por:
d =
n
i=1
d
i
n
. (2.16)
O estimador da varincia populacional das diferenas dado por:
S
2
d
=
1
n 1
_
_
n
i=1
d
2
i

_
n
i=1
d
i
_
2
n
_
_
. (2.17)
Assim, o intervalo de conana pode ser obtido por:
IC
1
() :

d t
/2;=n1
s
d
n
. (2.18)
O artifcio que usaremos para obter o intervalo de conana almejado
consiste em considerar com um conjunto de dados, para o qual especicamos
em cada parcela a varivel X e a varivel Y (antes e aps). Em seguida
utilizando o processo de transformao de variveis descritos na seo 1.2
devemos gerar D = Y X. Finalmente utilizamos o proc summary ou
o proc univariate para obtermos o intervalo de conana para a mdia.
No programa seguinte descrevemos este processo com a utilizao do proc
summary. Este exemplo refere-se a produo de leite mdia diria em kg de
todos os animais de uma fazenda em uma amostra de 6 fazendas da regio
de Marechal Cndido Rondom antes X e aps Y um plano governamental.
A questo era responder se o plano foi eciente e se sim, qual foi o aumento
na produo mdia diria de leite dos animais em kg. Tomamos apenas
uma parte dos dados n = 6 para ilustrar de forma didatica esta situao.
O programa SAS :
/*Utilizao do Proc Summary para a obteno de intervalos de conana para o dife-
rena de duas mdias emparelhadas, utilizando uma conana de (1 )100%.*/
data leite;
input X Y;
d=Y-X;
cards;
12.00 12.56
11.58 13.98
11.67 14.23
12.32 14.56
2.3 Testes de Hipteses 25
11.23 13.71
11.25 16.78
;
proc summary data=leite print alpha=0.05 n mean std stderr clm;
var d;
run;quit;
2.3 Testes de Hipteses
Neste seo trataremos dos testes de hipteses sobre os principais pa-
rmetros de uma ou duas populaes. Antes de apresentarmos os mtodos
e recursos computacionais para realizarmos os testes de hipteses, devemos
atentar para o fato de que existe uma relao estreita entre os procedimentos
de estimao e deciso.
Se j temos um intervalo de conana construdo, podemos testar uma
hiptese bilateral apenas vericando se este intervalo contm o valor hipo-
ttico. Caso o valor hipottico pertena ao intervalo de conana no temos
evidncias signicativas para rejeitar a hiptese nula. Por outro lado, se o
valor hipottico no pertence ao intervalo de conana, podemos concluir
a favor da hiptese alternativa, rejeitando a hiptese nula. Assim, vamos
apresentar somente os procedimentos para testarmos mdias de uma popu-
lao e de duas, sejam elas independentes ou emparelhadas. Testes sobre
varincias, desvios padres ou coecientes de variao podero ser realiza-
dos com o uso dos intervalos de conana apresentados anteriormente.
2.3.1 Teste Sobre Mdias
Para testarmos hipteses sobre mdias normais devemos utilizar o teste
t de Student. Assim, para testarmos a hiptese nula H
0
: =
0
utilizamos
os seguintes procedimentos. Inicialmente calculamos a estatstica do teste
por
t
c
=

X
0
S
n
. (2.19)
Se a hiptese alternativa for do tipo bilateral H
1
: =
0
, calculamos
o valor-p por P(t > |t
c
|); se a hiptese alternativa for unilateral do tipo
H
1
: >
0
, calculamos o valor-p por P(t > t
c
); e se a hiptese alternativa
for unilateral do tipo H
1
: <
0
, calculamos o valor-p por P(t < t
c
).
Finalmente, confrontamos o valor-p com o valor nominal do nvel de signi-
cncia . Se o valor-p for inferior ou igual a , devemos rejeitar a hiptese
nula neste nvel de signicncia; caso contrrio, no devemos rejeitar H
0
.
Se a distribuio dos dados no for normal podemos utilizar dois testes
no-paramtricos: o teste do sinal e o teste dos postos com sinais de Wilco-
xon. Vamos descrever o teste do sinal com detalhes e realizar apenas uma
breve descrio do teste de Wilcoxon.
Para aplicarmos o teste do sinal, inicialmente calculamos o nmero de
sinais positivos e negativos para a diferena de cada observao amostral
com o valor hipottico. Se X
i
0
representa esta diferena, ento podemos
denir n
+
como o nmero de observaes para as quais X
i
>
0
(sinais
positivos) e n
com o nmero de observaes para as quais X

i
<
0
(sinais
negativos). Devemos desprezar todas as observaes para as quais X
i
=
0
.
Assim, o nmero de observaes efetivas amostrais n
e
= n
+
+ n
. Ao
realizarmos este teste estamos supondo que se a hiptese nula for verdadeira,
o nmero de sinais positivos deve ser igual ao nmero de sinais negativos.
Aplicamos, ento, um teste binomial para p = 1/2, em que p a proporo
de sinais positivos ou negativos. Assim, a estatstica do teste sinal dada
por:
M
c
=
n
+
n
2
. (2.20)
O valor-p calculado utilizando a distribuio binomial em um teste
bilateral por:
valor p = P(M > |M
c
|) =
_
1
2
_
(n
e
1)
min(n
+
,n
j=0
_
n
e
j
_
. (2.21)
O valor-p confrontado com o valor de e tomamos a deciso de re-
jeitar ou no a hiptese nula utilizando procedimentos semelhantes ao que
apresentamos anteriormente para o teste t.
A estatstica do teste do sinal com postos de Wilcoxon obtida cal-
culando-se todos os desvios das observaes em relao ao valor hipottico e
tomando-se os postos dos valores destas diferenas em mdulo d
i
= |X
i
0
|.
Se algum valor amostral for igual a zero, devemos elimin-lo da amostra,
como fazemos no teste do sinal. Se houver empates, tomamos a mdia dos
postos que seriam atribudos a estas observaes empatadas. Retornamos
os sinais de X
i
0
aos postos das diferenas e somamos os valores positivos.
Esta soma representada por W
+
e a estatstica do teste. Os valores-p
podem ser obtidos utilizando-se uma aproximao normal ou a distribuio
nula da estatstica W
+
, derivada pela atribuio de sinais positivos ou ne-
gativos a cada posto amostral em todas as combinaes possveis. O teste
de Wilcoxon , em geral, mais poderoso do que o teste do sinal. Nenhum
detalhe adicional ser apresentado neste material.
Podemos utilizar o proc univariate para testarmos hipteses sobre a
mdia de uma populao. O proc univariate utiliza as trs opes apresen-
tadas nesta seo para realizarmos o teste de hiptese. Devemos optar pelo
teste mais apropriado conforme for o caso. Esta escolha deve ser pautada
no atendimento ou no das pressuposies bsicas de cada teste. Um pro-
cedimento SAS apresentado na seqncia para testarmos a hiptese da
igualdade da mdia do peso dos coelhos hbridos Norfolk abatidos aos 90
dias a 2, 50 kg, ou seja, para testarmos H
0
: = 2, 50. Se vrias variveis
so apresentadas no comando var, devemos utilizar a opo mu0 = 0.5 2.5
, indicando que o valor sob H
0
para a primeira varivel 0, 5, para a
segunda 2, 5 e assim sucessivamente at completar o nmero de variveis
do comando var. O programa resultante :
/*Utilizao do Proc Univariate para testarmos a hiptese sobre a mdia de uma popu-
lao normal e no normais (testes no-paramtricos). Utilizamos o exemplo dos coelhos
Norfolk para ilustrar os testes.*/
data coelhos;
input peso @@;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
2.54 2.53 2.20
;
proc univariate data=coelhos mu0=2.5 alpha=0.05;
var peso;
run;quit;
2.3.2 Teste Sobre Mdias de Duas Populaes Emparelha-
das
Quando temos dados emparelhados, antes e aps a aplicao de um tra-
tamento podemos estar interessados em testes de hipteses sobre o efeito
deste tratamento. Podemos utilizar o mesmo procedimento descrito anteri-
ormente para mdia e assim testar hipteses sobre o efeito do tratamento.
A hiptese nula de interesse dada por H
0
: =
0
. Podemos utilizar o
teste t de Student se as variveis (X
i
, Y
i
) tiverem distribuio normal biva-
riada ou, em caso contrrio, os testes no-paramtricos do sinal e do sinal
com postos de Wilcoxon.
Seja d
i
= Y
i
X
i
a diferena entre a observao da i-sima unidade
amostral aps Y
i
e antes X
i
da aplicao do tratamento, sendo i = 1, 2, n.
Sejam

d e S
2
d
a mdia e a varincia amostral destas n observaes, ento a
estatstica do teste da hiptese H
0
: =
0
supondo normalidade bivariada
dado por:
t
c
=

d
0
S
d
n
, (2.22)
que segue a distribuio t de Student com = n1 graus de liberdade sob
a hiptese nula.
O teste do sinal obtido contando-se o nmero de vezes que d
i
>
0
e desprezando-se os casos em que d
i
=
0
. As expresses 2.20 e 2.21 so
usadas para testar a hiptese de interesse. O teste do sinal com postos de
Wilcoxon tambm obtido da mesma forma considerando tanto o posto da
diferena d
i
0
considerada em mdulo, quanto o sinal da diferena. Como
se trata apenas de uma aplicao do mesmo procedimento adaptado para
esta situao, no faremos nenhum comentrio adicional, por julgarmos
suciente o que j abordamos.
A seguir detalharemos o programa SAS para aplicar o teste de avali-
ao da ecincia de um plano governamental no aumento da mdia dos
ndices zootcnicos da regio de Marechal Cndido Rondom. A produo
mdia diria de seis fazendas foi avaliadas antes (X) e aps (Y ) o plano
governamental. Inicialmente criamos uma varivel com a diferena e ento
utilizamos o proc univariate da mesma forma que zemos nos testes de hi-
pteses sobre a mdia de uma populao. Neste exemplo, a hiptese nula
consiste na armativa que o plano no foi eciente, ou seja, H
0
: =
0
= 0.
Assim, ao utilizarmos o proc univariate devemos especicar a hiptese com
a opo mu0=0 ou simplesmente no especicar nada, pois o valor 0 o
default deste procedimento. O programa resultante dado por:
/*Utilizao do Proc univariate para a testarmos a hiptese de no haver efeito do plano
governamental panela cheia na melhoria da produtividade leiteira das fazendas da cidade
de Marechal Cndido Rondom no Paran.*/
data leite;
input X Y;
d=Y-X;
cards;
12.00 12.56
11.58 13.98
11.67 14.23
12.32 14.56
11.23 13.71
11.25 16.78
;
proc univariate data=leite mu0=0;
var d;
run;quit;
Podemos utilizar um procedimento especializado do SAS para aplicar
o teste de hiptese sobre a diferena de duas mdias emparelhadas. Este
procedimento o proc ttest. Uma vantagem deste procedimento podermos
obter, alm do teste de hiptese, o intervalo de conana para a diferena
de mdias e para o desvio padro da diferena. Utilizamos a opo H0 =
0
para especicarmos o valor nulo da hiptese. O programa ilustrativo desta
situao dado por:
/*Utilizao do Proc ttest para testarmos a hiptese de no haver efeito do plano gover-
namental panela cheia na melhoria da produtividade leiteira das fazendas da cidade de
Marechal Cndido Rondom no Paran.*/
data leite;
input X Y;
cards;
12.00 12.56
11.58 13.98
11.67 14.23
12.32 14.56
11.23 13.71
11.25 16.78
;
proc ttest data=leite h0=0;
paired y*x;
run;quit;
2.3.3 Teste Sobre Mdias de Duas Populaes Independen-
tes
Finalmente podemos testar a hiptese da igualdade de duas mdias po-
pulacionais independentes. Para este caso o SAS possui um procedimento
especializado, o proc ttest. Conforme j apresentamos na seo de estimao
por intervalo, devemos inicialmente aplicar o teste de igualdade de varin-
cias e de acordo com os resultados obtidos, escolhemos entre o teste t de
Student exato ou aproximado. O teste exato ocorre quando as varincias
so consideradas homogneas; o teste aproximado quando as varincias
so heterogneas. Devemos neste ltimo caso utilizar o ajuste de graus de
liberdade pelo procedimento de Satterthwaite (1946)[11] ou o procedimento
de Cochran e Cox que aproxima o nvel de probabilidade da estatstica t de
Student aproximada.
Vamos apresentar na seqncia o proc ttest com o objetivo de ilustra
sua utilizao. Para isso, um exemplo em dois grupos de alunos foram
avaliados com relao ao peso em kg e a altura em m. Os grupos referem-
se aos alunos que sentam na bancada da direita (grupo 1) e da esquerda
(grupo 2) do laboratrio de informtica. A primeira turma desta disciplina
foi amostrada para esta nalidade. Esperamos a princpio que no haja
diferenas signicativas entre os dois grupos, uma vez que a distribuio
completamente aleatria nas duas bancadas da sala de aula.
Devemos fazer um conjunto de dados criando uma varivel para iden-
ticarmos os grupos. Esta varivel tem que ter sempre dois nveis para
podermos utilizar o proc ttest. Sejam

X
1
e

X
2
as mdias das amostras
aleatrias de tamanhos n
1
e n
2
, respectivamente, retiradas das populaes
1 e 2. Sejam S
2
1
e S
2
2
as varincias amostrais relativas s populaes 1 e
2. Pressupomos que as amostras sejam aleatrias e independentes e que a
distribuio das duas populaes seja normal.
Inicialmente devemos testar a hiptese sobre a igualdade das varincias
H
0
:
2
1
=
2
2
. Assim, de acordo com este teste devemos aplicar o teste de
igualdade da diferena das mdias populacionais a um valor de interesse,
ou seja, H
0
:
1
2
=
0
utilizando os seguintes procedimentos:
a) Se
2
1
=
2
2
:
Neste caso, o teste de igualdade da diferena das mdias populacionais
a um valor de interesse exato e a estatstica do teste, dada por
t
c
=

X
1

X
2
S
2
p
_
1
n
1
+
1
n
2
_
(2.23)
segue a distribuio t de Student com = n
1
+n
2
2 graus de liberdade.
O signicado de S
2
p
foi apresentado na equao 2.12.
b) Se
2
1
=
2
2
:
Neste caso, a estatstica do teste no segue de forma exata a distribuio
t de Student. Ento, ajustamos os graus de liberdade pelo procedimento
de Satterthwaite (1946)[11] ou ajustamos as probabilidades pelo proce-
dimento de Cochran e Cox. A estatstica do teste dada por
t
c
=

X
1

X
2
S
2
1
n
1
+
S
2
2
n
2
(2.24)
segue aproximadamente a distribuio t de Student com graus de li-
berdade obtidos com o uso da expresso 2.14.
Para utilizarmos o proc ttest devemos especicar o valor
0
. Isto feito
utilizando a opo H0 =
0
. A opo Cochran tambm foi utilizada. De-
vemos, no entanto, alertar o leitor que, via de regra, os dois procedimentos
utilizados para ajustar os graus de liberdade ou as probabilidades, fornecem
resultados similares dos testes. Alm disso, a deciso tomada, em geral,
a mesma. O programa SAS utilizando o exemplo dos grupos de alunos
dado por:
/*exemplo do uso do proc ttest para duas amostras independentes.*/
data sala;
input grupo peso alt;
cards;
1 48.5 1.58
1 53.0 1.60
1 86.0 1.83
1 79.0 1.69
2 62.0 1.72
2 95.0 1.93
2 88.0 1.80
2 72.0 1.80
;
proc ttest data=sala cochran h0=0;
class grupo;
var peso alt;
run;
Devemos especicar no comando class a varivel com dois nveis que so
usados para identicar as populaes. Devemos tambm determinar quais
variveis vamos analisar com o comando var e o valor hipottico. Infeliz-
mente o SAS no permite especicar um valor diferente para cada varivel
com o comando H0. Se quisermos testar um valor diferente para cada vari-
vel, devemos fazer vrios comandos repetidos, como no programa anterior,
especicando um valor hipottico diferente para cada varivel. Por default
o proc ttest utiliza o valor zero se nada for especicado. Obtivemos para
ambas variveis resultados no signicativos para os testes da igualdade
varincias e de mdias dos dois grupos, como era esperado.
O proc ttest nos permite calcular o intervalo de conana para a mdia
de cada populao e para a diferena de mdias. Tambm fornece o inter-
valo de conana para as varincias. No entanto, o intervalo de conana
da diferena de duas mdias deste procedimento do SAS ignora completa-
mente o teste de igualdade de varincias e estima a diferena de duas mdias
por intervalo utilizando o procedimento de quando as varincias so homo-
gneas. Assim, se o teste de homogeneidade de varincias for rejeitado, o
intervalo de conana fornecido via de regra muito impreciso e deve ser
desconsiderado. Recomendamos o uso do programa utilizando o proc iml
que fornecemos anteriormente.
2.3.4 Teste de Normalidade
O SAS nos permite realizar teste de normalidade para os dados amos-
trais coletados em n unidades. Anteriormente j apresentamos alguns destes
testes quando utilizamos o comando histogram prod/normal; no proc uni-
variate. Os testes aplicados no SAS so Kolmogorov-Smirnov, Cramer-von
Mises e Anderson-Darling. Tambm possvel chamar o teste de normali-
dade sem solicitar o histograma e a estimao dos parmetros da normal.
Podemos utilizar a seguinte linha de comando: proc univariate data=feijao
normal;. Assim, teremos os mesmos testes de normalidade, incorporando,
porm, o poderoso teste de Shapiro-Wilk.
O SAS fornece o valor da estatstica de cada teste e o valor-p associado.
Se este valor-p for menor do que o valor nominal de signicncia pre-
viamente adotado, ento devemos rejeitar a hiptese nula de normalidade;
caso contrrio, no haver evidncias signicativas neste nvel para rejeitar
a hiptese de normalidade.
Devemos enfatizar que o teste de normalidade aplicado no contexto de
uma amostra aleatria simples onde no h controle local e efeitos de di-
ferentes tratamentos atuando totalmente justicvel, pois estamos diante
de um modelo linear simples do tipo:
Y
i
= +
i
,
em que Y
i
a observao amostral da i-sima unidade amostral, a mdia
geral e
i
o erro associado a i-sima unidade amostral.
Nos modelos lineares a suposio de normalidade feita sobre os res-
duos e no sobre a varivel dependente. Neste modelo linear simples, ao
erro de todas as observaes acrescido uma nica constante e esta cons-
tante somente faz uma translao dos valores de Y , no alterando a sua
distribuio. Assim, testar a normalidade de Y ou de so procedimentos
equivalentes. O que muitos pesquisadores fazem muitas vezes dentro do
contexto da experimentao testar a hiptese de normalidade da vari-
vel resposta para vericar se esta pressuposio foi atendida, para validar
as inferncias realizadas. Isto muitas vezes incorreto, pois se pressupe
resduos e no variveis respostas normais. Ento, sob um modelo mais
complexo, onde existe controle local, efeito de bloco (
j
) e\ou efeitos de
tratamentos (
i
), a varivel resposta Y ter uma distribuio que na ver-
dade uma mistura de distribuies normais com diferentes mdias. Observe
que para o modelo linear
Y
ij
= +
j
+
i
+
ij
,
a varivel Y
ij
tem a seguinte mdia: E(Y
ij
) = +
j
+
i
. Assim, se variarmos
a unidade experimental (i, j), teremos diferentes valores mdios para Y
ij
.
Como supomos independncia e homocedasticidade de varincias, a mistura
de distribuies ter diferentes distribuies normais com diferentes mdias,
mas com a mesma varincia. Ento, em uma amostra de tamanho n, no
podemos testar a hiptese de normalidade utilizando os valores de Y , mas
devemos estimar o erro cuja mdia zero e a varincia constante para
realizarmos tal teste.
Captulo 3
Regresso Linear
Os modelos de regresso linear desempenham um grande papel nas mais
diferentes reas do conhecimento. Os pesquisadores buscam sempre modelar
seus dados por um modelo e ento passam a compreender melhor o fenmeno
sob estudo. Os modelos lineares so apenas uma das classes utilizadas
pelos pesquisadores na compreenso dos problemas de suas pesquisas. A
classicao de um modelo como linear muitas vezes confundida com
o tipo de curva matemtica que aquele modelo descreve e, ainda, mal
compreendida. Assim, iniciaremos nossa discusso com a classicao de
dois modelos como linear ou no-linear. O primeiro modelo dado por
Y
i
=
0
+
1
X
2
i
+
i
, em que Y
i
e X
2
i
so as variveis resposta e regressoras,
respectivamente;
0
e
1
so os seus parmetros; e
i
o resduo ou erro.
O segundo modelo Y
i
=
0
X
1
i
+
i
. Ambos os modelos descrevem curvas
que no so uma reta simples. Esta uma das causas de confuses na
classicao de um modelo como linear. Nestes exemplos, o primeiro modelo
linear e o segundo no-linear.
Para esclarecermos e denirmos um modelo como linear, devemos apre-
sentar inicialmente um conceito losco. Dizemos que um modelo linear
ou no-linear nos parmetros e com isso no estamos interessado no tipo
de curva que a funo representa. Formalmente, podemos dizer que um
modelo linear se as derivadas parciais da varivel dependente em relao
a cada parmetro no forem funes dos prprios parmetros. Assim, as
derivadas parciais do primeiro modelo so: Y
i
/
0
= 1 e Y
i
/
1
= X
2
i
.
36 Regresso Linear
Como nenhuma das derivadas parciais dependem dos prprios parmetros,
ento este modelo linear. No segundo caso, as derivadas parciais so:
Y
i
/
0
= X
1
i
e Y
i
/
1
=
0
X
1
i
ln(X
i
). O segundo modelo no-linear
nos parmetros, pois as duas derivadas parciais so funes dos prprios
parmetros. Bastaria uma de estas derivadas ser funo dos parmetros
para classicarmos o modelo como no-linear.
Dois procedimentos, entre outros, podem ser utilizados para analisarmos
os modelos lineares e no lineares. Utilizaremos o proc reg para os modelos
lineares e o proc nlin para modelos no-lineares. Neste captulo estudaremos
apenas os modelos lineares nos parmetros. O proc reg , entre os possveis
procedimentos de regresso do SAS, aquele que tem um amplo propsito,
enquanto os demais possuem objetivos mais especcos. Este procedimento
permite entre outras as seguintes anlises:
Especicao de mltiplos modelos
Mtodos de seleo de modelos
Diagnsticos de regresso
Obteno de valores preditos
Diagnose de multicolinearidade
Grcos de resduos
3.1 Mtodo dos Quadrados Mnimos
O proc reg foi idealizado para ajustar modelos lineares e fornecer vrias
ferramentas de diagnstico da qualidade de ajuste. Seja o modelo linear de
regresso com m+ 1 parmetros denido por:
Y
i
=
0
+
1
X
1i
+
2
X
2i
+ +
m
X
mi
+
i
(3.1)
em que Y
i
a i-sima observao da varivel resposta; X
hi
i-sima obser-
vao da h-sima varivel;
h
so os parmetros do modelo;
i
o resduo
de regresso associado a i-sima unidade amostral; h = 0, 1, 2, , m e
3.1 Mtodo dos Quadrados Mnimos 37
i = 1, 2, , n; X
0i
constante com todos os valores iguais a 1; m repre-
senta o nmero de variveis e n o tamanho da amostra.
O mtodo dos quadrados mnimos baseado na idia de minimizar a
soma de quadrados dos resduos dos modelos lineares. Assim, se Q =

n
i

2
i
a soma de quadrados de resduos, o seu valor mnimo deve ser encontrado
para obtermos uma soluo de quadrados mnimos. Matricialmente temos
o modelo 3.1 expresso da seguinte forma:
Y
= X
(3.2)
em que Y
o vetor de observaes de dimenses n 1; X a matriz do

modelo de dimenses n (m + 1) das derivadas parciais de Y
i
em relao
aos parmetros;
o vetor de parmetros [(m + 1) 1]; e
o vetor de
resduos (n 1).
Os resduos podem ser isolados por
= Y
e a soma de quadrados
do resduos matricialmente expressa por:
Q =
=
_
Y
_
Y
_
Q =
=
_
Y
_
Obtemos as derivadas de Q com relao a e encontramos:
Q
= 2X
+ 2X
Igualamos a zero e obtemos as conhecidas equaes normais (EN) na

seqncia. Assim, temos:
2X
+ 2X
= 0
X
= X
(3.3)
em que

o estimador de mnimos quadrados do parmetro .

38 Regresso Linear
A matriz de derivadas parciais ou de modelo X, em geral, possui posto
coluna completo nos modelos de regresso. Assim, a matriz X
X possui
inversa nica e a soluo do sistema :
= (X
X)
1
X
(3.4)
O valor esperado de Y
E(Y
) = X
. Podemos obter os valores esti-

mados substituindo
por

. Assim, os valores preditos so dados por:
= X

(3.5)
importante obtermos as somas de quadrados do modelo e do resduo,
para aplicar uma anlise de varincia e realizarmos inferncia a respeito do
modelo ajustado. Nenhuma pressuposio foi feita at o momento sobre a
distribuio dos resduos, mas se temos a inteno de realizar inferncias
necessrio pressupormos normalidade e ainda distribuio idntica e inde-
pendente de todos os componentes do vetor de resduos. Podemos estimar
Q substituindo
por

. Obtemos aps algumas simplicaes:
Q = Y
Assim, podemos interpretar esta expresso da seguinte forma:

SQRes = SQTotal no corrigida SQModelo
Assim, a soma de quadrados de modelo dada por:
SQModelo =

(3.6)
Os graus de liberdade associado ao modelo igual ao posto coluna da
matriz X. Se esta matriz tem posto coluna completo m + 1, conclumos
que a soma de quadrados do modelo est associada a m+ 1 graus de liber-
dade e a soma de quadrados do resduo a n m1 graus de liberdade. O
que fazemos denir sub-modelos a partir do modelo completo com m+ 1
3.1 Mtodo dos Quadrados Mnimos 39
parmetros. Desta forma podemos denir dois tipos bsicos de soma de qua-
drados: a seqencial (tipo I) e a parcial (tipo II). Na seqencial tomamos o
modelo completo e o reduzimos eliminando a varivel m. Obtemos a soma
de quadrado do modelo completo, que representamos por R(
0
,
1
, ,
m
),
e a do modelo reduzido, representada por R(
0
,
1
, ,
m1
). A nota-
o R indica uma reduo particular do modelo que estamos abordando.
Se tomarmos a diferena da soma de quadrados dos dois modelos teremos
R(
m
/
0
,
1
, ,
m1
) = R(
0
, ,
m
)-R(
0
, ,
m1
). Se do modelo
com m1 variveis eliminarmos a ltima e repetirmos este procedimento,
teremos a soma de quadrado da (m1)-sima varivel ajustada para todas
as outras que a precedem. Se zermos isso repetidas vezes at reduzirmos
o modelo ao termo constante apenas, teremos as somas de quadrados de
cada varivel ajustada para todas as outras que a precedem, ignorando as
variveis que a sucedem. Esta a soma de quadrados tipo I ou seqencial.
Para obtermos as somas de quadrados parciais ou do tipo II, devemos
a partir do modelo completo formar um novo modelo eliminando uma das
variveis. A soma de quadrados do modelo reduzido comparada com a
soma de quadrado do modelo completo e a sua diferena a soma de qua-
drados do tipo II. Assim, teremos o ajuste de cada varivel para todas as
outras do modelo. Podemos perceber que as somas de quadrados tipo I e
tipo II da m-sima varivel so iguais. Via de regra as somas de quadrados
tipo I e tipo II no sero iguais para as demais variveis, a menos de orto-
gonalidade. Podemos resumir o dois tipos de somas de quadrados conforme
esquema apresentado na Tabela 3.1.
Tabela 3.1: Tipos de somas de quadrados de um modelo de regresso con-
tendo m variveis.
FV SQ Tipo I SQ Tipo II
X
1
R(
1
/
0
) R(
1
/
0
,
2
, ,
m
)
X
2
R(
2
/
0
,
1
) R(
2
/
0
,
1
, ,
m
)
.
.
.
.
.
.
.
.
.
X
m
R(
m
/
0
,
1
, ,
m1
) R(
m
/
0
,
1
, ,
m1
)
Uma forma alternativa bastante til para podermos obter as somas de
40 Regresso Linear
quadrados tipo II baseada no mtodo da inversa de parte da inversa de
Searle (1971, 1987)[12, 13]. Por este mtodo podemos obter as somas de
quadrados tipo II de uma forma mais direta do que por reduo de modelos.
Vamos apresentar o mtodo no contexto de regresso linear na seqncia.
Seja a matriz (X
X)
1
denida por:
(X
X)
1
=
_
_
x
00
x
01
x
0m
x
10
x
11
x
1m
.
.
.
.
.
.
.
.
.
.
.
.
x
m0
x
m1
x
mm
_
_
(3.7)
Assim, para obtermos a soma de quadrados do tipo II para a varivel
X
h
podemos simplesmente calcular:
R(
h
/
0
, ,
h1
,
h+1
, ,
m
) =
2
h
x
hh
(3.8)
3.2 Um Exemplo de Regresso Pelo Proc IML
Vamos mostrar um exemplo de um ajuste de um modelo de regresso
utilizando o proc iml. O objetivo mostrar todos os clculos utilizando as
frmulas anteriormente apresentadas por meio de um programa matricial.
Seja para isso um exemplo em que a varivel X representa o nmero de horas
de exposio solar de uma planta e a varivel resposta Y o crescimento da
planta. Os dados deste exemplo esto apresentados na Tabela 3.2.
Vamos ajustar um modelo linear quadrtico do tipo:
Y
i
=
0
+
1
X
i
+
2
X
2
i
+
i
(3.9)
em que
0
,
1
e
2
so os parmetros que desejamos estimar.
Para este modelo vamos estimar os parmetros e obter as somas de
quadrados dos tipos I e II utilizando o proc iml. A matriz X do modelo
dada por:
3.2 Um Exemplo de Regresso Pelo Proc IML 41
Tabela 3.2: Crescimento de uma planta Y aps ser submetida a um tempo
X de exposio solar em horas.
X Y
0,1 0,88
0,2 0,90
0,3 0,99
0,5 1,12
0,8 1,40
1,0 1,62
1,5 2,20
2,0 3,10
X =
_
_
1 0, 1 0, 01
1 0, 2 0, 04
1 0, 3 0, 09
1 0, 5 0, 25
1 0, 8 0, 64
1 1, 0 1, 00
1 1, 5 2, 25
1 2, 0 4, 00
_
_
O vetor de parmetros dado por:
=
_
2
_
_
O vetor de observaes dado por:
42 Regresso Linear
Y
=
_
_
0, 88
0, 90
0, 99
1, 12
1, 40
1, 62
2, 20
3, 10
_
_
Desta forma podemos formular o programa IML para ajustar este mo-
delo e obter as somas de quadrados e testes de hipteses relativo aos parme-
tros. Vamos apenas ilustrar uma parte de todos os clculos, pois felizmente
podemos utilizar o proc reg do SAS que nos fornece todas as estimativas
e testes de hipteses que desejarmos, com comando mais simples. O nosso
objetivo possibilitar ao leitor obter um maior conhecimento de todo o
processo de regresso linear. O programa resultante desta anlise :
/*Exemplo de programa IML para realizar regresso linear.*/
proc iml;
x={ 1 0.1 0.01,
1 0.2 0.04,
1 0.3 0.09,
1 0.5 0.25,
1 0.8 0.64,
1 1.0 1.00,
1 1.5 2.25,
1 2.0 4.00};
y={ 0.88,
0.90,
0.99,
1.12,
1.40,
1.62,
2.20,
3.10};
/*modelo completo y = b0 + b1x + b2x
2
*/
n=nrow(y);
xlx=t(x)*x;
xly=t(x)*y;
print xlx xly;
ixlx=inv(xlx);
print ixlx;
betam1=ixlx*xly;
print betam1;
/*somas de quadrados*/
glm1=3;
sqb0b1b2=t(betam1)*xly;
sqtotal=t(y)*y;
sqresm1=sqtotal-sqb0b1b2;
glrm1=n-glm1;
print sqb0b1b2 sqtotal sqresm1;
/*Soma de quadrados do tipo II*/
sqb1=betam1[2]**2/(ixlx[2,2]);
sqb2=betam1[3]**2/(ixlx[3,3]);
print sqb1 sqb2;
/*teste t H0 bi=0*/
b0=betam1[1];
tcb0=(b0-0)/(ixlx[1,1]*sqresm1/glrm1)**0.5;
prtcb0=2*(1-probt(abs(tcb0),glrm1));
print b0 tcb0 prtcb0;
b1=betam1[2];
b2=betam1[3];
quit;
Os principais resultados obtidos neste procedimento so apresentados
na seqncia. Iniciamos pelas matrizes X
X e X
, dadas por:
44 Regresso Linear
X
X =
_
_
8 6, 4 8, 28
6, 4 8, 28 13, 048
8, 28 13, 048 22, 5444
_
_
e
X
=
_
_
12, 21
13, 365
20, 2799
_
_
A matriz inversa (X
X)
1
dada por:
(X
X)
1
=
_
_
0, 7096 1, 5667 0, 6461
1, 5667 4, 8322 2, 2213
0, 6461 2, 2213 1, 0927
_
_
Finalmente, o vetor
estimado por:
=
_
_
0, 8289504
0, 4048794
0, 3607692
_
_
Portanto, o modelo de regresso ajustado

Y
i
= 0, 8289504 + 0, 4048794
X
i
+ 0, 3607692X
2
i
. O grco desta funo quadrtica est apresentado na
Figura (3.1)
As somas de quadrados para modelo (
0
,
1
,
2
), total no corrigido e
resduo foram iguais a 22, 84906, 22, 8533 e 0, 0042399, respectivamente.
O R
2
, proporo da variao total corrigida explicada pelo modelo de re-
gresso, dado por: R
2
= 1 sqresduo/sqtotal corrigida = 99, 90%. Um
excelente ajuste foi encontrado, mas necessrio que se faa a anlise de
resduo para termos uma conrmao disto, o que no ser feito neste ins-
tante. A soma de quadrado total corrigida foi obtida por SQtotal nc =
sqtotal c G
2
/n, em que G =
n
i=1
Y
i
= 12, 21.
5
3
1
x
3,5 3 2,5 2 1,5 0,5 0
6
4
2
1
Figura 3.1: Equao quadrtica resultante do ajuste de quadrados mnimos
do exemplo tratado.
No passo seguinte obtivemos as somas de quadrados do tipo II para X
e X
2
por 0, 4048794
2
/4, 8322 = 0, 03392 e 0, 3607692
2
/1, 0927 = 0, 1191,
respectivamente. Podemos efetuar um teste F para a hiptese H
0
:
i
= 0
se desejarmos, dividindo o quadrado mdio do tipo II de cada varivel pelo
quadrado mdio do erro e calcularmos o valor-p utilizando a distribuio
F de Snedecor. O quadrado mdio do tipo II para cada parmetro igual
a soma de quadrados, pois est associado a 1 grau de liberdade. Final-
mente podemos utilizar o teste t de Student para obtermos um teste de
hiptese equivalente ao realizado pelo teste F, baseado em somas de qua-
drados parciais ou somas de quadrados do tipo II. Este teste est descrito
formalmente nas equaes (3.13) a (3.16). Os resultados destes testes de
hiptese bilateral esto apresentados na Tabela 3.3.
Podemos fazer muitas outras anlises no proc iml. Isso no ser neces-
srio, pois o SAS possui alguns procedimentos apropriados para lidarmos
com ajustes de modelos lineares. Entre estes procedimentos destacamos o
46 Regresso Linear
Tabela 3.3: Testes de hiptese do tipo H
0
:
i
= 0, com i = 0, 1, 2 utilizando
a distribuio t de Student com = 5 graus de liberdade.
Parmetro Estimativa t
c
Pr(t > |t
c
|)
0
0,82895 33,793 4, 267 10
7
1
0,40488 6,325 0, 0014562
2
0,36077 11,852 0, 0000753
proc reg, para o qual, anteriormente, j apontamos suas principais caracte-
rsticas, ou seja, as anlises com que capaz de lidar. Como o IML um
procedimento poderoso, mas que requer conhecimentos especiais de estats-
tica e de lgebra matricial, no abordaremos mais o proc iml, neste captulo.
Faremos todas as anlises de modelos lineares de regresso utilizando o proc
reg.
3.3 O Proc Reg
Vamos apresentar o proc reg para realizarmos o ajuste do modelo ante-
rior e em seguida apresentaremos um exemplo de regresso mltipla, onde
aparentemente ocorre um resultado paradoxal na inferncia realizada. Uti-
lizamos este exemplo para elucidar aspectos de testes de hipteses que so
muitas vezes ignorados. Inicialmente vamos apresentar os comandos neces-
srios para ajustarmos o modelo (3.9). O proc reg no permite a criao
de variveis no prprio modelo como faz um outro procedimento do SAS
chamado glm. Neste caso, devemos criar o arquivo de dados e aps o input
criar a varivel X2 = X
2
. Assim, criamos nosso arquivo com as variveis
necessrias e o programa simplicado para o ajuste dado por:
/*Exemplo do proc reg para realizar regresso linear.*/
data rlq;
input x y;
x2=x**2;
cards;
0.1 0.88
3.3 O Proc Reg 47
0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20
2.0 3.10
;
proc reg data=rlq;
model y=x x2/ss1 ss2;
run;quit;
A linha de comando do proc reg dada por <model y=x x2/ss1 ss2;>,
nos permite fazer o ajuste do modelo (3.9). As opes ss1 e ss2 solicitam o
clculo das somas de quadrados dos tipos I e II. No necessitamos especicar
nada mais, pois por default o SAS apresenta as estimativas dos parmetros
do modelo com seus erros padres e testes de hipteses associados, a anlise
de varincia, o R
2
, mdia geral e algumas outras estimativas de parmetros
especcos. O teste F da anlise de varincia est relacionado a seguinte
hiptese:
_
H
0
:
1
=
2
=
3
= =
m
= 0
H
1
:
i
= 0 Para algum i = 1, 2, , m
(3.10)
Neste exemplo observamos que o F observado foi igual a 2484, 4 e o -
valor associado Pr(F > F
c
) < 0, 0001. Assim a hiptese nula global de que
nenhuma varivel explica signicativamente a variao na varivel resposta
Y
i
foi rejeitada. O SAS realiza o teste t para as hipteses do tipo H
0
:
i
= 0,
i = 1, 2, , m. Neste exemplo os valores da estatstica t e as respectivas
signicncias esto apresentadas na Tabela 3.3. Conclumos que ambas
as variveis tem efeito signicativamente diferente de zero na variao de
Y . O teste t de Student equivalente ao teste F parcial. Embora este
teste tenha sido aplicado por ser padro no SAS, conveniente utilizar
para este exemplo um teste seqencial. Isto porque esta anlise refere-se
ao ajuste de um modelo polinomial e usualmente nestes casos utilizamos
48 Regresso Linear
testes que envolvem somas de quadrados tipo I. Este tipo de procedimento
comumente encontrado nos livros de estatstica experimental.
Vamos apresentar um segundo exemplo, como dissemos anteriormente,
para elucidarmos alguns pontos interessantes da anlise de regresso linear.
Nosso exemplo, refere-se a uma amostra de n = 10 rvores, na qual foram
mensurados o volume (Y ), em m
3
.acre
1
, sendo que 1 acre igual a 4.064
m
2
, a rea basal (X
1
) em dm
2
, a rea basal tomada em % em relao rea
de outra espcie (X
2
) e a altura em ps (X
3
) (1 p = 30, 48 cm). Na Tabela
3.4 temos os dados amostrados na populao de Araucaria angustifolia.
Tabela 3.4: Dados de uma amostra de n = 10 rvores de araucria (Arauca-
ria angustifolia) mensuradas em relao ao volume Y , rea basal X
1
, rea
basal relativa X
2
e altura em ps X
3
.
Y X
1
X
2
X
3
65 41 79 35
78 71 48 53
82 90 80 64
86 80 81 59
87 93 61 66
90 90 70 64
93 87 96 62
96 95 84 67
104 100 78 70
113 101 96 71
Vamos inicialmente ajustar um modelo linear simples para cada varivel
utilizando o modelo linear dado por:
Y
i
=
0
+
1
X
hi
+
i
, Para h = 1, 2 ou 3, i = 1, 2, , n (3.11)
O programa para realizarmos estes ajustes, para cada uma das variveis
regressoras, mas de forma simultnea simultnea, dado por:
3.3 O Proc Reg 49
/*Exemplo do proc reg para realizar regresso linear.*/
data arvores;
input y x1 x2 x3;
datalines;
65 41 79 35
78 71 48 53
82 90 80 64
86 80 81 59
87 93 61 66
90 90 70 64
93 87 96 62
96 95 84 67
104 100 78 70
113 101 96 71
;
proc reg data=arvores;
model y=x1;
model y=x2;
model y=x3;
run;quit;
Na Tabela 3.5 apresentamos os resultados mais importantes destes ajus-
tes, que iremos mencionar futuramente. Selecionamos o F calculado e sua
signicncia e o R
2
do modelo.
Tabela 3.5: Resultados mais importantes do ajuste dos modelos lineares
simples para os dados dos volumes das n = 10 rvores de araucria Arau-
caria angustifolia.
Modelo F
c
Pr(F > F
c
) R
2
1: E(Y
i
) =
0
+
1
X
1i
24,17 0,0012 0,7513
2: E(Y
i
) =
0
+
1
X
2i
2,43 0,1579 0,2328
3: E(Y
i
) =
0
+
1
X
3i
24,73 0,0011 0,7556
Observamos que o modelo 2 no se ajustou aos dados, embora isso fosse
esperado, uma vez que a varivel X
2
resultante de uma medida relativa
entre uma varivel mensurada diretamente na espcie e outra medida em
outra espcie. Portanto, o resultado perfeitamente justicvel, pois a
50 Regresso Linear
covariao existente entre X
2
e Y pode ser atribuda meramente fatores de
acaso. As demais variveis apresentam explicaes signicativas (P < 0, 05)
da variao que ocorre na varivel resposta, com R
2
igual a 75, 13% para
X
1
e 75, 56% para X
3
. Agora vamos ajustar o modelo linear mltiplo dado
por:
Y
i
=
0
+
1
X
1i
+
2
X
2i
+
3
X
3i
+
i
(3.12)
O programa SAS, que faz uso do proc reg para ajustar o modelo 3.12,
dado por:
/*Exemplo do proc reg para realizar regresso linear mltipla.*/
data arvores;
input y x1 x2 x3;
datalines;
65 41 79 35
78 71 48 53
82 90 80 64
86 80 81 59
87 93 61 66
90 90 70 64
93 87 96 62
96 95 84 67
104 100 78 70
113 101 96 71
;
model y=x1 x2 x3;
run;quit;
Os principais resultados obtidos do ajuste do modelo 3.12 so apresen-
tados e discutidos na seqncia. A princpio, vamos apresentar (Tabela 3.6)
o resumo da anlise de varincia.
Podemos concluir que pelo menos uma varivel explica signicativa-
mente a variao que ocorre na varivel resposta Y , ou seja, a hiptese
nula (3.10) deve ser rejeitada se for considerado o nvel nominal de 5%.
3.3 O Proc Reg 51
Tabela 3.6: Resumo da anlise de varincia do ajuste de regresso mltipla
aos dados do volume das rvores de araucria.
FV GL QM F
c
Pr(F > F
c
)
Regresso 3 455, 85296 10, 65 0, 0081
Erro 6 42, 80685
Total Corrigido 9
Na Tabela 3.7 apresentamos os testes t de Student para a hiptese nula
H
0
:
h
= 0, em que h = 1, 2, 3. Devemos neste instante apresentar a ex-
presso geral para realizarmos os testes de hipteses sobre componentes do
vetor de parmetros. A varincia do estimador do vetor de parmetros
dada por:
V
_
_
= (X
X)
1
2
(3.13)
O estimador desta varincia obtido substituindo a varincia param-
trica pelo estimador da varincia (S
2
= QME). Assim, temos o estimador
da varincia do estimador dos parmetros dada por:
V
_
_
= (X
X)
1
S
2
(3.14)
Desta forma, o erro padro de

i
dado por:
S
(
i
)
=
_
x
ii
S
2
(3.15)
em que x
ii
o elemento correspondente a i-sima diagonal da matriz inversa
(X
X)
1
.
Logo, o teste t de Student para a hiptese H
0
:
i
=
0
, em que
0
uma
constante real de interesse pode ser aplicado, pois sob H
0
a distribuio da
estatstica do teste dada por
t
c
=

0
S
(
i
)
(3.16)
52 Regresso Linear
t de Student com = n m1 graus de liberdade.
O SAS testa a hiptese nula, assumindo que a constante
0
igual a
zero. Os resultados para este caso esto apresentados na Tabela 3.7.
Tabela 3.7: Estimativas dos parmetros e teste t de Student para a nulidade
das estimativas.
Parmetros Estimativas S
(
i
)
t
c
Pr(t > |t
c
|)
0
-33,82268 75,35853 -0,45 0,6693
1
-2,22672 4,02805 -0,55 0,6004
2
0,26976 0,15332 1,76 0,1290
3
4,76590 6,78649 0,70 0,5088
Quando observamos os resultados dos testes de hipteses na Tabela 3.7,
vericamos que nenhuma varivel explicou signicativamente a variao da
varivel resposta Y . Este resultado aparentemente contraditrio ao re-
sultado do teste da hiptese global do modelo de regresso, hiptese esta
que foi signicativamente rejeitada. Este suposto paradoxo na verdade
um problema de interpretao do que est sendo realmente testado pelos
testes t individuais. O que ocorre que o teste t equivalente ao teste F,
obtido a partir das somas de quadrados parciais ou do tipo II. Assim, o que
o t realmente testa a contribuio de uma varivel, eliminando a expli-
cao das demais variveis no modelo. Ento, se a explicao da varivel
para a variao de Y for expressiva, aps ser eliminada a redundncia da
informao com as outras variveis do modelo, a estatstica do teste tender
a pertencer a regio crtica. Essa redundncia dependente da estrutura
de correlao existente entre a varivel que est sendo testada e as demais
variveis do modelo.
O que acontece neste exemplo que temos uma forte estrutura de corre-
lao entre as trs variveis do modelo e, portanto, na presena das outras,
a varivel que est sendo testada no contribui com uma explicao signi-
cativa da variao total. Podemos perceber que duas das variveis que apre-
sentaram resultados no signicativos para o teste t, so individualmente
importantes para a variao do volume, pois apresentaram signicncias
menores que 5% nos testes individuais. Portanto, no tem nada de parado-
3.3 O Proc Reg 53
xal nos resultados encontrados. O que temos so variveis correlacionadas
que no necessitariam estar todas no modelo e parte delas nem precisaria
ser mensurada, onerando menos os experimentos de campo.
Um outro parmetro que estimado pelo proc reg o R
2
, o qual mede
a proporo da variao do total dos dados que explicada pelo modelo de
regresso. Um outro importante parmetro o coeciente de determinao
ajustado (R
2
Aj.
). Este ajuste, feito para o nmero de parmetros no modelo,
fornece uma medida mais adequada para comparar modelos com diferentes
quantidades de parmetros. O R
2
ajustado dado por:
R
2
Aj.
= 1
n i
n p
_
1 R
2
_
(3.17)
em que n o tamanho da amostra, p o nmero de parmetros (incluindo o
intercepto) e i igual a 1, se o modelo inclui o intercepto ou 0, se o modelo
no inclui
0
.
Duas opes interessantes para calcularmos as somas de quadrados tipos
I e II so dadas por SS1 e SS2. Estas opes devem aparecer aps o modelo.
Para isso, ao terminarmos de especicar o modelo, colocamos uma barra /
e em seguida as opes SS1 e SS2. O programa simplicado ilustrando o
uso das opes SS1 e SS2 dado por:
/*Exemplo do proc reg para realizar regresso linear mltipla utilizando SS1 e SS2.*/
model y=x1 x2 x3/ss1 ss2;
run;quit;
Juntamente com as estimativas dos parmetros podemos observar as
somas de quadrados tipo I e II resultantes das opes de modelo utilizadas.
Outros comandos que so importantes no proc reg so: p, clm e cli. Estas
opes nos possibilitam predizer os valores de Y
i
, estimar por intervalo de
conana o valor mdio da resposta (clm) ou intervalo de conana para
uma predio estocstica ou predio futura (cli). Para apresentarmos estes
conceitos, sejam Y
i
a observao da varivel resposta na i-sima unidade
54 Regresso Linear
amostral e o vetor z
i
= [1 X
1i
X
2i
X
mi
]
o vetor de variveis
regressoras, incluindo a indicadora do intercepto, ento o valor predito

Y
i

dado por:
Y
i
= z
0
+

1
X
1i
+ +

1
X
mi
(3.18)
Este vetor z
i
no necessita necessariamente ser observado entre o con-
junto de observaes. O estimador do erro padro desta predio para o
intervalo da mdia (clm) dado por:
S(
Y
i
) =
_
z
(X
X)
1
z
S
2
(3.19)
O intervalo de conana clm dado por:
Y
i
t
/2,
S(
Y
i
) (3.20)
Se diferenciarmos a predio futura da predio mdia simplesmente
utilizando a notao

Y
i
, mas mantivermos a mesma combinao linear de-
terminada pelo vetor z
, teremos o intervalo de conana cli dado por:
Y
i
t
/2,
S(
Y
i
) (3.21)
Este intervalo distingue-se do anterior somente pelo estimador do erro
padro do valor da predio futura, o qual envolve uma varincia residual a
mais em relao ao erro padro da predio do valor mdio. Este estimador
do erro padro da predio futura dado por:
S(
Y
i
) =
_
_
1 + z
(X
X)
1
z
_
S
2
(3.22)
O programa SAS simplicado para ilustrarmos o uso destas opes est
apresentado na seqncia. Podemos especicar o valor de com a opo
alpha=0.05. Claro que se o valor de 5% for mantido, que o padro, esta
opo no precisa ser utilizada.
3.3 O Proc Reg 55
/*Exemplo do proc reg para realizar regresso linear mltipla utilizando p clm e cli.*/
model y=x1 x2 x3/alpha=0.05 p clm cli;
run;quit;
Podemos utilizar ainda algumas outras opes do modelo de regres-
so. Particularmente interessante so os coecientes de determinaes semi-
parciais dos tipos I e II. Os comandos para obtermos estas correlaes semi-
parciais quadrticas so scorr1 e scorr2. Os coecientes de determinao
semi-parciais so estimados por:
R
2
sp1
=
R(
h
/
0
, ,
h1
)
SQtotal corrigida
(3.23)
e
R
2
sp2
=
R(
h
/
0
, ,
h1
,
h+1
, ,
m
)
SQtotal corrigida
(3.24)
em que R
2
sp1
e R
2
sp2
so os coecientes de determinao semi-parciais dos
tipos I e II, respectivamente, para a h-sima varivel.
Tambm so teis os coecientes de determinao parciais dos tipos I
e II. As opes que devemos utilizar so, respectivamente, pcorr1 e pcorr2.
Os estimadores correspondentes so dados por:
R
2
p1
=
R(
h
/
0
, ,
h1
)
R(
h
/
0
, ,
h1
) +SQE
(3.25)
em que SQE
a soma de quadrados do erro resultante do ajuste de um

modelo contendo as variveis X
1
, X
2
, , X
h
e
R
2
p2
=
R(
h
/
0
, ,
h1
,
h+1
, ,
m
)
R(
h
/
0
, ,
h1
,
h+1
, ,
m
) + SQE
(3.26)
em que SQE a soma de quadrados do erro resultante do ajuste do modelo
completo.
56 Regresso Linear
/*Exemplo do proc reg para realizar regresso linear mltipla e ilustrar a obteno dos
coecientes de determinao parciais e semi-parciais.*/
model y=x1 x2 x3/ss1 ss2 scorr1 scorr2 pcorr1 pcorr2;
run;quit;
3.4 Seleo de Modelos
A seleo de modelos bastante interessante na pesquisa cientca, pois
muitas vezes temos variveis correlacionadas que no contribuem para a
variao da varivel resposta de forma signicativa, na presena das outras.
Dizemos que existe uma redundncia da informao. Assim, procedimentos
para selecionarmos modelos de regresso linear so importantes no sentido
de evitarmos a incluso em um modelo de variveis que so correlacionadas
com outras variveis candidatas. Evitamos com isso mensuraes desneces-
srias e onerosas. O SAS nos permite utilizar diferentes mtodos de seleo
de modelos, quais sejam, forward, backward, stepwise, maxr, minr, rsquare,
adjrsq, cp ou none (usar o modelo completo). Cada um destes mtodos
tem uma caracterstica especial. Enfocaremos nesta seo apenas os trs
primeiros: forward, backward e stepwise.
Vamos apresentar algumas caractersticas de cada um destes trs mto-
dos escolhidos. Vamos iniciar pelo forward. Neste mtodo as m variveis
regressoras so submetidas a um ajuste individual (modelo linear simples).
Cada modelo deste ajustado e entre aqueles modelos em que as vari-
veis regressoras apresentaram teste F parcial signicativo para a hiptese
H
0
:
h
= 0, xado o valor de , devemos escolher aquela varivel que apre-
sentou maior valor desta estatstica ou equivalentemente, aquela que apre-
sentou maior R
2
parcial. A varivel escolhida xada no modelo e todas as
outras so introduzidas um a uma neste modelo, formando m1 modelos de
duas variveis. Estes modelos so formados pela varivel escolhida no passo
1 com a outra escolhida entre as variveis candidatas a entrar neste modelo.
Novamente entre aquelas variveis que apresentaram F parcial signicativo
3.4 Seleo de Modelos 57
na presena da varivel selecionada no primeiro passo, escolhemos aquela
de maior F parcial ou R
2
parcial. Se nenhuma varivel apresentou signi-
cncia para entrar, encerramos o processo e camos com um modelo com a
varivel que entrou no primeiro passo. Se uma das candidatas foi escolhida,
formamos um modelo com esta varivel e aquela escolhida no passo 1. As
variveis candidatas so testadas uma por vez na presena destas duas va-
riveis e todo o processo repetido. Devemos parar quando nenhuma das
candidatas atingiu o nvel de signicncia estabelecido a priori para entrar
no modelo ou quando no temos mais variveis candidatas para entrar.
O procedimento stepwise muito parecido com o forward, exceto pelo
fato de que em cada passo, aps a entrada de uma das variveis candidatas,
devemos testar as variveis que estavam no modelo. Se uma ou mais delas
apresentarem F parcial no signicativo, aquela que tiver menor valor de
F parcial deve sair do modelo. Esta sada de apenas uma varivel por
vez, at no ter mais variveis no modelo que apresentem F parcial no
signicativos. As variveis que saram do modelo, no so mais candidatas
a entrar. As variveis remanescentes, candidatas a entrar no modelo, so
colocadas um por vez no modelo nal e o processo continua com entradas
e sadas at no termos mais candidatas para entrarem ou as candidatas
no atingirem o nvel mnimo de signicncia para entrarem no modelo e
as variveis do modelo forem todas signicativas.
O procedimento de backward testa todas as variveis candidatas simul-
taneamente. Entre aquelas que apresentarem F parciais no signicati-
vos, a que tiver menor valor observado deve sair do modelo. Se todas as
variveis no modelo apresentarem F parciais signicativos, em um nvel
pr-estabelecido de signicncia para a permanncia no modelo, ento
encerramos o processo. Neste caso o modelo resultante ser o completo. Se
por outro lado, for eliminada um varivel, o procedimento repetido para
as m1 variveis remanescentes. Paramos o processo se todas as variveis
de um passo apresentarem F parcial signicativo ou se modelo resultar em
um modelo nulo, somente com o intercepto.
Devemos especicar para o SAS o nvel de signicncia de permanncia
ou de entrada das variveis do modelo. No forward devemos especicar
somente o nvel de signicncia de entrada, no backward, o nvel de signi-
58 Regresso Linear
cncia de permanncia e no stepwise, os dois nveis de signicncia, de
permanncia e de entrada. Os comandos que devemos usar so slstay para
nvel de signicncia de permanncia e slentry para entrada.
O comando que utilizamos para indicarmos que utilizaremos um m-
todo de seleo de modelos o selection=method. O programa SAS para
realizarmos a escolha de modelos de regresso, para os dados das rvores,
dado por:
/*Exemplo do proc reg para realizar seleo de modelos de regresso linear mltipla.*/
model y=x1 x2 x3/selection=backward slstay=0.05;
model y=x1 x2 x3/selection=forward slentry=0.05;
model y=x1 x2 x3/selection=stepwise slentry=0.05 slstay=0.05;
run;quit;
Nos trs mtodos obtivemos o mesmo modelo ajustado, da varivel res-
posta Y em funo da varivel X
3
. Algumas vezes os procedimentos podem
resultar em concluses conitantes quanto ao modelo e o pesquisador deve
escolher o que melhor lhe convier. Esta escolha, entre outras coisas, pode
ser embasada na anlise de resduos e na qualidade da predio da varivel
aleatria Y .
3.5 Diagnstico em Regresso Linear
Seja o modelo de regresso linear dado por
Y
= X
em que Y
o vetor de observaes de dimenses n 1; X a matriz do

modelo de dimenses n (m + 1) das derivadas parciais de Y
i
em relao
aos parmetros;
o vetor de parmetros [(m + 1) 1]; e
o vetor de
resduos (n 1) no observveis e com E
_
_
= 0
e V
_
_
= I
2
.
3.5 Diagnstico em Regresso Linear 59
Na metodologia clssica de modelos lineares, onde se encontram os mo-
delos de regresso linear, pressupomos que exista uma linearidade nos pa-
rmetros do preditor e aditividade dos erros e, ainda, que os erros so inde-
pendentes, tm mdia zero, varincia constante e que sua distribuio seja
normal, ou seja,
i
iid
N(0,
2
). Alm disso outras condies so importan-
tes, como por exemplo, supomos que algumas poucas observaes no devam
ter inuncia demasiada sobre as estimativas dos parmetros do modelo e
de suas varincias. Assim, diagnsticos numricos so funes dos dados cu-
jos valores permitem detectar respostas que so anormalmente grandes ou
pequenas (outliers ou valores discrepantes) ou que esto afastadas do grupo
majoritrio dos dados, inuenciando em demasia o ajustamento. Assim,
temos interesse particular nas anlises denominadas de inuncia, onde uti-
lizamos um conjunto de tcnicas destinadas a deteco de pontos inuentes
e/ou discrepantes que podem afetar o ajustamento.
Muitas causas podem ser atribudas a alguns problemas normalmente
encontrados na anlise de regresso. Algumas destas possibilidades so,
entre outras, devidas medidas erradas ou erro no registro da realizao da
varivel resposta, ou ainda, erros de transcrio; observaes tomadas em
condies distintas das demais; modelo mal especicado; e distribuio no
normal dos resduos, apesar de o modelo e a escala estarem corretos.
A forma utilizada normalmente para vericar a inuncia de uma obser-
vao retir-la do modelo e vericar como as estimativas dos parmetros,
predies e varincias so afetadas. Assim, se retirarmos a i-sima observa-
o e reestimarmos as quantidades mais importantes do modelo, poderemos
avaliar a inuncia da observao retirada na estimao destes parmetros
de interesse. Podemos, no entanto, evitar que todos os clculos sejam refei-
tos, utilizando algumas relaes e propriedades apresentadas por Velleman
e Welsch, (1981)[16]. Vrios mtodos de avaliar a inuncia de observaes
no ajuste de um modelo de regresso linear so apresentados por Chatterjee
e Hadi (1986)[2].
3.5.1 Anlise de resduos
O preditor dos resduos dado por:
60 Regresso Linear
e
= Y
(3.27)
Podemos reescrever o erro como uma combinao linear de Y
por:
e
= Y
X(X
X)
1
X
= [I X(X
X)
1
X
]Y
A matriz X(X
X)
1
X
denominada projetor e representada por P,

pois projeta o vetor de observaes Y
, n-dimensional, no sub-espao (m+1)-

dimensional. Aplicando esta matriz ao vetor de observaes, obtemos o
vetor de valores preditos

Y
, ou seja,

Y
= PY
. Na anlise de regresso linear

simples, a matriz P denominada de matriz Hat e representada por H.
Vamos representar a i-sima observao pelo vetor composto por [Y
i
z
i
,
sendo que z
i
= [1 X
1i
X
2i
X
mi
]
o vetor dos elementos da i-

sima linha da matriz X do modelo. O elemento da diagonal correspondente
na matriz H denominado simplesmente por h
i
. Assim,
e
= (I H)Y
(3.28)
o preditor do vetor de erros, que equivalente a equao (3.27).
A esperana de e
dada por:
E
_
e
_
=E
_
(I H)Y
_
= (I H)E
_
Y
_
=[I X(X
X)
1
X
]X
= X
X(X
X)
1
X
=X
= 0
Assim, a covarincia do vetor de resduos preditos :

V
_
e
_
=(I H)V
_
Y
_
(I H) = (I H)I
2
(I H)
=(I H)(I H
)
2
= (I H) (I H)H
=(I H H
+HH
)
2
= (I H H +H)
2
=(I H)
2
Para a i-sima observao temos que a varincia V (e
i
) dada por:
V (e
i
) = (1 h
i
)
2
(3.29)
em que e
i
o i-simo elemento do vetor de resduos preditos, ou seja, o
erro predito para a i-sima observao. Neste contexto denominado de
resduo ordinrio.
O problema bsico destes resduos que eles no so comparveis en-
tre si, por possurem varincias distintas. Devemos buscar alguma forma
de padronizao para termos a mesma disperso em todos os n resduos
preditos. Temos basicamente trs formas de padronizaes que podemos
efetuar e que discutiremos na seqncia. Podemos ter os resduos padroni-
zados, resduos estudentizados internamente e resduos estudentizados ex-
ternamente, tambm conhecidos por resduos de jackknife (Chatterjee e
Hadi, 1986[2]). Em todos os casos vamos substituir a varincia
2
pelo seu
estimador S
2
= QME.
A primeira opo, no computada pelo SAS, obtida pela diviso dos
resduos ordinrios pelo desvio padro S =
QME. Este artifcio reduz a

variabilidade a uma faixa especca, mas no elimina o problema de vari-
ncias distintas. Este resduo padronizado dado por:
z
i
=
e
i
S
(3.30)
Pela razo anteriormente apontada, os resduos estudentizados foram
propostos na literatura especializada. Os resduos estudentizados interna-
mente so obtidos por meio da razo entre o resduo ordinrio e o seu
estimador do erro padro especco, ou seja, por
r
i
=
e
i
_
(1 h
i
)S
2
(3.31)
Este tipo de resduo mais interessante que o anterior, devido ao fato
de considerar a varincia individual de cada resduo ordinrio. Entretanto,
se a i-sima observao for um outlier pode ocorrer que a estimativa da
varincia estar afetada por este valor.
62 Regresso Linear
A ltima proposta de padronizao foi feita para contornar este pro-
blema e tem ainda algumas propriedades mais interessantes do que as de-
mais formas de padronizao. Esta ltima padronizao resulta nos resduos
estudentizados externamente, tambm denominados de resduos de jackk-
nife. A idia eliminar a i-sima observao e obtermos uma estimador
da varincia, digamos, S
2
(i)
. O subscrito i apresentado entre parnteses foi
utilizado para indicar que se trata de um estimador aplicado a todos as
n 1 observaes resultante da eliminao da i-sima observao da amos-
tra completa. Felizmente, no precisamos reajustar o modelo eliminando
a i-sima observao para obtermos uma estimativa desta varincia (Chat-
terjee e Hadi, 1986[2]). Um estimador obtido a partir da anlise original
(Beckman e Trussell, 1974[1]) dado por:
S
2
(i)
=
(n m1)S
2
n m2

e
2
i
(n m2)(1 h
i
)
(3.32)
O resduo estudentizado externamente denido por:
t
i
=
e
i
_
(1 h
i
)S
2
(i)
(3.33)
Este resduo denominado por RSTUDENT na literatura especializada
de regresso. Observaes que apresentarem este tipo de resduo superior
em mdulo a 2, devem receber ateno especial. Existe uma preferncia por
este tipo de resduo na literatura e as razes para isso podem ser apontadas
(Chatterjee e Hadi, 1986[2]) por:
Os resduos estudentizados externamente t
i
sob a hiptese de norma-
lidade seguem a distribuio t de Student com = n m 2 graus
de liberdade, enquanto r
2
i
/(n m1) segue a distribuio beta;
podemos mostrar facilmente que:
t
i
= r
i
n m2
n m1 r
2
i
de onde se observa que t
i
uma transformao monotnica de r
i
e
que t
i
medida que r
i
(n m 1). Assim, t
i
reete um
resduo fora de faixa de forma mais acentuada do que faz r
i
; e
o estimador S
2
(i)
robusto grandes e grosseiros erros da i-sima
observao, ou seja, se esta observao for discrepante.
importante ressaltarmos que a deteco de valores discrepantes no
deve implicar em descarte automtico de observaes. possvel, por exem-
plo, que o valor discrepante se deva a erro de transcrio, situao em que
esse valor pode ser facilmente corrigido ou ento pode ser um indicativo de
modelo inadequado, possibilitando que modelos melhores sejam adotados e
ajustados.
3.5.2 Inuncia no Espao das Variveis Preditoras
Alm dos resduos podemos vericar a inuncia das observaes em
uma srie de quantidades importantes da anlise de regresso. Uma inte-
ressante medida de diagnstico o prprio elemento h
i
da matriz de proje-
o H. Esta estatstica denominada de inuncia (leverage). O critrio
utilizado baseado em algumas propriedades (Velleman e Welsch, 1981[16])
de h
i
, dadas por: 0 h
i
1 e
n
i=1
h
i
= (m + 1). Assim, o valor mdio da
inuncia (m+ 1)/n. Como h
i
=

Y
i
/Y
i
, uma estimativa igual a zero
indicativo de que no h inuncia no ajuste do modelo e uma estimativa
igual a 1, indicativo que um grau de liberdade foi efetivamente atribudo
ao ajuste daquela observao. O problema determinar quais observaes
amostrais tm alta inuncia no ajuste e, portanto, receber ateno espe-
cial. Se m > 14 e (nm) > 31 podemos utilizar o critrio de que a i-sima
observao merece ateno se h
i
> 2(m + 1)/n. Se estas condies envol-
vendo m e n no forem vericadas, podemos utilizar h
i
> 3(m+1)/n como
um melhor critrio.
Devemos chamar a ateno de que a inuncia medida pelo h
i
refere-se
ao papel das variveis regressoras (fatores). Assim, medimos a inuncia,
com h
i
, no espao dos fatores e, com a anlise de resduos, no espao da
varivel resposta. Assim, a inuncia pode ocorrer no espao dos fatores,
no espao das respostas ou em ambos os casos.
64 Regresso Linear
3.5.3 Inuncia no Vetor de Estimativas dos Parmetros
A idia de medir a inuncia da i-sima observao na estimativa do
vetor de parmetros pode ser desenvolvida a partir da eliminao desta ob-
servao. Aps esta eliminao, estimamos novamente os parmetros do
modelo e aplicamos uma medida de distncia entre as estimativas. Esta
distncia pode ser dada pela diferena entre as estimativas obtidas com
e sem a eliminao da i-sima observao. Em geral isso que fazemos,
tomando-se o cuidado apenas de padronizar os resultados. Seja

ij
, o esti-
mador do j-simo parmetro aps eliminarmos a i-sima observao, para
i = 1, 2, , n e j = 0, 1, , m. A estatstica que utilizaremos para isso
conhecida por DFBETA
ij
, em que DF so as iniciais de Deviation of
Fit. Por meio dela podemos determinar a inuncia de cada observao na
estimativa de cada parmetro do modelo. Esta estatstica dada por:
DFBETA
ij
=

ij
V
_
j
_ (3.34)
A diculdade obter as estimativas do vetor de parmetros para cada
um dos n casos, em que um das variveis eliminada. Felizmente, no
precisamos estimar n vezes o vetor de parmetros para calcularmos os
DFBETAS. Existe uma relao interessante (Chatterjee e Hadi, 1986[2])
para a diferena entre os vetor de estimativas com e sem a i-sima observa-
o que dada por:
(i)
=
1
1 h
i
(X
X)
1
Z
i
e
i
(3.35)
em que

(i)
o estimador do vetor de parmetros aps a eliminao da

i-sima observao.
Tambm sabemos que o vetor de estimadores dos parmetros dado
por:
= (X
X)
1
X
= CY
(3.36)
Assim, o DFBETA no padronizado dado por:
DFBETA
ij
= c
ji
e
i
1 h
i
(3.37)
em que c
ji
o elemento da j-sima linha e i-sima coluna da matriz C =
(X
X)
1
X
.
Se a expresso (3.37) for dividida pelo erro padro do vetor de par-
metros

V
_
j
_
, obteremos uma expresso equivalente (3.34). A expresso
resultante utilizada para obtermos os DFBETAS, sendo dada por:
DFBETA
ij
=
c
ji
t
i
_
(1 h
i
)C
j
C
j
(3.38)
em que C
j
vetor obtido a partir da j-sima linha da matriz C.

Estas estatsticas so muito dependentes do nmero de observaes,
sendo que tanto menor ser o efeito da observao sobre os valores de
DFBETAS, quanto maior for o nmero de observaes. Para estabele-
cer um valor limite para essa estatstica, podemos tomar como base o valor
limite para os resduos, que igual a 2. Assim, teremos que observaes
cujos |DFBETA
ij
| > 2/
n devem ter ateno especial, pois o vetor de

estimativas pode ter sofrido alteraes signicativas.
3.5.4 Inuncia no Vetor de Valores Preditos
O impacto da i-sima observao no i-simo valor predito pode ser me-
dido pela padronizao da mudana no valor predito na presena e ausncia
desta observao. A estatstica utilizada para fazer tal mensurao deno-
minada de DFFITS e dada por:
DFFITS
i
=
Y
i

Y
i(i)
_
(1 h
i
)S
2
(i)
= |t
i
|
_
h
i
1 h
i
(3.39)
Podemos vericar que quanto maior a inuncia da i-sima observao,
mais h
i
se aproxima de 1 e, conseqentemente, maior ser o coeciente |t
i
|.
66 Regresso Linear
Como vimos anteriormente h
i
/(1h
i
) est relacionada a uma medida da dis-
tncia entre as linhas de X. Assim, a grandeza do valor de DFFITS pode
ser atribuda discrepncia do valor da resposta, do conjunto de valores das
variveis preditoras ou de ambos. Um ponto geral para a determinao de
observaes inuentes considerado o valor 2. Um ponto de corte ajustado
para determinar a inuncia 2
_
(m+ 1)/n.
A distncia de Cook outra estatstica utilizada para medir a inuncia
de uma observao na predio dos valores da varivel resposta Y . Esta
estatstica pode ser vista como a distncia Euclidiana entre os valores pre-
ditos com e sem a i-sima observao. O estimador da distncia de Cook
dado por:
D
i
=
1
(m+ 1)
h
i
(1 h
i
)
r
2
i
(3.40)
Apesar de que a distncia de Cook no deva ser usada como teste de
signicncia, sugere-se o uso dos quantis da distribuio F central com
m+1 e n m1 graus de liberdade para servir de referncia para o valor
D
i
. Outros autores sugerem que se D
i
> 1, a i-sima observao deve ser
considerada inuente.
A distncia de Cook utiliza r
2
i
, sendo que implicitamente est utilizando
S
2
para padronizar a varincia. Existe uma sugesto de que esta estatstica
possa ter melhores propriedades se for utilizado o estimador S
2
(i)
no lugar
de S
2
. Assim, a distncia modicada de Cook utiliza esta substituio e faz
um ajuste para o nmero de observaes e toma ainda a raiz quadrada da
distncia transformada. A distncia modicada de Cook dada por:
D
i
= |t
i
|
h
i
(n m1)
(1 h
i
)(m+ 1)
= DFFITS
_
n m1
m+ 1
(3.41)
Com essa modicao, temos que: a nova estatstica enfatiza mais os
pontos extremos; o grco de probabilidade normal pode ser utilizado para
checagem; nos casos perfeitamente balanceados [h
i
= (m+1)/n] para qual-
quer i, a distncia modicada tem comportamento idntico ao DFFITS;
a distncia modicada com sinal pode ser plotada contra variveis explora-
trias do modelo.
Dado o limite mximo estabelecido para DFFITS, um valor da distn-
cia modicada de Cook maior que 2 pode ser considerado um indicativo de
observao inuente.
3.5.5 Inuncia na Matriz de Covarincias
Uma medida da inuncia da i-sima observao na V
_
_
obtida
comparando a razo de varincias generalizadas (determinantes) da estima-
tiva da covarincia com e sem a i-sima observao. Esta estatstica dada
por:
COV RATIO
i
=
det
_
S
2
(i)
_
X
(i)
X
(i)
_
1
_
det
_
S
2
(X
X)
1
_
=
_
n m1 r
2
i
n m2
_
m+1
(1 h
i
)
(3.42)
em que X
(i)
a matriz do modelo obtida aps a eliminao da i-sima
observao amostral.
Um valor no muito preciso para determinar pontos inuentes dado
por |COV RATIO
i
1| > 3(m+ 1)/n.
3.5.6 Comandos SAS
Felizmente todas estes mtodos de diagnstico em regresso linear po-
dem ser obtidas utilizando duas opes simples do comandos model: r e
inuence. Apresentamos na seqncia um exemplo do programa SAS uti-
lizado para obter o diagnstico de regresso para o exemplo do volume de
madeira das rvores.
/*Exemplo do proc reg para realizar anlise de diagnose em modelos de regresso linear
mltipla.*/
68 Regresso Linear
model y=x1 x2 x3/r inuence;
run;quit;
3.6 Exerccios
1. Utilize os dados do exemplo da amostra de n = 10 rvores e ajuste o
seguinte modelo:
Y
i
=
0
+
1
X
1i
+
2
X
2i
+
3
X
3i
+
4
X
1i
X
2i
+
5
1
X
3i
+
i
2. Existe alguma varivel redundante? Se houver utilize os mtodos de
seleo de modelos apresentados neste captulo e determine qual o
melhor modelo.
3. Os mtodos de seleo de modelo chegaram a um mesmo modelo?
4. Para o modelo nal utilizar as opes apresentadas e vericar a qua-
lidade da predio, fazer o grco dos valores preditos e do intervalos
de conana (clm e cli) e plotar os resduos em relao aos valores
preditos na abscissa.
5. Utilize variveis candidatas diferentes das apresentadas no exerccio
(1) e aplique os mtodos de seleo de modelos. Voc chegou a um mo-
delo melhor do que o anteriormente obtido? Justique devidamente
suas concluses.
6. Utilizando os dados da amostra de n = 10 rvores ajuste o modelo:
Y
i
=
0
+
1
X
1i
+
2
X
2i
+
3
X
3i
+
4
X
1i
X
2i
+
5
1
X
3i
+
i
Faa a anlise de diagnose e verique se existe alguma observao
inuente. Justique devidamente suas concluses.
Captulo 4
Regresso No-Linear
Outro assunto extremamente importante para os pesquisadores em geral
o ajuste de regresses no-lineares em suas pesquisas aplicadas. Temos o
objetivo de apresentar neste captulo as principais idias sobre os processos
de estimao de parmetros de modelos no-lineares e os comandos do proc
nlin para realizar esta tarefa. O que devemos considerar que os modelos
no-lineares nos parmetros tm uma maior plasticidade e portanto so
considerados mais apropriados para modelarem fenmenos biolgicos.
Neste captulo vamos discutir um pouco sobre mtodos de estimao de
parmetros de modelos no-lineares e sobre a sintaxe do proc nlin. Vamos
apresentar programas de modelos de Response Plateau linear e no-linear.
Ambos so no-lineares nos parmetros, mas descrevem curvas lineares e
quadrticas, respectivamente, alm do plateau no ponto de juno dos seg-
mentos, que uma linha reta paralela abscissa.
Os procedimentos de estimao no-linear so em geral iterativos. O
processo deve iniciar para um valor especco inicial de seus parmetros
e a soma de quadrado do resduo avaliada. Ento uma nova estimativa
dos parmetros obtida, buscando-se minimizar a soma de quadrados do
resduo. Este processo repetido at que este mnimo seja alcanado. V-
rios algoritmos e mtodos existem para realizar este processo de estimao.
No faremos uma descrio detalhada destes mtodos, que aceleram a con-
vergncia e so ecientes para estimarmos os parmetros que conduzem ao
mnimo global para a soma de quadrados de resduos, por causa de as di-
70 Regresso No-Linear
culdades tericas do assunto ultrapassarem o limite estipulado para este
material.
4.1 Introduo aos Modelos No-Lineares
Um modelo considerado no-linear nos parmetros e esta classicao
no inuenciada pela funo matemtica descrita (hiprbole, parbola,
etc.). Como j dissemos no captulo 3, se as derivadas parciais forem fun-
es dos prprios parmetros, teremos um modelo no-linear. Podemos ter
mltiplos parmetros neste modelo ou apenas um e da mesma forma, pode-
mos ter apenas uma varivel regressora ou mais de uma. Assim, Y =
Z
um modelo no-linear com dois parmetros e e Y = + Z
2
um
modelo linear, independentemente de a funo descrever uma parbola, pois
este modelo linear nos parmetros e .
Os detalhes computacionais envolvidos nos procedimentos no-lineares
so muito complexos. Vamos simplicar o mximo que pudermos, sem
no entanto deixarmos de ter o rigor necessrio. Seja o modelo no-linear F
denido de forma geral para o vetor de parmetros
= [
1

2

m
]
e para o vetor de variveis regressoras da j-sima unidade amostral Z
j
=
[Z
1j
Z
2j
Z
pj
] por
Y
j
= F
j
_
, Z
j
_
+
j
. (4.1)
Podemos expressar este modelo em notao matricial por:
Y
= F
_
+
. (4.2)
em que podemos expressar o vetor do modelo F
_
, simplesmente por F
.
Para car claro a notao que estamos utilizando, consideremos o mo-
delo Y
j
=
Z
j
+
j
. Neste caso temos um vetor de parmetros dado por
= [ ] e uma nica varivel regressora Z. O vetor do modelo dado

por:
4.1 Introduo aos Modelos No-Lineares 71
F
=
_
Z
1
Z
2
.
.
.
Z
n
_
_
O vetor de observaes dado por:
Y
=
_
_
Y
1
Y
2
.
.
.
Y
n
_
_
Finalmente, o vetor de resduos dado por:
=
_
2
.
.
.
n
_
_
O modelo pode ser escrito por:
_
_
Y
1
Y
2
.
.
.
Y
n
_
_
=
_
Z
1
Z
2
.
.
.
Z
n
_
_
+
_
2
.
.
.
n
_
_
Um dos mtodos utilizados baseia-se na minimizao da soma de qua-
drados dos resduos L
_
_
=
. Substituindo
= Y
e derivando
com respeito a
, obtivemos:
L
_
_
=
=
_
Y
_
Y
_
= Y
2Y
+F
=
2Y
+
F
Mas,
2Y
=
2Y
= 2Y
X
em que X = F
a matriz de derivadas parciais, em que cada coluna

formada pela derivada da funo linear em relao aos parmetros.
Tambm podemos simplicar F
por:
F
=
F
= 2F
X
Logo,
L
=2Y
X + 2F
X
Igualando a zero a primeira derivada, temos as equaes normais para
os modelos no-lineares:
X
= X
(4.3)
Como F
e X so funes de
, ento uma forma fechada para a soluo,

em geral, no existe. Ento devemos utilizar um processo iterativo. Para
isso precisamos de um valor inicial para o vetor de parmetros, que deve
ser melhorado continuamente at que a soma de quadrados de resduos
seja minimizada.
Se considerarmos o modelo Y
j
=
Z
j
+
j
, que utilizamos anteriormente
para ilustrar alguns aspectos do modelo, podemos construir a matriz X das
derivadas parciais facilmente. Sejam as derivadas parciais Y
j
/ =
Z
j
e
Y
j
/ = Z
j
(Z
j
1)
X =
_
Z
1
Z
1
(Z
1
1)
Z
2
Z
2
(Z
2
1)
.
.
.
.
.
.
Z
n
Z
n
(Z
n
1)
_
_
As equaes normais para este exemplo so:
_

Z
1

Z
n
Z
1
(Z
1
1)
Z
n
(Z
n
1)
_
_
Z
1
Z
2
.
.
.
Z
n
_
_
=
=
_

Z
1

Z
n
Z
1
(Z
1
1)
Z
n
(Z
n
1)
_
_
_
Y
1
Y
2
.
.
.
Y
n
_
_
Devemos iniciar o processo iterativo para um determinado valor inicial
. Para o valor corrente (k-simo passo do processo iterativo) do vetor

de parmetros, devemos calcular a matriz X e estimar o vetor de resduos
por e
= Y
_
. No ponto inicial (k = 0), avaliamos X e o vetor
de resduos, considerando o valor arbitrrio do vetor de parmetros espe-
cicado. Neste caso, se SQE
_
_
= e
for a soma de quadrados dos

resduos avaliada na k-sima iterao, ento X e Y
so usados para calcular

um vetor
de tal forma que

SQE
_
_
< SQE
_
_
para uma constante qualquer.
Existem quatro mtodos implementados no SAS. Estes quatro mtodos
diferem na forma como
calculado para propiciar as trocas no vetor de

parmetros. De uma forma geral os critrios bsicos so:
_
_
Gradiente:
= X
Gauss-Newton:
= (X
X)
Newton:
= G
Marquardt:
= [X
X +diag(X
X)]
(4.4)
em que (X
X)
uma inversa generalizada. Pode ser uma inversa reexiva

(g
2
), mas o ideal que seja uma inversa de Moore-Penrose (g
4
).
Os mtodos Gauss-Newton e Marquardt realizam a regresso dos res-
duos em relao as primeiras derivadas do modelo no-linear em relao
aos parmetros, at que haja a convergncia. O mtodo de Newton faz a
regresso destes resduos em relao a uma funo das segundas derivadas
do modelo no-linear com relao aos parmetros (G
).
4.1.1 Mtodo do Gradiente
Este mtodo baseado no gradiente ou grau de variao de
. Seja
a estimativa do vetor de parmetros na k-sima iterao do processo.

Assim, este gradiente denido por:
1
2
L
_
=X
+X
= X
pois X e F
so avaliados no ponto
k
.
A quantidade X
o gradiente para o qual
cresce. Sendo as-

sim,
= X
o grau de variao para o mtodo de gradiente. Para

utilizarmos o mtodo do gradiente devemos inicialmente estipular um valor
arbitrrio para o vetor de parmetros, digamos
0
. Calculamos e
. As-
sim, podemos obter o valor do parmetro no (k+1)-simo passo, tomando
a estimativa do k-simo passo anterior por:
k+1
=
k
(4.5)
em que o escalar escolhido no k-simo passo para que
SQE
_
_
< SQE
_
_
. (4.6)
O mtodo do gradiente possui convergncia muito lenta e, em geral, no
utilizado para estimar parmetros dos modelos no-lineares. Quando, no
entanto, as estimativas iniciais so pobres, este mtodo se torna particular-
mente til.
4.1.2 Mtodo de Newton
O mtodo de Newton utiliza a segunda derivada do erro em relao aos
parmetros e obtm o vetor
por:
= G
(4.7)
em que
G = (X
X) +
n
j=1
H
j
_
_
e
j
(4.8)
sendo que a matriz H
j
, de dimenso r r, avaliada para o vetor de par-
metros
k
no k-simo passo para a j-sima observao amostral, a matriz

Hessiana do vetor de erros
. O elemento (, k) desta matriz, [H

j
]
k
, dado
por:
[H
j
]
k
=
_

2
k
_
k
(4.9)
Estimado o vetor
, devemos aplicar as equaes (4.5) e (4.6) para

obtermos uma nova equao e recalcularmos o vetor de parmetros.
Para o exemplo anterior, considerando o modelo Y
j
=
Z
j
+
j
, a matriz
de segundas derivadas para a j-sima observao :
H
j
=
_
0 Z
j
(Z
j
1)
Z
j
(Z
j
1)
Z
j
(Z
j
1)
(Z
j
2)
_
4.1.3 Mtodo de Gauss-Newton
O mtodo de Gauss-Newton usa a expanso em srie de Taylor do vetor
de funes
F
_
= F
_
+X
_
_
+
em que a matriz de primeiras derivadas X avaliada no ponto
0
.
Se substituirmos os dois termos desta expanso nas equaes normais
obtemos
X
_
=X
_
F
_
+X
_
__
=X
Y
X
X
_
_
=X
Y X
_
X
=X
e portanto,
=(X
X)
(4.10)
Estimado o valor de
para o vetor
0
, aplicam-se as equaes (4.5) e

(4.6) para se obter o vetor de estimativas do passo 1. O processo repetido
um determinado nmero de vezes at que o vetor de estimativas no se
altere mais dentro de uma preciso pr-estipulada.
4.1.4 Mtodo de Marquardt
O mtodo de Marquardt mantm um compromisso entre o mtodo de
Gauss-Newton e o mtodo do gradiente. A frmula de atualizao do vetor
de parmetros dada por:
=
_
(X
X) +diag(X
X)
(4.11)
Se 0, h uma aproximao ao mtodo de Gauss-Newton e se ,
h uma aproximao ao mtodo do gradiente. Por padro o proc nlin co-
mea com valor de = 10
7
. Se SQE
_
_
< SQE
_
_
, ento
= /10 na prxima iterao; se por outro lado ocorrer o contrrio, ou
seja, se SQE
_
_
> SQE
_
_
, ento = 10. Assim, se a soma de
quadrados do resduo decresce a cada iterao, estaremos utilizando essen-
cialmente o mtodo de Gauss-Newton; se ocorrer o contrrio o valor de
aumentado em cada iterao, sendo que passaremos a utilizar o mtodo de
gradiente.
4.2 O Proc Nlin 77
4.1.5 Tamanho do passo da iterao
Devemos estipular o tamanho do passo que daremos em cada itera-
o. Assim, se SQE
_
_
> SQE
_
_
, comeando com = 1,
devemos reduzir o valor pela metade em cada passo SQE
_
+ 0, 5
_
,
SQE
_
+ 0, 25
_
, e assim por diante at que um quadrado mdio do re-
sduo menor seja encontrado. Podemos muitas vezes encontrar diculdades
em obter avanos na reduo da soma de quadrados dos resduos. Quando
isso acontece, o SAS interrompe o processo e comunica ao usurio da no
ocorrncia de ganhos na reduo do SQE com no passo atual da iterao.
As possveis causas podem ser: derivadas mal especicadas e valores iniciais
inadequados.
4.2 O Proc Nlin
O proc nlin o procedimento SAS apropriado para ajustarmos modelos
no-lineares. Este procedimento possui alm dos mtodos descritos ante-
riormente uma quinta opo, o mtodo de DUD. Este mtodo livre de
derivadas, ou seja, no utiliza a matriz Jacobiana X. Assim, o usurio no
precisa especicar as derivadas parciais. Isso no uma grande vantagem,
pois nas novas verses, o SAS faz o clculo numrico das derivadas parciais
necessrias, se elas no forem especicadas.
Vamos ilustrar nesta seo os comandos bsicos para ajustarmos um
modelo de regresso no-linear utilizando o proc nlin. Vamos especicar a
forma de entrar com o modelo e com as derivadas parciais e, tambm, como
escolher os mtodos de estimao a ser utilizado. Antes de fazermos isso,
devemos fazer algumas consideraes a respeito de como atribuir valores
iniciais para os parmetros. Podemos utilizar, entre outras possibilidades,
estimativas publicadas na literatura especializada, que utilizam modelos e
conjuntos de dados similares aos de nossa pesquisa. Se o modelo pode
ser linearizado, ignorando o fato de ter resduos aditivos, podemos aplicar
uma transformao para lineariz-lo e ento, ajustar, o modelo linear resul-
tante. As estimativas de quadrados mnimos, devidamente transformadas
para a escala original, quando for o caso, so utilizadas como valores inici-
ais. Algumas vezes, antes da linearizao, podemos efetuar algum tipo de
reparametrizao e proceder da mesma forma. Os processos iterativos pos-
suem convergncia bem mais rpida, quando os valores iniciais esto mais
prximos das estimativas de mnimos quadrados.
Para apresentarmos os comandos bsicos do proc nlin, vamos utilizar os
dados da Tabela 3.2 e o seguinte modelo no-linear nos parmetros:
y
i
=
x
i
+
i
(4.12)
Neste caso temos n = 8 rvores e as seguintes derivadas parciais em
relao aos parmetros e : y
i
/ =
x
i
e y
i
/ = x
i
(x
i
1)
. Como
estas derivadas parciais so funes dos parmetros e , temos um modelo
no-linear nos parmetros caracterizado. Vamos atribuir valores iniciais
arbitrrios iguais a 0, 5 e 1, 8 para e , respectivamente. Poderamos ter
linearizado este modelo facilmente aplicando a funo logaritmo, ignorando
claro o fato de o erro ser aditivo. Este seria um artifcio para obtermos
valores iniciais mais acurados. O modelo linearizado dado por ln(y
i
) =
ln() + ln(x
i
) +
i
, que poderia ser rescrito por z
i
= A+w
i
+
i
. Neste
caso a estimativa do parmetro A do modelo linear dever ser transformada
para a escala original por = exp (

A). A estimativa de no precisa
ser modicada, pois o parmetro no foi alterado pela transformao
efetuada. Isto deixado a cargo do leitor na forma de exerccio. O programa
SAS resultante :
Data regnlm1;
input X Y;
Cards;
0.1 0.88
0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20
4.2 O Proc Nlin 79
2.0 3.10
;
Proc nlin Method=Gauss;
Parms a=0.5 b=1.8;
Model y=a*(b**x);
Der.a=b**x;
Der.b=a*x*(b**(x-1));
run;quit;
Neste programa a e b representam os parmetros e , respectivamente;
os comandos <der.a=b**x;> e <der.b=a*x*(b**(x-1));> indicam as deri-
vadas parciais da varivel resposta em relao aos parmetros e , respec-
tivamente; o modelo especicado com o comando <model y=a*(b**x);>.
O SAS utilizou 4 iteraes e apresentou uma mensagem que o ajuste do
modelo atingiu convergncia. O modelo ajustado foi y
i
= 0, 81171, 9542
x
i
.
Ambos os parmetros foram signicativamente diferentes de zero, pois os
intervalos assintticos de 95% de conana no abrangeram o valor 0. O in-
tervalo assinttico de 95% conana para o parmetro foi [0, 7903; 0, 8330]
e para o parmetro , [1, 9206; 1, 9877]. O R
2
do modelo pode ser es-
timado por R
2
= 1 SQRes/SQTotal. Para este exemplo, o R
2
=
1 0, 00276/4, 2178 = 0, 9993, indicando que 99, 93% da variao do cres-
cimento das plantas foi explicado pelo modelo de regresso.
Vamos ilustrar o proc nlin com o ajuste de mais um modelo aos dados
da Tabela 3.2 dado por:
y
i
= x
i
+
i
(4.13)
As derivadas parciais em relao a cada parmetro so dadas pelas fun-
es y
i
/ = x
i
e y
i
/ = x
i
ln(x
i
). O programa correspondente a
este exemplo dado por:
Data regnlm2;
input X Y;
Cards;
0.1 0.88
0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20
2.0 3.10
;
Proc nlin Method=Gauss maxiter=500;
Parms a=0.5 b=1.8;
Model y=a*(x**b);
Der.a=x**b;
Der.b=a*x**b*log(x);
run;quit;
Especicamos um nmero mximo de iteraes igual a 500. O padro
do SAS, se nada for especicado, 100. Neste caso ocorreu a convergncia
com apenas 8 iteraes. Este comando (maxiter=nit) se torna til apenas
quando o valor inicial precrio, requerendo um nmero grande de itera-
es, principalmente se houver correlaes elevadas entre os estimadores
dos parmetros. Neste exemplo, o modelo ajustado foi y
i
= 1, 8548x
0,575
i
,
sendo que este ajuste foi um pouco inferior ao ajuste do modelo anterior.
Isto pode ser constatado observando o valor do coeciente de determina-
o R
2
= 89, 61% deste modelo e comparando com o valor anteriormente
obtido. Os dois modelos ajustados esto apresentados na Figura 4.1. De-
vemos procurar sempre, alm de um bom ajuste, modelos que possam ter
uma relao com o fenmeno que estamos estudando. Apesar dos bons
ajustes alcanados, podemos para este exemplo escolher, do ponto de vista
biolgico, melhores modelos no-lineares.
4.3 Modelos Segmentados
Dentre os modelos segmentados existe o modelo de response plateau
que muito utilizado na pesquisa em diversas reas. Esse modelo possui
dois segmentos, sendo que o primeiro descreve uma curva crescente ou de-
4.3 Modelos Segmentados 81
x
3
2
0
2 1
1.5
0
2.5
1
1.5 0.5
0.5
Figura 4.1: Modelos no lineares ajustados - modelo y
i
= 1, 8548x
0,575
i
iniciando pela origem e modelo y
i
= 0, 81171, 9542
x
i
iniciando pelo ponto
0, 8117.
crescente at uma determinada altura da ordenada (P) que o plat. A
partir desse ponto o valor Y assume um valor constante P. O ponto corres-
pondente ao valor P na abscissa o ponto X
0
, que tambm um parmetro
a ser estimado. Vrios modelos podem ser utilizados para modelar o com-
portamento da curva entre a origem e o ponto onde se encontra o plat.
Nesta seo apresentamos o exemplo do manual do SAS (proc nlin) com
um modelo quadrtico anterior ao plat. Na Figura 4.2 apresentado um
exemplo de um modelo de response plateau, destacando-se os pontos X
0
e
P.
Para ilustrarmos o ajuste de um modelo bi-segmentado desta natureza
considerado o exemplo apresentado no manual do SAS, relativo ao proc
nlin. Seja para isso o seguinte modelo quadrtico de response plat:
Y
i
=
_
_
_
0
+
1
X
i
+
2
X
2
i
se X
i
< X
0
P se X
i
X
0
(4.14)
Para valores de X < X
0
, os de Y so explicados por um modelo quadr-
tico (parbola) e para valores de X X
0
, a equao explicativa constante

x
0
P
Y
X
Figura 4.2: Modelo segmentado considerando um plateau no ponto X = X
0
com valor de Y = P e um modelo crescente para X < X
0
.
e paralela a abscissa. O ponto X
0
considerado desconhecido e deve ser
estimado juntamente com os demais parmetros do modelo. Este ponto
representa a juno do segmento quadrtico com o segmento de plat. As
curvas devem ser contnuas (os dois segmentos devem se encontrar em X
0
)
e suavizada, ou seja, as primeiras derivadas com relao a X nos dois seg-
mentos devem ser a mesma no ponto X
0
. Essas condies implicam em
algumas conseqncias descritas a seguir.
A primeira derivada de Y em relao a X no modelo quadrtico dada
por:
dY
i
dX
i
=
1
+ 2
2
X
i
Se igualarmos esta deriva a zero, resolvermos a equao resultante em
X e substituirmos o valor de X por X
0
, ponto em que a curva deve ser
contnua e suavizada, obtemos:
X
0
=

1
2
2
Substituindo esse valor na equao (4.14) obtemos o mximo, que cor-
responde ao plat almejado. Assim, este plat dado por:
Y = P =
0
+
1
X
0
+
2
X
2
0
=
0

2
1
2
2
+

2
1
2
4
2
2
=
0

2
1
4
2
Neste caso temos apenas trs parmetros efetivos, pois tanto X
0
, quanto
P so determinados a partir de
0
,
1
e
2
. Este um modelo no linear
nos parmetros, pois as derivadas parciais de Y so funes dos parmetros
em alguns casos, justicando o uso do proc nlin. O programa nal apre-
sentado na seqncia. Podemos destacar que ele dividido em duas partes:
a primeira com a parte quadrtica polinomial e a segunda, com a parte
do plat. Em cada ciclo do processo iterativo imprimimos nos resultados,
juntamente com os demais parmetros, as estimativas de X
0
e de P. Utili-
zamos o proc plot para produzir um grco de baixa qualidade dos valores
ajustados. Neste modelo, a representa
0
, b representa
1
e c representa
2
.
/* Ajuste do modelo segmentado usando o NLIN */
/* y= a + b*x + c*x*x e y=P se x>x0 */
/* restrio de continuidade: P= a +b*x0+c*x0*x0 */
/* restrio de suavizao: 0=b+2*c*x0, ento, x0=-b/(2*c) */
title Modelo quadrtico com plat;
data reg;
input x y @@;
cards;
1 0.46 2 0.47 3 0.57 4 0.61 5 0.62 6 0.68 7 0.69
8 0.78 9 0.70 10 0.74 11 0.77 12 0.78 13 0.74 13 0.80
15 0.80 16 0.78
;
proc nlin data=reg;
parms a=0.45 b=0.05 c=-0.0025;
le print;
x0=-0.5*b/c; /*estimao do ponto comum */
db=-0.5/c; /* derivada de xo em relao a b */
dc=0.5*b/c**2; /* derivada de xo em relao a c */
if x<x0 then /* parte quadrtica do modelo */
do;
model y=a+b*x+c*x**2;
der.a=1;
der.b=x;
der.c=x**2;
end;
else /* parte do modelo relativo ao plat de resposta*/
do;
model y=a+b*x0+c*x0**2;
der.a=1;
der.b=x0+b*db+2*c*x0*db;
der.c=b*dc+x0*x0+2*c*x0*dc;
end;
if _obs_=1 then
do;
plateau=a+b*x0+c*x0**2;
put x0= plateau=;
end;
output out=reg1 predicted=yp;
run;quit;
proc plot data=reg1;
plot y*x yp*x="*"/overlay vpos=35;
run;quit;
O modelo ajustado foi

Y
i
= 0, 3921 + 0, 0605X
i
0, 00237X
2
i
se X
i
<
12, 7477 e

Y
i
= 0, 7775, caso contrrio. As estimativas de
0
e
1
foram
signicativamente (P < 0, 05) superiores a zero e a de
2
, signicativamente
inferior a zero. Estes resultados foram obtidos analisando os intervalos de
conana assintticos. O R
2
do modelo foi igual a 1 0, 0101/0, 1869 =
0, 9460.
Outro modelo que aparece freqentemente na literatura o linear res-
ponse plateau ou LRP. Este modelo possui um segmento de reta antes do
ponto de juno (X
0
) com o plat e dado por:
Y
i
=
_
_
_
0
+
1
X
i
+
i
se X
i
X
0
P +
i
se X
i
> X
0
(4.15)
comum utilizarmos uma varivel binria (Dummy) para represen-
tarmos o modelo. Neste caso utilizaremos a varivel Z
i
, que receber o
valor 1 se X
i
X
0
, ou 0 se X
i
> X
0
. Este modelo poder ser reescrito por
Y
i
= (
0
+
1
X
i
) Z
i
+P(1Z
i
). Para termos continuidade em X
0
, devemos
igualar
0
+
1
X
0
= P, ou seja, X
0
= (P
0
)/
1
.
Neste caso temos um modelo com trs parmetros (
0
,
1
e P). Di-
ferentemente do modelo anterior, P no pde ser expresso em funo dos
demais parmetros. Apesar de as variveis parciais no dependerem dos
parmetros, este um modelo no-linear uma vez que a matriz Jacobiana
depende de X
0
para ser construda, sendo que X
0
funo de
0
,
1
e de P.
Assim, as derivadas parciais, dadas por Y
i
/
0
= Z
i
, Y
i
/
1
= X
i
Z
i
e
Y
i
/P = 1 Z
i
, dependem dos parmetros por meio de X
0
. A cada passo
do processo iterativo, o parmetro X
0
estimado e a matriz do modelo
composta, pois os Z
i
s cam completamente denidos.
Utilizamos os recursos do proc nlin para estimar os parmetros deste
modelo segmentado do tipo LRP. O resultado nal est apresentado na
seqncia para um conjunto simulado de dados. Neste conjunto de dados
os parmetros so
0
= 2,
1
= 2 e P = 10.
/* y= a + b*x se x<x0 e y=P se x>=x0 */
/* restrio de continuidade: P= a +b*x0 */
title Modelo Linear com plat;
data LRP;
input x y;
cards;
1.0 4.10
2.0 5.90
2.5 7.10
3.0 7.80
4.0 9.90
5.0 10.10
6.0 10.20
7.0 9.80
8.0 9.78
;
proc nlin data=LRP;
parms a=1 b=2 p=2.0;
X0=(p-a)/b;
if x<=x0 then /* Parte no-plateau do modelo */
do;
model y=a+b*x;
der.a=1;
der.b=X;
end;
else /* Parte plateau do modelo */
do;
model y=p;
der.a=0;
der.b=0;
der.p=1;
end;
if _obs_=1 then /*Para imprimir a sada se for a 1
a
observao*/
do;
put x0=;
end;
output out=saida predicted=yp Residual=Res parms=a b p ess=sqe;
run;quit;
O modelo ajustado foi

Y
i
= 2, 135 + 1, 93X
i
se X
i
4, 06 e

Y
i
= 9, 97
se X
i
> 4, 06. O coeciente de determinao do modelo foi igual a R
2
=
99, 53%. Todos os valores paramtricos esto dentro do intervalo de con-
ana assinttico construdo.
Apresentamos na seqncia um outro exemplo, tambm simulado, em
que temos os parmetros iguais a
0
= 5,
1
= 2, 4, P = 29 e
2
= 1.
/* y= a + b*x se x<x0 e y=P se x>=x0 */
/* restrio de continuidade: P= a +b*x0 */
title Modelo Linear com plat;
data LRP;
input x y;
cards;
1 8.6264841
2 8.9408731
3 11.909886
4 13.936262
5 17.945067
6 18.732450
7 21.847226
8 23.769043
9 27.671300
10 28.441954
11 27.811677
12 30.827451
13 28.817408
14 30.665168
15 28.813364
16 29.127870
17 28.218656
18 28.309338
19 28.651342
20 29.230743
;
proc nlin data=LRP;
parms a=1 b=2 p=2.0;
X0=(p-a)/b;
if x<=x0 then /* Parte no-plateau do modelo */
do;
model y=a+b*x;
der.a=1;
der.b=X;
end;
else /* Parte plateau do modelo */
do;
model y=p;
der.a=0;
der.b=0;
der.p=1;
end;
if _obs_=1 then /*Para imprimir a sada se for a 1
a
observao*/
do;
put x0=;
end;
output out=saida predicted=yp Residual=Res parms=a b p ess=sqe;
run;quit;
O modelo ajustado para este exemplo foi

Y
i
= 5, 0731 + 2, 3834X
i
se
X
i
10, 06 e

Y
i
= 29, 05 se X
i
> 10, 06. O coeciente de determinao
do modelo foi igual a R
2
= 98, 64%. Tambm neste caso, todos os valores
paramtricos esto dentro do intervalo de conana assinttico construdo.
4.4 Exerccios
1. Utilize os dados da Tabela 3.2 e o proc nlin do SAS para ajustar o
seguinte modelo:
Y
i
=

0
+
i
X
i
+
i
2. Este modelo se ajustou melhor do que aqueles da seo 4.2? Justique
sua resposta.
3. Tente ajustar um modelo LRP aos dados da Tabela 3.2. Qual foi o
modelo encontrado? Este modelo um modelo LRP? Justique sua
resposta. Plote os dados e verique se existe uma disperso dos pontos
que justique a representao por meio de um modelo LRP.
4. Utilize os resduos gerados no exemplo apresentado em aula do ajuste
do modelo LRP e realize a anlise grca dos resduos.
5. Busque em sua rea de atuao dados que poderiam se enquadrar
dentro do modelo segmentado quadrtico. Descreva as situaes e os
possveis benefcios de ajustar um modelo deste tipo. Se os dados
estiverem disponveis, utilize o programa apresentado em aula para
ajustar o modelo de plat de resposta quadrtico.
Captulo 5
Anlise de Varincia para
Dados Balanceados
Para realizarmos inferncias sobre a hiptese de igualdade entre vrias
mdias dos nveis de algum fator de interesse, utilizamos o teste F da anlise
de varincia (Anava). Esta hiptese pode ser formalizada por:
_
_
_
H
0
:
1
=
2
= =
=
H
1
: pelo menos uma mdia difere das demais
(5.1)
em que o nmero de nveis deste fator de interesse e
i
a mdia do
i-simo nvel, i = 1, 2, , .
Um valor de F observado superior a um valor crtico da distribuio
F para um nvel de signicncia indica que devemos rejeitar a hiptese
nula H
0
; caso contrrio, no existiro evidncias signicativas para rejeitar
a hiptese nula. Podemos ter mais de um fator. Neste caso teremos uma
hiptese nula para cada fator separadamente. Alm disso, estes fatores po-
dem interagir. Se houver algum tipo de interao entre eles, um teste F
especco para a hiptese de haver interao ir apresentar efeito signi-
cativo da estatstica. Tambm podemos ter efeitos hierarquizados, onde os
nveis de um fator A, por exemplo, dentro de um determinado nvel de outro
fator, digamos B, so diferentes dos nveis de A em outro nvel de B. Isto
ocorre, por exemplo, quando temos diferentes procedncias de eucalipto e
dentro de cada procedncia, temos diferentes prognies.
90 Anlise de Varincia para Dados Balanceados
Neste captulo estaremos interessados nestes diferentes modelos estats-
ticos, contendo um ou mais fatores, cujos efeitos podem ser cruzados ou
hierarquizados, porm em uma estrutura experimental balanceada. Enten-
deremos por estrutura balanceada, aquele conjunto de dados cujo nmero
de observaes em cada combinao dos nveis dos fatores o mesmo. Cada
nvel de um fator, ou cada nvel resultante da combinao dos nveis de dois
ou mais fatores, denominado de casela. Se houver diferenas neste nmero
de observaes por casela, teremos dados no balanceados. O procedimento
do SAS apropriado para lidar com estas estruturas o proc anova. Se a
estrutura no-balanceada devemos utilizar o proc glm.
5.1 O Proc Anova
O proc anova o procedimento apropriado para realizarmos anlises de
varincia envolvendo dados balanceados. Podemos utilizar muitas opes
especcas entre os comandos deste procedimento. Vamos apresentar na
seqncia alguns dos comandos bsicos e especcos para ilustrar a sintaxe
do proc anova.
proc anova data=conjdados options;
class variables;
model dependents=eects / options;
means eects / options;
test H=eects E=eect;
manova H= eects E=eect / options;
by variables;
run; quit;
So comandos obrigatrios <class variables;> e <model dependents =
eects /options;>. No primeiro caso, especicamos as variveis classicat-
rias aps o comando class, separadas por espaos em branco. Estas variveis
classicatrias so os fatores da anlise. No devemos especicar as intera-
es entre estes fatores e nem os efeitos aninhados, mas somente os efeitos
5.1 O Proc Anova 91
principais. Obviamente devemos usar os mesmos nomes especicados no
comando input. No comando model devemos colocar do lado esquerdo da
igualdade, as variveis respostas e do lado direito, as fontes de variao
do modelo adotado (eects). Ainda podemos especicar algumas opes
associadas ao modelo. Estas opes aparecem aps a barra (/). Duas op-
es esto disponveis no proc anova: nouni e intercept. A opo nouni
suprime as anlises univariadas da sada do programa. Em geral utilizada
de forma associada com o comando manova, para realizarmos anlises de
varincia multivariadas. A opo intercept ou simplesmente int utilizada
quando pretendemos testar hipteses relativas ao intercepto como um efeito
do modelo.
Os demais comandos so opcionais, ou seja, devemos utiliz-los conforme
nosso interesse particular em algum tipo de anlise. O comando <means ef-
fects /options;> utilizado para estimarmos as mdias de um determinado
fator na anlise de varincia, podendo ser inclusive um efeito de interao
ou hierrquico. Podemos utilizar vrios comandos means, desde que eles
apaream aps o comando model. As opes deste comando permitem que
faamos testes de comparaes mltiplas. Entre as opes podemos desta-
car: alpha=p para determinar o valor da signicncia p (0,05 o padro),
cldi para obter os intervalos de conana de um determinado teste em
relao a todas as diferenas entre mdias, clm para obter os intervalos de
conana dos nveis dos fatores para um determinado teste, E=eect para
determinar o efeito que ir ser utilizado como erro nos testes de compa-
raes mltiplas, Bon para o teste de Bonferroni, Duncan para o teste de
Duncan, Dunnett(Controle) para realizar o teste de Dunnett de um tra-
tamento com o controle especicado entre aspas e entre parnteses aps a
opo. As opes GABRIEL, LSD ou T, Schee, SNK, Tukey, Waller so
utilizadas para solicitar os testes de Gabriel, t de Student, Sche, Student-
Newman-Keuls, Tukey e Waller-Duncan, respectivamente. A opo nosort
utilizada para solicitar que as mdias no sejam ordenadas; a opo lines,
para listar as mdias ordenadas com o indicativo das mdias consecutivas
no signicativamente diferentes por uma linha.
Finalmente, a opo HovTest=teste possibilita que seja aplicado o teste
de homogeneidade de varincias para os grupos de tratamentos, no modelo
inteiramente casualizado. Se outros modelos forem especicados, a opo
ignorada. Os testes escolhidos podem ser: Bartlett, Levene(type=abs|
square), BF, OBrien. O teste BF o de Brown e Forsythe, que uma vari-
ao do teste de Levene que utiliza desvios da mediana; o teste OBrien
tambm uma variao do teste Levene atribuda a OBrien. Ferreira
(2005)[3] descreve com detalhes estes testes.
O comando <test H=eects E=eect;> bastante til em modelos com
mais de um erro ou em modelos mistos, para realizarmos testes de hipte-
ses de alguns efeitos da anlise de varincia (opo H=eects) com um erro
particular de interesse (opo E=eect). Os riscos de utilizao inadequada
so relegados aos usurios. O comando <manova H= eects E=eect / op-
tions;> possibilita a realizao de testes de hipteses multivariados para os
fatores especicados em H=eects, utilizando como erro o efeito especi-
cado em E=eect. As opes que podemos utilizar so canonical, printe
e printh entre outras. A opo printe particularmente interessante por
proporcionar a estimao das correlaes parciais entre as variveis depen-
dentes, dadas as variveis independentes (fatores). Finalmente o comando
<by variables;> permite a obteno das anlises de varincias para cada
grupo das variveis especicadas aps o comando by. Esta opo exige que
as variveis, utilizadas no comando by, estejam em ordem crescente. Caso
isso no seja verdade, necessrio utilizar o proc sort antes de chamar o
proc anova.
Vamos ilustrar algumas formas que podemos utilizar para especicar o
modelo de anlise de varincia. Suponhamos que A, B e C sejam fatores de
interesse e Y a varivel resposta. Podemos especicar diferentes modelos
utilizando os seguintes comandos:
a) Exemplos de modelos com efeitos simples: <model Y=A;> ou <model
Y=A B;> ou <model Y=A B C;>.
b) Exemplos de efeitos cruzados: model Y=A B A*B; ou simplesmente
<model Y=A | B;>. Neste ltimo caso a | uma notao geral para
a estrutura de efeitos. No exemplo particular signica que o modelo
ajustado funo dos efeitos principais e da interao, ou seja, igual
ao primeiro modelo deste item.
5.2 Delineamento Inteiramente Casualizado 93
c) Exemplos de efeitos hierrquicos: <model Y=B A(B);>, indicando que
temos um modelo com o fator principal B e com o fator A hierarquizado,
dentro dos nveis de B. Isto signica que os nveis de A no so os
mesmos quando consideramos dois diferentes nveis de B. Um outro
exemplo onde temos os nveis de A dentro da combinao dos nveis de
B e C dado por: <model Y=B C A(B C);>. A sintaxe para este
caso no proc glm seria: <model Y=B C A(B*C);>. Assim, os dois
procedimentos diferem pela utilizao ou no do asterisco, nos fatores
que esto dentro dos parnteses.
d) Exemplos de modelos com efeitos cruzados e hierrquicos: <model Y=A
B(A) C(A) B*C(A);>
5.2 Delineamento Inteiramente Casualizado
Os delineamentos inteiramente casualizados, com um fator, sero uti-
lizados para ilustrarmos inicialmente os comandos bsicos do proc anova.
Para isso, utilizaremos os dados apresentados por Gomes (2000)[5], onde os
efeitos no ganho de peso de animais em kg de 4 raes foram comparados.
Os dados esto apresentados na Tabela 5.1.
Tabela 5.1: Ganho de peso (gp), em kg, de animais que foram submetidos
a uma dieta com determinadas raes. Um delineamento inteiramente ca-
sualizado com cinco repeties (animais) e 4 raes foi utilizado (Gomes,
2000)[5].
1 2 3 4
35 40 39 27
19 35 27 12
31 46 20 13
15 41 29 28
30 33 45 30
O modelo de anlise de varincia adotado dado por:
Y
ij
= +
i
+
ij
(5.2)
em que Y
ij
o ganho de peso observado no j-simo animal para a i-sima
rao, a constante geral,
i
o efeito da i-sima rao e
ij
o efeito
do erro experimental suposto normal e independentemente distribudo com
mdia 0 e varincia comum
2
.
O programa SAS para obteno da anlise de varincia do modelo 5.2
dado por:
/* Exemplo da utilizao do Proc Anova*/
data dic;
input racoes gp;
cards;
1 35
1 19
1 31
1 15
1 30
2 40
2 35
2 46
2 41
2 33
3 39
3 27
3 20
3 29
3 45
4 27
4 12
4 13
4 28
4 30
;
proc anova;
class racoes;
model gp=racoes;
means racoes / snk alpha=0.05 lines;
run; quit; /* m do programa */
Os principais resultados do SAS esto apresentados na seqncia. Neste
programa, modelamos o ganho de peso em funo do fator raes. No
precisamos especicar nem o erro do modelo e nem a constante geral. Soli-
citamos as mdias de tratamentos e a aplicao do teste SNK para realiza-
o das comparaes mltiplas. Os resultados da anlise de varincia esto
apresentados nas Tabelas 5.2 e 5.3.
Tabela 5.2: Anlise de varincia para o delineamento inteiramente casuali-
zado com um fator (raes) com quatro nveis e cinco repeties.
FV G.L. SQ QM F Pr > F
Modelo 3 823,7500 274,5833 3,99 0,0267
Erro 16 1100,0000 68,7500
total corrigido 19 1923,7500
R
2
0,4282
CV 27,8708
Mdia 29,7500
Tabela 5.3: Anlise da variao contendo as fontes de variao do modelo
para o delineamento inteiramente casualizado das raes.
Raes 3 823,7500 274,5833 3,99 0,0267
O resultado do teste F da anlise de varincia indica que devemos rejei-
tar a hiptese nula de igualdade de efeitos das raes. Assim, pelo menos
uma delas difere das demais. Devemos utilizar um teste de comparaes
mltiplas para identicar estas diferenas. Neste exemplo foi utilizado o
teste SNK para identicar quais raes diferiram entre si. Na Tabela 5.4
apresentamos o resultado do teste SNK e as respectivas diferenas mni-
mas signicativas (dms). As mdias que possuem a mesma letra no so
consideradas signicativamente diferentes pelo teste SNK no nvel nominal
de signicncia de 5%. Neste caso, as raes 2, 3 e 1 no so estatistica-
mente diferentes em mdia, como ocorre tambm com as raes 3, 1 e 4.
No entanto, as raes 2 e 4 so signicativamente diferentes (P < 0, 05).
Tabela 5.4: Teste de SNK e mdias para a fonte de variao raes junta-
mente com as diferenas mnimas signicativas dms.
Grupo Mdia r
i
Raes
A 39,000 5 2
A B 32,000 5 3
A B 26,000 5 1
B 22,000 5 4
dms
4
=11,116861, dms
3
=13,53137, dms
2
=15,003329.
Um aspecto importante deste teste apresentado juntamente com os
resultados. Esta caracterstica refere-se ao fato de que este teste controla o
erro tipo I por experimento sob H
0
completa, mas no sob a hiptese nula
parcial.
Podemos realizar inferncias de interesse sobre parmetros decorrentes
de uma combinao linear das mdias por meio dos testes hipteses e cons-
truindo intervalos de conana. A realizao de inferncias sobre combina-
es lineares (usualmente contrastes) de mdias, em geral, o passo seguinte
rejeio da hiptese global da equao (5.1), s vezes denominada hiptese
nula completa.
Como o teste F, que testa a hiptese global, no informa quais so as
mdias que diferem entre si, passamos, ento, a realizar uma seqncia de
testes de hipteses sobre um conjunto de combinaes lineares de mdias
utilizando os mesmos dados observados. A estes testes esto associados
erros de deciso. Se a hiptese nula global for verdadeira e se uma destas
hipteses for rejeitada, estaremos cometendo o erro tipo I. O controle do
erro tipo I, no caso de comparaes mltiplas, envolve alguns conceitos
diferentes. Se por outro lado no rejeitamos uma hiptese que deveria ser
rejeitada, estaremos cometendo o erro tipo II. Acontece, tambm, que as
taxas de erro dos tipos I e II, decorrentes da aplicao de um nico teste,
tm comportamentos diferentes daquelas associadas aplicao de uma
seqncia de testes.
Um grande nmero de estratgias existem para garantir uma taxa de
erro global para todas as comparaes. Procedimentos de inferncia que
asseguram uma probabilidade conjunta 1 contra o erro do tipo I so
denominados procedimentos de inferncia simultnea ou conjunta e pro-
cedimentos que asseguram proteo apenas para a comparao que est
sendo realizada so denominados procedimentos de inferncia individual.
Nos procedimentos de inferncia individual no feito nenhum ajuste na
probabilidade por causa da multiplicidade dos testes.
Algumas denies conduzem a uma taxa de erro que so dependentes
da nulidade da hiptese global. Outras conduzem a uma taxa de erro de-
pendente do nmero de inferncias erradas em relao ao nmero total de
inferncias feitas. Assim, ONeill e Wetherill (1971)[9] denem duas ma-
neiras bsicas para calcularmos a taxa de erro do tipo I. Uma delas diz
respeito probabilidade de a famlia de testes conter pelo menos uma in-
ferncia errada e a outra, ao nmero esperado de inferncias erradas na
famlia.
De acordo ONeill e Wetherill (1971)[9] as possibilidades para as taxas
de erro observadas so:
i. Taxa de erro por comparao (comparisonwise error rate):
Nmero de inferncias erradas
Nmero total de inferncias
ii. Taxa de erro por experimento (experimentwise error rate):
Nmero de experimentos com pelo menos uma inferncia errada
Nmero total de experimentos
Os vrios procedimentos de comparaes mltiplas possuem diferentes
controle do erro tipo I por experimento. O teste Tukey por exemplo, con-
trola a taxa de erro por experimento sob H
0
nula e parcial, mas na medida
em que o nmero de nveis do fator aumenta, o teste se torna mais conser-
vador. Assim, este teste possui elevadas taxas de erro tipo II, ou seja, baixo
poder quando temos muitos nveis do fator. O teste Duncan e t de Student
so muito liberais e apresentam elevadas taxas de erro tipo I por experi-
mento, com baixas taxas de erro tipo II ou com elevado poder. Por causa de
no haver controle do erro tipo I por experimento os elevados poderes no
so vantajosos. O teste SNK, como j armamos, controla o erro tipo I sob
a hiptese de nulidade completa, mas no sob a nulidade parcial. O teste
t com proteo de Bonferroni na maioria das vezes mais conservador do
que o teste de Tukey, da mesma forma que ocorre com teste Sche quando
utilizado no contexto de comparaes mltiplas.
Uma importante pressuposio na anlise de varincia a homogenei-
dade de varincias. Podemos testar hipteses de igualdade de varincias
facilmente no SAS. Como j mencionamos em outra oportunidade, deve-
mos utilizar a opo hovtest do comando means. A hiptese de interesse
neste caso dada por:
_
_
_
H
0
:
2
1
=
2
2
= =
2
k
=
2
H
1
: pelo menos uma varincia difere das demais
(5.3)
em que k o nmero de nveis do fator de interesse e
2
i
a varincia do
i-simo nvel, i = 1, 2, , k.
Existem vrios testes para esta hiptese na literatura. O SAS apre-
senta a implementao para alguns deles. Vamos descrever estes testes de
forma bastante simplicada. Maiores detalhes podem ser vistos em Ferreira
(2005)[3]. O teste de Bartlett um teste de razo de verossimilhanas.
Para apresentarmos a estatstica deste teste, devemos considerar que S
2
i
o
estimador da varincia do i-simo nvel do fator estudado em n
i
repeties;
S
2
p
=

k
i=1
(n
i
1)S
2
i
/(n k) o estimador da varincia comum das k
populaes (ou dos k nveis do fator); e n =

k
i=1
n
i
total de parcelas
experimentais. Assim, a estatstica
2
c
=
(n k) ln(S
2
p
)
k
i=1
_
(n
i
1) ln(S
2
i
)
1 +
1
3(k 1)
_
k
i=1
_
1
n
i
1
_
1
n k
_ (5.4)
sob H
0
possui distribuio assintoticamente de qui-quadrado com = k 1
graus de liberdade. Assim, se o valor calculado da estatstica superar o
quantil superior 100% (
2
;
) da distribuio de qui-quadrado com graus
de liberdade, a hiptese nula (5.3) deve ser rejeitada.
Os demais testes que veremos na seqncia so os de Levene e Brown e
Forsythe (Ferreira (2005)[3]). Estes testes so baseados em uma anlise de
varincia, onde os valores originais da varivel resposta so substitudos por
outra varivel Z
ij
. O teste F aplicado e a sua estatstica obtida entre
a razo da variao entre grupos e dentro de grupos. A diferena bsica
entre os procedimentos determinada pela forma como os valores desta
nova varivel so obtidos. Para o teste de Levene, duas opes existem.
A primeira baseada nos desvios da i-sima mdia, tomados em mdulo.
Assim, os valores para a varivel Z
ij
= |Y
ij

Y
i.
| so obtidos e o teste F
aplicado. Para a segunda opo, devemos obter os valores da varivel
Z
ij
= (Y
ij

Y
i.
)
2
, a qual refere-se aos desvios da mdia do i-simo nvel do
fator tomados ao quadrado. Para realizarmos o teste de Brown e Forsythe
devemos obter esta varivel por: Z
ij
= |Y
ij

Y
i
|, sendo

Y
i
a mediana do
i-simo nvel do fator.
Obtidos os valores desta varivel para as n observaes amostrais, de-
vemos utilizar a estatstica do teste:
F
c
=
(n k)
k
i=1
n
i
_
Z
i.

Z
..
_
2
(k 1)
k
i=1
n
i
j=1
_
Z
ij

Z
i.
_
2
(5.5)
em que:
Z
i.
=
n
i
j=1
Z
ij
n
i
e

Z
..
=
k
i=1
n
i
j=1
Z
ij
n
para testarmos a hiptese nula (5.3), utilizando a distribuio F com
1
=
k 1 e
2
= n k graus de liberdade. Devemos rejeitar a hiptese nula se
F
c
de (5.5) for superior ao quantil superior 100% (F
,
1
,
2
) da distribuio
F.
Todos estes testes podem ser obtidos com a opo hovtest=teste do
comando means. Onde no lugar de teste, podemos utilizar levene(type =
square), levene(type=abs), BF, Bartlett e o teste no apresentado OBrien.
O programa SAS na seqncia ilustra a aplicao do teste de Levene com
desvios absolutos da mdia. Obtivemos um valor-p para a estatstica F
c
de
19, 5% e tomamos a deciso de no rejeitar a hiptese de homogeneidade
de varincias.
/* Exemplo da utilizao do Proc Anova para realizar testes de homogeneidade de vari-
ncias*/
data dic;
input racoes gp @@;
cards;
1 35 1 19 1 31
1 15 1 30 2 40
2 35 2 46 2 41
2 33 3 39 3 27
3 20 3 29 3 45
4 27 4 12 4 13
4 28 4 30
;
proc anova;
class racoes;
model gp=racoes;
means racoes / hovtest=levene(type=abs);
5.3 Estrutura Cruzada de Tratamentos
Em muitas situaes experimentais temos delineamentos mais comple-
xos que o inteiramente casualizado, ou mesmo para este delineamento, po-
demos ter mais de um fator em estruturas mais intrincadas. Entre es-
tes delineamentos mais complexos, encontram-se os blocos casualizados, os
quadrados latinos e os ltices. Alm da estrutura experimental ser mais
5.3 Estrutura Cruzada de Tratamentos 101
complexa, a estrutura de tratamentos tambm pode no ser a de um sim-
ples fator. Uma estrutura muito comum a cruzada, onde os fatores so
combinados fatorialmente. Como a modelagem no SAS bastante simples,
independentemente das estruturas experimental e de tratamentos, vamos
ilustrar o seu uso com um caso onde temos um delineamento em blocos ca-
sualizados com dois fatores quantitativos (adubo mineral e torta de ltro).
Foram utilizados os nveis 0 e 20 kg/ha de adubo mineral e 10% e 20%
de torta de ltro. Cada combinao fatorial dos tratamentos foi repetida 4
vezes e a produtividade das plantas foi mensurada. O programa SAS para a
anlise de varincia deste modelo est apresentado na seqncia. O modelo
estatstico da anlise de variao dado por:
Y
ijk
= +
i
+
j
+
k
+
jk
+
ijk
(5.6)
em que a constante geral do modelo,
i
o efeito do i-simo bloco,
j
o efeito do j-simo adubo mineral,
k
o efeito da k-sima torta de
ltro,
jk
o efeito da interao entre a j-sima dose do adubo mineral e a
k-sima dose da torta de ltro e
ijk
o erro experimental suposto normal
e independentemente distribudo com mdia 0 e varincia
2
.
/* Exemplo da utilizao do Proc Anova para uma estrutura fatorial em um DBC*/
data Fat;
input A T bloco prod;
cards;
0 10 1 18.0
20 10 1 20.6
0 20 1 19.6
20 20 1 19.2
0 10 2 8.6
20 10 2 21.0
0 20 2 15.0
20 20 2 19.6
0 10 3 9.4
20 10 3 18.6
0 20 3 14.6
20 20 3 18.4
0 10 4 11.4
20 10 4 20.6
0 20 4 15.8
20 20 4 20.2
;
proc anova data=fat;
class A T bloco;
model prod = bloco A T A*T;
run; quit;
O resultado da anlise de variao foi reapresentado na Tabela 5.5 em
uma forma que encontramos mais comumente nos livros textos.
Tabela 5.5: Anlise da variao para o modelo fatorial (2 fatores) em um
delineamento de blocos casualizados.
Bloco 3 37,83 12,6100 3,01 0,09
A 1 131,10 131,1000 31,30 0,00
T 1 12,60 12,6000 3,01 0,12
A*T 1 27,55 27,5500 6,58 0,03
Erro 9 37,70 4,1889
Total 15 246,80
Podemos observar efeitos signicativos (P < 0, 05) para adubo mineral e
interao. Poderamos pensar inicialmente em desdobrar a interao adubo
mineral e torta de ltro A T, estudando o efeito do adubo mineral em
cada nvel de torta. Uma abordagem um pouco mais interessante consiste
em utilizar um modelo de regresso contendo efeitos de ambos os fatores
simultaneamente. Este tipo de modelo conhecido como superfcie de res-
posta. Vamos utilizar um modelo com trs parmetros, sem considerar o
intercepto. O modelo de anlise de varincia para as fontes de variao
adubo mineral, torta de ltro e interao adubo mineral e torta de ltro
(A T) possui 3 graus de liberdade associados. O modelo escolhido deveria
conter apenas 2 parmetros, para que o grau de liberdade remanescente
fosse utilizado para testar a falta de ajuste do modelo. Neste exemplo no
poderemos aplicar tal teste, por termos esgotados os trs graus de liberdade
disponveis. O R
2
ser igual unidade, mostrando que podemos obrigar a
superfcie a passar exatamente sobre os pontos observados. Utilizaremos
esta superfcie apenas para ilustrar como recalcular determinadas quanti-
dades como R
2
, erros padres e testes F e t para as hipteses de interesse.
O modelo que ajustaremos dado por:
Y
.jk
=
0
+
1
A
j
+
2
T
k
+
3
AT
jk
+
jk
(5.7)
em que

Y
.jk
a resposta mdia para os nveis j e k do adubo mineral e da
torta de ltro,
so os parmetros da regresso, A
j
o nvel j do adubo
mineral, T
k
o k-simo nvel da torta de ltro, AT
jk
o produto dos nveis
j e k do adubo mineral e da torta de ltro e
jk
o erro mdio associado
com varincia
2
/r, sendo r = 4.
Para ajustar o modelo da equao (5.7) foi utilizado o proc reg com
todas as observaes experimentais. Poderamos ter utilizado somente as
mdias da interao para realizarmos este ajuste. Neste caso as somas de
quadrados deveriam ser recalculadas para a escala original e optamos por
no faz-lo e utilizarmos todos os dados. Assim, criamos a varivel AT dada
pelo produto dos nveis de A pelos de T. O programa resultante dado por:
/* Exemplo da utilizao do Proc Anova para uma estrutura fatorial em um DBC*/
data Fat;
AT=A*T;
cards;
0 10 1 18.0
20 10 1 20.6
0 20 1 19.6
20 20 1 19.2
0 10 2 8.6
20 10 2 21.0
0 20 2 15.0
20 20 2 19.6
0 10 3 9.4
20 10 3 18.6
0 20 3 14.6
20 20 3 18.4
0 10 4 11.4
20 10 4 20.6
0 20 4 15.8
20 20 4 20.2
;
proc reg data=fat;
model prod= A T AT/ss1;
Run;Quit;
Como zemos as anlises utilizando os dados originais, a soma de qua-
drados de modelo de regresso (171, 2675), apresentada na Tabela 5.6, re-
presenta a soma das somas de quadrados de A, T e A T (131,10, 12,60 e
27,55) obtidas na anlise de varincia (Tabela 5.5). A soma de quadrados do
resduo (75, 53) desta anlise contempla a soma de quadrados do erro puro
(37, 70) e a soma de quadrados de blocos (37, 83). Tambm conteria a soma
de quadrados do desvio do modelo ajustado, se no tivssemos utilizado um
modelo completo. Como neste exemplo esgotamos os graus de liberdade do
modelo, no houve desvios. Devemos sempre isolar todos estes componentes
manualmente, pois o SAS no tem uma opo que nos possibilita ajustar
o modelo dentro do contexto da anlise de varincia. Devemos utilizar o
proc reg e os resultados obtidos devem ser corrigidos posteriormente pelo
usurio.
Tabela 5.6: Anlise da variao para o modelo de regresso para o exemplo
fatorial da adubao com 2 fatores.
Modelo 3 171,27 57,0900 9,070 0,002
Erro 12 75,53 6,2942
Total 15 246,80
No precisamos ajustar nenhum coeciente de regresso, mas devemos
ajustar os erros padres e os testes associados, o R
2
do modelo e outros
testes e estimativas. O R
2
= 0, 6940 utilizou a soma de quadrados de totais
corrigido como denominador, mas deveria utilizar a soma de quadrados
de tratamentos SQA + SQT + SQAT = 171, 27. Assim, o real valor do
coeciente de determinao R
2
= 1. As estimativas dos parmetros do
modelo e os seus erros padro esto apresentados na Tabela 5.7. Estes
resultados referem-se as estimativas originais do programa SAS, as quais
devemos ajustar.
Tabela 5.7: Estimativas dos parmetros do modelo com seus erros padres
e teste da hiptese para
i
= 0 fornecidas originalmente pelo SAS.
t
c
para
Parmetro GL Estimativas Erro padro H
0
:
i
= 0 Pr > |t|
0
1 7,4500 2,8049 2,66 0,021
1
1 0,6800 0,1983 3,43 0,005
2
1 0,4400 0,1774 2,48 0,029
3
1 -0,0263 0,0125 -2,09 0,058
O erro padro de uma determinada estimativa obtido pela expres-
so (3.15), ou seja, por

x
ii
S
2
, em que S
2
o estimador da varincia
residual e x
ii
a diagonal de (X
X)
1
. Como S
2
utilizada foi a varincia
contendo outros efeitos do modelo, como o efeito de blocos, de outros fa-
tores do modelo, do desvio de regresso e do erro puro, ento devemos
obter o quadrado do erro padro, multiplicar pela estimativa da varin-
cia do erro do modelo de regresso do proc reg e assim obter x
ii
. O novo
erro padro estimado multiplicando x
ii
pelo QME da anlise de vari-
ncia (Tabela 5.5) e extraindo a raiz quadrada. Para ilustrarmos, vamos
considerar o erro padro da estimativa de
0
. Este erro padro foi igual
a 2, 8049. Devemos elev-lo ao quadrado e dividi-lo por 6, 2942, obtendo
2, 8049
2
/6, 2942 = 1, 25. Este valor deve ser multiplicado pelo quadrado
mdio do erro puro (4, 1889) e em seguida extrair sua raiz quadrada. O va-
lor obtido
1, 25 4, 1889 = 2, 2883. Repetindo este processo para todos

os demais parmetros, encontramos os resultados apresentados na Tabela
5.8, aps recalcular os valores-p da ltima coluna. Conclumos que todos
os efeitos foram signicativamente importantes na presena dos demais, o
que no havia acontecido para A T ou
3
, quando consideramos a anlise
original do proc reg.
Tabela 5.8: Estimativas dos parmetros do modelo com seus erros padres
e teste da hiptese para
i
= 0 devidamente corrigidas.
t
c
para
Parmetro GL Estimativas Erro padro H
0
:
i
= 0 Pr > |t|
0
1 7,4500 2,2882 3,26 0,010
1
1 0,6800 0,1618 4,20 0,002
2
1 0,4400 0,1447 3,04 0,014
3
1 -0,0263 0,0102 -2,58 0,030
A anlise de varincia para o modelo de regresso devidamente corrigida
foi apresentada na Tabela 5.9. No temos neste caso graus de liberdade para
o desvio de regresso, que nos possibilitaria aplicar o conhecido teste da falta
de ajuste, um dos mais importantes testes na anlise de regresso. O ideal
ajustarmos modelos que no esgotem os graus de liberdade de tratamentos,
permitindo que haja pelo menos um grau de liberdade para realizarmos o
teste da falta de ajuste.
Tabela 5.9: Anlise da variao devidamente corrigida para o modelo de
regresso do exemplo fatorial da adubao com 2 fatores.
Modelo 3 171,27 57,0900 13,62 0,001
Desvios 0 - - - -
Erro 9 37,70 4,1889
Tratamento 3 171,27
Muitos pesquisadores no se atentam para estas correes da anlise de
regresso quando submetida ao proc reg, sendo os dados oriundos de uma
anlise de varincia. Assim, muitas inferncias podem estar comprometidas
e at mesmo incorretas.
O modelo ajustado dado por:
Y
.jk
= 7, 45 + 0, 68A
j
+ 0, 44T
k
0, 0263AT
jk
Na Figura 5.1 apresentamos a superfcie de resposta ajustada para os
valores mdios dos nveis dos fatores A e T em relao a produo. Obser-
vamos que as respostas mximas foram obtidas quando se utilizou a dose
20 kg/ha de adubo mineral com a dose mnima de torta de ltro (10%).
20
15
20
12
10
14
A
18
16
18
16
T
20
5
14
12
10
0
Figura 5.1: Modelo ajustado de superfcie de resposta para os dados de
produo em funo da adubao mineral (A) e da adubao orgnica com
torta de ltro (T).
Podemos observar que haver uma queda acentuada da produtividade
se no for utilizado adubo qumico. Nesta mesma condio se passarmos
do nvel de 10% de torta para 20%, observamos um incremento na produ-
tividade. No entanto, se estamos utilizando a dose de 20 kg/ha de adubo
qumico, este aumento de 10% para 20% na torta de ltro provoca uma re-
duo da produtividade mdia. Assim, devemos recomendar as doses de 20
kg/ha de adubo mineral e 10% de torta de ltro para obtermos a mxima
resposta.
5.4 Modelos Lineares Com Mais de Um Erro
Em algumas situaes reais nos deparamos com modelos que contm
mais de um erro experimental. Isso acontece em delineamentos experimen-
tais como o de parcelas subdivididas, sub-subdivididas ou em faixas. Um
outro caso que ocorre normalmente o de parcela subdividida no tempo.
Neste caso o delineamento em geral simples, como o inteiramente casua-
lizado ou o de blocos casualizados e cada parcela ou unidade experimental
avaliada ao longo do tempo. Se pudermos supor que existe uma varin-
cia constante entre as observaes ao longo do tempo e que a estrutura de
correlao entre diferentes tempos a mesma, ento podemos fazer uma
abordagem biomtrica bastante simples, tratando este modelo com um mo-
delo de parcelas subdividas no tempo. Assim, mais de um erro ir aparecer
no modelo e este caso pode ser encaixado dentro desta seo. Esta estrutura
de correlao denominada de simetria composta.
Vamos ilustrar este tipo de modelo, contendo mais de um erro, com um
exemplo de parcela subdividida no tempo. Um adubo mineral foi utilizado
como fator principal, onde desejvamos comparar seus trs nveis 0, 10 e 20
kg/ha. Estas trs dosagens foram submetidas a um delineamento em blocos
completos casualizados com 2 repeties. O interesse era o crescimento das
plantas ao longo do tempo. Assim, foram avaliadas as alturas das plantas
durante 3 meses consecutivos. O modelo estatstico para este experimento
dado por:
Y
ijk
= +
i
+
j
+
ij
+
k
+
jk
+
ik
+
ijk
(5.8)
em que Y
ijk
a observao da altura das plantas em metros, a constante
geral do modelo,
i
o efeito do i-simo nvel da adubao qumica,
j

o efeito do j-simo bloco,
ij
o efeito do erro experimental entre a i-sima
dose e o j-simo bloco,
k
o efeito do k-simo ms,
jk
efeito do erro
experimental do j-simo bloco com o k-simo ms,
ik
o efeito da interao
5.4 Modelos Lineares Com Mais de Um Erro 109
entre a i-sima dose de adubo qumico com o k-simo ms e
ijk
o erro
experimental entre a i-sima dose, j-simo bloco e k-simo ms.
O programa SAS contendo os dados experimentais e a sintaxe para es-
pecicar os erros do modelo e determinar os testes corretos apresentado na
seqncia. Como os erros intermedirios do modelo no so prontamente re-
conhecidos pelo SAS, estes devem ser indicados para que possamos realizar
os testes de hipteses corretamente. Se esta indicao dos erros intermedi-
rios no for feita, os resultados dos testes de hipteses sero incorretos.
/* Programa para realizar anlise de varincia de um modelo contendo mltiplos erros.
O modelo escolhido foi o de parcela subdividida no tempo.*/
data sub;
input bloco trat mes alt;
cards;
1 0 1 1.00
1 10 1 1.05
1 20 1 1.08
2 0 1 1.02
2 10 1 1.06
2 20 1 1.09
1 0 2 1.10
1 10 2 1.12
1 20 2 1.14
2 0 2 1.08
2 10 2 1.15
2 20 2 1.18
1 0 3 1.14
1 10 3 1.20
1 20 3 1.22
2 0 3 1.15
2 10 3 1.21
2 20 3 1.23
;
proc anova data=sub;
class bloco trat mes;
model alt = bloco trat bloco*trat mes bloco*mes mes*trat;
test h=bloco trat e=bloco*trat;
test h=mes e=bloco*mes;
means mes/ Tukey e=bloco*mes;
run; quit;
Se os nveis dos tratamentos fossem qualitativos, o que no o caso
deste exemplo, o comando <means trat / tukey e=bloco*trat;>, poderia
ser utilizado. Com este comando, so requisitados o clculo das mdias de
tratamento e a aplicao do teste de Tukey usando como erro o efeito de
bloco*trat. Se for utilizado apenas o comando <means trat / tukey;>, o
proc anova ir aplicar o teste de Tukey com o erro inadequado, ou seja, com
o erro geral do modelo. Os testes de hipteses sobre os efeitos dos fatores
so aplicados corretamente se for especicado o comando test, indicando ao
SAS qual deve ser o procedimento adequado. Neste comando as hipteses a
serem testadas so determinadas no comando h=efeito e o erro apropriado
para test-las, no comando e=efeito. Os resultados incorretos do SAS, que
utiliza o erro do modelo para testar estas hipteses, devem ser ignorados. A
opo test no checada pelo proc anova e de inteira responsabilidade do
usurio a correta aplicao do teste F. Os resultados da anlise de varincia
devidamente reorganizada est apresentada na Tabela 5.10.
Tabela 5.10: Anlise da variao devidamente apresentada para o modelo
de parcela subdividida no tempo.
Bloco 1 0,00080000 0,00080000 6,86 0,1201
Trat (2) (0,01750000) 0,00875000 75,00 0,0132
RL 1 0,01687000 0,01687000 144,60 0,0068
Desvio 1 0,00062500 0,00062500 5,35 0,1468
Erro a 2 0,00023333 0,00011667
Ms 2 0,06043333 0,03021667 1.813,00 0,0006
Erro b 2 0,00003333 0,00001667
Trat*Ms 4 0,00016667 0,00004167 0,20 0,9259
Erro 4 0,00083333 0,00020833
Total 17 0,08000000
5.5 Modelos lineares multivariados 111
Ajustamos um modelo linear simples da varivel resposta altura em
funo da adubao qumica utilizando o proc reg e obtivemos o seguinte
modelo:

Y
i..
= 1, 08583 + 0, 00375A
i
, em que A
i
o i-simo nvel do adubo
qumico. O coeciente de determinao deve ser reestimado por R
2
=
0, 01687/0, 0175 = 0, 964. A anlise de varincia do modelo de regresso,
apresentando o teste de falta de ajuste foi incorporado na Tabela 5.10. Neste
caso, obtivemos um teste de falta de ajuste no signicativo, um R
2
alto e o
modelo de regresso com teste F signicativo, ou seja, obtivemos resultados
considerados ideais.
Consideramos ainda que os nveis de ms sejam qualitativos e no quan-
titativos e aplicamos o teste Tukey. Todas as mdias diferiram entre si pelo
teste de Tukey. Deve-se observar que foi utilizado o erro apropriado para
realizarmos o teste de comparaes mltiplas de Tukey. As maiores mdias
para a altura em relao ao ms, como era esperado, estavam associadas ao
3, seguidas pelo 2 e nalmente pelo 1.
5.5 Modelos lineares multivariados
Na pesquisa agropecuria e de outras reas comum as situaes em que
vrias variveis so mensuradas simultaneamente. Os fenmenos estudados
respondem aos tratamentos no apenas com relao a uma varivel, mas sim
em relao ao conjunto total de variveis associadas aquele fenmeno. Nes-
tes casos, duas aproximaes podem ser feitas: a primeira utilizando uma
anlise para cada varivel separadamente, produzindo uma grande quan-
tidade de informaes, alm de no levar em considerao a estrutura de
covarincia entre as variveis; a segunda utilizando a anlise multivariada,
que considera esta estrutura de covarincia entre as variveis sob estudo.
Para ilustrar como so realizados os ajustes dos modelos e obtidas as
somas de quadrados e de produtos, vamos utilizar um modelo linear multi-
variado com m parmetros associados a cada uma das p variveis respostas.
Diferentemente dos casos univariados, onde so calculadas apenas somas de
quadrados, nos modelos lineares multivariados so obtidas somas de produ-
tos entre as variveis. Isto deve ser feito para cada fonte de variao (ou
efeito) do modelo. As somas de quadrados e produtos so apresentadas em
uma matriz p p e os testes de hipteses envolvem estatsticas que so re-
lacionadas com razes de determinantes ou de funes dos autovalores das
matrizes de somas de quadrados e produtos associadas hiptese e ao erro.
Os modelos lineares multivariados podem ser escritos matricialmente
por:
Y = X + (5.9)
em que Y matriz das variveis respostas com n linhas (observaes) e
p colunas (variveis), X a matriz de modelo com n linhas e m colunas
(parmetros do modelo), a matriz de parmetros com m linhas e p
colunas e a matriz de erros n p supostos normal multivariados e
independentemente distribudos com mdia 0
e covarincia comum .
A soluo de mnimos quadrados obtida por:
= (X
X)
g
X
Y (5.10)
A matriz de somas de quadrados e produtos do modelo determinado por
5.9 dada por:
H = R() =
Y (5.11)
A matriz de soma de quadrados e produtos do resduo E obtida por
E = Y
Y . Mediante redues de modelos hierrquicos, apli-

camos as expresses 5.10 e 5.11 para estimarmos as matrizes de somas de
quadrados e produtos dos efeitos de um modelo ajustados para os efeitos de
outros, da mesma forma como feito para regresso e para modelos univa-
riados. A diferena neste caso o resultado matricial obtido. No daremos
nenhum outro resultado adicional neste material, devido s diculdades
tericas deste assunto.
Vamos ilustrar a utilizao do proc anova para realizarmos uma anlise
de varincia multivariada, com os respectivos testes de hipteses. O exemplo
que vamos utilizar refere-se a trs mtodos de ensino diferentes aplicados a
uma determinada srie do ensino bsico. As notas de duas disciplinas em
cada mtodo de ensino foram anotadas em amostras de diferentes tamanhos.
O programa SAS com os trs mtodos de ensino (A, B e C) juntamente
com os comandos da opo Manova so apresentados na seqncia.
/* Programa ilustrativo da Manova */
data multi;
input met $ n1 n2;
cards;
A 69 75
A 69 70
A 71 73
A 78 82
A 79 81
A 73 75
B 69 70
B 68 74
B 75 80
B 78 85
B 68 68
B 63 68
B 72 74
B 63 66
B 71 76
B 72 78
B 71 73
B 70 73
B 56 59
B 77 83
C 72 79
C 64 65
C 74 74
C 72 75
C 82 84
C 69 68
C 76 76
C 68 65
C 78 79
C 70 71
C 60 61
;
proc anova;
class met;
model n1 n2 = met;
manova h = met / printe printh;
run;quit;
Os principais resultados desta anlise foram sumariados na seqncia.
Inicialmente foram obtidas as anlises de varincias para cada uma das
notas das matrias. Os resultados para a varivel 1 esto apresentados na
Tabela 5.11. Observamos que no foram detectadas diferenas signicativas
entre os mtodos.
Tabela 5.11: Anlise da variao para nota da disciplina 1 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino.
Mtodos 2 60,6051 30,3025 0,91 0,4143
Erro 28 932,8788 33,3171
Tratamento 30 993,4839
Os resultados para a varivel 2 esto apresentados na Tabela 5.12. Da
mesma forma que ocorreu para a varivel 1, observamos que no foram
detectadas diferenas signicativas entre os mtodos.
Tabela 5.12: Anlise da variao para nota da disciplina 2 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino.
Mtodos 2 49,7359 24,8679 0,56 0,5776
Erro 28 1243,9416 44,4265
Tratamento 30 1293,6774
Os comandos printe e printh geram sadas com as matrizes de somas
de quadrados e produtos do resduo e de mtodos. Alm disso, o primeiro
comando permite que se obtenha as estimativas das correlaes parciais
entre as variveis ajustadas paras as fontes de variao do modelo. As
matrizes de soma de quadrados e produtos so:
E =
_
932, 8788 1018, 6818
1018, 6818 1243, 9416
_
e H =
_
60, 6051 31, 5117
31, 5117 49, 7359
_
A matriz de correlaes parciais acompanhada das probabilidade para
os testes de hipteses H
0
: = 0 dada por:
R =
_
_
1, 0000 0, 94564
< 0, 0001
0, 945640 1, 0000
< 0, 0001
_
_
Conclumos que as duas variveis so altamente correlacionadas, elimi-
nando-se o efeito dos mtodos. Os testes de hipteses multivariados sobre a
igualdade do vetor de mdias so feitos basicamente por 4 critrios distintos.
O critrio de Wilks um deles e um teste via razo de verossimilhanas.
Muitos pesquisadores preferem tomar a deciso de rejeitar a hiptese nula
quando pelo menos 3 dos 4 critrios apresentarem estimativas signicativas
das estatsticas dos testes. Outros preferem utilizar o critrio de Wilks
para tomar esta deciso. Para testarmos a hiptese nula, qualquer que
seja a opo escolhida, os valores destas estatsticas so convertidos para
F, que a distribuio utilizada para aproximar as exatas. Em alguns
casos dependendo do nmero de tratamentos e de variveis a estatstica F
resultante possui distribuio F exata. Na verso 9, o SAS j apresenta uma
opo para solicitar que os testes exatos sejam computados. Os resultados
do teste de hiptese de igualdade dos vetores de mdias dos trs mtodos
foram apresentados na Tabela 5.13. Todos os critrios apresentaram valores
correspondentes de F signicativos.
Uma outra observao que pode ser feita neste exemplo, refere-se ao
fato de os nveis de signicncia multivariados terem sido muito menores
que os univariados, indicando os casos clssicos em que os testes univariados
Tabela 5.13: Testes de hipteses multivariados para a igualdade dos efeitos
dos mtodos de ensino.
GL GL
Estatstica Estimativa F num. den. Pr > F
Wilks Lambda 0,67310116 2,95 4 54 0,0279
Pillais Trace 0,33798387 2,85 4 56 0,0322
Hotelling-Lawley Trace 0,46919220 3,13 4 31,389 0,0281
Roys Greatest Root 0,43098027 6,03 2 28 0,0066
falham em detectar alguma diferena entre os tratamentos, mas os multiva-
riados no. Este fato provavelmente pode ser em parte explicado pela alta
correlao parcial entre as variveis respostas.
5.6 Exerccios
1. Utilizar dados balanceados resultantes de pesquisas desenvolvidas em
sua rea e realizar anlises de varincias utilizando o proc anova. Apli-
car os testes de mdias, se os nveis forem qualitativos, ou ajustar mo-
delos de superfcie de resposta ou de regresso, se os nveis dos fatores
forem quantitativos.
2. Em sua opinio, qual foi a vantagem de se utilizar uma modelagem
multivariada para o exemplo deste captulo que comparava trs m-
todos de ensino em relao a anlise de varincia univariada. Voc
utilizaria anlises multivariadas de varincia em sua rea prossional?
Captulo 6
Anlise de Varincia para
Dados No-Balanceados
Muitas vezes precisamos realizar inferncia sobre a igualdade de m-
dias de um determinado fator. Se o conjunto de dados for no-balanceado,
apresentando perdas de parcelas ou at mesmo de caselas devemos utilizar
a anlise de varincia para isso. A anlise de varincia neste caso deve
ser realizada por meio de mtodos matriciais para lidarmos com o no-
balanceamento dos dados. A partio da variao entre as observaes em
partes associadas a certos fatores, que so denidos pelo esquema de clas-
sicao dos dados experimentais, pode ser realizada de diferentes formas.
Assim, diferentes hipteses podem ser testadas a partir de um mesmo con-
junto de dados.
O proc anova apropriado para conjuntos de dados que sejam balance-
ados. O proc glm nos permite analisar conjuntos de dados no-balanceados,
incluindo casos extremos de desconexo. Neste captulo aplicaremos o proc
glm a conjuntos de dados no-balanceados. Estudaremos trs dos quatro
tipos de somas de quadrados que podem ser estimados por este procedi-
mento. No caso de delineamentos balanceados, estas somas de quadrados,
so todas iguais, no havendo diferenas nas hipteses que so testadas,
exceto se para a soma de quadrados tipo I for utilizada uma ordem em que
um efeito de interao aparece antes dos efeitos principais ou de interaes
de menor ordem destes efeitos principais que compem esta interao.
118 Anlise de Varincia para Dados No-Balanceados
A soma de quadrados tipo I refere-se soma de quadrados seqencial.
Esta soma de quadrado obtida com a reduo no modelo de um fator por
vez, na ordem inversa de entrada dos fatores no modelo. Para ilustrarmos,
vamos considerar um modelo com dois fatores (, ) e interao () dado
por:
Y
ijk
= +
i
+
j
+
ij
+
ijk
(6.1)
em que Y
ijk
o valor observado da varivel resposta, a constante geral,
i
o efeito do i-simo nvel do fator ,
j
o efeito do j-simo nvel do
fator ,
ij
o efeito da interao entre o i-simo nvel do fator com o
j-simo nvel do fator e
ijk
o efeito do erro experimental suposto normal
e independentemente distribudo com mdia 0 e varincia comum
2
.
A soma de quadrados tipo I, II e III para os efeitos do modelo da equao
(6.1) est apresentada na Tabela 6.1.
Tabela 6.1: Tipos de somas de quadrados de um modelo de anlise de
varincia contendo dois fatores e e interao .
FV SQ Tipo I SQ Tipo II SQ Tipo III
R(/) R(/, ) R(
)
R(/, ) R(/, ) R(
)
R(/, , ) R(/, , ) R(
indica parmetros obtidos sob o uso de restrio paramtrica.

A soma de quadrado tipo II para um dado fator obtida ajustando
esta fonte de variao para todas as outras que no contenha o efeito em
questo. Assim, a soma de quadrados para , no pode ser ajustada para a
fonte de variao , uma vez que esta ltima contm o efeito de , por ser
a interao deste fator com . A soma de quadrados tipo III, ou parcial,
refere-se ao ajuste de cada fator para todos os demais efeitos do modelo sob
restrio paramtrica do tipo soma de efeitos igual a zero.
As somas de quadrados do tipo I so dependentes da ordem de entrada
dos fatores no modelo. As somas de quadrados do tipo II e III no dependem
desta ordem de entrada. Como dissemos, elas so iguais quando os dados
so balanceados, tomando-se o cuidado de entrar com uma ordem dos efeitos
no modelo, em que os fatores principais vm antes das interaes de que
participam.
O proc glm um dos procedimentos do SAS utilizados para lidar com es-
tes casos no-balanceados. As sintaxes deste procedimento e do proc anova
so praticamente idnticas. As principais diferenas so, entre outras, a
possibilidade de estimar efeitos e testar contrastes, de realizar anlise de
covarincia e de estimar componentes de varincia.
Vamos utilizar alguns dos conjuntos de dados anteriores, provocando
articialmente algum tipo de no balanceamento em algumas ocasies e
em outras utilizando os dados balanceados, para ilustrarmos as principais
peculiaridades do proc glm.
6.1 Delineamento Inteiramente Casualizado
No modelo inteiramente casualizado com um fator (equao 5.2), vamos
considerar o mesmo conjunto de dados apresentados na Tabela 5.1, para
ilustrarmos o uso de contrastes no proc glm. A varivel resposta o ganho de
peso dos animais submetidos a quatro raes diferentes. Um delineamento
inteiramente casualizado com 5 repeties foi utilizado. Vamos imaginar
que houvesse uma estrutura dos nveis dos tratamentos, estabelecida por
diferentes rmas produtoras das raes e diferentes fontes de protenas.
Assim, a rao 1 proveniente da rma A e as raes 2, 3 e 4 da rma B.
A rao 2 possui fonte de protena animal e as raes 3 e 4 tm protena
de origem vegetal. As raes 3 e 4 diferem quanto ao nvel de energia que
possuem.
Devido aos tratamentos serem estruturados natural que faamos con-
trastes sugeridos por esta estrutura. Um conjunto de contrastes ortogonais
que poderamos desejar testar seria: 1 vs 2, 3, e 4, contrastando rma A con-
tra rma B, 2 vs 3 e 4, contrastando protena animal contra protena vegetal
e nalmente 3 vs 4, contrastando os nveis de energia. Como temos 3 graus
de liberdade e 3 contrastes ortogonais, ento, teramos feito uma decompo-
sio ortogonal das somas de quadrados de tratamento. Para estimarmos
os efeitos dos contrastes, aplicamos o comando estimate e para testarmos o
contraste, o comando contrast. O programa resultante, para estimarmos e
testarmos os efeitos dos contrastes, apresentado na seqncia.
/* Exemplo da utilizao do Proc GLM para testarmos contrastes em um DIC balance-
ado*/
data dic;
input racoes gp @@;
cards;
1 35 1 19 1 31 1 15
1 30 2 40 2 35 2 46
2 41 2 33 3 39 3 27
3 20 3 29 3 45 4 27
4 12 4 13 4 28 4 30
;
proc glm;
class racoes;
model gp=racoes;
means racoes / tukey alpha = 0.05 lines;
lsmeans racoes / pdi adjust = tukey;
lsmeans racoes / pdi = control(1) adjust = dunnett;
contrast 1 vs 2, 3 e 4 racoes 3 -1 -1 -1;
contrast 2 vs 3 e 4 racoes 0 2 -1 -1;
contrast 3 vs 4 racoes 0 0 1 -1;
estimate 1 vs 2, 3 e 4 racoes 3 -1 -1 -1/divisor=3;
estimate 2 vs 3 e 4 racoes 0 2 -1 -1/divisor=2;
estimate 3 vs 4 racoes 0 0 1 -1;
Utilizamos os comandos means e lsmeans, neste exemplo, simplesmente
para ilustrarmos as sintaxes, pois como os tratamentos so qualitativos es-
truturados, devemos utilizar contrastes para otimizarmos as comparaes
realizadas. Ilustramos o uso de um teste de comparaes mltiplas sobre
mdias no ajustadas e ajustadas e o teste de Dunnett bilateral, utilizando
a rao 1 como controle. O objetivo foi de apresentar a sintaxe dos co-
mandos para podermos obter mdias ajustadas e para aplicarmos os testes
de comparaes mltiplas e de Dunnett. Todos estes resultados devem ser
ignorados neste exemplo e somente os resultados dos contrastes e das es-
timativas devem ser considerados. Somente o contraste entre os tipos de
origem das protenas na formulao das raes da rma B foi signicativo
(P < 0, 0177). Como a estimativa positiva, podemos armar que em
mdia teremos um ganho superior em 12 kg/animal/perodo, se utilizar-
mos rao com protena animal em vez de protena de origem vegetal. No
solicitamos somas de quadrados de nenhum tipo, mas o padro do glm
apresentar tanto a soma de quadrados do tipo I, quanto do tipo III. Nos
modelos lineares para os quais temos apenas um efeito, alm do intercepto
e do erro, no faz sentido diferenciar as somas de quadrados, pois todas elas
so idnticas. Neste caso, a soma de quadrados do tipo I para raes foi de
823, 75, sendo o mesmo resultado obtido para as somas de quadrados dos
tipos II e III.
Uma outra vantagem do proc glm obter predies para os valores da
varivel resposta, que neste caso, so as mdias de caselas. Adicionalmente
os valores residuais so preditos. Para isso basta substituir o comando
<model gp=racoes;> por <model gp=racoes/p;>. Este comando, alm des-
tas estimativas e predies, fornece a estatstica de Durbin-Watson, para
realizarmos testes de autocorrelao. Outra estimativa, que utilizamos com
freqncia na anlise de dados no-balanceados, a da mdia ajustada. Em
vez de utilizarmos o comando <means racoes / tukey alpha=0.05 lines;>
podemos utilizar o comando <lsmeans racoes / pdi adjust=tukey;>. Neste
caso, o SAS calcular os valores-p das comparaes entre as lsmeans utili-
zando o procedimento ajustado de Tukey. Para comparao com o controle
fazemos pdi = control(trat) com o comando adjust = opo. A opo que
devemos utilizar a do teste de Dunnett, determinada por dunnett. Apesar
de o natural ser a escolha do comando adjust=dunnett, podemos escolher
outras formas de ajustes como Bon, Sidak, Schee, entre outras. claro
que para um delineamento inteiramente casualizado com um fator balance-
ado ou no-balanceado no existem diferenas entre as mdias ajustadas e
no-ajustadas. Mas, entre os testes utilizando as mdias ajustadas e as m-
dias no ajustadas existem diferenas nos casos no balanceados. Devemos
optar por utilizar as mdias ajustadas solicitando o teste apropriado.
6.2 Estrutura Cruzada de Tratamentos
Para ilustramos a anlise de modelos mais complexos, onde temos con-
juntos de dados no-balanceados, vamos retornar ao exemplo apresentado
na seo 5.3, simulando algumas perdas de parcelas. Com este exemplo,
vamos mostrar as diculdades existentes para realizar uma anlise de dados
no-balanceados e as diferenas entre os trs tipos de somas de quadra-
dos que estamos considerando. Posteriormente consideraremos, ainda, uma
anlise de covarincia. Os dados apresentados na seo 5.3 com algumas
perdas de unidades experimentais simuladas e o modelo da equao (5.6)
foram utilizados. Temos um delineamento em blocos casualizados com 4
repeties e 2 fatores (adubo mineral e torta de ltro) com 2 nveis cada.
O programa ilustrando a anlise de varincia e os principais resultados
alcanados esto apresentados na seqncia. Vamos destacar o uso da op-
o slice do comando lsmeans neste programa, a qual possibilita que seja
realizado o desdobramento de interaes entre efeitos do modelo.
/* Exemplo da utilizao do proc GLM para uma estrutura fatorial de tratamentos em
um DBC e no-balanceada*/
data Fat;
cards;
0 10 1 18.0
20 10 1 20.6
0 20 1 19.6
20 20 1 19.2
0 10 2 8.6
0 20 2 15.0
20 20 2 19.6
0 10 3 9.4
20 10 3 18.6
0 20 3 14.6
20 20 3 18.4
0 10 4 11.4
0 20 4 15.8
20 20 4 20.2
;
proc glm data=fat;
class A T bloco;
model prod = bloco A T A*T/ss1 ss2 ss3;
means A T/Tukey;
lsmeans A T/pdi adjust=Tukey;
lsmeans A*T/slice=A slice=T;
run; quit;
Inicialmente, observamos que uma anlise de variao contendo as fontes
de variao de modelo e de resduos foi obtida. Estes resultados esto
apresentados na Tabela 6.2. Na Tabela 6.3 apresentamos os trs tipos de
somas de quadrados solicitadas (I, II e III). Podemos observar um efeito
signicativo de A e de T para os trs tipos de somas de quadrados, exceto
para o efeito da torta de ltro com a soma de quadrado do tipo III. Em
todos os casos (I, II e III) tivemos um efeito no signicativo da interao,
sendo as somas de quadrados tipo I, II e III para este efeito iguais.
Tabela 6.2: Anlise da variao para o modelo fatorial (2 fatores) em um
delineamento de blocos casualizados, destacando-se as fontes de variao de
modelo e erro.
Modelo 6 180,89 30,15 6,75 0,0120
Erro 7 31,29 4,47
Total 13 212,17
CV = 12,92%

Y
...
= 16, 36
Houve uma diferena muito grande entre algumas das somas de quadra-
dos, sendo que no efeito da adubao mineral, isto foi mais pronunciado.
Era esperado, por exemplo, que as somas de quadrados do tipo I e do tipo
II para efeito da torta de ltro fossem iguais, considerando a ordem que os
fatores entraram no modelo. Dessa forma, podemos observar a importncia
de saber exatamente o que testamos, para interpretar adequadamente as
sadas do proc glm. Detalhes tcnicos a respeito das hipteses associadas a
estas somas de quadrados podem ser obtidos em publicaes especializadas.
Tabela 6.3: Resumo da anlise da variao para o modelo fatorial (2 fato-
res) em um delineamento de blocos casualizados, destacando as somas de
quadrados tipo I, II e III e as signicncias correspondentes.
FV G.L. SQ I SQ II SQ III
Bloco 3 53,1543ns 42,7233ns 42,7233ns
A 1 88,7520
66,9780
77,0133
T 1 27,3780
27,3780
17,7633ns
A*T 1 11,6033ns 11,6033ns 11,6033ns
,

e ns: signicativo a 5, 1% e no signicativo, respectivamente.
Se observarmos as sadas do SAS, podemos vericar que existem diferen-
as entre as mdias ajustadas e no-ajustadas, destacando-se a importncia
de utilizar o comando adequado para o caso balanceado. Neste exemplo
observamos que tanto para torta de ltro, como para a adubao mineral,
obtivemos diferenas signicativas para as mdias. No entanto, quando uti-
lizamos o teste com correo de Tukey sobre as mdias ajustadas, somente
detectamos diferenas signicativas para adubo mineral, mas no para torta
de ltro.
Finalmente o comando slice nos possibilita obter a anlise do desdobra-
mento da interao A T. Solicitamos os dois tipos de desdobramento: o
de A dentro dos nveis de T e o de T xados os nveis de A. Nenhum destes
dois casos sero apresentados, pois a interao foi no signicativa. As-
sim, recomendamos utilizar a maior dose de adubo mineral (teste marginal
signicativo) e a menor porcentagem de torta de ltro (teste marginal no
signicativo).
Reiteramos que as somas de quadrados do tipo I so afetadas pela or-
dem dos efeitos na especicao do modelo. Podemos ver claramente que
se alterarmos esta ordem, teremos diferentes somas de quadrados do tipo
I, mas as mesmas somas de quadrados dos tipos II e III obtidas anterior-
mente. O caso mais crtico desta alterao ocorre quando colocamos o efeito
da interao dos fatores antes dos efeitos principais. Como o espao para-
mtrico da interao contm os espaos paramtricos dos efeitos principais,
teremos resultados nulos para os graus de liberdade e somas de quadrados
associados. O leitor conclamado a vericar este resultado para o modelo
em questo.
Alguns outros aspectos interessantes da anlise merecem destaques. Co-
mo todos os procedimentos so realizados por meio de lgebra matricial e
vetorial, podemos solicitar a matriz inversa, a matriz X
X, valores preditos,
soluo mnimos de quadrados, entre outras opes. Para isso bastaria
substituir o comando <model prod = bloco A T A*T/ss1 ss2 ss3;> por
<model prod = bloco A T A*T/ss1 ss2 ss3 p solution XPX I;>.
Outra grande vantagem do proc glm a possibilidade de realizarmos
anlises de regresso. Um fator omitido do comando class ser considerado
varivel regressora e no varivel classicatria. Assim, temos a possibi-
lidade de realizar anlises de covarincia. A anlise de covarincia ocorre
quando temos variveis classicatrias (fatores qualitativos) e variveis re-
gressoras (fatores quantitativos) no mesmo modelo. Em geral estas covari-
veis devem ser mensuradas em todas as unidades experimentais e no devem
ser inuenciadas pelo tratamento. Por exemplo, se estamos testando dife-
rentes cultivares, utilizar o estande nal como covarivel, pode no ser uma
boa estratgia. Isso porque pode existir um efeito de cultivares no estande
nal, ou seja, o efeito de estande inuenciado pelo efeito de cultivares.
Assim, uma anlise como essa vai produzir um ajuste do efeito de cultivar
pelo efeito de estande. Como os dois efeitos podem estar relacionados, como
acabamos de discutir, teremos o efeito de cultivar ajustado, de forma indi-
reta, para o prprio efeito de cultivar. Assim, devemos utilizar covariveis
que no sejam inuenciadas pelos tratamentos. Neste caso, poderamos,
por exemplo, ter tomado medidas da fertilidade do solo em cada parcela
experimental, antes de as cultivares terem sido semeadas. Estas variveis
de fertilidade poderiam ser utilizadas como covariveis.
Neste exemplo fatorial foi simulada a avaliao de uma covarivel em
cada parcela, para podermos ilustrar uma anlise de covarincia. Assim, em
cada parcela experimental foi avaliado o teor de nitrognio. Uma amostra
de cada unidade foi coletada e os nveis de nitrognio do solo foram men-
surados, antes da implantao dos tratamentos, correspondentes ao adubo
mineral e a torta de ltro. Um aspecto da anlise de covarincia que em-
piricamente podemos mencionar, refere-se ao fato de que ao utilizarmos
uma covarivel e ajustarmos o efeito de tratamentos para essa covarivel,
estaramos fazendo algo semelhante a ter um experimento cujas condies
iniciais seriam homogneas para os nveis desta covarivel. Assim, como
se indiretamente estivssemos utilizando um controle local.
No exemplo que se segue apresentamos a anlise de covarincia utili-
zando como covarivel os nveis de nitrognio nas unidades experimentais
mensurados anteriormente a implantao do experimento. A especicao
de uma covarivel no modelo feita de maneira bastante simples. Para isso
omitimos no comando class a covarivel, mas a introduzimos no comando
model. O proc glm ir reconhecer a varivel omitida como uma varivel
regressora e o comando lsmeans ir ajustar as mdias dos fatores para a
covarivel ou covariveis presentes no modelo. O programa SAS, ilustrativo
deste caso, dado por:
/* Exemplo da utilizao do proc GLM para uma estrutura fatorial dos tratamentos com
covarivel em um DBC no-balanceado*/
data Fat;
input A T bloco prod N;
cards;
0 10 1 18.0 3
20 10 1 20.6 4
0 20 1 19.6 5
0 10 2 8.6 3
0 20 2 15.0 4
20 20 2 19.6 4
0 10 3 9.4 6
20 10 3 18.6 5
0 20 3 14.6 2
20 20 3 18.4 7
0 10 4 11.4 4
0 20 4 15.8 3
20 20 4 20.2 3
;
proc glm data=fat;
class A T bloco;
model prod = bloco A T A*T N/solution ss1 ss2 ss3;
means A T/Tukey;
lsmeans A T/pdi adjust=Tukey;
6.3 Modelos Com Mais de Um Erro 127
lsmeans A*T/slice=A slice=T;
run; quit;
Se realizarmos uma anlise de varincia com e sem a covarivel pode-
mos observar que os resultados para este exemplo apresentam uma ligeira
diferena nas somas de quadrados dos dois modelos. claro que a soma de
quadrados do tipo I no foi afetada, pois a covarivel apareceu aps todos os
demais efeitos do modelo. A opo solution permitiu que fosse apresentada
a soluo de mnimos quadrados. A covarivel foi nico efeito do modelo
cuja estimativa era no viesada. As demais concluses so similares s j
apresentadas anteriormente para este modelo de anlise de variao.
6.3 Modelos Com Mais de Um Erro
Para analisarmos experimentos mais complexos, contendo mais de um
erro e em estruturas no balanceadas, devemos denir quais tipos de somas
de quadrados desejamos utilizar, tanto para o tratamento quanto para o
resduo. Alm disso, temos que especicar quais so os testadores das fon-
tes de variao do modelo e tambm qual tipo de soma de quadrados deve
ser utilizada para realizar o teste de interesse. Vamos ilustrar este tipo de
anlise considerando modelos que contenham mais de um erro, a partir do
mesmo exemplo de parcela subdividida no tempo, apresentado na seo 5.4.
Vamos provocar articialmente um desbalanceamento no conjunto original
de dados para ilustrarmos a anlise almejada. Um adubo mineral foi uti-
lizado como fator principal, onde desejvamos comparar seus trs nveis 0,
10 e 20 kg/ha. Estas trs dosagens foram submetidas a um delineamento
em blocos completos casualizados com 2 repeties. O interesse focava o
crescimento das plantas ao longo do tempo. Assim, foram avaliadas as al-
turas das plantas durante 3 meses consecutivos. O modelo estatstico para
este experimento dado por:
Y
ijk
= +
i
+
j
+
ij
+
k
+
jk
+
ik
+
ijk
(6.2)
em que Y
ijk
a observao da altura das plantas em metros, a constante
geral do modelo,
i
o efeito do i-simo nvel da adubao qumica,
j

o efeito do j-simo bloco,
ij
o efeito do erro experimental entre a i-sima
dose e o j-simo bloco,
k
o efeito do k-simo ms,
jk
efeito do erro
experimental do j-simo bloco com o k-simo ms,
ik
o efeito da interao
entre a i-sima dose de adubo qumico com o k-simo ms e
ijk
o erro
experimental entre a i-sima dose, j-simo bloco e k-simo ms.
O programa SAS contendo os dados experimentais modicados arti-
cialmente para se tornarem no balanceado e a sintaxe para especicar os
erros do modelo e determinar os testes corretos com o tipo de soma de
quadrados pretendida apresentado na seqncia. O comando test deve
ser utilizado e em suas opes devemos nos preocupar em indicar o tipo de
soma de quadrados que utilizaremos. O programa resultante dado por:
/* Programa para realizar anlise de varincia de um modelo contendo mltiplos erros.
O modelo escolhido foi o de parcela subdividida no tempo com dados no-balanceados.*/
data sub;
input bloco trat mes alt;
cards;
1 0 1 1.00
1 10 1 1.05
1 20 1 1.08
2 10 1 1.06
2 20 1 1.09
1 0 2 1.10
1 10 2 1.12
1 20 2 1.14
2 0 2 1.08
2 10 2 1.15
2 20 2 1.18
1 0 3 1.14
1 10 3 1.20
1 20 3 1.22
2 10 3 1.21
2 20 3 1.23
;
proc glm data=sub;
class bloco trat mes;
6.3 Modelos Com Mais de Um Erro 129
model alt = bloco trat bloco*trat mes bloco*mes mes*trat/ss1 ss2 ss3;
test h=bloco trat e=bloco*trat / htype = 3 etype = 3;
test h=mes e=bloco*mes /htype = 3 etype = 3;
lsmeans trat/e=bloco*trat etype = 3 stderr;
lsmeans mes/e=bloco*mes etype = 3 pdi stderr adjust=Tukey;
lsmeans trat*mes/ etype = 3 stderr slice = trat slice = mes;
run; quit;
Nesta anlise podemos destacar que os testes so inicialmente realizados
utilizando o erro do modelo (erro C) como testador. Somente com o uso
do comando test que este problema foi corrigido. Assim, o teste para
bloco e para tratamento foi realizado com o erro A (bloco*trat) e o efeito
de ms foi testado com erro B (bloco*mes). No comando <test h=bloco trat
e=bloco*trat / htype = 3 etype = 3;> especicamos que iramos utilizar as
somas de quadrados do tipo III para tratamento e bloco e tambm para o
resduo. Comando similar utilizado para o teste do efeito relativo a ms.
Os comandos solicitando as mdias ajustadas de tratamento e de ms
so acrescidos das opes para que sejam estipulados o erro e o tipo de so-
mas de quadrados que sero utilizados. Tambm possibilitam obtermos os
erros padres dos efeitos e no caso de efeitos qualitativos, permitem reali-
zarmos testes de comparaes mltiplas com ajuste das probabilidade pelo
mtodo de Tukey-Kramer. No caso de efeitos de interao, permitem que
sejam realizados desdobramentos com o comando slice. O problema do co-
mando <lsmeans trat*mes/ etype = 3 stderr slice = trat slice = mes;> no
possibilitar que em alguns desdobramentos pudssemos utilizar varincias
complexas, como o caso destes dois tipos de desdobramento realizados.
O SAS no permite que especiquemos erros que so combinaes de qua-
drados mdios distintos. Ento, apesar de as somas de quadrados estarem
corretamente calculadas, os testes de hipteses desta opo devem ser re-
feitos manualmente. Um outro problema a impossibilidade de aplicar um
teste de mdias para algum desdobramento que tenha apresentado teste de
hiptese signicativo, utilizando o prprio programa.
6.4 Componentes de Varincia
Podemos utilizar o proc glm para obtermos componentes de varincia.
Componentes de varincia surgem quando alguns dos fatores que estamos
estudando so aleatrios. Estes fatores so considerados aleatrios quando
temos interesse na populao de origem. Os nveis destes fatores so amos-
tras aleatrias destas populaes. Assim, temos interesse na mdia geral
daquele efeito e principalmente na varincia. Em geral, no temos nenhum
interesse particular de comparar os nveis de fator aleatrio.
A idia de um dos mtodos para estimarmos os componentes da varin-
cia dos efeitos aleatrios do modelo consiste em igualarmos as estimativas
dos quadrados mdios s suas esperanas E(QM) e resolvermos as equaes
resultantes. Este mtodo conhecido como mtodo dos momentos. O proc
glm permite que obtenhamos as esperanas dos quadrados mdios por meio
do comando random. Um modelo pode ser classicado como xo, quando
todos os seus efeitos, excetuando a mdia geral e o erro, so xos. Se todos
os efeitos forem aleatrios, temos um modelo aleatrio. Se por outro lado,
tivermos efeitos xos e efeitos aleatrios, teremos um modelo misto.
Quando temos efeitos aleatrios no modelo, os testes de hipteses em
muitas situaes podem no ser feitos utilizando o quadrado mdio do res-
duo na obteno da estatstica. A deciso de qual deve ser o denominador
da estatstica do teste F, depende das esperanas dos quadrados mdios.
Nem sempre a especicao deste denominador trivial, pois pode haver a
necessidade de composio de quadrados mdios. A opo test do comando
random permite que testes F adequados sejam feitos nos modelos mistos
ou aleatrios. Este comando (random) essencialmente til quando temos
dados no balanceados.
Vamos ilustrar o uso do proc glm com um delineamento em blocos ca-
sualizados com 2 repeties. Uma amostra aleatria de 5 cultivares foi
obtida pelo pesquisador e constituiu o fator de interesse da anlise. Adi-
cionalmente, este experimento foi implantado em 2 locais. Assim, este
um exemplo em que aplicaremos uma anlise conjunta. Ocorreu, no expe-
rimento do local 1, uma perda de parcela. A repetio 1 da cultivar 5 foi
perdida.
6.4 Componentes de Varincia 131
O interesse reside no componente de varincia para cultivar, que foi con-
siderada de efeito aleatrio. O efeito de bloco, em geral, considerado como
aleatrio na literatura. Pelo fato de o efeito de cultivar ter sido considerado
aleatrio e o de local xo, a interao considerada aleatria. Os comandos
SAS, necessrios para estimarmos os componentes de varincia dos efeitos
aleatrios, so dados por:
/* Programa para realizar anlise de varincia conjunta de um modelo misto.*/
data rand;
input cult bl local prod;
cards;
1 1 1 8.4
1 2 1 8.6
2 1 1 5.7
2 2 1 5.8
3 1 1 4.5
3 2 1 6.7
4 1 1 5.9
4 2 1 7.8
5 2 1 8.9
1 1 2 6.2
1 2 2 7.6
2 1 2 8.3
2 2 2 9.5
3 1 2 3.5
3 2 2 4.9
4 1 2 7.4
4 2 2 8.8
5 1 2 8.9
5 2 2 9.0
;
proc glm data=rand;
class cult bl local;
model prod = bl(local) cult local cult*local / e3 ss3;
random bl(local) cult cult*local / test;
run; quit;
Merecem destaques alguns comandos e especicaes de modelo utili-
zados. O comando <model prod = bl(local) cult local cult*local / e3 ss3;>
possui o efeito de bloco hierarquizado em local. No podemos especicar
apenas o efeito de bloco, pois estaramos ignorando o fato de que os blocos
dos diferentes locais no so os mesmos. Assim, o bloco 1 do local 1 dife-
rente do bloco 1 do local 2. As opes e3 e ss3 indicam que as esperanas
dos quadrados mdios, utilizando somas de quadrados do tipo III, devem
ser utilizadas. No comando <random bl(local) cult cult*local / test;>, que
aparece aps o comando model, indicamos ao proc glm quais so os efeitos
aleatrios do modelo. Neste exemplo foram os efeitos de bloco dentro de
local, de cultivar e da interao cultivar local.
Inicialmente o SAS apresenta o resultado da anlise de varincia do tipo
III, cujo resumo apresentamos na Tabela 6.4. Se o modelo possui efeitos
aleatrios, os testes de signicncia (teste F) apresentados nesta anlise
provavelmente podem estar incorretos. Neste exemplo, como apenas o efeito
de local considerado xo, sendo todos os demais aleatrios, a maioria dos
testes F est incorreta. O correto utilizar as esperanas dos quadrados
mdios para especicar os testes de hipteses adequados e tambm para
estimar os componentes de varincia.
Tabela 6.4: Anlise da variao para o modelo de anlise conjunta (2 locais)
em um delineamento de blocos casualizados.
FV G.L. SQ III QM F Pr > F
Modelo (11) (52,9816) 4,8165 13,65 0,0011
bl(local) 2 5,4450 2,7225 7,72 0,0170
cult 4 27,4770 6,8693 19,47 0,0007
local 1 0,7111 0,7111 2,02 0,1987
cult*local 4 15,5483 3,8871 11,02 0,0038
Erro 7 2,4700 0,3529
Total 18 55,4516
CV = 8,27%

Y
...
= 7, 1789
Um segundo resultado apresentado pelo SAS, associado a anlise de
variao, refere-se as esperanas dos quadrados mdios. Estes resultados
6.4 Componentes de Varincia 133
esto sumariados na Tabela 6.5. Uma anlise das esperanas dos quadrados
mdios mostra que o testador para bloco(local) e para a interao cultivar
local o erro experimental. O testador para cultivar a interao cultivar
local e o testador para local tem de ser obtido por uma combinao de
quadrados mdios. A opo test do comando random nos permite obter as
estatsticas destes testes automaticamente.
Tabela 6.5: Esperana dos quadrados mdios e resumo da anlise da vari-
ao para o modelo de anlise conjunta (2 locais) em um delineamento de
blocos casualizados.
FV G.L. QM E(QM)
bl(local) 2 2,7225
2
+ 4, 5
2
b(L)
cult 4 6,8693
2
+ 1, 8333
2
CL
+ 3, 6667
2
C
local 1 0,7111
2
+ 1, 7778
2
CL
+ 4, 4444
2
b(L)
+Q
L
cult*local 4 3,8871
2
+ 1, 8333
2
CL
Erro 7 0,3529
2
Q
L
a forma quadrtica associada a local
A estimativa do componente de varincia de cultivar pode ser obtida por:

C
= (QMCult QMCult Local)/3, 6667 = 0, 8133. Os demais compo-
nentes de varincia podem ser obtidos de maneira similar. Muitas vezes te-
mos diculdades em determinar qual o quadrado mdio que devemos sub-
trair do quadrado mdio correspondente ao fator aleatrio para o qual dese-
jamos estimar o componente. Para a interao, isso foi obtido de uma ma-
neira bastante simples por
CL
= (QMCult Local QMErro)/1, 8333 =
1, 9278. Quando precisamos combinar quadrados mdios, o melhor indica-
tivo para determinarmos esta combinao fornecida pelo comando test.
Por exemplo, se desejssemos testar a hiptese de que o efeito quadrtico
Q
L
devido a local, que xo, seja nulo, poderamos utilizar a seguinte com-
binao de quadrados mdios como denominador da expresso da estatstica
do teste F:
0,9877QMbl(local) + 0,9697QMcult local - 0,9574QMErro,
cujos graus de liberdade associados seriam obtidos pelo processo de Sat-
terthwaite (1946)[11].
Utilizando os testes adequados apenas os efeitos de bloco(local) e da
interao cultivar local foram signicantes, indicando que os componen-
tes de varincia associados so diferentes de zero. Para cultivar no foi
detectada signicncia estatstica, sendo considerado nulo o componente de
varincia associado. Outras tipos de somas de quadrados podem ser utiliza-
das para estimarmos componentes de varincia e para realizarmos os testes
F. Para selecionarmos, por exemplo, as somas de quadrados do tipo II,
bastaria trocar o comando <model prod = bl(local) cult local cult*local / e3
ss3;> por <model prod = bl(local) cult local cult*local / e2 ss2;>. Quando
aplicamos esta mudana, os resultados dos testes so praticamente idnticos
aos obtidos com as somas de quadrados do tipo III.
O SAS possui outros procedimentos para estimarmos componentes de
varincia. Podemos destacar o proc mixed e o proc proc varcomp. Estes pro-
cedimentos so muitas vezes mais adequados para estimarmos componentes
de varincia, alm de oferecerem mais alternativas de mtodos. Discutire-
mos o varcomp posteriormente neste material. Os modelos mistos so uma
generalizao dos modelos lineares utilizados no proc glm.
6.5 Exerccios
1. Utilizar dados no balanceados resultantes de pesquisas desenvolvidas
em sua rea e realizar anlises de varincias utilizando o proc glm.
Aplicar os testes de mdias, se os nveis forem qualitativos, ou ajustar
modelos de superfcie de resposta ou de regresso, se os nveis dos
fatores forem quantitativos.
2. Dar sua opinio sobre o fato de muitos autores ainda recomendarem
estimao de parcelas, em conjuntos de dados onde foram perdidas
uma ou mais delas. Como voc lidaria com conjuntos de dados no
balanceados? Estimaria os valores perdidos?
Captulo 7
Componentes de Varincia
O varcomp foi designado para lidar com modelos lineares que possuam
efeitos aleatrios. Efeitos aleatrios so fatores cujos nveis so amostras
aleatrias de uma populao de possveis innitos nveis. O proc varcomp
estima a contribuio de cada fator aleatrio para a varincia da varivel
resposta. Vrios mtodos existem para a estimao dos componentes de va-
rincia. O proc varcomp possui implementado os mtodos type 1 (baseado
no cmputo da soma de quadrados do tipo I para cada efeito do modelo),
MIVQUE0, mxima verossimilhana (ML) e mxima verossimilhana res-
trita (REML).
Componentes de varincia so, por denio, positivos. No entanto,
estimativas negativas podem ocorrer. Algumas razes potenciais para que
estimativas negativas de componentes de varincia ocorram podem ser des-
tacadas por:
Variabilidade muito grande dos dados, produzindo estimativas nega-
tivas, apesar do valor verdadeiro do componente ser positivo;
Presena de outliers nos dados experimentais;
Especicao incorreta do modelo estatstico.
Alguns mtodos especcos para lidarmos com cada uma destas situa-
es existem. No caso de outliers, anlises exploratrias de dados podem
ser aplicadas facilmente para identicao e eliminao destas observaes
136 Componentes de Varincia
discrepantes. A especicao incorreta do modelo est diretamente sob o
controle do pesquisador que ao identicar o problema pode prontamente
corrig-lo.
7.1 Mtodos de Estimao de Componentes de Va-
rincia
O mtodo denominado por Type 1 um mtodo dos momentos. As
esperanas dos quadrados mdios so determinadas e igualadas aos quadra-
dos mdios de uma anlise de varincia seqencial (somas de quadrados do
tipo I). O mtodo Mivque0 baseado no mtodo de Hartley, Rao e LaMotte
(1978)[7], o qual produz estimativas que so invariantes em relao aos efei-
tos xos do modelo e so localmente os melhores estimadores quadrticos
no viciados. Possui estimao semelhante a do mtodo Type 1, exceto pelo
fato de que os efeitos aleatrios so ajustados somente para os efeitos xos.
Os estimadores de Mxima Verossimilhana (ML) para os componentes
de varincia usam a transformao W, desenvolvida por Hemmerle e Har-
tley (1973)[8] e Goodnigth e Hemmerle (1978)[6] e o algoritmo de Newton-
Raphson, aplicado iterativamente at que o logaritmo da funo de verossi-
milhana seja maximizado. O mtodo da mxima verossimilhana restrita
(REML) semelhante ao ML, s que h uma separao da funo de ve-
rossimilhana em duas partes. A primeira com os efeitos xos e a segunda
com os aleatrios (Patterson e Thompson, 1971[10]).
7.2 O Proc Varcomp
Para apresentarmos os comandos do proc varcomp, ilustrando a forma
de especicar tanto os mtodos, quanto os efeitos xos, vamos utilizar o
delineamento em blocos casualizados com 2 repeties, apresentado no ca-
ptulo 6. Uma amostra aleatria de 5 cultivares foi obtida. Adicionalmente,
este experimento foi conduzido em 2 locais. Ocorreu, no local 1, a perda da
parcela correspondente repetio 1 da cultivar 5. Todos os efeitos do mo-
delo foram considerados aleatrios, exceto a mdia geral (por razes bvias)
e o efeito de local. O programa SAS resultante dado por:
7.2 O Proc Varcomp 137
/* Programa para estimar componentes de varincia em um modelo misto.*/
data rand;
input cult bl local prod;
cards;
1 1 1 8.4
1 2 1 8.6
2 1 1 5.7
2 2 1 5.8
3 1 1 4.5
3 2 1 6.7
4 1 1 5.9
4 2 1 7.8
5 2 1 8.9
1 1 2 6.2
1 2 2 7.6
2 1 2 8.3
2 2 2 9.5
3 1 2 3.5
3 2 2 4.9
4 1 2 7.4
4 2 2 8.8
5 1 2 8.9
5 2 2 9.0
;
proc varcomp data=rand maxiter=500 method=type1;
class cult bl local;
model prod = local bl(local) cult cult*local /xed = 1;
run; quit;
Na linha de comando <proc varcomp data = rand maxiter = 500 method
= type1;> declaramos o nmero mximo de iteraes para o processo ite-
rativo, por meio da opo maxiter=500, e o mtodo que desejamos utilizar,
com a opo method=type1. Neste caso, limitamos em no mximo 500
iteraes e utilizamos o mtodo type 1. Podemos alterar o mtodo, substi-
tuindo type1 por mivque0, ML ou RML. Diferentemente do proc glm, onde
com o comando random especicamos os efeitos aleatrios, no proc var-
comp devemos mencionar o nmero de efeitos xos do modelo. Assim, com
o comando <model prod = local bl(local) cult cult*local /xed = 1;>, in-
formamos ao programa que temos um efeito xo (xed=1) e que o efeito
de local este efeito xo. O programa ao ser informado do nmero de
efeitos xos, comea a reconhec-los a partir da igualdade (primeiro efeito
do modelo) entre a parte dependente e independente do modelo. Devemos,
portanto, posicionar os efeitos xos antes dos efeitos aleatrios no modelo
especicado, quando utilizamos o proc varcomp.
O SAS apresenta entre os seus resultados a anlise de varincia e as
esperanas dos quadrados mdios para o mtodo Type 1. Para os demais
mtodos, alguns outros resultados particulares so apresentados. Em to-
dos os casos temos as estimativas dos componentes de varincia dos efeitos
aleatrios. Alteramos a opo method = type1, considerando as demais pos-
sibilidades, para estimarmos os componentes de varincia utilizando todos
os mtodos (mivque0, ml ou reml ) e apresentamos os resultados na Tabela
7.1.
Tabela 7.1: Estimativas dos componentes de varincia para o modelo de
anlise conjunta (2 locais) em um delineamento de blocos casualizados uti-
lizando os 4 mtodos de estimao do proc varcomp.
Mtodo
FV G.L. Type 1 Mivque0 ML
REML
bl(local) 2 0,69760 0,71978 0,38173(0,37) 0,54146(0,62)

cult 4 0,83428 0,89047 0,78798(1,18) 0,96363(1,55)
cult*local 4 1,92776 2,03984 1,51873(1,10) 1,79084(1,39)
Erro 7 0,35286 0,19096 0,35252(0,20) 0,34854(0,17)
Erro padro das estimativas entre parnteses.

O SAS apresenta a matriz de covarincia dos estimadores dos compo-
nentes de varincia dos efeitos aleatrios do modelo para os mtodos da
mxima verossimilhana e da mxima verossimilhana restrita. A raiz qua-
drada dos elementos da diagonal so os erros padres das estimativas des-
tes componentes de varincias, que foram apresentados na Tabela 7.1. Em
geral, os erros padres das estimativas associadas ao mtodo da mxima
verossimilhana restrita foram maiores do que os do mtodo da mxima
7.2 O Proc Varcomp 139
verossimilhana.
Um segundo exemplo, para ilustrar a estimao de componentes de vari-
ncia negativos, apresentado na seqncia. Para isso um delineamento em
blocos casualizados com 5 cultivares e 2 repeties foi considerado. Duas
repeties dentro de cada bloco foram obtidas. Uma das repeties dentro
do bloco 1, para a cultivar 5, foi perdida. O modelo foi considerado aleatrio
e dado por:
Y
ijk
= +
i
+
j
+
ij
+
k(ij)
(7.1)
em que Y
ijk
o valor observado da varivel resposta, a constante geral,
i
o efeito aleatrio do i-simo nvel das cultivares,
j
o efeito aleatrio
do j-simo nvel dos blocos,
ij
o efeito aleatrio do erro experimental
suposto normal e independentemente distribudo com mdia 0 e varincia
comum
2
e
e
kij
o efeito do erro amostral aleatrio suposto normal e
independentemente distribudo com mdia 0 e varincia comum
2
.
O programa SAS para estimarmos os componentes de varincia dado
por:
/* Programa para estimar componentes de varincia em um modelo aleatrio.*/
data vc2;
input cult bl rep prod;
cards;
1 1 1 8.4
1 2 1 7.6
2 1 1 5.7
2 2 1 5.8
3 1 1 4.5
3 2 1 6.7
4 1 1 8.9
4 2 1 7.8
5 2 1 8.9
1 1 2 6.2
1 2 2 7.6
2 1 2 8.3
2 2 2 2.5
3 1 2 3.5
3 2 2 4.9
4 1 2 7.4
4 2 2 8.8
5 1 2 8.9
5 2 2 9.0
;
proc varcomp data=vc2 maxiter=500 method=type1;
class cult bl;
model prod = cult bl bl*cult;
run; quit;
O erro amostral dado pelo efeito de repetio dentro de cada combinao
de cultivar bloco foi obtido por diferena e o erro experimental dado
pela interao bloco cultivar. Alterando a opo <method=type1> para
os demais mtodos, obtivemos as estimativas dos componentes de varincia
apresentados na Tabela 7.2.
Tabela 7.2: Estimativas dos componentes de varincia para o modelo de
blocos casualizados com repetio dentro de cada bloco em um ensaio de
cultivares, utilizando os 4 mtodos de estimao do proc varcomp.
Mtodo
FV G.L. Type 1 Mivque0 ML
REML
cult 4 2,11787 1,96139 1,70757(1,54) 2,30153(2,12)

bl 1 -0,30145 -0,34551 0,00000(0,00) 0,00000(0,00)
Erro 4 0,63854 0,80142 0,40027(0,85) 0,39980(0,85)
Erro amostral 9 1,66611 1,66676 1,62392(0,75) 1,62262(0,75)
Erro padro das estimativas entre parnteses.

Grandes diferenas podem ser observadas nas estimativas dos compo-
nentes de varincia. Uma delas so as estimativas negativas dos compo-
nentes de varincia nos mtodos Type 1 e Mivque0. uma prtica comum
tratar as estimativas negativas como se elas fossem nulas. Nos mtodos ML
e REML este procedimento j feito automaticamente durante o processo
de estimao e componentes de varincia negativos so evitados.
7.3 Exerccios 141
7.3 Exerccios
1. Exemplicar situaes em sua rea em que componentes de varincia
poderiam ser estimados.
2. Podemos utilizar intervalos de conana normais para componentes
de varincia se considerarmos a propriedade de normalidade assint-
tica dos estimadores de mxima verossimilhana. Assim, construir
intervalos de conana normais para os componentes de varincia de
cultivares
2
C
nos dois exemplos, utilizando a seguinte expresso:
IC
1
(
2
C
) :
2
C
Z
/2
EP(
2
C
)
em que Z
/2
o quantil superior 100/2% da distribuio normal
padro e EP(
2
C
) o erro padro do estimador do componente de
varincia de cultivar.
Captulo 8
Pressuposies da Anlise de
Varincia
A validade da anlise de varincia depende que algumas condies pres-
supostas sejam atendidas. Quando um estatstico formula um modelo e
estima seus parmetros e prope algum mtodo de estimao ou teste, h a
necessidade de que algumas condies sejam raticadas. A validade desta
inferncia depende de algumas restries impostas aos efeitos deste modelo,
como por exemplo, a suposio de normalidade dos erros. Se o pesquisador
obtiver um conjunto de dados amostrais, em que essas condies no foram
obedecidas, ento a validade das inferncias realizadas no mnimo questi-
onvel. Especicamente no caso dos modelos lineares, fazemos suposies
de distribuio normal dos erros, aditividade dos efeitos do modelo e homo-
geneidade das varincias dos erros associados aos nveis de um determinado
efeito ou fator. Estas pressuposies muitas vezes no so checadas, o que
pode comprometer a validade dos resultados dos testes e da estimao re-
alizados. Desta forma, o pesquisador pode eventualmente tomar decises
errneas.
Uma das razes de se ignorar a checagem das pressuposies para vali-
dade da anlise de varincia a diculdade de se encontrar recursos compu-
tacionais para realizar esta tarefa. A maioria dos softwares no checa estas
pressuposies, ou no possui rotinas para realizao destes testes.
O programa SAS, pela sua exibilidade e facilidade de programao,
144 Pressuposies da Anlise de Varincia
permite que muitos mtodos, existentes para esta nalidade, sejam imple-
mentados. No entanto, os testes existentes na literatura, para checarmos
se as pressuposies foram atendidas, so especcos para alguns modelos,
o que diculta a sua aplicao em casos mais gerais. Um outro fator limi-
tante diz respeito ao fato de que estes procedimentos cariam limitados a
pesquisadores que tivessem uma maior familiaridade com a linguagem SAS.
Desta forma, a busca de procedimentos mais gerais e mais fceis de utili-
zar, facilitaria a vericao das pressuposies feitas aos efeitos do modelo.
Para isso, Gill (1978)[4] apresenta alguns mtodos mais abrangentes, que
so tratados nas prximas sees. Vamos apresentar os testes para vericar
a normalidade dos resduos e a aditividade dos efeitos do modelo.
8.1 Normalidade dos Resduos
A pressuposio de normalidade, exigida na anlise de varincia, na
maioria das vezes mal interpretada e checada de forma incorreta. A exi-
gncia que se faz, a respeito da distribuio normal, para a distribuio
dos resduos de um determinado modelo linear e no para os dados observa-
dos nas unidades experimentais. Muitos pesquisadores desavisados, ou por
desconhecimento, realizam o teste de normalidade nos dados experimen-
tais observados, o que uma prtica incorreta. Este procedimento s seria
vlido se estivssemos avaliando uma amostra aleatria de uma nica popu-
lao, cujos dados pudessem ser explicados pelo modelo linear simples dado
por Y
i
= +
i
. Em modelos onde temos um ou mais fatores, os valores da
varivel Y
i
so explicados por diferentes constantes ao longo da amostra ale-
atria de tamanho n. Assim, por exemplo, para o modelo Y
ij
= +
i
+
ij
temos diferentes constantes +
i
, que so funes do i-simo nvel do efeito
i
. Ento a distribuio da varivel Y na verdade uma mistura de nor-
mais com diferentes mdias. Quanto maior a complexidade do modelo, mais
complexa ca esta mistura de distribuies normais.
Como a suposio de normalidade que fazemos para o erro deste mo-
delo, que uma varivel aleatria no observvel, temos de estim-lo e ento
aplicar os testes de normalidade. Podemos utilizar os recursos do SAS para
realizar esta tarefa. O SAS permite que estimemos e salvemos os erros dos
8.1 Normalidade dos Resduos 145
modelos em um SAS data set em cada procedimento. Se utilizarmos o teste
de normalidade de Shapiro-Wilk do proc univariate, poderemos avaliar se
a pressuposio de normalidade foi atendida. Vamos utilizar um exemplo
de um experimento realizado em blocos casualizados com 4 repeties e 3
tratamentos de um nico fator. O modelo estatstico dado por:
Y
ij
= +
i
+
j
+
ij
(8.1)
em que Y
ij
o valor observado da varivel resposta produo, a constante
geral,
i
o efeito do i-simo nvel dos tratamentos,
j
o efeito do j-simo
nvel dos blocos e
ij
o efeito do erro experimental suposto normal e
independentemente distribudo com mdia 0 e varincia comum
2
.
Os valores preditos da varivel resposta so dados por

Y
ij
= +
i
+

j
,
que de forma matricial podem ser obtidos por

Y
= X
, em que

Y
o
vetor de observaes, X matriz do modelo e

o vetor de solues de
mnimos quadrados. Assim, os resduos so estimados por
ij
= Y
ij
Y
ij
ou
simultaneamente por
= Y
. Aps estimarmos os resduos do modelo,

aplicamos o teste de Shapiro-Wilk utilizando o proc univariate. O programa
SAS para realizarmos o teste de normalidade dos resduos do exemplo que
estamos considerando dado por:
/* Programa para testar a pressuposio de erros normais em um modelo linear em blocos
casualizados.*/
data press1;
input bl trat prod;
cards;
1 1 12.34
1 2 13.45
1 3 14.56
2 1 12.34
2 2 16.78
2 3 17.89
3 1 10.32
3 2 15.67
3 3 16.01
4 1 13.45
4 2 16.78
4 3 17.89
;
proc glm data=press1;
class bl trat;
model prod = bl trat;
output out=norm P=pred R=res;
run;quit;
proc univariate data=norm normal;
var res;
run;quit;
Realizamos a anlise de varincia para estimarmos os resduos, utili-
zando o proc glm para isso. Armazenamos os resduos e os valores predi-
tos em um SAS data set utilizando o comando <output out=norm P=pred
R=res;>. Denimos que a varivel correspondente aos valores preditos seria
denominada de pred e a dos resduos de res. Utilizamos o proc univariate na
seqncia para aplicar o teste de normalidade a varivel res do SAS data set
norm. O resultado que nos interessa o do teste de Shapiro-Wilk. O valor
observado da estatstica foi W = 0, 946844 e o valor-p associado foi igual
a 0, 5914. Assim, no devemos rejeitar a hiptese nula de normalidade dos
resduos, se considerarmos um nvel nominal de signicncia de = 0, 05.
8.2 Aditividade
Em um modelo linear, assumimos que os efeitos so aditivos e no mul-
tiplicativos (Tukey, 1949[14]). O mtodo de Tukey decompe a soma de
quadrado do erro em duas partes. Uma delas com apenas 1 grau de li-
berdade e a outra com os graus de liberdade remanescentes. Um teste
F aplicado e denominado de teste da no-aditividade de Tukey. Este
teste da no-aditividade de Tukey pode ser generalizado para possibilitar
sua aplicao em diversos modelos lineares. Esta generalizao consiste em
obtermos os valores preditos e em seguida introduzirmos o seu quadrado
como covarivel no modelo de anlise de varincia. Esta anlise se prestar
8.2 Aditividade 147
unicamente para testarmos a hiptese de aditividade dos efeitos. Se hou-
ver efeito signicativo da covarivel, deveremos rejeitar a hiptese nula de
efeitos aditivos.
Utilizando o exemplo da seo 8.1 e denindo os valores preditos por
Y
ij
, devemos ajustar o seguinte modelo linear:
Y
ij
= +
i
+
j
+
Y
2
ij
+
ij
(8.2)
em que o coeciente de regresso associado covarivel determinada
pelos valores preditos ao quadrado; os demais efeitos tm os mesmos signi-
cados do modelo 8.1.
A hiptese de interesse H
0
: = 0 equivalente hiptese nula de que o
modelo aditivo. Devemos realizar uma anlise de covarincia e realizar o
teste de interesse sobre o efeito da covarivel, que como j dissemos, equi-
valente ao teste de aditividade dos efeitos. Infelizmente este procedimento
no pode ser utilizado em experimentos inteiramente casualizados com um
fator, por razes bvias, ou com dois fatores e interao, pois haver um
confundimento da interao com o efeito da covarivel. O programa SAS
utilizado para aplicarmos este teste aos dados do exemplo da seo 8.1
dado por:
/* Programa para testar a pressuposio de efeitos aditivos em um modelo linear em
blocos casualizados.*/
data press2;
input bl trat prod;
cards;
1 1 12.34
1 2 13.45
1 3 14.56
2 1 12.34
2 2 16.78
2 3 17.89
3 1 10.32
3 2 15.67
3 3 16.01
4 1 13.45
4 2 16.78
4 3 17.89
;
proc glm data=press2;
class bl trat;
model prod = bl trat;
output out=norm P=pred R=res;
run;quit;
data norm; set norm;
pred2=pred*pred;
run;quit;
proc glm data=norm;
class bl trat;
model prod= bl trat pred2;
run;quit;
Observamos um valor da estatstica F para o teste de F
c
= 1, 02 com
1
= 1 e
2
= 5 graus de liberdade. O valor-p associado foi de 0, 3581,
portanto no devemos rejeitar a hiptese nula, indicando que no existem
evidncias signicativas (5%) para armarmos que haja no-aditividade
dos efeitos do modelo. Para o caso de rejeitarmos a hiptese nula, Tu-
key (1949)[14] recomenda algum tipo de transformao dados para corrigir
o problema. A justicativa para tentar eliminar o problema baseada no
fato de que o teste F na presena da no-aditividade considerado bastante
conservador.
8.3 Homogeneidade de Varincias
A suposio de que os erros
ij
de um modelo tm distribuio normal e
varincia comum, indica que as varincias dos diferentes nveis dos fatores
presentes no modelo devem ser homogneas. Para o modelo inteiramente
casualizado com um fator, apresentamos o teste de homogeneidade de vari-
ncias na seo 5.2 de acordo com os procedimentos descritos por Ferreira
(2005)[3]. O proc anova do SAS, no caso de um fator nico no modelo, nos
possibilita testar a homogeneidade de varincias entre os nveis do fator.
Em casos mais gerais Gill (1978)[4] recomenda utilizar como covarivel
8.4 Exerccios 149
os valores preditos do resduo ao quadrado. Por no termos avaliado este
procedimento e no conhecermos na literatura nenhum indicativo cientco
de sua validade, optamos por no apresentar maiores detalhes deste mtodo.
8.4 Exerccios
1. Aplicar testes de normalidade para alguns modelos de regresso apre-
sentados no capitulo 3.
2. Em sua opinio qual dos trs pressupostos causaria mais impacto sobre
a validade das inferncias?
Referncias Bibliogrcas
[1] BECKMAN, R. J.; TRUSSELL, H. J. The distribution of an arbitrary
studentized residual and the eects of updating in multiple regression.
Journal of the American Statistical Association, 69:179201, 1974. 62
[2] CHATTERJEE, S.; HADI, A. S. Inuential observations, high leverage
points, and outliers in linear regression. Statistical Science, 1(3):379
393, 1986. 59, 61, 62, 64
[3] FERREIRA, D. F. Estatstica bsica. Editora UFLA, Lavras, 2005.
676p. 12, 15, 92, 98, 99, 148
[4] GILL, J. W. Design and analysis of experiments in the animal and
medical sciences., volume 2. Iowa State University, Ames, 1978. 301p.
144, 148
[5] GOMES, F. P. Curso de estatstica experimental. Esalq/Usp, Piraci-
caba, 14 edition, 2000. 476p. vii, 93
[6] GOODNIGTH, J. H.; HEMMERLE, W. J. A simplied algorithm for
the W-transformation in variance component estimation. Technome-
trics, 21:265268, 1978. 136
[7] HARTLEY, H. O.; RAO, J. N. K.; LaMOTTE, L. A simple synthesis-
based method of variance component estimation. Biometrics, 34:233
244, 1978. 136
[8] HEMMERLY, W. J.; HARTLEY, H. O. Computing maximum like-
lihood estimates for mixed AOV model using the W-transformation.
Technometrics, 15:819831, 1973. 136
152 REFERNCIAS BIBLIOGRFICAS
[9] ONEILL, R.; WETHERILL, G. B. The present state of multiple com-
parison methods. Journal of the Royal Statistical Society, 33(2):218
250, 1971. 97
[10] PATTERSON, H. D.; THOMPSON, R. Recovery of inter-block infor-
mation when block sizes are unequal. Biometrika, 58:545554, 1971.
136
[11] SATTERTHWAITE, F. E. An approximate distribution of estimates
of variance components. Biometrics Bulletin, 2(6):110114, 1946. 21,
30, 32, 134
[12] SEARLE, S. R. Linear models. John Wiley, New York, 1971. 532p. 40
[13] SEARLE, S. R. Linear models for unbalanced models. John Wiley, New
York, 1987. 536p. 40
[14] TUKEY, J. W. One degree of freedom for non-additivity. Biometrics,
5(3):232242, 1949. 146, 148
[15] VANGEL, M. G. Condence intervals for a normal coecient of vari-
ation. The American Statistician, 15(1):2126, 1996. 19
[16] VELLEMAN, P. F.; WELSCH, R. E. Ecient computing of regression
diagnostics. The American Statistician, 35(4):234242, 1981. 59, 63
ndice Remissivo
ajuste
da distribuio
normal, 13
das probabilidades
Cochran e Cox, 31
dos valores-p
Tukey, 121
anlise
de covarincia, 125
assist, 2
backward, 56
caselas, 117
coeciente
de assimetria, 12
de conana, 16
de curtose, 12
de determinao
ajustado, 53
coecientes
de determinao
parciais, 55
semi-parciais, 55
contrastes, 120
correlao
parcial, 116
covratio, 67
critrio
de Wilks, 115
derivadas
parciais, 35
desconexo
estatstica, 117
desdobramento
da interao, 122
desvio padro
estimao
intervalar, 17
dfbeta, 64, 65
dts, 65
distncia
de Cook, 66
modicada, 66
efeitos
aditivos, 143
aleatrios, 130, 135
xos, 131
hierrquizados, 89
equaes
normais, 37
modelos no-lineares, 72
erro
tipo I, 96
154 NDICE REMISSIVO
tipo II, 96
erro padro
coeciente
regresso, 51
do valor predito, 54
valor predito
futuro, 54
erros
normais, 143
estatstica
do teste
sinal, 26
estatsticas
descritivas, 11, 13, 15
estimador
beta, 12
do coeciente
de assimetria, 12
de curtose, 12
gama, 12
Kernel
de densidade, 13
estimativas
negativas
componentes de varincia, 135
estrutura
de dados
balanceada, 90
no balanceada, 117
forward, 56
graus
de liberdade, 38
hiptese
nula, 25
histograma, 13
homogeneidade
de varincias, 98, 143
inferncia
individual, 97
simultnea, 97
inuncia, 63
inuence, 67
interao
de efeitos, 89
intervalo
de conana
assinttico, 86
intervalo de conana, 11
aproximado
diferena de mdias, 21
para CV, 19
para p, 18
exato
diferena de mdias, 20
para p, 18
mdias
dados emparelhados, 24, 30
valor predito
futuro, 54
mdio, 54
inversa
nica, 38
de Moore-Penrose, 74
de parte
da inversa, 40
NDICE REMISSIVO 155
generalizada, 74
reexiva, 74
jackknife, 61
janela
de erros, 1
de programas, 1
de sada, 1
mdia
ajustada, 121
amostral, 12
apresentao da, 14
estimao
intervalar, 16
mtodo
de DUD, 77
dos momentos
dos quadrados mnimos, 37
no-lineares, 71
manuais
do SAS, 2
matriz
de covarincia
das estimativas, 138
de derivadas parciais, 38
Jaobiana, 77
misturas
de distribuies
normais, 34
modelo
de regresso
linear, 35, 36
linear, 34
no-linear, 35
nos parmetros, 70
modelos
mistos, 92, 134
normalidade
dos resduos, 34
parmetros
de disperso, 12
de locao, 12
parcela
subdividida
no tempo, 108
pp-plots, 13
pressuposio
de homocedasticidade, 34
de independncia, 34
proc
iml, 18, 19
nlin, 69
summary, 11
ttest, 11, 31
univariate, 11
procedimentos
de comparaes
mltiplas, 97
processo
iterativo, 83
programa
R, 1
SAS, 1
propores
estimao
intervalar, 17
156 NDICE REMISSIVO
proteo
de Bonferroni, 98
qq-plots, 13
resduos, 37
estudentizados
externamente, 62
internamente, 61
response
plateau, 69, 80
linear, 84
quadrtico, 81
Satterthwaite, 21
simulao
de dados, 85
soluo
do sistema
de EN, 38
soma
de quadrados
do resduo, 38
modelo, 38
parcial, 39
seqencial, 39
tipo I, 39
tipo II, 39, 40
stepwise, 56
superfcie
de resposta, 102
taxa
de erro
por comparao, 97
por experimento, 97
teste
aproximado
diferenas de mdias, 31
da falta
de ajuste, 111
da no-aditividade
de Tukey, 146
de Bartlett, 98
de Browb e Forsythe, 99
de hiptese
mdias normais, 25
de homogeneidade
de Levene, 99
de normalidade
de Shapiro-Wilk, 145
de Wilcoxon, 26, 27
dados emparelhados, 28
do sinal, 26
dos postos
com sinais, 26
Duncan, 97
Dunnett, 121
exato
diferenas de mdias, 31
F, 89
conservador, 148
OBrien, 100
Sche, 98
Shapiro-Wilk, 33
SNK, 98
t de Student
na regresso, 51
NDICE REMISSIVO 157
Tukey, 97
testes
de autocorrelao, 121
de comparaes
mltiplas, 91
de homogeneidade
tipos
somas de quadrados, 39, 47, 117,
118
transformao
de dados, 148
valores
perdidos, 2
preditos, 38, 54
varivel
binria, 85
dummy, 85
varincia
amostral, 13
combinada, 21
estimao
intervalar, 17
varincias
complexas, 129
homogneas, 20

Aprendendo A Usar o Sas 9.2 Estatistica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aprendendo A Usar o Sas 9.2 Estatistica

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE LAVRAS

DEPARTAMENTO DE CINCIAS EXATAS

com o nmero de observaes para as quais X

o vetor de observaes de dimenses n 1; X a matriz do

o vetor de parmetros [(m + 1) 1]; e

Igualamos a zero e obtemos as conhecidas equaes normais (EN) na

o estimador de mnimos quadrados do parmetro .

. Podemos obter os valores esti-

. Assim, os valores preditos so dados por:

. Obtemos aps algumas simplicaes:

Assim, podemos interpretar esta expresso da seguinte forma:

, teremos o intervalo de conana cli dado por:

a soma de quadrados do erro resultante do ajuste de um

o vetor de observaes de dimenses n 1; X a matriz do

o vetor de parmetros [(m + 1) 1]; e

denominada projetor e representada por P,

, n-dimensional, no sub-espao (m+1)-

. Na anlise de regresso linear

o vetor dos elementos da i-

Assim, a covarincia do vetor de resduos preditos :

QME. Este artifcio reduz a

o estimador do vetor de parmetros aps a eliminao da

vetor obtido a partir da j-sima linha da matriz C.

n devem ter ateno especial, pois o vetor de

e para o vetor de variveis regressoras da j-sima unidade amostral Z

= [ ] e uma nica varivel regressora Z. O vetor do modelo dado

a matriz de derivadas parciais, em que cada coluna

, ento uma forma fechada para a soluo,

. Para o valor corrente (k-simo passo do processo iterativo) do vetor

for a soma de quadrados dos

so usados para calcular

de tal forma que

calculado para propiciar as trocas no vetor de

uma inversa generalizada. Pode ser uma inversa reexiva

a estimativa do vetor de parmetros na k-sima iterao do processo.

o gradiente para o qual

cresce. Sendo as-

o grau de variao para o mtodo de gradiente. Para

no k-simo passo para a j-sima observao amostral, a matriz

. O elemento (, k) desta matriz, [H

, devemos aplicar as equaes (4.5) e (4.6) para

, aplicam-se as equaes (4.5) e

1, 25 4, 1889 = 2, 2883. Repetindo este processo para todos

Y . Mediante redues de modelos hierrquicos, apli-

indica parmetros obtidos sob o uso de restrio paramtrica.

bl(local) 2 0,69760 0,71978 0,38173(0,37) 0,54146(0,62)

Erro padro das estimativas entre parnteses.

cult 4 2,11787 1,96139 1,70757(1,54) 2,30153(2,12)

Erro padro das estimativas entre parnteses.

. Aps estimarmos os resduos do modelo,

Você também pode gostar