Aprendendo A Usar o Sas 9.2 Estatistica

UNIVERSIDADE FEDERAL DE LAVRAS
DEPARTAMENTO DE CINCIAS EXATAS
Uso de Recursos Computacionais
Daniel Furtado Ferreira
LAVRAS
Minas Gerais - Brasil
21 de maro de 2007
ii
Ferreira, D.F.
Sumrio
Lista de Tabelas
ix
Lista de Figuras
xi
1 Introduo ao sistema SAS
1.1
Entrada de dados . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Transformaes de variveis . . . . . . . . . . . . . . . . . .
1.3
Ordenamento de dados . . . . . . . . . . . . . . . . . . . . .
1.4
Procedimentos para anlise estatstica . . . . . . . . . . . .
10
2 Estatstica bsica no SAS
11
2.1
Estatsticas descritivas . . . . . . . . . . . . . . . . . . . . .
11
2.2
Estimao de Parmetros . . . . . . . . . . . . . . . . . . .
16
2.2.1
Estimao de Mdias, Desvio Padro e Varincias . .
16
2.2.2
Estimao de Propores . . . . . . . . . . . . . . .
17
2.2.3
Estimao de Coeficientes de Variao . . . . . . . .
19
2.2.4
Diferena de Duas Mdias Independentes . . . . . .
20
2.2.5
Estimao da Diferenas de Duas Mdias Em Dados
2.3
Emparelhados . . . . . . . . . . . . . . . . . . . . . .
23
Testes de Hipteses . . . . . . . . . . . . . . . . . . . . . . .
25
2.3.1
Teste Sobre Mdias . . . . . . . . . . . . . . . . . . .
25
2.3.2
Teste Sobre Mdias de Duas Populaes Emparelhadas 28
2.3.3
Teste Sobre Mdias de Duas Populaes Independentes 30
2.3.4
Teste de Normalidade . . . . . . . . . . . . . . . . .
33
Ferreira, D.F.
iv
SUMRIO
3 Regresso Linear
35
3.1
Mtodo dos Quadrados Mnimos . . . . . . . . . . . . . . .
36
3.2
Um Exemplo de Regresso Pelo Proc IML . . . . . . . . . .
40
3.3
O Proc Reg . . . . . . . . . . . . . . . . . . . . . . . . . . .
46
3.4
Seleo de Modelos . . . . . . . . . . . . . . . . . . . . . . .
56
3.5
Diagnstico em Regresso Linear . . . . . . . . . . . . . . .
58
3.5.1
Anlise de resduos . . . . . . . . . . . . . . . . . . .
59
3.5.2
Influncia no Espao das Variveis Preditoras . . . .
63
3.5.3
Influncia no Vetor de Estimativas dos Parmetros .
64
3.5.4
Influncia no Vetor de Valores Preditos . . . . . . . .
65
3.5.5
Influncia na Matriz de Covarincias . . . . . . . . .
67
3.5.6
Comandos SAS . . . . . . . . . . . . . . . . . . . . .
67
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
68
3.6
4 Regresso No-Linear
4.1
69
Introduo aos Modelos No-Lineares . . . . . . . . . . . . .
70
4.1.1
Mtodo do Gradiente . . . . . . . . . . . . . . . . . .
74
4.1.2
Mtodo de Newton . . . . . . . . . . . . . . . . . . .
75
4.1.3
Mtodo de Gauss-Newton . . . . . . . . . . . . . . .
75
4.1.4
Mtodo de Marquardt . . . . . . . . . . . . . . . . .
76
4.1.5
Tamanho do passo da iterao
. . . . . . . . . . . .
77
4.2
O Proc Nlin . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
4.3
Modelos Segmentados . . . . . . . . . . . . . . . . . . . . .
80
4.4
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
5 Anlise de Varincia para Dados Balanceados
89
5.1
O Proc Anova . . . . . . . . . . . . . . . . . . . . . . . . . .
90
5.2
Delineamento Inteiramente Casualizado . . . . . . . . . . .
93
5.3
Estrutura Cruzada de Tratamentos . . . . . . . . . . . . . . 100
5.4
Modelos Lineares Com Mais de Um Erro . . . . . . . . . . . 108
5.5
Modelos lineares multivariados . . . . . . . . . . . . . . . . 111
5.6
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
Ferreira, D.F.
SUMRIO
6 Anlise de Varincia para Dados No-Balanceados
117
6.1
Delineamento Inteiramente Casualizado . . . . . . . . . . . 119
6.2
Estrutura Cruzada de Tratamentos . . . . . . . . . . . . . . 122
6.3
Modelos Com Mais de Um Erro . . . . . . . . . . . . . . . . 127
6.4
Componentes de Varincia . . . . . . . . . . . . . . . . . . . 130
6.5
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
7 Componentes de Varincia
135
7.1
Mtodos de Estimao de Componentes de Varincia . . . . 136
7.2
O Proc Varcomp . . . . . . . . . . . . . . . . . . . . . . . . 136
7.3
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
8 Pressuposies da Anlise de Varincia
143
8.1
Normalidade dos Resduos . . . . . . . . . . . . . . . . . . . 144
8.2
Aditividade . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
8.3
Homogeneidade de Varincias . . . . . . . . . . . . . . . . . 148
8.4
Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Referncias Bibliogrficas
151
ndice Remissivo
153
Ferreira, D.F.
vi
Ferreira, D.F.
SUMRIO
Lista de Tabelas
3.1
Tipos de somas de quadrados de um modelo de regresso

contendo m variveis. . . . . . . . . . . . . . . . . . . . . . .
3.2
Crescimento de uma planta Y aps ser submetida a um tempo X de exposio solar em horas. . . . . . . . . . . . . . .
3.3
39
41
Testes de hiptese do tipo H0 : i = 0, com i = 0, 1, 2 utilizando a distribuio t de Student com = 5 graus de liberdade. 46
3.4
Dados de uma amostra de n = 10 rvores de araucria (Araucaria angustifolia) mensuradas em relao ao volume Y , rea
basal X1 , rea basal relativa X2 e altura em ps X3 . . . . .
3.5
48
Resultados mais importantes do ajuste dos modelos lineares

simples para os dados dos volumes das n = 10 rvores de
araucria Araucaria angustifolia. . . . . . . . . . . . . . . .
3.6
Resumo da anlise de varincia do ajuste de regresso mltipla aos dados do volume das rvores de araucria. . . . . .
3.7
51
Estimativas dos parmetros e teste t de Student para a nulidade das estimativas. . . . . . . . . . . . . . . . . . . . . . .
5.1
49
52
Ganho de peso (gp), em kg, de animais que foram submetidos

a uma dieta com determinadas raes. Um delineamento
inteiramente casualizado com cinco repeties (animais) e 4
raes foi utilizado (Gomes, 2000)[5]. . . . . . . . . . . . . .
5.2
93
Anlise de varincia para o delineamento inteiramente casualizado com um fator (raes) com quatro nveis e cinco
repeties. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95
Ferreira, D.F.
viii
5.3
LISTA DE TABELAS
Anlise da variao contendo as fontes de variao do modelo
para o delineamento inteiramente casualizado das raes. . .
5.4
Teste de SNK e mdias para a fonte de variao raes juntamente com as diferenas mnimas significativas dms. . . .
5.5
95
96
Anlise da variao para o modelo fatorial (2 fatores) em um

delineamento de blocos casualizados. . . . . . . . . . . . . . 102
5.6
Anlise da variao para o modelo de regresso para o exemplo fatorial da adubao com 2 fatores. . . . . . . . . . . . . 104
5.7
Estimativas dos parmetros do modelo com seus erros padres e teste da hiptese para i = 0 fornecidas originalmente
pelo SAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
5.8
Estimativas dos parmetros do modelo com seus erros padres e teste da hiptese para i = 0 devidamente corrigidas. 106
5.9
Anlise da variao devidamente corrigida para o modelo de

regresso do exemplo fatorial da adubao com 2 fatores. . . 106
5.10 Anlise da variao devidamente apresentada para o modelo

de parcela subdividida no tempo. . . . . . . . . . . . . . . . 110
5.11 Anlise da variao para nota da disciplina 1 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino. . . 114
5.12 Anlise da variao para nota da disciplina 2 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino. . . 114
5.13 Testes de hipteses multivariados para a igualdade dos efeitos
dos mtodos de ensino. . . . . . . . . . . . . . . . . . . . . . 116
6.1
Tipos de somas de quadrados de um modelo de anlise de

varincia contendo dois fatores e e interao . . . . . . 118
6.2
Anlise da variao para o modelo fatorial (2 fatores) em um

delineamento de blocos casualizados, destacando-se as fontes
de variao de modelo e erro. . . . . . . . . . . . . . . . . . 123
6.3
Resumo da anlise da variao para o modelo fatorial (2 fatores) em um delineamento de blocos casualizados, destacando
as somas de quadrados tipo I, II e III e as significncias correspondentes. . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Ferreira, D.F.
LISTA DE TABELAS
6.4
ix
Anlise da variao para o modelo de anlise conjunta (2

locais) em um delineamento de blocos casualizados. . . . . . 132
6.5
Esperana dos quadrados mdios e resumo da anlise da variao para o modelo de anlise conjunta (2 locais) em um
delineamento de blocos casualizados. . . . . . . . . . . . . . 133
7.1
Estimativas dos componentes de varincia para o modelo de

anlise conjunta (2 locais) em um delineamento de blocos
casualizados utilizando os 4 mtodos de estimao do proc
varcomp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.2
Estimativas dos componentes de varincia para o modelo de

blocos casualizados com repetio dentro de cada bloco em
um ensaio de cultivares, utilizando os 4 mtodos de estimao
do proc varcomp. . . . . . . . . . . . . . . . . . . . . . . . . 140
Ferreira, D.F.
Ferreira, D.F.
LISTA DE TABELAS
Lista de Figuras
3.1
Equao quadrtica resultante do ajuste de quadrados mnimos do exemplo tratado. . . . . . . . . . . . . . . . . . . . .
4.1
45
Modelos no lineares ajustados - modelo yi = 1, 8548x0,575

i
iniciando pela origem e modelo yi = 0, 8117 1, 9542xi iniciando pelo ponto 0, 8117. . . . . . . . . . . . . . . . . . . . .
4.2
81
Modelo segmentado considerando um plateau no ponto X =

X0 com valor de Y = P e um modelo crescente para X < X0 . 82
5.1
Modelo ajustado de superfcie de resposta para os dados de

produo em funo da adubao mineral (A) e da adubao
orgnica com torta de filtro (T ).
. . . . . . . . . . . . . . . 107
Ferreira, D.F.
xii
Ferreira, D.F.
LISTA DE FIGURAS
Captulo 1
Introduo ao sistema SAS

O sistema SAS um dos melhores software existentes na atualidade.
Atualmente somente o programa R tem competido com o SASr . O sistema SAS um software que propicia grandes vantagens no tratamento de
bancos de dados, nas anlises estatsticas e na gerao de relatrios das
mais variadas formas. Para utilizarmos o SAS precisamos conhecer como
sua estrutura e como se d o seu funcionamento. O ambiente de interao
com o usurio do SAS possui trs janelas, que por sua vez possuem funes
especficas, a saber:
1. Janela de programas: nesta janela digitamos os programas, que so
seqncias de passos e comandos para utilizarmos o sistema SAS de
acordo com a finalidade que almejamos. Temos que utilizar determinados comandos especficos para chamar rotinas prontas do SAS
ou podemos utilizar programas desenvolvidos para um ambiente de
programao interativo, o IML.
2. Janela de erros: esta janela conhecida como janela log e deve ser
utilizada para consultarmos a ocorrncia de erros de sintaxe em nossos
comandos ou programas. O SAS marca os erros com letras em cor
vermelha e aponta a linha do programa onde este erro ocorreu.
3. Janela de sada ou output: nesta janela obtemos os resultados no
grficos da anlise recm executada. O seu contedo pode ser salvo
em diferentes formatos ou impressos diretamente.
Ferreira, D.F.

Todo o contedo das janelas pode ser salvo, marcado e eliminado uti-
lizando os recursos do Windows e da barra de ferramentas. No daremos

maiores detalhes destes procedimentos por julg-los muito simples. Devemos ter o cuidado nico de que esses comandos so especficos para a janela
que estiver ativa e no para o contedo de todas elas.
O SAS infelizmente no um programa com muita interatividade, a menos que o mdulo ASSIST esteja presente. Um outro recurso extremamente
til ao se utilizar o SAS o sistema de auxlio (help on line), que permite
a consulta, atravs de uma navegao no linear, dos principais comandos
e bibliotecas do programa. Existem manuais on line em HTML e que podem ser consultados pela internet e ainda manuais em PDF que podem ser
baixados e utilizados gratuitamente. Nestas notas veremos apenas os principais procedimentos do sistema SAS para realizarmos anlises estatsticas.
Enfatizaremos os principais recursos relacionados as anlises de estatstica
bsica, regresso e estatstica experimental. Estes recursos so os mais variados e flexveis e so abordados de maneira simples, sendo que daremos
nfase nas interpretaes estatsticas dos fundamentos dos mtodos e da
inferncia. Utilizaremos apenas exemplos acadmicos simples, que muitas
vezes foram simulados ou so dados fictcios.
1.1
Entrada de dados
O SAS possui inmeros recursos de importao dos mais diferentes banco

de dados e planilhas. Utilizaremos o recurso mais comum de simplesmente
colarmos os dados de outro programa na janela de programa e salvarmos
o arquivo resultante como texto (ASCII). Este formato mais robusto, livre
de vrus, alm de os arquivos resultantes ocuparem menos memria. Quando
possumos valores perdidos no nosso arquivo ou banco de dados, podemos
substituir a clula do arquivo que foi perdida por um ponto. Este o default
do programa SAS, podendo ser mudado de acordo com a preferncia do
usurio.
O arquivo SAS pode ser lido de inmeras maneiras diferentes, porm
utilizaremos as formas mais simples. Temos que pensar que cada varivel
deve ocupar uma coluna do arquivo e cada observao ou unidade amostral
Ferreira, D.F.
1.1 Entrada de dados
uma linha. Esta a estrutura utilizada pela maioria dos programas de anlise estatstica. Internamente, ao criarmos o banco de dados e executarmos
o programa, temos que dar um nome, o qual o programa SAS utilizar para
criar no seus diretrios de trabalho SASWORK ou SASUSER o conjunto
de dados que estamos utilizando. Este conjunto de dados SAS Data Set.
Antes dos dados devemos criar trs linhas de comando indicando o nome
deste conjunto de dados, as variveis e um comando de iniciao da leitura
dos dados.
Cada linha de comando do SAS tem algumas palavras reservadas de
comandos e termina com um <;>. Apesar de termos inmeros comandos
diferentes para entrarmos com o SAS Data Set, utilizaremos quase sempre
a seguinte estrutura:
/*exemplo de um arquivo de dados com peso em kg de coelhos hbridos Norfolk abatidos

aos 90 dias de idade. Tudo que est aqui dentro um comentrio do programa.*/
data coelhos;
input peso;
cards;
2.50
2.58
2.60
2.62
2.65
2.66
2.58
2.70
2.55
2.57
2.70
2.62
2.59
2.54
2.53
2.20
;
proc print;
var peso;
run;
Ferreira, D.F.
Podemos explicar os comandos usados neste simples programa da seguinte forma:

1. <data coelhos;>: este comando indica o nome do SAS Data Set. A
palavra data um comando do SAS para indicar o nome do conjunto
de dados e coelhos foi o nome que escolhemos para este exemplo especfico. Podemos observar que terminamos sempre com um ; a linha
de comando. Assim, apesar de no ter vantagem alguma, poderamos colocar data em uma linha, coelhos na outra e o ponto e vrgula
na terceira. Fisicamente teramos trs linhas, mas uma s linha de
comando.
2. <input peso;>: este comando vem com a palavra input para designar as variveis que o nosso conjunto de dados possui. Como temos
somente o peso dos coelhos hbridos Norfolk abatidos aos 90 dias em
kg, somente esta varivel apareceu aps o comando input. Se houvesse mais variveis, estas deveriam ser separadas por pelo menos um
espao em branco, antes do ponto e vrgula.
3. <cards;>: este comando indica que os dados viro na seqncia.
4. <proc print;>: este um dos procedimentos, procedure, do SAS. Os
procedimentos aparecem depois da palavra proc, utilizada como indicativo de procedimento e seguida do nome do procedimento, no caso,
print. Este procedimento utilizado para gerar relatrios de impresso na janela output.
5. <run;>: comando utilizado aps cada procedimento para indicar ao
SAS para execut-lo.
Depois de digitados estes comandos e colocados na janela de programas
do SAS devemos submet-lo ao compilador do programa. Para isso utilizamos o comando submit, que possui o atalho por meio da tecla F 8 ou do
cone (run) correspondente na janela de programas.
Podemos utilizar na linha de comando do input os seguintes caracteres
@@. Isto nos permite digitar o arquivo na seqncia de variveis do arquivo,
Ferreira, D.F.
1.1 Entrada de dados
mas no necessariamente obedecendo a estrutura de colunas. Para este

exemplo teramos:

aos 90 dias de idade. Tudo que est aqui dentro um comentrio do programa.*/
data coelhos;
input peso @@;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
2.54 2.53 2.20
;
proc print;
var peso;
run;
Um segundo exemplo com mais de uma varivel apresentado na seqncia com dados de dez rvores de Araucaria angustifolia. A primeira varivel
Y o volume em m3 /acre, a segunda varivel X1 a rea basal das rvores,
a terceira varivel X2 esta mesma rea basal, mas tomada com referncia
a rea basal de outra espcie (Pinus taeda) e a quarta varivel X3 a altura das rvores em ps. Observamos que a utilizao do @@ possibilita a
leitura dos dados em uma estrutura de uma aparente desorganizao. No
entanto, podemos observar que existe uma seqncia dos valores obedecendo
a seqncia das variveis do input Y , X1 , X2 e X3 .
/*exemplo de um arquivo de dados com dados de 10 rvores de araucria, com 4 variveis.

*/
data arvores;
input Y X1 X2 X3 @@;
cards;
65 41 79 35 78 71 48 53
82 90 80 64 86 80 81 59
87 93 61 66 90 90 70 64
Ferreira, D.F.
93 87 96 62 96 95 84 67
104 100 78 70
113 101 96 71
;
proc print;
var Y X1 X3;
run;
Uma importante situao que acontece em exemplos reais a ocorrncia

de variveis qualitativas. Estas variveis so identificadas por nomes alfanumricos e o SAS permite sua presena. Assim, se um conjunto de dados
possui 3 variveis, sendo por exemplo blocos, tratamentos e produo e a
varivel tratamento possui seus nveis qualitativos (nomes), ento devemos
formar o conjunto de dados normalmente e no input aps as variveis cujos nveis so alfanumricos, devemos colocar um $, conforme o exemplo a
seguir. Isto indicar que aquelas variveis possuem nveis que so nomes e
no nmeros.
/*exemplo de um arquivo com dados experimentais fictcios, onde os nveis dos tratamentos so alfanumricos.*/
data exper;
input bl trat $ prod;
cards;
1 A 12.23
1 B 10.31
1 C 11.90
2 A 14.56
2 B 10.17
2 C 13.45
3 A 16.11
3 B 19.12
3 C 14.73
4 A 12.78
4 B 10.67
4 C 11.34
;
proc print data=exper;
run;
Ferreira, D.F.
1.2 Transformaes de variveis
1.2
Transformaes de variveis
Para obtermos novas variveis no SAS a partir de um grupo de variveis

j existentes, no precisamos cri-las fisicamente no SAS data set que temos.
Podemos fazer isso utilizando alguns comandos em determinados lugares de
nosso programa utilizando as funes dos SAS. O arquivo interno do SAS
ter as variveis criadas ou transformadas. Vamos descrever duas formas
bsicas de fazermos isso. A primeira delas utilizamos simples comandos
de transformao de variveis situados entre a linha de comando do input
e do cards. Podemos utilizar uma srie de operadores, sejam eles lgicos
ou no. Alguns exemplos destes operadores so: +: soma; : subtrao;
log: logaritmo neperiano; log 2: logaritmo na base 2; log 10: logaritmo na
base 10; : multiplicao; /: diviso; e : potenciao do tipo X Y , que
no SAS obtido por X Y . O comando no reconhecido pelo SAS
para potenciao. Operadores lgicos como >, GE (), <, LE () ou =
podem ser usados tambm. Estruturas condicionais if then; else so
permitidas, entre outras.
Apresentamos um exemplo na seqncia um exemplo utilizando algumas
destas transformaes de variveis para ilustrarmos os procedimentos.

aos 90 dias de idade.*/
data coelhos;
input peso @@;
sqrtp=peso**0.5;
pln=log(peso);
if peso<2.55 then classe=1;
else classe=2;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
2.54 2.53 2.20
;
proc print;
Ferreira, D.F.

var peso sqrtp pln classe;
run;
A segunda alternativa nos possibilita realizarmos transformaes sobre

variveis de um SAS Data Set em um lugar qualquer do programa aps a
definio do data set original. Usamos o comando Data para denominarmos
um novo ou o mesmo conjunto de dados e o comando Set para selecionar o
conjunto de dados existente para realizarmos as programaes que almejarmos. Apresentamos o seguinte exemplo utilizando o data set coelhos, onde
no alteramos o seu nome. Veja que teremos o mesmo efeito do exemplo
anterior.

aos 90 dias de idade.*/
data coelhos;
input peso @@;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
2.54 2.53 2.20
;
data coelhos; set coelhos;
sqrtp=peso**0.5;
pln=log(peso);
if peso<2.55 then classe=1;
else classe=2;
run;quit;
proc print;
var peso sqrtp pln classe;
run;
Ferreira, D.F.
1.3 Ordenamento de dados
1.3
Ordenamento de dados
Podemos utilizar o proc sort do SAS para ordenarmos conjuntos de dados especificando as variveis que almejamos utilizar como chaves do processo de ordenao dos valores do conjunto de dados. Podemos ordenar
em ordem crescente ou decrescente. Por default o SAS ordena em ordem
crescente cada varivel chave. Se quisermos uma ordem decrescente, devemos utilizar o comando descending. Ilustramos o uso do proc sort em um
exemplo, em que uma sala de aula foi dividida em dois grupos de acordo
com os lugares que os alunos sentavam. Os da bancada da direita foram
denominados de grupo 1 e os da esquerda de grupo 2. Foram mensurados os
pesos e altura destes alunos. Usamos o proc sort para ordenar por grupos
em ordem crescente e por peso em ordem decrescente dentro de cada grupo.
/*exemplo de ordenao utilizando o proc sort.*/

data sala;
input grupo peso alt;
cards;
2 72 1.80
1 48.5 1.58
2 88 1.80
1 86 1.83
2 62 1.72
1 79 1.69
2 95 1.93
1 53 1.60
;
proc sort data=sala;
by grupo descending peso;
run;
proc print data=sala;
run;
Ferreira, D.F.
10
1.4
Procedimentos para anlise estatstica
Vamos utilizar neste material basicamente alguns procedimentos SAS

para realizarmos anlise estatstica. Estes procedimentos no SAS so referenciados por proc que a abreviatura de procedure. Vamos neste material apresentar a lgica de tais procedimentos, suas sintaxes e principalmente vamos enfatizar os mtodos estatsticos que esto envolvidos neste
procedimento. Vamos procurar tambm mostrar o proc IML. O programa
SAS/IML fornece ao usurio uma poderosa e flexvel linguagem de programao (Interactive Matrix Language) em um ambiente dinmico e interativo. O objeto fundamental da linguagem uma matriz de dados. A
programao dinmica por causa do dimensionamento das matrizes e da
alocao de memria serem feitos de forma automtica.
Vamos utilizar alguns procedimentos do SAS para efetuarmos anlises
de estatstica bsica, quais sejam, proc univariate, proc summary e proc
ttest. Para realizarmos anlises de regresso linear utilizaremos o proc reg
e para regresso no-linear o proc nlin. Para anlises de modelos lineares
vamos utilizar o proc anova, proc glm e o proc mixed para modelos lineares
mistos. Estimaremos componentes de varincias com o proc varcomp. Poderemos eventualmente utilizar algum outro procedimento especfico para
realizarmos algumas anlises multivariadas.
O SAS um programa que consideramos praticamente completo. Vamos
neste material abordar situaes especficas da estatstica para fazermos
uma introduo ao sistema SAS. No temos de forma alguma a pretenso
de que este seja um material de consulta imprescindvel, mas que sirva de
um roteiro bsico para aqueles que desejam ter uma noo inicial de como
efetuar anlises estatsticas pelo SAS.
Ferreira, D.F.
Captulo 2
Estatstica bsica no SAS

O SAS possui muitos recursos para realizarmos anlises estatsticas descritivas de uma amostra de tamanho n. Neste captulo vamos abordar
as principais estatsticas descritivas utilizando o proc univariate e o proc
summary. Vamos ilustrar a obteno de estimativas pontuais de vrios parmetros, histogramas e estimadores de Kernel. Vamos realizar inferncia
sobre mdia de uma populao e de dados emparelhados, tanto testes de
hipteses como estimao intervalar e vamos inferir sobre a distribuio de
probabilidade dos dados amostrais. Para dados de duas amostras independentes vamos utilizar o proc ttest para inferirmos sobre a mdia e sobre a
varincia das populaes amostradas. Para alguns parmetros vamos utilizar o IML para construirmos intervalos de confiana utilizando os recursos
do SAS e a teoria de inferncia. Vamos utilizar diferentes recursos dentro
do contexto da estatstica bsica.
2.1
Estatsticas descritivas
Vamos utilizar basicamente o proc univariate e summary para obtermos

as estatsticas descritivas de uma populao. Vamos supor que temos uma
populao com parmetros desconhecidos. Vamos considerar inicialmente
que essa populao possui uma determinada distribuio de probabilidade
e que este modelo probabilstico o normal, dado por:
Ferreira, D.F.
12
f (x) =
(x )2
2 2 ,
e
(2.1)
2 2
em que os parmetros e 2 so a mdia e a varincia respectivamente.
Este modelo simtrico em relao mdia e o parmetro usado para
medir a simetria o coeficiente de assimetria que pode ter dois estimadores,
o estimador beta e o estimador gama. No SAS o estimador gama de simetria
obtido e o seu valor de referncia na distribuio normal o valor 0. Este
estimador (Ferreira, 2005[3]) dado por:
g1 =
em que mr =
Pn
i=1 (Xi
m3
p
n(n 1)
3/2
(2.2)
(n 2)m2
. )r /n o estimador de centrado de momento de

X
ordem r, sendo r 2.
O coeficiente de curtose populacional da distribuio normal tem como
referncia o valor zero, se for considerado o estimador gama ou o valor 3
se for considerado o estimador beta. O coeficiente de curtose mede o grau
de achatamento da curva. Como o SAS estima somente o parmetro gama,
temos o seguinte estimador do coeficiente de curtose:

(n 1) (n + 1)m4 3(n 1)m22
.
g2 =
(n 2)(n 3)m22
(2.3)
Assim uma distribuio com coeficiente de assimetria igual a zero considerada simtrica; se o coeficiente de assimetria for maior que zero, esta
distribuio ser assimtrica direita e se for menor que zero, assimtrica
esquerda. Da mesma forma uma distribuio com coeficiente de curtose
igual a 0 ser considerada mesocrtica; se o coeficiente de curtose for negativo, ser considerada platicrtica e se for maior que zero, ser considerada
leptocrtica.
Caracterizada a distribuio, o interesse se volta para a caracterizao
da locao e da disperso da populao. A mdia amostral dada por:
n
X
. = 1
Xi .
X
n
(2.4)
i=1
Ferreira, D.F.
2.1 Estatsticas descritivas
13
A varincia amostral dada por:
n
1
X 2
S =
Xi
n1
i=1
2
n
X
!2
Xi
i=1
(2.5)
O SAS estima ainda vrias outras estatsticas descritivas, como o desvio padro S, o coeficiente de variao CV , o erro padro da mdia SX , a
mediana md , a soma de quadrados corrigida e no corrigida, alguns percentis entre outras estimativas. Podemos utilizar o proc univariate para esta
finalidade. Este procedimento ainda apresenta a vantagem de propiciar a
estimao do histograma, bem como de permitir um ajuste da distribuio
normal a este histograma. Permite que outras distribuies sejam plotadas e que seus parmetros sejam estimados. Estas distribuies so: beta,
exponencial, gama, Weibull e lognormal. Permite ainda que um estimador
de Kernel de densidade seja estimado e plotado no mesmo grfico. Calcula
ainda grficos de probabilidade e os qqplots para as mesmas distribuies
utilizadas no comando histogram. Na seqncia apresentamos os principais
comandos do proc univariate, descrevendo suas principais opes.
Vamos ilustrar a utilizao do proc univariate com um conjunto de dados de feijo, onde foram avaliadas as produtividades em g/planta de 20
plantas da gerao F2 . Neste programa optamos por apresentar no mesmo
histograma o estimador kernel com suas trs opes (normal, quadratic e
triangular) e com o tamanho do parmetro de suavizao de cada igual a
1. A opo c = 1 1 1 que definiu este valor para cada mtodo. Escolhemos a opo normal para ajustar o polgono da normal ao histograma e
tambm traamos os grficos da probabilidade e dos quantis utilizando os
comandos qqplot e probplot.
/*Exemplo de um arquivo de dados com n = 20 plantas F2 de feijo com o peso de cada

uma em g/plantas.*/
data feijao;
input prod @@;
Ferreira, D.F.
14
cards;
1.38
3.65
3.78
3.87
4.14
4.54
5.64
5.67
6.23
6.79
8.21
9.79
12.13
12.56
13.19
15.60
17.12
19.68
21.26
24.57
;
proc univariate data=feijao;
var prod;
histogram prod/ normal kernel(c=1 1 1 k=normal quadratic triangular);
probplot prod/normal;
qqplot prod/normal;
run;
Ao observamos os resultados, podemos verificar que embora as evidncias descritivas no sejam muito fortes, no parece haver uma boa concordncia da distribuio dos dados amostrais com a distribuio normal.
Testes formais precisam ser feitos para que haja uma confirmao ou no
destas evidncias descritivas. Um outro comentrio simples que gostaramos de fazer neste instante diz respeito forma que devemos sumariar os
resultados descritivos de posio e disperso em um trabalho cientfico. Em
geral, se a distribuio simtrica utilizamos a mdia como medida de posio. Associada a esta medida devemos apresentar uma medida de disperso.
Podemos escolher o desvio padro ou o erro padro, conforme o objetivo do
trabalho. Se queremos retratar a variabilidade dos dados populacionais em
relao a mdia desta populao, devemos utilizar o desvio padro como
uma estimativa desta medida. O coeficiente de variao tambm pode ser
utilizado se pretendemos apresentar esta variabilidade em uma escala relativa e no absoluta. Se por outro lado desejamos caracterizar a preciso
com que a mdia populacional foi estimada, ou seja, a preciso da estimativa
obtida, deveremos reportar o erro padro da mdia.
A forma como estas medidas devem ser apresentadas tambm alvo de
muita polmica no meio cientfico. Muitas crticas surgem quando apresen . S ou por X
. S .
tamos em uma tabela ou no texto, os resultados por X
X.
O uso do muito criticado, pois gera ambigidade dos resultados e das

interpretaes. Isto porque pode dar idia de que o resultado se trata de
Ferreira, D.F.
2.1 Estatsticas descritivas
15
um intervalo de confiana, o que no verdade. Assim, prefervel que

. (S) ou por X
. S . Em ambos
os resultados sejam apresentados por X
X.
os casos deve ficar claro para o leitor que se trata da estimativa da mdia
seguida, entre parnteses, pelo desvio padro ou pelo erro padro. No temos restries ao uso particular de um destes estimadores: coeficiente de
variao, desvio padro ou erro padro. Isto porque podemos calcular a
partir de um deles os demais. Ento se torna preponderante a apresentao
do tamanho da amostra n utilizado no experimento ou no levantamento
amostral (Ferreira, 2005[3]).
Podemos utilizar ainda o proc summary para obtermos algumas estatsticas descritivas. Este procedimento interessante por realizar estimao
por intervalo de mdias de populaes normais. Assim, podemos complementar a informao do proc univariate que realiza testes de hipteses paramtricos e no-paramtricos sobre a mdia. Utilizamos os dados de feijo
anteriormente apresentados para mostrar uma aplicao do proc summary
e de sua sintaxe bsica. Por default este procedimento no produz output. Devemos utilizar a opo print para obtermos o resultado na janela
de sada. As estatsticas descritivas que almejamos devem ser solicitadas ao
procedimento. A lista de opes : alpha, clm, range, css, skewness (skew),
cv, stddev (std), kurtosis (kurt), stderr, lclm, sum, max, sumwgt, mean,
uclm, min, n, uss, var, nmiss. As opes de quantis so: median (p50), q3
(p75), p1, p90, p5, p95, p10, p99, q1 (p25) e qrange. A opo qrange
a amplitude interquartlica: p75 p25. O exemplo final com algumas das
opes :
/*Exemplo de um arquivo de dados com n = 20 plantas F2 de feijo com o peso de cada

uma em g/plantas.*/
data feijao;
input prod @@;
cards;
1.38
3.65
3.78
3.87
4.14
4.54
5.64
5.67
6.23
6.79
8.21
9.79
12.13
12.56
13.19
15.60
17.12
19.68
21.26
24.57
Ferreira, D.F.
16
;
proc summary data=feijao print range css skew cv std kurt stderr sum max mean min n
uss var nmiss p5 p95 qrange;
var prod;
run;
2.2
Estimao de Parmetros
Vamos apresentar vrios procedimentos para estimao dos principais

parmetros de uma populao. Nesta seo vamos considerar a estimao
de mdia, proporo, varincia, desvio padro, coeficiente de variao e
diferenas de mdias.
2.2.1
Estimao de Mdias, Desvio Padro e Varincias
Vamos apresentar o procedimento SAS para estimao intervalar de mdias de uma populao normal. Para isso vamos utilizar novamente o proc
summary. Neste caso utilizamos a opo clm (confidence limits for the
mean) e a opo alpha para determinarmos o valor do coeficiente de confiana que dado por 1 . Por default o SAS utiliza = 0, 05. O intervalo
de confiana para a mdia de uma normal dado por:
. t/2; S ,
IC1 () : X
n
(2.6)
em que t/2; o quantil superior 100/2% da distribuio t de Student

com = n 1 graus de liberdade.
O programa SAS para realizarmos a estimao por intervalo para a
mdia de uma populao normal, considerando os dados de feijo como
exemplo, est apresentado na seqncia. Vamos a partir deste instante fazer algumas simplificaes nos programas, apresentando somente a parte
contendo os comandos de interesse e omitindo a parte de entrada de dados.
S apresentaremos a parte de entrada de dados quando se tratar de conjuntos de valores que ainda no foram descritos anteriormente. O programa
simplificado :
Ferreira, D.F.
2.2 Estimao de Parmetros
17
/*Exemplo da utilizao dos dados de feijo para obtermos o intervalo de 95% para a
mdia.*/
proc summary data=feijao print alpha=0.05 mean stderr n std clm;
var prod;
run;
Tambm podemos utilizar o proc univariate para realizarmos intervalo

de confiana para mdia, desvio padro e varincia de uma populao normal utilizando a opo cibasic. O intervalo de confiana para a varincia
de uma populao normal dado por:
#
(n 1)S 2 (n 1)S 2
,
; 2
IC1 ( ) :
2/2;
1/2;
"
(2.7)
em que 2/2; e 21/2; so os quantis superiores 100/2% e 100(1

/2)% da distribuio qui-quadrado com = n 1 graus de liberdade,
respectivamente.
O intervalo de confiana para o desvio padro populacional () obtido calculando a raiz quadrada dos limites do intervalo de confiana para
varincia. O programa SAS para obteno destes intervalos, utilizando os
dados do feijo, dado por:
/*Exemplo da utilizao dos dados de feijo para obtermos o intervalo de 95% para a
mdia, desvio padro e varincia.*/
proc univariate data=feijao alpha=0.05 cibasic;
var prod;
run;
2.2.2
Estimao de Propores
Para estimarmos por intervalo propores binomiais podemos utilizar a

aproximao normal em grandes amostras e o intervalo de confiana exato.
Ferreira, D.F.
18
Estes mtodos sero implementados no proc iml para ilustrarmos a sua utilizao e a de algumas funes do SAS para obteno de quantis dos modelos
probabilsticos necessrios em cada caso. Dada uma amostra de tamanho
n de eventos Bernoulli independentes e com probabilidade de sucesso constante p, em que exatamente y sucessos foram observados, o intervalo de
confiana normal aproximado para p dado por:
r
IC1 (p) : p z/2
p(1 p)
,
n
(2.8)
em que p = y/n estimador pontual de p e z/2 o quantil superior /2

da distribuio normal padro.
O intervalo de confiana exato para as propores binomiais deve ser
utilizado principalmente se n for pequeno e se p se afastar muito de 1/2.
Este intervalo baseado na relao da binomial com a beta incompleta
e portanto com a distribuio F . O intervalo de confiana exato para as
propores binomiais dado por:
IC1 (p) :
1
1
,
;
y
(n y + 1)F/2;2(ny+1),2y 1 +
1+
(y
+
1)F
/2;2(y+1),2(ny)
y
(2.9)
em que F/2;1 ,2 o quantil superior 100/2% da distribuio F com 1 e

2 graus de liberdade.
Implementamos um programa no proc iml utilizando os recursos da linguagem SAS, onde o usurio deve trocar os valores de y e de n apresentados
no programa, conforme forem os resultados de sua pesquisa. O valor de
tambm deve ser alterado se tivermos interesse em outro coeficiente de confiana do que aquele utilizado no programa.
/*Utilizao do Proc IML para a obteno de intervalos exato e aproximado para o

parmetro binomial p em uma amostra de tamanho n, com coeficiente de confiana de
(1 )100%, onde foram observados y sucessos.*/
proc iml;
/*Intervalo de confiana exato*/;
Ferreira, D.F.
19
y=2;n=10;p=y/n;alpha=0.05;
if y=0 then F1=0;
else F1=Finv(1-alpha/2,2*(n-y+1),2*y);
if y=n then F2=0;
else F2=Finv(1-alpha/2,2*(y+1),2*(n-y));
if y=0 then LIE=0;
else LIE=1/(1+(n-y+1)*F1/y);
if y=n then LSE=1;
else LSE=1/(1+(n-y)/(F2*(y+1)));
print IC exato para p: LIE LSE alpha: alpha phat: p;
/*Intervalo de confiana normal aproximado*/;
z=probit(1-alpha/2);
LIap=p-z*(p*(1-p)/n)**0.5;
LSap=p+z*(p*(1-p)/n)**0.5;
print IC aproximado para p: LIap LSap alpha: alpha;
quit;
2.2.3
Estimao de Coeficientes de Variao
Para estimar o intervalo de confiana do coeficiente de variao popula . o estimador do coeficiente de variao.
cional de uma normal, seja
= S/X
O intervalo aproximado proposto por Vangel (1996)[15] dado por:
IC1 () :
LI = v
u
2
2/2
u /2 + 2
t
2
1
+
+1
(2.10)
LS = v
,
u
2
2
+
2
1/2
1/2
1
2 +
+1
em que 2/2 e 21/2 so os quantis superiores 100/2% e 100(1 /2)%

da distribuio de qui-quadrado com = n 1 graus de liberdade.
Novamente utilizamos o proc iml para obter o intervalo de confiana
para o coeficiente de variao, dadas as estimativas da varincia e da mdia
e o tamanho da amostra. O programa resultante dado por:
Ferreira, D.F.
20
/*Utilizao do Proc IML para a obteno de intervalos de confiana para o coeficiente

de variao em uma amostra de tamanho n, com coeficiente de confiana de (1 )100%,
sendo dado a mdia e varincia amostral.*/
proc iml;
/*Intervalo de confiana para o CV*/
xbar=194.8333;S2=26.2947;n=6;alpha=0.05;
khat=S2**0.5/xbar;
qui1=cinv(1-alpha/2,n-1);
qui2=cinv(alpha/2,n-1);
LICV=khat/(((qui1+2)/n-1)*khat**2+qui1/(n-1))**0.5;
LSCV=khat/(((qui2+2)/n-1)*khat**2+qui2/(n-1))**0.5;
print IC para o CV: LICV LSCV alpha: alpha khat: khat;
quit;
2.2.4
Diferena de Duas Mdias Independentes
Esta uma situao de muito interesse para os pesquisadores, pois

muito comum obter amostras independentes de duas populaes. O objetivo obter o intervalo de confiana para a diferena das mdias 1 2 das
duas populaes. Algumas suposies so feitas para a utilizao dos procedimentos estatsticos adequados. Inicialmente pressupomos que ambas as
populaes possuem distribuio normal com mdias 1 e 2 e varincias
12 e 22 , respectivamente. Ao obtermos as amostras aleatrias de tamanhos
n1 e n2 das populaes 1 e 2, respectivamente, devemos supor independncia entre as observaes das diferentes amostras e tambm das observaes
dentro das duas amostras. Finalmente, supomos que as varincias das duas
populaes so homogneas, ou seja, que 12 = 22 .
Sejam X1 e X2 os estimadores das mdias da populaes 1 e 2 e S12
e S22 os estimadores das varincias populacionais obtidos em amostras de
tamanho n1 e n2 , respectivamente, ento duas situaes distintas podem
ser consideradas. A primeira quando 12 = 22 e a segunda quando 12 6= 22 .
Estas duas situaes esto destacadas na seqncia.
a. Se 12 = 22 : O intervalo de confiana quando as varincias so homogneas dado por:
Ferreira, D.F.
21
s
IC1 (1 2 ) : X1 X2 t/2;
Sp2

1
1
+
,
n1 n2
(2.11)
em que t/2; o quantil superior /2 da distribuio t de Student com

= n1 + n2 2 graus de liberdade e Sp2 a varincia combinada (pooled )
dada por:
Sp2 =
(n1 1)S12 + (n2 1)S22

.
n1 + n2 2
(2.12)
b. Se 12 6= 22 : Neste caso a distribuio t de Student no mais exata

para obtermos o intervalo de confiana. No entanto, esta distribuio
utilizada de forma aproximada, ajustando somente os graus de liberdade.
Este ajuste aos graus de liberdade atribudo a Satterthwaite (1946)[11].
O intervalo de confiana aproximado dado por:
s
IC1 (1 2 ) : X1 X2 t/2;
S12 S22
+
.
n1
n2
(2.13)
Neste caso os graus de liberdade para a obteno do quantil superior

da distribuio t de Student ajustado (Satterthwaite, 1946) por:
2
S12 S22
+
n1
n2
= 2 2 2 2 .
S1
S2
n1
n2
+
n1 1
n2 1

(2.14)
O procedimento mais apropriado para estimar duas mdias populacionais por intervalo requer que tenhamos o conhecimento sobre a homogeneidade ou no das varincias das duas populaes. Como se tratam de
parmetros desconhecidos podemos inferir apenas a este respeito. Para isso
podemos utilizar o teste F. Um artifcio que utilizamos considerar a varincia maior no numerador da expresso, multiplicando o valor encontrado
por 2. Assim, para testarmos a hiptese H0 : 12 = 22 calculamos:
Ferreira, D.F.
22
Fc =
2
SM
aior
2
SM
enor
(2.15)
e o valor-p determinado por 2 P (F > Fc ). Se valor-p for menor ou

igual ao valor nominal , rejeitamos H0 . O programa SAS resultante deste
procedimento dado por:
/*Utilizao do Proc IML para a obteno de intervalos de confiana para o diferena

de duas mdias, testando antes a igualdade de varincias, utilizando uma confiana de
(1 )100%.*/
proc iml;
/*Dados amostrais H pop. 1 e M= pop 2*/;
h={72,88,62,95};m={48.5,86,79,53};
n1=nrow(h);n2=nrow(m);alpha=0.05;
xb1=sum(h)/n1;xb2=sum(m)/n2;
s21=(t(h)*h-sum(h)**2/n1)/(n1-1);
s22=(t(m)*m-sum(m)**2/n2)/(n2-1);
/*teste de hiptese*/
smaior=max(s21,s22);
smenor=min(s21,s22);
if s21>s22 then v1=n1-1;
else v1=n2-1;
if s21>s22 then v2=n2-1;
else v2=n1-1;
Fc=smaior/smenor;
pval=2*(1-probF(fc,v1,v2));
print FC fc alpha: alpha pval: pval;
if pval>alpha then
do;
sp=((n1-1)*s21+(n2-1)*s22)/(n1+n2-2);
t=tinv(1-alpha/2, n1+n2-2);
LIE=xb1-xb2-t*(sp*(1/n1+1/n2))**0.5;
LSE=xb1-xb2+t*(sp*(1/n1+1/n2))**0.5;
print LI LIE LS LSE;
end;
else do;
v=(s21/n1+s22/n2)**2/((s21/n1)**2/(n1-1)+(s22/n2)**2/(n2-1));
t=tinv(1-alpha/2, v);
LIA=xb1-xb2-t*(s21/n1+s22/n2)**0.5;
Ferreira, D.F.
23
LSA=xb1-xb2+t*(s21/n1+s22/n2)**0.5;
print LI LIA LS LSA;
end;
quit;
2.2.5
Estimao da Diferenas de Duas Mdias Em Dados

Emparelhados
Em muitas ocasies experimentais nos deparamos com a necessidade de

inferir sobre o efeito de algum medicamento, fertilizante, fungicida entre
outros tratamentos. Realizamos experimentos onde temos o maior grau de
controle local possvel, ou seja, mensuramos os indivduos ou as unidades
experimentais antes da aplicao do tratamento e aps a sua aplicao.
Neste experimento temos a mesma unidade experimental servindo de controle local. Isto torna este experimento mais eficiente que o experimento em
que as amostras so tomadas de forma independente na populao tratada
e no tratada. Uma alternativa a este delineamento experimental possvel
de ser obtida se utilizarmos duas parcelas experimentais locadas e submetidas sob as mesmas condies e sorteamos uma para receber o tratamento
e a outra para no receb-lo.
Se Xi e Yi so as respostas mensuradas antes e aps a aplicao do tratamento, respectivamente, na isima unidade amostral, para i = 1, 2, , n,
ento podemos gerar a varivel aleatria di = Yi Xi . A estimao pontual
do valor esperado desta varivel aleatria E(di ) = = Y X pode ser
feita por:
n
X
d =
i=1
di
.
(2.16)
O estimador da varincia populacional das diferenas dado por:

Ferreira, D.F.
24
n
X
1
Sd2 =
d2i
n1
i=1
n
X
!2
di
i=1
(2.17)
Assim, o intervalo de confiana pode ser obtido por:
sd
IC1 () : d t/2;=n1 .
n
(2.18)
O artifcio que usaremos para obter o intervalo de confiana almejado

consiste em considerar com um conjunto de dados, para o qual especificamos
em cada parcela a varivel X e a varivel Y (antes e aps). Em seguida
utilizando o processo de transformao de variveis descritos na seo 1.2
devemos gerar D = Y X. Finalmente utilizamos o proc summary ou
o proc univariate para obtermos o intervalo de confiana para a mdia.
No programa seguinte descrevemos este processo com a utilizao do proc
summary. Este exemplo refere-se a produo de leite mdia diria em kg de
todos os animais de uma fazenda em uma amostra de 6 fazendas da regio
de Marechal Cndido Rondom antes X e aps Y um plano governamental.
A questo era responder se o plano foi eficiente e se sim, qual foi o aumento
na produo mdia diria de leite dos animais em kg. Tomamos apenas
uma parte dos dados n = 6 para ilustrar de forma didatica esta situao.
O programa SAS :
/*Utilizao do Proc Summary para a obteno de intervalos de confiana para o diferena de duas mdias emparelhadas, utilizando uma confiana de (1 )100%.*/
data leite;
input X Y;
d=Y-X;
cards;
12.00 12.56
11.58 13.98
11.67 14.23
12.32 14.56
Ferreira, D.F.
2.3 Testes de Hipteses
25
11.23 13.71
11.25 16.78
;
proc summary data=leite print alpha=0.05 n mean std stderr clm;
var d;
run;quit;
2.3
Testes de Hipteses
Neste seo trataremos dos testes de hipteses sobre os principais parmetros de uma ou duas populaes. Antes de apresentarmos os mtodos
e recursos computacionais para realizarmos os testes de hipteses, devemos
atentar para o fato de que existe uma relao estreita entre os procedimentos
de estimao e deciso.
Se j temos um intervalo de confiana construdo, podemos testar uma
hiptese bilateral apenas verificando se este intervalo contm o valor hipottico. Caso o valor hipottico pertena ao intervalo de confiana no temos
evidncias significativas para rejeitar a hiptese nula. Por outro lado, se o
valor hipottico no pertence ao intervalo de confiana, podemos concluir
a favor da hiptese alternativa, rejeitando a hiptese nula. Assim, vamos
apresentar somente os procedimentos para testarmos mdias de uma populao e de duas, sejam elas independentes ou emparelhadas. Testes sobre
varincias, desvios padres ou coeficientes de variao podero ser realizados com o uso dos intervalos de confiana apresentados anteriormente.
2.3.1
Teste Sobre Mdias
Para testarmos hipteses sobre mdias normais devemos utilizar o teste

t de Student. Assim, para testarmos a hiptese nula H0 : = 0 utilizamos
os seguintes procedimentos. Inicialmente calculamos a estatstica do teste
por
tc =
0
X
.
S
(2.19)
Ferreira, D.F.
26

Se a hiptese alternativa for do tipo bilateral H1 : 6= 0 , calculamos
o valor-p por P (t > |tc |); se a hiptese alternativa for unilateral do tipo
H1 : > 0 , calculamos o valor-p por P (t > tc ); e se a hiptese alternativa
for unilateral do tipo H1 : < 0 , calculamos o valor-p por P (t < tc ).
Finalmente, confrontamos o valor-p com o valor nominal do nvel de significncia . Se o valor-p for inferior ou igual a , devemos rejeitar a hiptese
nula neste nvel de significncia; caso contrrio, no devemos rejeitar H0 .
Se a distribuio dos dados no for normal podemos utilizar dois testes
no-paramtricos: o teste do sinal e o teste dos postos com sinais de Wilcoxon. Vamos descrever o teste do sinal com detalhes e realizar apenas uma
breve descrio do teste de Wilcoxon.
Para aplicarmos o teste do sinal, inicialmente calculamos o nmero de
sinais positivos e negativos para a diferena de cada observao amostral
com o valor hipottico. Se Xi 0 representa esta diferena, ento podemos
definir n+ como o nmero de observaes para as quais Xi > 0 (sinais
positivos) e n com o nmero de observaes para as quais Xi < 0 (sinais
negativos). Devemos desprezar todas as observaes para as quais Xi = 0 .
Assim, o nmero de observaes efetivas amostrais ne = n+ + n . Ao
realizarmos este teste estamos supondo que se a hiptese nula for verdadeira,
o nmero de sinais positivos deve ser igual ao nmero de sinais negativos.
Aplicamos, ento, um teste binomial para p = 1/2, em que p a proporo
de sinais positivos ou negativos. Assim, a estatstica do teste sinal dada
por:
Mc =
n+ n
.
2
(2.20)
O valor-p calculado utilizando a distribuio binomial em um teste

bilateral por:
(ne 1) min(n

+ ,n )
X
1
ne
valor p = P (M > |Mc |) =
.
2
j
(2.21)
j=0
O valor-p confrontado com o valor de e tomamos a deciso de rejeitar ou no a hiptese nula utilizando procedimentos semelhantes ao que
apresentamos anteriormente para o teste t.
Ferreira, D.F.
27
A estatstica do teste do sinal com postos de Wilcoxon obtida calculando-se todos os desvios das observaes em relao ao valor hipottico e
tomando-se os postos dos valores destas diferenas em mdulo di = |Xi 0 |.
Se algum valor amostral for igual a zero, devemos elimin-lo da amostra,
como fazemos no teste do sinal. Se houver empates, tomamos a mdia dos
postos que seriam atribudos a estas observaes empatadas. Retornamos
os sinais de Xi 0 aos postos das diferenas e somamos os valores positivos.
Esta soma representada por W + e a estatstica do teste. Os valores-p
podem ser obtidos utilizando-se uma aproximao normal ou a distribuio
nula da estatstica W + , derivada pela atribuio de sinais positivos ou negativos a cada posto amostral em todas as combinaes possveis. O teste
de Wilcoxon , em geral, mais poderoso do que o teste do sinal. Nenhum
detalhe adicional ser apresentado neste material.
Podemos utilizar o proc univariate para testarmos hipteses sobre a
mdia de uma populao. O proc univariate utiliza as trs opes apresentadas nesta seo para realizarmos o teste de hiptese. Devemos optar pelo
teste mais apropriado conforme for o caso. Esta escolha deve ser pautada
no atendimento ou no das pressuposies bsicas de cada teste. Um procedimento SAS apresentado na seqncia para testarmos a hiptese da
igualdade da mdia do peso dos coelhos hbridos Norfolk abatidos aos 90
dias a 2, 50 kg, ou seja, para testarmos H0 : = 2, 50. Se vrias variveis
so apresentadas no comando var, devemos utilizar a opo mu0 = 0.5 2.5
, indicando que o valor sob H0 para a primeira varivel 0, 5, para a
segunda 2, 5 e assim sucessivamente at completar o nmero de variveis
do comando var. O programa resultante :
/*Utilizao do Proc Univariate para testarmos a hiptese sobre a mdia de uma populao normal e no normais (testes no-paramtricos). Utilizamos o exemplo dos coelhos
Norfolk para ilustrar os testes.*/
data coelhos;
input peso @@;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
Ferreira, D.F.
28
2.54 2.53 2.20

;
proc univariate data=coelhos mu0=2.5 alpha=0.05;
var peso;
run;quit;
2.3.2
Teste Sobre Mdias de Duas Populaes Emparelhadas
Quando temos dados emparelhados, antes e aps a aplicao de um tratamento podemos estar interessados em testes de hipteses sobre o efeito
deste tratamento. Podemos utilizar o mesmo procedimento descrito anteriormente para mdia e assim testar hipteses sobre o efeito do tratamento.
A hiptese nula de interesse dada por H0 : = 0 . Podemos utilizar o
teste t de Student se as variveis (Xi , Yi ) tiverem distribuio normal bivariada ou, em caso contrrio, os testes no-paramtricos do sinal e do sinal
com postos de Wilcoxon.
Seja di = Yi Xi a diferena entre a observao da i-sima unidade
amostral aps Yi e antes Xi da aplicao do tratamento, sendo i = 1, 2, n.
Sejam d e S 2 a mdia e a varincia amostral destas n observaes, ento a
d
estatstica do teste da hiptese H0 : = 0 supondo normalidade bivariada

dado por:
tc =
d 0
,
Sd
(2.22)
que segue a distribuio t de Student com = n 1 graus de liberdade sob

a hiptese nula.
O teste do sinal obtido contando-se o nmero de vezes que di > 0
e desprezando-se os casos em que di = 0 . As expresses 2.20 e 2.21 so
usadas para testar a hiptese de interesse. O teste do sinal com postos de
Wilcoxon tambm obtido da mesma forma considerando tanto o posto da
diferena di 0 considerada em mdulo, quanto o sinal da diferena. Como
se trata apenas de uma aplicao do mesmo procedimento adaptado para
Ferreira, D.F.
29
esta situao, no faremos nenhum comentrio adicional, por julgarmos

suficiente o que j abordamos.
A seguir detalharemos o programa SAS para aplicar o teste de avaliao da eficincia de um plano governamental no aumento da mdia dos
ndices zootcnicos da regio de Marechal Cndido Rondom. A produo
mdia diria de seis fazendas foi avaliadas antes (X) e aps (Y ) o plano
governamental. Inicialmente criamos uma varivel com a diferena e ento
utilizamos o proc univariate da mesma forma que fizemos nos testes de hipteses sobre a mdia de uma populao. Neste exemplo, a hiptese nula
consiste na afirmativa que o plano no foi eficiente, ou seja, H0 : = 0 = 0.
Assim, ao utilizarmos o proc univariate devemos especificar a hiptese com
a opo mu0=0 ou simplesmente no especificar nada, pois o valor 0 o
default deste procedimento. O programa resultante dado por:
/*Utilizao do Proc univariate para a testarmos a hiptese de no haver efeito do plano

governamental panela cheia na melhoria da produtividade leiteira das fazendas da cidade
de Marechal Cndido Rondom no Paran.*/
data leite;
input X Y;
d=Y-X;
cards;
12.00 12.56
11.58 13.98
11.67 14.23
12.32 14.56
11.23 13.71
11.25 16.78
;
proc univariate data=leite mu0=0;
var d;
run;quit;
Podemos utilizar um procedimento especializado do SAS para aplicar

o teste de hiptese sobre a diferena de duas mdias emparelhadas. Este
procedimento o proc ttest. Uma vantagem deste procedimento podermos
Ferreira, D.F.
30
obter, alm do teste de hiptese, o intervalo de confiana para a diferena

de mdias e para o desvio padro da diferena. Utilizamos a opo H0 = 0
para especificarmos o valor nulo da hiptese. O programa ilustrativo desta
situao dado por:
/*Utilizao do Proc ttest para testarmos a hiptese de no haver efeito do plano governamental panela cheia na melhoria da produtividade leiteira das fazendas da cidade de
Marechal Cndido Rondom no Paran.*/
data leite;
input X Y;
cards;
12.00 12.56
11.58 13.98
11.67 14.23
12.32 14.56
11.23 13.71
11.25 16.78
;
proc ttest data=leite h0=0;
paired y*x;
run;quit;
2.3.3
Teste Sobre Mdias de Duas Populaes Independentes
Finalmente podemos testar a hiptese da igualdade de duas mdias populacionais independentes. Para este caso o SAS possui um procedimento
especializado, o proc ttest. Conforme j apresentamos na seo de estimao
por intervalo, devemos inicialmente aplicar o teste de igualdade de varincias e de acordo com os resultados obtidos, escolhemos entre o teste t de
Student exato ou aproximado. O teste exato ocorre quando as varincias
so consideradas homogneas; o teste aproximado quando as varincias
so heterogneas. Devemos neste ltimo caso utilizar o ajuste de graus de
liberdade pelo procedimento de Satterthwaite (1946)[11] ou o procedimento
Ferreira, D.F.
31
de Cochran e Cox que aproxima o nvel de probabilidade da estatstica t de

Student aproximada.
Vamos apresentar na seqncia o proc ttest com o objetivo de ilustra
sua utilizao. Para isso, um exemplo em dois grupos de alunos foram
avaliados com relao ao peso em kg e a altura em m. Os grupos referemse aos alunos que sentam na bancada da direita (grupo 1) e da esquerda
(grupo 2) do laboratrio de informtica. A primeira turma desta disciplina
foi amostrada para esta finalidade. Esperamos a princpio que no haja
diferenas significativas entre os dois grupos, uma vez que a distribuio
completamente aleatria nas duas bancadas da sala de aula.
Devemos fazer um conjunto de dados criando uma varivel para identificarmos os grupos. Esta varivel tem que ter sempre dois nveis para
1 e X
2 as mdias das amostras
podermos utilizar o proc ttest. Sejam X
aleatrias de tamanhos n1 e n2 , respectivamente, retiradas das populaes
1 e 2. Sejam S12 e S22 as varincias amostrais relativas s populaes 1 e
2. Pressupomos que as amostras sejam aleatrias e independentes e que a
distribuio das duas populaes seja normal.
Inicialmente devemos testar a hiptese sobre a igualdade das varincias
H0 : 12 = 22 . Assim, de acordo com este teste devemos aplicar o teste de
igualdade da diferena das mdias populacionais a um valor de interesse,
ou seja, H0 : 1 2 = 0 utilizando os seguintes procedimentos:
a) Se 12 = 22 :
Neste caso, o teste de igualdade da diferena das mdias populacionais
a um valor de interesse exato e a estatstica do teste, dada por
1 X
2 0
X
tc = s

1
1
2
Sp
+
n1 n2
(2.23)
segue a distribuio t de Student com = n1 +n2 2 graus de liberdade.

O significado de Sp2 foi apresentado na equao 2.12.
b) Se 12 6= 22 :
Neste caso, a estatstica do teste no segue de forma exata a distribuio
t de Student. Ento, ajustamos os graus de liberdade pelo procedimento
Ferreira, D.F.
32

de Satterthwaite (1946)[11] ou ajustamos as probabilidades pelo procedimento de Cochran e Cox. A estatstica do teste dada por
1 X
2 0
X
tc = s
S12 S22
+
n1
n2
(2.24)
segue aproximadamente a distribuio t de Student com graus de liberdade obtidos com o uso da expresso 2.14.
Para utilizarmos o proc ttest devemos especificar o valor 0 . Isto feito
utilizando a opo H0 = 0 . A opo Cochran tambm foi utilizada. Devemos, no entanto, alertar o leitor que, via de regra, os dois procedimentos
utilizados para ajustar os graus de liberdade ou as probabilidades, fornecem
resultados similares dos testes. Alm disso, a deciso tomada, em geral,
a mesma. O programa SAS utilizando o exemplo dos grupos de alunos
dado por:
/*exemplo do uso do proc ttest para duas amostras independentes.*/

data sala;
input grupo peso alt;
cards;
1 48.5 1.58
1 53.0 1.60
1 86.0 1.83
1 79.0 1.69
2 62.0 1.72
2 95.0 1.93
2 88.0 1.80
2 72.0 1.80
;
proc ttest data=sala cochran h0=0;
class grupo;
var peso alt;
run;
Devemos especificar no comando class a varivel com dois nveis que so

usados para identificar as populaes. Devemos tambm determinar quais
Ferreira, D.F.
33
variveis vamos analisar com o comando var e o valor hipottico. Infelizmente o SAS no permite especificar um valor diferente para cada varivel
com o comando H0. Se quisermos testar um valor diferente para cada varivel, devemos fazer vrios comandos repetidos, como no programa anterior,
especificando um valor hipottico diferente para cada varivel. Por default
o proc ttest utiliza o valor zero se nada for especificado. Obtivemos para
ambas variveis resultados no significativos para os testes da igualdade
varincias e de mdias dos dois grupos, como era esperado.
O proc ttest nos permite calcular o intervalo de confiana para a mdia
de cada populao e para a diferena de mdias. Tambm fornece o intervalo de confiana para as varincias. No entanto, o intervalo de confiana
da diferena de duas mdias deste procedimento do SAS ignora completamente o teste de igualdade de varincias e estima a diferena de duas mdias
por intervalo utilizando o procedimento de quando as varincias so homogneas. Assim, se o teste de homogeneidade de varincias for rejeitado, o
intervalo de confiana fornecido via de regra muito impreciso e deve ser
desconsiderado. Recomendamos o uso do programa utilizando o proc iml
que fornecemos anteriormente.
2.3.4
Teste de Normalidade
O SAS nos permite realizar teste de normalidade para os dados amostrais coletados em n unidades. Anteriormente j apresentamos alguns destes
testes quando utilizamos o comando histogram prod/normal; no proc univariate. Os testes aplicados no SAS so Kolmogorov-Smirnov, Cramer-von
Mises e Anderson-Darling. Tambm possvel chamar o teste de normalidade sem solicitar o histograma e a estimao dos parmetros da normal.
Podemos utilizar a seguinte linha de comando: proc univariate data=feijao
normal;. Assim, teremos os mesmos testes de normalidade, incorporando,
porm, o poderoso teste de Shapiro-Wilk.
O SAS fornece o valor da estatstica de cada teste e o valor-p associado.
Se este valor-p for menor do que o valor nominal de significncia previamente adotado, ento devemos rejeitar a hiptese nula de normalidade;
caso contrrio, no haver evidncias significativas neste nvel para rejeitar
Ferreira, D.F.
34
a hiptese de normalidade.
Devemos enfatizar que o teste de normalidade aplicado no contexto de
uma amostra aleatria simples onde no h controle local e efeitos de diferentes tratamentos atuando totalmente justificvel, pois estamos diante
de um modelo linear simples do tipo:
Yi = + i ,
em que Yi a observao amostral da i-sima unidade amostral, a mdia
geral e i o erro associado a i-sima unidade amostral.
Nos modelos lineares a suposio de normalidade feita sobre os resduos e no sobre a varivel dependente. Neste modelo linear simples, ao
erro de todas as observaes acrescido uma nica constante e esta constante somente faz uma translao dos valores de Y , no alterando a sua
distribuio. Assim, testar a normalidade de Y ou de so procedimentos
equivalentes. O que muitos pesquisadores fazem muitas vezes dentro do
contexto da experimentao testar a hiptese de normalidade da varivel resposta para verificar se esta pressuposio foi atendida, para validar
as inferncias realizadas. Isto muitas vezes incorreto, pois se pressupe
resduos e no variveis respostas normais. Ento, sob um modelo mais
complexo, onde existe controle local, efeito de bloco (j ) e\ou efeitos de
tratamentos (i ), a varivel resposta Y ter uma distribuio que na verdade uma mistura de distribuies normais com diferentes mdias. Observe
que para o modelo linear
Yij = + j + i + ij ,
a varivel Yij tem a seguinte mdia: E(Yij ) = +j +i . Assim, se variarmos
a unidade experimental (i, j), teremos diferentes valores mdios para Yij .
Como supomos independncia e homocedasticidade de varincias, a mistura
de distribuies ter diferentes distribuies normais com diferentes mdias,
mas com a mesma varincia. Ento, em uma amostra de tamanho n, no
podemos testar a hiptese de normalidade utilizando os valores de Y , mas
devemos estimar o erro cuja mdia zero e a varincia constante para
realizarmos tal teste.
Ferreira, D.F.
Captulo 3
Regresso Linear
Os modelos de regresso linear desempenham um grande papel nas mais
diferentes reas do conhecimento. Os pesquisadores buscam sempre modelar
seus dados por um modelo e ento passam a compreender melhor o fenmeno
sob estudo. Os modelos lineares so apenas uma das classes utilizadas
pelos pesquisadores na compreenso dos problemas de suas pesquisas. A
classificao de um modelo como linear muitas vezes confundida com
o tipo de curva matemtica que aquele modelo descreve e, ainda, mal
compreendida. Assim, iniciaremos nossa discusso com a classificao de
dois modelos como linear ou no-linear. O primeiro modelo dado por
Yi = 0 + 1 Xi2 + i , em que Yi e Xi2 so as variveis resposta e regressoras,
respectivamente; 0 e 1 so os seus parmetros; e i o resduo ou erro.
O segundo modelo Yi = 0 Xi1 + i . Ambos os modelos descrevem curvas
que no so uma reta simples. Esta uma das causas de confuses na
classificao de um modelo como linear. Nestes exemplos, o primeiro modelo
linear e o segundo no-linear.
Para esclarecermos e definirmos um modelo como linear, devemos apresentar inicialmente um conceito filosfico. Dizemos que um modelo linear
ou no-linear nos parmetros e com isso no estamos interessado no tipo
de curva que a funo representa. Formalmente, podemos dizer que um
modelo linear se as derivadas parciais da varivel dependente em relao
a cada parmetro no forem funes dos prprios parmetros. Assim, as
derivadas parciais do primeiro modelo so: Yi /0 = 1 e Yi /1 = Xi2 .
Ferreira, D.F.
36
Regresso Linear
Como nenhuma das derivadas parciais dependem dos prprios parmetros,

ento este modelo linear. No segundo caso, as derivadas parciais so:
Yi /0 = Xi1 e Yi /1 = 0 Xi1 ln(Xi ). O segundo modelo no-linear
nos parmetros, pois as duas derivadas parciais so funes dos prprios
parmetros. Bastaria uma de estas derivadas ser funo dos parmetros
para classificarmos o modelo como no-linear.
Dois procedimentos, entre outros, podem ser utilizados para analisarmos
os modelos lineares e no lineares. Utilizaremos o proc reg para os modelos
lineares e o proc nlin para modelos no-lineares. Neste captulo estudaremos
apenas os modelos lineares nos parmetros. O proc reg , entre os possveis
procedimentos de regresso do SAS, aquele que tem um amplo propsito,
enquanto os demais possuem objetivos mais especficos. Este procedimento
permite entre outras as seguintes anlises:
Especificao de mltiplos modelos
Mtodos de seleo de modelos
Diagnsticos de regresso
Obteno de valores preditos
Diagnose de multicolinearidade
Grficos de resduos
3.1
Mtodo dos Quadrados Mnimos
O proc reg foi idealizado para ajustar modelos lineares e fornecer vrias
ferramentas de diagnstico da qualidade de ajuste. Seja o modelo linear de
regresso com m + 1 parmetros definido por:
Yi = 0 + 1 X1i + 2 X2i + + m Xmi + i
(3.1)
em que Yi a i-sima observao da varivel resposta; Xhi i-sima observao da h-sima varivel; h so os parmetros do modelo; i o resduo
de regresso associado a i-sima unidade amostral; h = 0, 1, 2, , m e
Ferreira, D.F.
3.1 Mtodo dos Quadrados Mnimos
37
i = 1, 2, , n; X0i constante com todos os valores iguais a 1; m representa o nmero de variveis e n o tamanho da amostra.
O mtodo dos quadrados mnimos baseado na idia de minimizar a
P
soma de quadrados dos resduos dos modelos lineares. Assim, se Q = ni 2i
a soma de quadrados de resduos, o seu valor mnimo deve ser encontrado
para obtermos uma soluo de quadrados mnimos. Matricialmente temos
o modelo 3.1 expresso da seguinte forma:
Y = X +
(3.2)
em que Y o vetor de observaes de dimenses n 1; X a matriz do
modelo de dimenses n (m + 1) das derivadas parciais de Yi em relao

aos parmetros; o vetor de parmetros [(m + 1) 1]; e o vetor de
resduos (n 1).
Os resduos podem ser isolados por = Y X e a soma de quadrados
do resduos matricialmente expressa por:

0
Q= =

Q = 0 =

Y X
Y X
Y 0 Y 2 0 X 0 Y + 0 X 0 X

Obtemos as derivadas de Q com relao a e encontramos:

Q
= 2X 0 Y + 2X 0 X
Igualamos a zero e obtemos as conhecidas equaes normais (EN) na

seqncia. Assim, temos:
2X 0 Y + 2X 0 X = 0
X 0 X = X 0 Y
(3.3)
em que o estimador de mnimos quadrados do parmetro .
Ferreira, D.F.
38
Regresso Linear
A matriz de derivadas parciais ou de modelo X, em geral, possui posto
coluna completo nos modelos de regresso. Assim, a matriz X 0 X possui

inversa nica e a soluo do sistema :
= (X 0 X)1 X 0 Y
(3.4)
O valor esperado de Y E(Y ) = X . Podemos obter os valores esti
mados substituindo por . Assim, os valores preditos so dados por:
Y = X
(3.5)
importante obtermos as somas de quadrados do modelo e do resduo,

para aplicar uma anlise de varincia e realizarmos inferncia a respeito do
modelo ajustado. Nenhuma pressuposio foi feita at o momento sobre a
distribuio dos resduos, mas se temos a inteno de realizar inferncias
necessrio pressupormos normalidade e ainda distribuio idntica e independente de todos os componentes do vetor de resduos. Podemos estimar
Q substituindo por . Obtemos aps algumas simplificaes:
= Y 0 Y 0 X 0 Y
Q

Assim, podemos interpretar esta expresso da seguinte forma:

SQRes = SQTotal no corrigida SQModelo
Assim, a soma de quadrados de modelo dada por:
0
SQModelo = X 0 Y
(3.6)
Os graus de liberdade associado ao modelo igual ao posto coluna da

matriz X. Se esta matriz tem posto coluna completo m + 1, conclumos
que a soma de quadrados do modelo est associada a m + 1 graus de liberdade e a soma de quadrados do resduo a n m 1 graus de liberdade. O
que fazemos definir sub-modelos a partir do modelo completo com m + 1
Ferreira, D.F.
3.1 Mtodo dos Quadrados Mnimos
39
parmetros. Desta forma podemos definir dois tipos bsicos de soma de quadrados: a seqencial (tipo I) e a parcial (tipo II). Na seqencial tomamos o
modelo completo e o reduzimos eliminando a varivel m. Obtemos a soma
de quadrado do modelo completo, que representamos por R(0 , 1 , , m ),
e a do modelo reduzido, representada por R(0 , 1 , , m1 ). A notao R indica uma reduo particular do modelo que estamos abordando.
Se tomarmos a diferena da soma de quadrados dos dois modelos teremos
R(m /0 , 1 , , m1 ) = R(0 , , m )-R(0 , , m1 ). Se do modelo
com m 1 variveis eliminarmos a ltima e repetirmos este procedimento,
teremos a soma de quadrado da (m 1)-sima varivel ajustada para todas
as outras que a precedem. Se fizermos isso repetidas vezes at reduzirmos
o modelo ao termo constante apenas, teremos as somas de quadrados de
cada varivel ajustada para todas as outras que a precedem, ignorando as
variveis que a sucedem. Esta a soma de quadrados tipo I ou seqencial.
Para obtermos as somas de quadrados parciais ou do tipo II, devemos
a partir do modelo completo formar um novo modelo eliminando uma das
variveis. A soma de quadrados do modelo reduzido comparada com a
soma de quadrado do modelo completo e a sua diferena a soma de quadrados do tipo II. Assim, teremos o ajuste de cada varivel para todas as
outras do modelo. Podemos perceber que as somas de quadrados tipo I e
tipo II da m-sima varivel so iguais. Via de regra as somas de quadrados
tipo I e tipo II no sero iguais para as demais variveis, a menos de ortogonalidade. Podemos resumir o dois tipos de somas de quadrados conforme
esquema apresentado na Tabela 3.1.
Tabela 3.1: Tipos de somas de quadrados de um modelo de regresso contendo m variveis.
FV
SQ Tipo I
SQ Tipo II
X1
R(1 /0 )
R(1 /0 , 2 , , m )
X2
..
.
R(2 /0 , 1 )
..
.
R(2 /0 , 1 , , m )
..
.
Xm
R(m /0 , 1 , , m1 )
R(m /0 , 1 , , m1 )
Uma forma alternativa bastante til para podermos obter as somas de

Ferreira, D.F.
40
Regresso Linear
quadrados tipo II baseada no mtodo da inversa de parte da inversa de

Searle (1971, 1987)[12, 13]. Por este mtodo podemos obter as somas de
quadrados tipo II de uma forma mais direta do que por reduo de modelos.
Vamos apresentar o mtodo no contexto de regresso linear na seqncia.
Seja a matriz (X 0 X)1 definida por:
(X 0 X)1
x0m
x10 x11
= .
..
..
..
.
.
xm0 xm1
x1m
..
.
x00
x01
(3.7)
xmm
Assim, para obtermos a soma de quadrados do tipo II para a varivel

Xh podemos simplesmente calcular:
R(h /0 , , h1 , h+1 , , m ) =
3.2
h2
xhh
(3.8)
Um Exemplo de Regresso Pelo Proc IML
Vamos mostrar um exemplo de um ajuste de um modelo de regresso

utilizando o proc iml. O objetivo mostrar todos os clculos utilizando as
frmulas anteriormente apresentadas por meio de um programa matricial.
Seja para isso um exemplo em que a varivel X representa o nmero de horas
de exposio solar de uma planta e a varivel resposta Y o crescimento da
planta. Os dados deste exemplo esto apresentados na Tabela 3.2.
Vamos ajustar um modelo linear quadrtico do tipo:
Yi = 0 + 1 Xi + 2 Xi2 + i
(3.9)
em que 0 , 1 e 2 so os parmetros que desejamos estimar.

Para este modelo vamos estimar os parmetros e obter as somas de
quadrados dos tipos I e II utilizando o proc iml. A matriz X do modelo
dada por:
Ferreira, D.F.
3.2 Um Exemplo de Regresso Pelo Proc IML
41
Tabela 3.2: Crescimento de uma planta Y aps ser submetida a um tempo

X de exposio solar em horas.
X
0,1
0,88
0,2
0,90
0,3
0,99
0,5
1,12
0,8
1,40
1,0
1,62
1,5
2,20
2,0
3,10
X=
1 0, 1 0, 01
1 0, 2 0, 04
1 0, 3 0, 09
1 0, 5 0, 25
1 0, 8 0, 64
1 1, 0 1, 00
1 1, 5 2, 25
1 2, 0 4, 00
O vetor de parmetros dado por:
=
1
2
O vetor de observaes dado por:

Ferreira, D.F.
42
Regresso Linear
Y =
0, 88
0, 90
0, 99
1, 12
1, 40
1, 62
2, 20
3, 10
Desta forma podemos formular o programa IML para ajustar este modelo e obter as somas de quadrados e testes de hipteses relativo aos parmetros. Vamos apenas ilustrar uma parte de todos os clculos, pois felizmente
podemos utilizar o proc reg do SAS que nos fornece todas as estimativas
e testes de hipteses que desejarmos, com comando mais simples. O nosso
objetivo possibilitar ao leitor obter um maior conhecimento de todo o
processo de regresso linear. O programa resultante desta anlise :
/*Exemplo de programa IML para realizar regresso linear.*/

proc iml;
x={ 1 0.1 0.01,
1 0.2 0.04,
1 0.3 0.09,
1 0.5 0.25,
1 0.8 0.64,
1 1.0 1.00,
1 1.5 2.25,
1 2.0 4.00};
y={ 0.88,
0.90,
0.99,
1.12,
1.40,
1.62,
2.20,
3.10};
/*modelo completo y = b0 + b1x + b2x2 */
Ferreira, D.F.
43
n=nrow(y);
xlx=t(x)*x;
xly=t(x)*y;
print xlx xly;
ixlx=inv(xlx);
print ixlx;
betam1=ixlx*xly;
print betam1;
/*somas de quadrados*/
glm1=3;
sqb0b1b2=t(betam1)*xly;
sqtotal=t(y)*y;
sqresm1=sqtotal-sqb0b1b2;
glrm1=n-glm1;
print sqb0b1b2 sqtotal sqresm1;
/*Soma de quadrados do tipo II*/
sqb1=betam1[2]**2/(ixlx[2,2]);
sqb2=betam1[3]**2/(ixlx[3,3]);
print sqb1 sqb2;
/*teste t H0 bi=0*/
b0=betam1[1];
tcb0=(b0-0)/(ixlx[1,1]*sqresm1/glrm1)**0.5;
prtcb0=2*(1-probt(abs(tcb0),glrm1));
print b0 tcb0 prtcb0;
b1=betam1[2];
b2=betam1[3];
quit;
Os principais resultados obtidos neste procedimento so apresentados

na seqncia. Iniciamos pelas matrizes X 0 X e X 0 Y , dadas por:
Ferreira, D.F.
44
Regresso Linear
6, 4
8, 28
X 0X =
8, 28 13, 048
6, 4
8, 28 13, 048 22, 5444

e
12, 21
X 0Y =
13, 365
20, 2799
A matriz inversa (X 0 X)1 dada por:
0, 7096 1, 5667
0, 6461
(X 0 X)1 =
4, 8322 2, 2213
1, 5667
0, 6461 2, 2213
1, 0927
Finalmente, o vetor estimado por:
0, 8289504
=
0,
4048794
0, 3607692
Portanto, o modelo de regresso ajustado Yi = 0, 8289504 + 0, 4048794
Xi + 0, 3607692Xi2 . O grfico desta funo quadrtica est apresentado na
Figura (3.1)
As somas de quadrados para modelo (0 , 1 , 2 ), total no corrigido e
resduo foram iguais a 22, 84906, 22, 8533 e 0, 0042399, respectivamente.
O R2 , proporo da variao total corrigida explicada pelo modelo de regresso, dado por: R2 = 1 sqresduo/sqtotal corrigida = 99, 90%. Um
excelente ajuste foi encontrado, mas necessrio que se faa a anlise de
resduo para termos uma confirmao disto, o que no ser feito neste instante. A soma de quadrado total corrigida foi obtida por SQtotal nc =
n
X
sqtotal c G2 /n, em que G =
Yi = 12, 21.
i=1
Ferreira, D.F.
45
1
0
0,5
1,5
2,5
3,5
Figura 3.1: Equao quadrtica resultante do ajuste de quadrados mnimos

do exemplo tratado.
No passo seguinte obtivemos as somas de quadrados do tipo II para X

e X 2 por 0, 40487942 /4, 8322 = 0, 03392 e 0, 36076922 /1, 0927 = 0, 1191,
respectivamente. Podemos efetuar um teste F para a hiptese H0 : i = 0
se desejarmos, dividindo o quadrado mdio do tipo II de cada varivel pelo
quadrado mdio do erro e calcularmos o valor-p utilizando a distribuio
F de Snedecor. O quadrado mdio do tipo II para cada parmetro igual
a soma de quadrados, pois est associado a 1 grau de liberdade. Finalmente podemos utilizar o teste t de Student para obtermos um teste de
hiptese equivalente ao realizado pelo teste F , baseado em somas de quadrados parciais ou somas de quadrados do tipo II. Este teste est descrito
formalmente nas equaes (3.13) a (3.16). Os resultados destes testes de
hiptese bilateral esto apresentados na Tabela 3.3.
Podemos fazer muitas outras anlises no proc iml. Isso no ser necessrio, pois o SAS possui alguns procedimentos apropriados para lidarmos
com ajustes de modelos lineares. Entre estes procedimentos destacamos o
Ferreira, D.F.
46
Regresso Linear
Tabela 3.3: Testes de hiptese do tipo H0 : i = 0, com i = 0, 1, 2 utilizando

a distribuio t de Student com = 5 graus de liberdade.
Estimativa
tc
P r(t > |tc |)
0,82895
33,793
4, 267 107
0,40488
6,325
0, 0014562
0,36077
11,852
0, 0000753
Parmetro
proc reg, para o qual, anteriormente, j apontamos suas principais caractersticas, ou seja, as anlises com que capaz de lidar. Como o IML um
procedimento poderoso, mas que requer conhecimentos especiais de estatstica e de lgebra matricial, no abordaremos mais o proc iml, neste captulo.
Faremos todas as anlises de modelos lineares de regresso utilizando o proc
reg.
3.3
O Proc Reg
Vamos apresentar o proc reg para realizarmos o ajuste do modelo anterior e em seguida apresentaremos um exemplo de regresso mltipla, onde
aparentemente ocorre um resultado paradoxal na inferncia realizada. Utilizamos este exemplo para elucidar aspectos de testes de hipteses que so
muitas vezes ignorados. Inicialmente vamos apresentar os comandos necessrios para ajustarmos o modelo (3.9). O proc reg no permite a criao
de variveis no prprio modelo como faz um outro procedimento do SAS
chamado glm. Neste caso, devemos criar o arquivo de dados e aps o input
criar a varivel X2 = X 2 . Assim, criamos nosso arquivo com as variveis
necessrias e o programa simplificado para o ajuste dado por:
/*Exemplo do proc reg para realizar regresso linear.*/

data rlq;
input x y;
x2=x**2;
cards;
0.1 0.88
Ferreira, D.F.
3.3 O Proc Reg
47
0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20
2.0 3.10
;
proc reg data=rlq;
model y=x x2/ss1 ss2;
run;quit;
A linha de comando do proc reg dada por <model y=x x2/ss1 ss2;>,
nos permite fazer o ajuste do modelo (3.9). As opes ss1 e ss2 solicitam o
clculo das somas de quadrados dos tipos I e II. No necessitamos especificar
nada mais, pois por default o SAS apresenta as estimativas dos parmetros
do modelo com seus erros padres e testes de hipteses associados, a anlise
de varincia, o R2 , mdia geral e algumas outras estimativas de parmetros
especficos. O teste F da anlise de varincia est relacionado a seguinte
hiptese:
H0 : 1 = 2 = 3 = = m = 0
H1 : i 6= 0
Para algum i = 1, 2, , m
(3.10)
Neste exemplo observamos que o F observado foi igual a 2484, 4 e o valor associado P r(F > Fc ) < 0, 0001. Assim a hiptese nula global de que
nenhuma varivel explica significativamente a variao na varivel resposta
Yi foi rejeitada. O SAS realiza o teste t para as hipteses do tipo H0 : i = 0,
i = 1, 2, , m. Neste exemplo os valores da estatstica t e as respectivas
significncias esto apresentadas na Tabela 3.3. Conclumos que ambas
as variveis tem efeito significativamente diferente de zero na variao de
Y . O teste t de Student equivalente ao teste F parcial. Embora este
teste tenha sido aplicado por ser padro no SAS, conveniente utilizar
para este exemplo um teste seqencial. Isto porque esta anlise refere-se
ao ajuste de um modelo polinomial e usualmente nestes casos utilizamos
Ferreira, D.F.
48
Regresso Linear
testes que envolvem somas de quadrados tipo I. Este tipo de procedimento

comumente encontrado nos livros de estatstica experimental.
Vamos apresentar um segundo exemplo, como dissemos anteriormente,
para elucidarmos alguns pontos interessantes da anlise de regresso linear.
Nosso exemplo, refere-se a uma amostra de n = 10 rvores, na qual foram
mensurados o volume (Y ), em m3 .acre1 , sendo que 1 acre igual a 4.064
m2 , a rea basal (X1 ) em dm2 , a rea basal tomada em % em relao rea
de outra espcie (X2 ) e a altura em ps (X3 ) (1 p = 30, 48 cm). Na Tabela
3.4 temos os dados amostrados na populao de Araucaria angustifolia.
Tabela 3.4: Dados de uma amostra de n = 10 rvores de araucria (Araucaria angustifolia) mensuradas em relao ao volume Y , rea basal X1 , rea
basal relativa X2 e altura em ps X3 .
Y
X1
X2
X3
65
41
79
35
78
71
48
53
82
90
80
64
86
80
81
59
87
93
61
66
90
90
70
64
93
87
96
62
96
95
84
67
104
100
78
70
113
101
96
71
Vamos inicialmente ajustar um modelo linear simples para cada varivel

utilizando o modelo linear dado por:
Yi = 0 + 1 Xhi + i ,
Para
h = 1, 2 ou 3,
i = 1, 2, , n
(3.11)
O programa para realizarmos estes ajustes, para cada uma das variveis
regressoras, mas de forma simultnea simultnea, dado por:
Ferreira, D.F.
3.3 O Proc Reg
49
/*Exemplo do proc reg para realizar regresso linear.*/

data arvores;
input y x1 x2 x3;
datalines;
65
41
79
35
78
71
48
53
82
90
80
64
86
80
81
59
87
93
61
66
90
90
70
64
93
87
96
62
96
95
84
67
104
100
78
70
113
101
96
71
;
proc reg data=arvores;
model y=x1;
model y=x2;
model y=x3;
run;quit;
Na Tabela 3.5 apresentamos os resultados mais importantes destes ajustes, que iremos mencionar futuramente. Selecionamos o F calculado e sua
significncia e o R2 do modelo.
Tabela 3.5: Resultados mais importantes do ajuste dos modelos lineares
simples para os dados dos volumes das n = 10 rvores de araucria Araucaria angustifolia.
Fc
P r(F > Fc )
R2
1: E(Yi ) = 0 + 1 X1i
24,17
0,0012
0,7513
2: E(Yi ) = 0 + 1 X2i
2,43
0,1579
0,2328
3: E(Yi ) = 0 + 1 X3i
24,73
0,0011
0,7556
Modelo
Observamos que o modelo 2 no se ajustou aos dados, embora isso fosse

esperado, uma vez que a varivel X2 resultante de uma medida relativa
entre uma varivel mensurada diretamente na espcie e outra medida em
outra espcie. Portanto, o resultado perfeitamente justificvel, pois a
Ferreira, D.F.
50
Regresso Linear
covariao existente entre X2 e Y pode ser atribuda meramente fatores de

acaso. As demais variveis apresentam explicaes significativas (P < 0, 05)
da variao que ocorre na varivel resposta, com R2 igual a 75, 13% para
X1 e 75, 56% para X3 . Agora vamos ajustar o modelo linear mltiplo dado
por:
Yi = 0 + 1 X1i + 2 X2i + 3 X3i + i
(3.12)
O programa SAS, que faz uso do proc reg para ajustar o modelo 3.12,
dado por:
/*Exemplo do proc reg para realizar regresso linear mltipla.*/

data arvores;
input y x1 x2 x3;
datalines;
65
41
79
35
78
71
48
53
82
90
80
64
86
80
81
59
87
93
61
66
90
90
70
64
93
87
96
62
96
95
84
67
104
100
78
70
113
101
96
71
;
model y=x1 x2 x3;
run;quit;
Os principais resultados obtidos do ajuste do modelo 3.12 so apresentados e discutidos na seqncia. A princpio, vamos apresentar (Tabela 3.6)
o resumo da anlise de varincia.
Podemos concluir que pelo menos uma varivel explica significativamente a variao que ocorre na varivel resposta Y , ou seja, a hiptese
nula (3.10) deve ser rejeitada se for considerado o nvel nominal de 5%.
Ferreira, D.F.
3.3 O Proc Reg
51
Tabela 3.6: Resumo da anlise de varincia do ajuste de regresso mltipla

aos dados do volume das rvores de araucria.
GL
QM
Fc
P r(F > Fc )
Regresso
455, 85296
10, 65
0, 0081
Erro
42, 80685
Total Corrigido
FV
Na Tabela 3.7 apresentamos os testes t de Student para a hiptese nula

H0 : h = 0, em que h = 1, 2, 3. Devemos neste instante apresentar a expresso geral para realizarmos os testes de hipteses sobre componentes do
vetor de parmetros. A varincia do estimador do vetor de parmetros
dada por:

V = (X 0 X)1 2
(3.13)
O estimador desta varincia obtido substituindo a varincia paramtrica pelo estimador da varincia (S 2 = QM E). Assim, temos o estimador
da varincia do estimador dos parmetros dada por:

= (X 0 X)1 S 2
(3.14)
Desta forma, o erro padro de i dado por:
S(i ) =
xii S 2
(3.15)
em que xii o elemento correspondente a i-sima diagonal da matriz inversa

(X 0 X)1 .
Logo, o teste t de Student para a hiptese H0 : i = 0 , em que 0 uma
constante real de interesse pode ser aplicado, pois sob H0 a distribuio da
estatstica do teste dada por
tc =
i 0
S(i )
(3.16)
Ferreira, D.F.
52
Regresso Linear
t de Student com = n m 1 graus de liberdade.

O SAS testa a hiptese nula, assumindo que a constante 0 igual a
zero. Os resultados para este caso esto apresentados na Tabela 3.7.
Tabela 3.7: Estimativas dos parmetros e teste t de Student para a nulidade
das estimativas.
Estimativas
S(i )
tc
P r(t > |tc |)
-33,82268
75,35853
-0,45
0,6693
-2,22672
4,02805
-0,55
0,6004
0,26976
0,15332
1,76
0,1290
4,76590
6,78649
0,70
0,5088
Parmetros
Quando observamos os resultados dos testes de hipteses na Tabela 3.7,

verificamos que nenhuma varivel explicou significativamente a variao da
varivel resposta Y . Este resultado aparentemente contraditrio ao resultado do teste da hiptese global do modelo de regresso, hiptese esta
que foi significativamente rejeitada. Este suposto paradoxo na verdade
um problema de interpretao do que est sendo realmente testado pelos
testes t individuais. O que ocorre que o teste t equivalente ao teste F ,
obtido a partir das somas de quadrados parciais ou do tipo II. Assim, o que
o t realmente testa a contribuio de uma varivel, eliminando a explicao das demais variveis no modelo. Ento, se a explicao da varivel
para a variao de Y for expressiva, aps ser eliminada a redundncia da
informao com as outras variveis do modelo, a estatstica do teste tender
a pertencer a regio crtica. Essa redundncia dependente da estrutura
de correlao existente entre a varivel que est sendo testada e as demais
variveis do modelo.
O que acontece neste exemplo que temos uma forte estrutura de correlao entre as trs variveis do modelo e, portanto, na presena das outras,
a varivel que est sendo testada no contribui com uma explicao significativa da variao total. Podemos perceber que duas das variveis que apresentaram resultados no significativos para o teste t, so individualmente
importantes para a variao do volume, pois apresentaram significncias
menores que 5% nos testes individuais. Portanto, no tem nada de paradoFerreira, D.F.
3.3 O Proc Reg
53
xal nos resultados encontrados. O que temos so variveis correlacionadas

que no necessitariam estar todas no modelo e parte delas nem precisaria
ser mensurada, onerando menos os experimentos de campo.
Um outro parmetro que estimado pelo proc reg o R2 , o qual mede
a proporo da variao do total dos dados que explicada pelo modelo de
regresso. Um outro importante parmetro o coeficiente de determinao
2 ). Este ajuste, feito para o nmero de parmetros no modelo,
ajustado (RAj.
fornece uma medida mais adequada para comparar modelos com diferentes
quantidades de parmetros. O R2 ajustado dado por:
2
RAj.
=1

ni
1 R2
np
(3.17)
em que n o tamanho da amostra, p o nmero de parmetros (incluindo o

intercepto) e i igual a 1, se o modelo inclui o intercepto ou 0, se o modelo
no inclui 0 .
Duas opes interessantes para calcularmos as somas de quadrados tipos
I e II so dadas por SS1 e SS2. Estas opes devem aparecer aps o modelo.
Para isso, ao terminarmos de especificar o modelo, colocamos uma barra /
e em seguida as opes SS1 e SS2. O programa simplificado ilustrando o
uso das opes SS1 e SS2 dado por:
/*Exemplo do proc reg para realizar regresso linear mltipla utilizando SS1 e SS2.*/
model y=x1 x2 x3/ss1 ss2;
run;quit;
Juntamente com as estimativas dos parmetros podemos observar as

somas de quadrados tipo I e II resultantes das opes de modelo utilizadas.
Outros comandos que so importantes no proc reg so: p, clm e cli. Estas
opes nos possibilitam predizer os valores de Yi , estimar por intervalo de
confiana o valor mdio da resposta (clm) ou intervalo de confiana para
uma predio estocstica ou predio futura (cli). Para apresentarmos estes
conceitos, sejam Yi a observao da varivel resposta na i-sima unidade
Ferreira, D.F.
54
Regresso Linear
amostral e o vetor zi = [1 X1i
X2i
Xmi ]0 o vetor de variveis
regressoras, incluindo a indicadora do intercepto, ento o valor predito Yi

dado por:
Yi = z 0 = 0 + 1 X1i + + 1 Xmi

(3.18)
Este vetor z no necessita necessariamente ser observado entre o coni
junto de observaes. O estimador do erro padro desta predio para o

intervalo da mdia (clm) dado por:
S(Yi ) =
z 0 (X 0 X)1 z S 2
(3.19)
O intervalo de confiana clm dado por:
Yi t/2, S(Yi )
(3.20)
Se diferenciarmos a predio futura da predio mdia simplesmente

utilizando a notao Yi , mas mantivermos a mesma combinao linear determinada pelo vetor z , teremos o intervalo de confiana cli dado por:
Yi t/2, S(Yi )
(3.21)
Este intervalo distingue-se do anterior somente pelo estimador do erro

padro do valor da predio futura, o qual envolve uma varincia residual a
mais em relao ao erro padro da predio do valor mdio. Este estimador
do erro padro da predio futura dado por:
S(Yi ) =
rh
i
1 + z 0 (X 0 X)1 z S 2
(3.22)
O programa SAS simplificado para ilustrarmos o uso destas opes est

apresentado na seqncia. Podemos especificar o valor de com a opo
alpha=0.05. Claro que se o valor de 5% for mantido, que o padro, esta
opo no precisa ser utilizada.
Ferreira, D.F.
3.3 O Proc Reg
55
/*Exemplo do proc reg para realizar regresso linear mltipla utilizando p clm e cli.*/
model y=x1 x2 x3/alpha=0.05 p clm cli;
run;quit;
Podemos utilizar ainda algumas outras opes do modelo de regresso. Particularmente interessante so os coeficientes de determinaes semiparciais dos tipos I e II. Os comandos para obtermos estas correlaes semiparciais quadrticas so scorr1 e scorr2. Os coeficientes de determinao
semi-parciais so estimados por:
R(h /0 , , h1 )
SQtotal corrigida
(3.23)
R(h /0 , , h1 , h+1 , , m )
SQtotal corrigida
(3.24)
2
Rsp1
=
2
Rsp2
=
2
2
em que Rsp1
e Rsp2
so os coeficientes de determinao semi-parciais dos
tipos I e II, respectivamente, para a h-sima varivel.

Tambm so teis os coeficientes de determinao parciais dos tipos I
e II. As opes que devemos utilizar so, respectivamente, pcorr1 e pcorr2.
Os estimadores correspondentes so dados por:
2
Rp1
=
R(h /0 , , h1 )
R(h /0 , , h1 ) + SQE
(3.25)
em que SQE a soma de quadrados do erro resultante do ajuste de um

modelo contendo as variveis X1 , X2 , , Xh e
2
Rp2
=
R(h /0 , , h1 , h+1 , , m )
R(h /0 , , h1 , h+1 , , m ) + SQE
(3.26)
em que SQE a soma de quadrados do erro resultante do ajuste do modelo

completo.
Ferreira, D.F.
56
Regresso Linear
/*Exemplo do proc reg para realizar regresso linear mltipla e ilustrar a obteno dos
coeficientes de determinao parciais e semi-parciais.*/
model y=x1 x2 x3/ss1 ss2 scorr1 scorr2 pcorr1 pcorr2;
run;quit;
3.4
Seleo de Modelos
A seleo de modelos bastante interessante na pesquisa cientfica, pois

muitas vezes temos variveis correlacionadas que no contribuem para a
variao da varivel resposta de forma significativa, na presena das outras.
Dizemos que existe uma redundncia da informao. Assim, procedimentos
para selecionarmos modelos de regresso linear so importantes no sentido
de evitarmos a incluso em um modelo de variveis que so correlacionadas
com outras variveis candidatas. Evitamos com isso mensuraes desnecessrias e onerosas. O SAS nos permite utilizar diferentes mtodos de seleo
de modelos, quais sejam, forward, backward, stepwise, maxr, minr, rsquare,
adjrsq, cp ou none (usar o modelo completo). Cada um destes mtodos
tem uma caracterstica especial. Enfocaremos nesta seo apenas os trs
primeiros: forward, backward e stepwise.
Vamos apresentar algumas caractersticas de cada um destes trs mtodos escolhidos. Vamos iniciar pelo forward. Neste mtodo as m variveis
regressoras so submetidas a um ajuste individual (modelo linear simples).
Cada modelo deste ajustado e entre aqueles modelos em que as variveis regressoras apresentaram teste F parcial significativo para a hiptese
H0 : h = 0, fixado o valor de , devemos escolher aquela varivel que apresentou maior valor desta estatstica ou equivalentemente, aquela que apresentou maior R2 parcial. A varivel escolhida fixada no modelo e todas as
outras so introduzidas um a uma neste modelo, formando m1 modelos de
duas variveis. Estes modelos so formados pela varivel escolhida no passo
1 com a outra escolhida entre as variveis candidatas a entrar neste modelo.
Novamente entre aquelas variveis que apresentaram F parcial significativo
Ferreira, D.F.
3.4 Seleo de Modelos
57
na presena da varivel selecionada no primeiro passo, escolhemos aquela

de maior F parcial ou R2 parcial. Se nenhuma varivel apresentou significncia para entrar, encerramos o processo e ficamos com um modelo com a
varivel que entrou no primeiro passo. Se uma das candidatas foi escolhida,
formamos um modelo com esta varivel e aquela escolhida no passo 1. As
variveis candidatas so testadas uma por vez na presena destas duas variveis e todo o processo repetido. Devemos parar quando nenhuma das
candidatas atingiu o nvel de significncia estabelecido a priori para entrar
no modelo ou quando no temos mais variveis candidatas para entrar.
O procedimento stepwise muito parecido com o forward, exceto pelo
fato de que em cada passo, aps a entrada de uma das variveis candidatas,
devemos testar as variveis que estavam no modelo. Se uma ou mais delas
apresentarem F parcial no significativo, aquela que tiver menor valor de
F parcial deve sair do modelo. Esta sada de apenas uma varivel por
vez, at no ter mais variveis no modelo que apresentem F parcial no
significativos. As variveis que saram do modelo, no so mais candidatas
a entrar. As variveis remanescentes, candidatas a entrar no modelo, so
colocadas um por vez no modelo final e o processo continua com entradas
e sadas at no termos mais candidatas para entrarem ou as candidatas
no atingirem o nvel mnimo de significncia para entrarem no modelo e
as variveis do modelo forem todas significativas.
O procedimento de backward testa todas as variveis candidatas simultaneamente. Entre aquelas que apresentarem F parciais no significativos, a que tiver menor valor observado deve sair do modelo. Se todas as
variveis no modelo apresentarem F parciais significativos, em um nvel
pr-estabelecido de significncia para a permanncia no modelo, ento
encerramos o processo. Neste caso o modelo resultante ser o completo. Se
por outro lado, for eliminada um varivel, o procedimento repetido para
as m 1 variveis remanescentes. Paramos o processo se todas as variveis
de um passo apresentarem F parcial significativo ou se modelo resultar em
um modelo nulo, somente com o intercepto.
Devemos especificar para o SAS o nvel de significncia de permanncia
ou de entrada das variveis do modelo. No forward devemos especificar
somente o nvel de significncia de entrada, no backward, o nvel de signiUso de Recursos Computacionais
Ferreira, D.F.
58
Regresso Linear
ficncia de permanncia e no stepwise, os dois nveis de significncia, de

permanncia e de entrada. Os comandos que devemos usar so slstay para
nvel de significncia de permanncia e slentry para entrada.
O comando que utilizamos para indicarmos que utilizaremos um mtodo de seleo de modelos o selection=method. O programa SAS para
realizarmos a escolha de modelos de regresso, para os dados das rvores,
dado por:
/*Exemplo do proc reg para realizar seleo de modelos de regresso linear mltipla.*/
model y=x1 x2 x3/selection=backward slstay=0.05;
model y=x1 x2 x3/selection=forward slentry=0.05;
model y=x1 x2 x3/selection=stepwise slentry=0.05 slstay=0.05;
run;quit;
Nos trs mtodos obtivemos o mesmo modelo ajustado, da varivel resposta Y em funo da varivel X3 . Algumas vezes os procedimentos podem
resultar em concluses conflitantes quanto ao modelo e o pesquisador deve
escolher o que melhor lhe convier. Esta escolha, entre outras coisas, pode
ser embasada na anlise de resduos e na qualidade da predio da varivel
aleatria Y .
3.5
Diagnstico em Regresso Linear
Seja o modelo de regresso linear dado por

Y = X +
em que Y o vetor de observaes de dimenses n 1; X a matriz do
modelo de dimenses n (m + 1) das derivadas parciais de Yi em relao

aos parmetros; o vetor de parmetros [(m + 1) 1]; e o vetor de

resduos (n 1) no observveis e com E = 0 e V = I 2 .
Ferreira, D.F.
3.5 Diagnstico em Regresso Linear
59
Na metodologia clssica de modelos lineares, onde se encontram os modelos de regresso linear, pressupomos que exista uma linearidade nos parmetros do preditor e aditividade dos erros e, ainda, que os erros so independentes, tm mdia zero, varincia constante e que sua distribuio seja
iid
normal, ou seja, i N (0, 2 ). Alm disso outras condies so importantes, como por exemplo, supomos que algumas poucas observaes no devam
ter influncia demasiada sobre as estimativas dos parmetros do modelo e
de suas varincias. Assim, diagnsticos numricos so funes dos dados cujos valores permitem detectar respostas que so anormalmente grandes ou
pequenas (outliers ou valores discrepantes) ou que esto afastadas do grupo
majoritrio dos dados, influenciando em demasia o ajustamento. Assim,
temos interesse particular nas anlises denominadas de influncia, onde utilizamos um conjunto de tcnicas destinadas a deteco de pontos influentes
e/ou discrepantes que podem afetar o ajustamento.
Muitas causas podem ser atribudas a alguns problemas normalmente
encontrados na anlise de regresso. Algumas destas possibilidades so,
entre outras, devidas medidas erradas ou erro no registro da realizao da
varivel resposta, ou ainda, erros de transcrio; observaes tomadas em
condies distintas das demais; modelo mal especificado; e distribuio no
normal dos resduos, apesar de o modelo e a escala estarem corretos.
A forma utilizada normalmente para verificar a influncia de uma observao retir-la do modelo e verificar como as estimativas dos parmetros,
predies e varincias so afetadas. Assim, se retirarmos a i-sima observao e reestimarmos as quantidades mais importantes do modelo, poderemos
avaliar a influncia da observao retirada na estimao destes parmetros
de interesse. Podemos, no entanto, evitar que todos os clculos sejam refeitos, utilizando algumas relaes e propriedades apresentadas por Velleman
e Welsch, (1981)[16]. Vrios mtodos de avaliar a influncia de observaes
no ajuste de um modelo de regresso linear so apresentados por Chatterjee
e Hadi (1986)[2].
3.5.1
Anlise de resduos
O preditor dos resduos dado por:

Ferreira, D.F.
60
Regresso Linear
e = Y X
(3.27)
Podemos reescrever o erro como uma combinao linear de Y por:
e = Y X(X 0 X)1 X 0 Y = [I X(X 0 X)1 X 0 ]Y
A matriz X(X 0 X)1 X 0 denominada projetor e representada por P ,

pois projeta o vetor de observaes Y , n-dimensional, no sub-espao (m+1)
dimensional. Aplicando esta matriz ao vetor de observaes, obtemos o

vetor de valores preditos Y , ou seja, Y = P Y . Na anlise de regresso linear
simples, a matriz P denominada de matriz Hat e representada por H.

Vamos representar a i-sima observao pelo vetor composto por [Yi
sendo que zi = [1 X1i
X2i
zi 0 ]0 ,
Xmi ]0 o vetor dos elementos da i-
sima linha da matriz X do modelo. O elemento da diagonal correspondente

na matriz H denominado simplesmente por hi . Assim,
e = (I H)Y
(3.28)
o preditor do vetor de erros, que equivalente a equao (3.27).

A esperana de e dada por:

h
i

E e =E (I H)Y = (I H)E Y
=[I X(X X)
X ]X = X X(X 0 X)1 X 0 X
=X X = 0
Assim, a covarincia do vetor de resduos preditos :

e =(I H)V Y (I H) = (I H)I 2 (I H)0
=(I H)(I H 0 ) 2 = (I H) (I H)H 0

=(I H H 0 + HH 0 ) 2 = (I H H + H) 2
=(I H) 2
Ferreira, D.F.
61
Para a i-sima observao temos que a varincia V (ei ) dada por:
V (ei ) = (1 hi ) 2
(3.29)
em que ei o i-simo elemento do vetor de resduos preditos, ou seja, o

erro predito para a i-sima observao. Neste contexto denominado de
resduo ordinrio.
O problema bsico destes resduos que eles no so comparveis entre si, por possurem varincias distintas. Devemos buscar alguma forma
de padronizao para termos a mesma disperso em todos os n resduos
preditos. Temos basicamente trs formas de padronizaes que podemos
efetuar e que discutiremos na seqncia. Podemos ter os resduos padronizados, resduos estudentizados internamente e resduos estudentizados externamente, tambm conhecidos por resduos de jackknife (Chatterjee e
Hadi, 1986[2]). Em todos os casos vamos substituir a varincia 2 pelo seu
estimador S 2 = QM E.
A primeira opo, no computada pelo SAS, obtida pela diviso dos
resduos ordinrios pelo desvio padro S = QM E. Este artifcio reduz a

variabilidade a uma faixa especfica, mas no elimina o problema de varincias distintas. Este resduo padronizado dado por:
zi =
ei
S
(3.30)
Pela razo anteriormente apontada, os resduos estudentizados foram

propostos na literatura especializada. Os resduos estudentizados internamente so obtidos por meio da razo entre o resduo ordinrio e o seu
estimador do erro padro especfico, ou seja, por
ei
ri = p
(1 hi )S 2
(3.31)
Este tipo de resduo mais interessante que o anterior, devido ao fato

de considerar a varincia individual de cada resduo ordinrio. Entretanto,
se a i-sima observao for um outlier pode ocorrer que a estimativa da
varincia estar afetada por este valor.
Ferreira, D.F.
62
Regresso Linear
A ltima proposta de padronizao foi feita para contornar este pro-
blema e tem ainda algumas propriedades mais interessantes do que as demais formas de padronizao. Esta ltima padronizao resulta nos resduos
estudentizados externamente, tambm denominados de resduos de jackknife. A idia eliminar a i-sima observao e obtermos uma estimador
2 . O subscrito i apresentado entre parnteses foi
da varincia, digamos, S(i)
utilizado para indicar que se trata de um estimador aplicado a todos as

n 1 observaes resultante da eliminao da i-sima observao da amostra completa. Felizmente, no precisamos reajustar o modelo eliminando
a i-sima observao para obtermos uma estimativa desta varincia (Chatterjee e Hadi, 1986[2]). Um estimador obtido a partir da anlise original
(Beckman e Trussell, 1974[1]) dado por:
2
S(i)
=
e2i
(n m 1)S 2
nm2
(n m 2)(1 hi )
(3.32)
O resduo estudentizado externamente definido por:

ei
ti = q
2
(1 hi )S(i)
(3.33)
Este resduo denominado por RSTUDENT na literatura especializada

de regresso. Observaes que apresentarem este tipo de resduo superior
em mdulo a 2, devem receber ateno especial. Existe uma preferncia por
este tipo de resduo na literatura e as razes para isso podem ser apontadas
(Chatterjee e Hadi, 1986[2]) por:
Os resduos estudentizados externamente ti sob a hiptese de normalidade seguem a distribuio t de Student com = n m 2 graus
de liberdade, enquanto ri2 /(n m 1) segue a distribuio beta;
podemos mostrar facilmente que:
s
ti = r i
nm2
n m 1 ri2
de onde se observa que ti uma transformao monotnica de ri e

que ti medida que ri (n m 1). Assim, ti reflete um
resduo fora de faixa de forma mais acentuada do que faz ri ; e
Ferreira, D.F.
63
2 robusto grandes e grosseiros erros da i-sima

o estimador S(i)
observao, ou seja, se esta observao for discrepante.
importante ressaltarmos que a deteco de valores discrepantes no

deve implicar em descarte automtico de observaes. possvel, por exemplo, que o valor discrepante se deva a erro de transcrio, situao em que
esse valor pode ser facilmente corrigido ou ento pode ser um indicativo de
modelo inadequado, possibilitando que modelos melhores sejam adotados e
ajustados.
3.5.2
Influncia no Espao das Variveis Preditoras
Alm dos resduos podemos verificar a influncia das observaes em

uma srie de quantidades importantes da anlise de regresso. Uma interessante medida de diagnstico o prprio elemento hi da matriz de projeo H. Esta estatstica denominada de influncia (leverage). O critrio
utilizado baseado em algumas propriedades (Velleman e Welsch, 1981[16])
n
X
de hi , dadas por: 0 hi 1 e
hi = (m + 1). Assim, o valor mdio da
i=1
influncia (m + 1)/n. Como hi = Yi /Yi , uma estimativa igual a zero

indicativo de que no h influncia no ajuste do modelo e uma estimativa
igual a 1, indicativo que um grau de liberdade foi efetivamente atribudo
ao ajuste daquela observao. O problema determinar quais observaes
amostrais tm alta influncia no ajuste e, portanto, receber ateno especial. Se m > 14 e (n m) > 31 podemos utilizar o critrio de que a i-sima
observao merece ateno se hi > 2(m + 1)/n. Se estas condies envolvendo m e n no forem verificadas, podemos utilizar hi > 3(m + 1)/n como
um melhor critrio.
Devemos chamar a ateno de que a influncia medida pelo hi refere-se
ao papel das variveis regressoras (fatores). Assim, medimos a influncia,
com hi , no espao dos fatores e, com a anlise de resduos, no espao da
varivel resposta. Assim, a influncia pode ocorrer no espao dos fatores,
no espao das respostas ou em ambos os casos.
Ferreira, D.F.
64
Regresso Linear
3.5.3
Influncia no Vetor de Estimativas dos Parmetros
A idia de medir a influncia da i-sima observao na estimativa do

vetor de parmetros pode ser desenvolvida a partir da eliminao desta observao. Aps esta eliminao, estimamos novamente os parmetros do
modelo e aplicamos uma medida de distncia entre as estimativas. Esta
distncia pode ser dada pela diferena entre as estimativas obtidas com
e sem a eliminao da i-sima observao. Em geral isso que fazemos,
tomando-se o cuidado apenas de padronizar os resultados. Seja ij , o estimador do j-simo parmetro aps eliminarmos a i-sima observao, para
i = 1, 2, , n e j = 0, 1, , m. A estatstica que utilizaremos para isso
conhecida por DF BET Aij , em que DF so as iniciais de Deviation of
Fit. Por meio dela podemos determinar a influncia de cada observao na
estimativa de cada parmetro do modelo. Esta estatstica dada por:
DF BET Aij =
j ij

V j
(3.34)
A dificuldade obter as estimativas do vetor de parmetros para cada

um dos n casos, em que um das variveis eliminada. Felizmente, no
precisamos estimar n vezes o vetor de parmetros para calcularmos os
DF BET AS. Existe uma relao interessante (Chatterjee e Hadi, 1986[2])
para a diferena entre os vetor de estimativas com e sem a i-sima observao que dada por:
(i) =
1
(X 0 X)1 Zi ei
1 hi
(3.35)
em que (i) o estimador do vetor de parmetros aps a eliminao da
i-sima observao.
Tambm sabemos que o vetor de estimadores dos parmetros dado
por:
= (X 0 X)1 X 0 Y = CY
Ferreira, D.F.
(3.36)
65
Assim, o DF BET A no padronizado dado por:
DF BET Aij = cji
ei
1 hi
(3.37)
em que cji o elemento da j-sima linha e i-sima coluna da matriz C =

(X 0 X)1 X 0 .
Se a expresso (3.37) for dividida pelo erro padro do vetor de par
metros V j , obteremos uma expresso equivalente (3.34). A expresso

resultante utilizada para obtermos os DF BET AS, sendo dada por:
cji ti
DF BET Aij = r
(3.38)
(1 hi )Cj 0 Cj
em que Cj vetor obtido a partir da j-sima linha da matriz C.
Estas estatsticas so muito dependentes do nmero de observaes,

sendo que tanto menor ser o efeito da observao sobre os valores de
DF BET AS, quanto maior for o nmero de observaes. Para estabelecer um valor limite para essa estatstica, podemos tomar como base o valor
limite para os resduos, que igual a 2. Assim, teremos que observaes
cujos |DF BET Aij | > 2/ n devem ter ateno especial, pois o vetor de
estimativas pode ter sofrido alteraes significativas.
3.5.4
Influncia no Vetor de Valores Preditos
O impacto da i-sima observao no i-simo valor predito pode ser medido pela padronizao da mudana no valor predito na presena e ausncia
desta observao. A estatstica utilizada para fazer tal mensurao denominada de DF F IT S e dada por:

Yi Yi(i)
r

hi

DF F IT Si = q
= |ti |
2
1 hi
(1 hi )S(i)
(3.39)
Podemos verificar que quanto maior a influncia da i-sima observao,

mais hi se aproxima de 1 e, conseqentemente, maior ser o coeficiente |ti |.
Ferreira, D.F.
66
Regresso Linear
Como vimos anteriormente hi /(1hi ) est relacionada a uma medida da distncia entre as linhas de X. Assim, a grandeza do valor de DF F IT S pode
ser atribuda discrepncia do valor da resposta, do conjunto de valores das
variveis preditoras ou de ambos. Um ponto geral para a determinao de
observaes influentes considerado o valor 2. Um ponto de corte ajustado
p
para determinar a influncia 2 (m + 1)/n.
A distncia de Cook outra estatstica utilizada para medir a influncia
de uma observao na predio dos valores da varivel resposta Y . Esta
estatstica pode ser vista como a distncia Euclidiana entre os valores preditos com e sem a i-sima observao. O estimador da distncia de Cook
dado por:
Di =
hi
1
r2
(m + 1) (1 hi ) i
(3.40)
Apesar de que a distncia de Cook no deva ser usada como teste de

significncia, sugere-se o uso dos quantis da distribuio F central com
m + 1 e n m 1 graus de liberdade para servir de referncia para o valor
Di . Outros autores sugerem que se Di > 1, a i-sima observao deve ser
considerada influente.
A distncia de Cook utiliza ri2 , sendo que implicitamente est utilizando
S 2 para padronizar a varincia. Existe uma sugesto de que esta estatstica
2 no lugar
possa ter melhores propriedades se for utilizado o estimador S(i)
de S 2 . Assim, a distncia modificada de Cook utiliza esta substituio e faz

um ajuste para o nmero de observaes e toma ainda a raiz quadrada da
distncia transformada. A distncia modificada de Cook dada por:
s
Di
= |ti |
hi (n m 1)
= DF F IT S
(1 hi )(m + 1)
nm1
m+1
(3.41)
Com essa modificao, temos que: a nova estatstica enfatiza mais os

pontos extremos; o grfico de probabilidade normal pode ser utilizado para
checagem; nos casos perfeitamente balanceados [hi = (m + 1)/n] para qualquer i, a distncia modificada tem comportamento idntico ao DF F IT S;
a distncia modificada com sinal pode ser plotada contra variveis exploratrias do modelo.
Ferreira, D.F.
67
Dado o limite mximo estabelecido para DF F IT S, um valor da distncia modificada de Cook maior que 2 pode ser considerado um indicativo de
observao influente.
3.5.5
Influncia na Matriz de Covarincias

Uma medida da influncia da i-sima observao na V obtida
comparando a razo de varincias generalizadas (determinantes) da estimativa da covarincia com e sem a i-sima observao. Esta estatstica dada
por:

1
2
0 X
det S(i)
X(i)
(i)
h
i
COV RAT IOi =
det S 2 (X 0 X)1
n m 1 ri2
nm2
=
(1 hi )

m+1
(3.42)
em que X(i) a matriz do modelo obtida aps a eliminao da i-sima

observao amostral.
Um valor no muito preciso para determinar pontos influentes dado
por |COV RAT IOi 1| > 3(m + 1)/n.
3.5.6
Comandos SAS
Felizmente todas estes mtodos de diagnstico em regresso linear podem ser obtidas utilizando duas opes simples do comandos model: r e
influence. Apresentamos na seqncia um exemplo do programa SAS utilizado para obter o diagnstico de regresso para o exemplo do volume de
madeira das rvores.
/*Exemplo do proc reg para realizar anlise de diagnose em modelos de regresso linear
mltipla.*/
Ferreira, D.F.
68
Regresso Linear
model y=x1 x2 x3/r influence;
run;quit;
3.6
Exerccios
1. Utilize os dados do exemplo da amostra de n = 10 rvores e ajuste o

seguinte modelo:
Yi = 0 + 1 X1i + 2 X2i + 3 X3i + 4 X1i X2i + 5
1
+ i
X3i
2. Existe alguma varivel redundante? Se houver utilize os mtodos de

seleo de modelos apresentados neste captulo e determine qual o
melhor modelo.
3. Os mtodos de seleo de modelo chegaram a um mesmo modelo?
4. Para o modelo final utilizar as opes apresentadas e verificar a qualidade da predio, fazer o grfico dos valores preditos e do intervalos
de confiana (clm e cli) e plotar os resduos em relao aos valores
preditos na abscissa.
5. Utilize variveis candidatas diferentes das apresentadas no exerccio
(1) e aplique os mtodos de seleo de modelos. Voc chegou a um modelo melhor do que o anteriormente obtido? Justifique devidamente
suas concluses.
6. Utilizando os dados da amostra de n = 10 rvores ajuste o modelo:
Yi = 0 + 1 X1i + 2 X2i + 3 X3i + 4 X1i X2i + 5
1
+ i
X3i
Faa a anlise de diagnose e verifique se existe alguma observao

influente. Justifique devidamente suas concluses.
Ferreira, D.F.
Captulo 4
Regresso No-Linear
Outro assunto extremamente importante para os pesquisadores em geral
o ajuste de regresses no-lineares em suas pesquisas aplicadas. Temos o
objetivo de apresentar neste captulo as principais idias sobre os processos
de estimao de parmetros de modelos no-lineares e os comandos do proc
nlin para realizar esta tarefa. O que devemos considerar que os modelos
no-lineares nos parmetros tm uma maior plasticidade e portanto so
considerados mais apropriados para modelarem fenmenos biolgicos.
Neste captulo vamos discutir um pouco sobre mtodos de estimao de
parmetros de modelos no-lineares e sobre a sintaxe do proc nlin. Vamos
apresentar programas de modelos de Response Plateau linear e no-linear.
Ambos so no-lineares nos parmetros, mas descrevem curvas lineares e
quadrticas, respectivamente, alm do plateau no ponto de juno dos segmentos, que uma linha reta paralela abscissa.
Os procedimentos de estimao no-linear so em geral iterativos. O
processo deve iniciar para um valor especfico inicial de seus parmetros
e a soma de quadrado do resduo avaliada. Ento uma nova estimativa
dos parmetros obtida, buscando-se minimizar a soma de quadrados do
resduo. Este processo repetido at que este mnimo seja alcanado. Vrios algoritmos e mtodos existem para realizar este processo de estimao.
No faremos uma descrio detalhada destes mtodos, que aceleram a convergncia e so eficientes para estimarmos os parmetros que conduzem ao
mnimo global para a soma de quadrados de resduos, por causa de as diUso de Recursos Computacionais
Ferreira, D.F.
70
Regresso No-Linear
ficuldades tericas do assunto ultrapassarem o limite estipulado para este

material.
4.1
Introduo aos Modelos No-Lineares
Um modelo considerado no-linear nos parmetros e esta classificao

no influenciada pela funo matemtica descrita (hiprbole, parbola,
etc.). Como j dissemos no captulo 3, se as derivadas parciais forem funes dos prprios parmetros, teremos um modelo no-linear. Podemos ter
mltiplos parmetros neste modelo ou apenas um e da mesma forma, podemos ter apenas uma varivel regressora ou mais de uma. Assim, Y = Z
um modelo no-linear com dois parmetros e e Y = + Z 2 um
modelo linear, independentemente de a funo descrever uma parbola, pois
este modelo linear nos parmetros e .
Os detalhes computacionais envolvidos nos procedimentos no-lineares
so muito complexos. Vamos simplificar o mximo que pudermos, sem
no entanto deixarmos de ter o rigor necessrio. Seja o modelo no-linear F
definido de forma geral para o vetor de parmetros = [1
m ]0
e para o vetor de variveis regressoras da j-sima unidade amostral Z 0 =

j
[Z1j
Z2j
Zpj ] por

Yj = Fj

, Z
+ j .
(4.1)
Podemos expressar este modelo em notao matricial por:
Y =F

+ .
(4.2)
em que podemos expressar o vetor do modelo F

, simplesmente por F .
Para ficar claro a notao que estamos utilizando, consideremos o modelo Yj = Zj + j . Neste caso temos um vetor de parmetros dado por
0 = [ ] e uma nica varivel regressora Z. O vetor do modelo dado
por:
Ferreira, D.F.
4.1 Introduo aos Modelos No-Lineares
Z1
Z2
F = .
..
Zn
71
O vetor de observaes dado por:
Y1
Y =
Y2
..
.
Yn
Finalmente, o vetor de resduos dado por:
1
=
2
..
.
n
O modelo pode ser escrito por:
Y1

Z2

= .
..

Yn
Zn
Z1
Y2
..
.
1
2
..
.
n
Um dos mtodos utilizados

baseia-se na minimizao da soma de qua
drados dos resduos L = 0 . Substituindo = Y F e derivando

com respeito a , obtivemos:

0

L =0 = Y F
Y F = Y 0 Y 2Y 0 F + F 0 F

0
F
F 0 F
L 2Y

=
+
Mas,
Ferreira, D.F.
72
Regresso No-Linear
2Y 0 F
2Y 0 F
= 2Y 0 X
em que X = F / a matriz de derivadas parciais, em que cada coluna
formada pela derivada da funo linear em relao aos parmetros.

Tambm podemos simplificar F 0 F / por:

F 0 F
F 0 F

= 2F 0 X
Logo,
L
= 2Y 0 X + 2F 0 X
Igualando a zero a primeira derivada, temos as equaes normais para

os modelos no-lineares:
X 0F = X 0Y
(4.3)
Como F e X so funes de , ento uma forma fechada para a soluo,
em geral, no existe. Ento devemos utilizar um processo iterativo. Para

isso precisamos de um valor inicial para o vetor de parmetros, que deve
ser melhorado continuamente at que a soma de quadrados de resduos 0
seja minimizada.
Se considerarmos o modelo Yj = Zj +j , que utilizamos anteriormente
para ilustrar alguns aspectos do modelo, podemos construir a matriz X das
derivadas parciais facilmente. Sejam as derivadas parciais Yj / = Zj e
Yj / = Zj (Zj 1)
Ferreira, D.F.
Z1
Z1 (Z1 1)
Z2
X= .
..
Zn
Z2 (Z2 1)
..
.
Zn (Zn 1)
73
As equaes normais para este exemplo so:
"
Z1
Zn
Z1 (Z1 1)
"
=
Z1
Zn (Zn 1)
Zn
Z1 (Z1 1)
Zn (Zn 1)
Z1
#
Z2
.
..
Zn
Y1
#
Y2
.
..
Yn
Devemos iniciar o processo iterativo para um determinado valor inicial

0 . Para o valor corrente (k-simo passo do processo iterativo) do vetor
de parmetros, devemos
calcular a matriz X e estimar o vetor de resduos
por e = Y F k . No ponto inicial (k = 0), avaliamos X e o vetor
de resduos, considerando o valor

do vetor de parmetros espe arbitrrio

cificado. Neste caso, se SQE k = e 0 e for a soma de quadrados dos

resduos avaliada na k-sima iterao, ento X e Y so usados para calcular
um vetor de tal forma que
SQE k +
< SQE k
para uma constante qualquer.

Existem quatro mtodos implementados no SAS. Estes quatro mtodos
diferem na forma como calculado para propiciar as trocas no vetor de
parmetros. De uma forma geral os critrios bsicos so:
Gradiente:
Gauss-Newton:
= X0 e
Newton:
Marquardt:
= G X 0 e
= (X 0 X) X 0 e
(4.4)
= [X 0 X + diag(X 0 X)] X 0 e
Ferreira, D.F.
74
Regresso No-Linear
em que (X 0 X) uma inversa generalizada. Pode ser uma inversa reflexiva

(g2 ), mas o ideal que seja uma inversa de Moore-Penrose (g4 ).
Os mtodos Gauss-Newton e Marquardt realizam a regresso dos resduos em relao as primeiras derivadas do modelo no-linear em relao
aos parmetros, at que haja a convergncia. O mtodo de Newton faz a
regresso destes resduos em relao a uma funo das segundas derivadas
do modelo no-linear com relao aos parmetros (G ).
4.1.1
Mtodo do Gradiente
Este mtodo baseado no gradiente ou grau de variao de 0 . Seja

k a estimativa do vetor de parmetros na k-sima iterao do processo.
Assim, este gradiente definido por:
1
2

L k
= X 0 Y + X 0 F = X 0 e
pois X e F so avaliados no ponto k .
A quantidade X 0 e o gradiente para o qual 0 cresce. Sendo as
sim, = X 0 e o grau de variao para o mtodo de gradiente. Para
utilizarmos o mtodo do gradiente devemos inicialmente estipular um valor

arbitrrio para o vetor de parmetros, digamos 0 . Calculamos e e . As
sim, podemos obter o valor do parmetro no (k+1)-simo passo, tomando

a estimativa do k-simo passo anterior por:
k+1 = k +
(4.5)
em que o escalar escolhido no k-simo passo para que

SQE k +
< SQE k .
(4.6)
O mtodo do gradiente possui convergncia muito lenta e, em geral, no

utilizado para estimar parmetros dos modelos no-lineares. Quando, no
entanto, as estimativas iniciais so pobres, este mtodo se torna particularmente til.
Ferreira, D.F.
4.1.2
75
Mtodo de Newton
O mtodo de Newton utiliza a segunda derivada do erro em relao aos

parmetros e obtm o vetor por:
= G X 0 e
(4.7)
em que
G = (X X) +
n
X
Hj k ej
(4.8)
j=1
sendo que a matriz Hj , de dimenso r r, avaliada para o vetor de parmetros k no k-simo passo para a j-sima observao amostral, a matriz
Hessiana do vetor de erros . O elemento (`, k) desta matriz, [Hj ]`k , dado
por:
2 j
=
` k

[Hj ]`k

(4.9)
`k
Estimado o vetor , devemos aplicar as equaes (4.5) e (4.6) para
obtermos uma nova equao e recalcularmos o vetor de parmetros.

Para o exemplo anterior, considerando o modelo Yj = Zj +j , a matriz
de segundas derivadas para a j-sima observao :
"
Hj =
4.1.3
Zj (Zj 1)
Zj (Zj 1) Zj (Zj 1)(Zj 2)
Mtodo de Gauss-Newton
O mtodo de Gauss-Newton usa a expanso em srie de Taylor do vetor

de funes

F = F 0 + X 0 +
em que a matriz de primeiras derivadas X avaliada no ponto 0 .
Se substituirmos os dois termos desta expanso nas equaes normais

obtemos
Ferreira, D.F.
76
Regresso No-Linear

X F =X 0 Y

=X 0 Y
X 0 F 0 + X 0

0
0
0
X X 0 =X Y X F 0
0
X 0 X =X 0 e
e portanto,
=(X 0 X) X 0 e
(4.10)
Estimado o valor de para o vetor 0 , aplicam-se as equaes (4.5) e
(4.6) para se obter o vetor de estimativas do passo 1. O processo repetido

um determinado nmero de vezes at que o vetor de estimativas no se
altere mais dentro de uma preciso pr-estipulada.
4.1.4
Mtodo de Marquardt
O mtodo de Marquardt mantm um compromisso entre o mtodo de

Gauss-Newton e o mtodo do gradiente. A frmula de atualizao do vetor
de parmetros dada por:

= (X 0 X) + diag(X 0 X) X 0 e
(4.11)
Se 0, h uma aproximao ao mtodo de Gauss-Newton e se ,

h uma aproximao ao mtodo do gradiente.
Porpadro o
procnlin co
mea com valor de = 107 . Se SQE 0 + < SQE 0 , ento
= /10 na prximaiterao;
se por
outro lado ocorrer o contrrio, ou
seja, se SQE 0 + > SQE 0 , ento = 10. Assim, se a soma de
quadrados do resduo decresce a cada iterao, estaremos utilizando essencialmente o mtodo de Gauss-Newton; se ocorrer o contrrio o valor de
aumentado em cada iterao, sendo que passaremos a utilizar o mtodo de
gradiente.
Ferreira, D.F.
4.2 O Proc Nlin
4.1.5
77
Tamanho do passo da iterao
Devemos estipularo tamanho

do passo
que
daremos em cada iterao. Assim, se SQE k + > SQE k , comeando com = 1,

devemos reduzir o valor pela metade em cada passo SQE k + 0, 5 ,

SQE k + 0, 25 , e assim por diante at que um quadrado mdio do re
sduo menor seja encontrado. Podemos muitas vezes encontrar dificuldades

em obter avanos na reduo da soma de quadrados dos resduos. Quando
isso acontece, o SAS interrompe o processo e comunica ao usurio da no
ocorrncia de ganhos na reduo do SQE com no passo atual da iterao.
As possveis causas podem ser: derivadas mal especificadas e valores iniciais
inadequados.
4.2
O Proc Nlin
O proc nlin o procedimento SAS apropriado para ajustarmos modelos

no-lineares. Este procedimento possui alm dos mtodos descritos anteriormente uma quinta opo, o mtodo de DUD. Este mtodo livre de
derivadas, ou seja, no utiliza a matriz Jacobiana X. Assim, o usurio no
precisa especificar as derivadas parciais. Isso no uma grande vantagem,
pois nas novas verses, o SAS faz o clculo numrico das derivadas parciais
necessrias, se elas no forem especificadas.
Vamos ilustrar nesta seo os comandos bsicos para ajustarmos um
modelo de regresso no-linear utilizando o proc nlin. Vamos especificar a
forma de entrar com o modelo e com as derivadas parciais e, tambm, como
escolher os mtodos de estimao a ser utilizado. Antes de fazermos isso,
devemos fazer algumas consideraes a respeito de como atribuir valores
iniciais para os parmetros. Podemos utilizar, entre outras possibilidades,
estimativas publicadas na literatura especializada, que utilizam modelos e
conjuntos de dados similares aos de nossa pesquisa. Se o modelo pode
ser linearizado, ignorando o fato de ter resduos aditivos, podemos aplicar
uma transformao para lineariz-lo e ento, ajustar, o modelo linear resultante. As estimativas de quadrados mnimos, devidamente transformadas
Ferreira, D.F.
78
Regresso No-Linear
para a escala original, quando for o caso, so utilizadas como valores iniciais. Algumas vezes, antes da linearizao, podemos efetuar algum tipo de
reparametrizao e proceder da mesma forma. Os processos iterativos possuem convergncia bem mais rpida, quando os valores iniciais esto mais
prximos das estimativas de mnimos quadrados.
Para apresentarmos os comandos bsicos do proc nlin, vamos utilizar os
dados da Tabela 3.2 e o seguinte modelo no-linear nos parmetros:
yi = xi + i
(4.12)
Neste caso temos n = 8 rvores e as seguintes derivadas parciais em

relao aos parmetros e : yi / = xi e yi / = xi (xi 1) . Como
estas derivadas parciais so funes dos parmetros e , temos um modelo
no-linear nos parmetros caracterizado. Vamos atribuir valores iniciais
arbitrrios iguais a 0, 5 e 1, 8 para e , respectivamente. Poderamos ter
linearizado este modelo facilmente aplicando a funo logaritmo, ignorando
claro o fato de o erro ser aditivo. Este seria um artifcio para obtermos
valores iniciais mais acurados. O modelo linearizado dado por ln(yi ) =
ln() + ln(xi ) + i , que poderia ser rescrito por zi = A + wi + i . Neste
caso a estimativa do parmetro A do modelo linear dever ser transformada
A estimativa de no precisa
para a escala original por
= exp (A).
ser modificada, pois o parmetro no foi alterado pela transformao
efetuada. Isto deixado a cargo do leitor na forma de exerccio. O programa
SAS resultante :
Data regnlm1;
input X Y;
Cards;
0.1 0.88
0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20
Ferreira, D.F.
4.2 O Proc Nlin
79
2.0 3.10
;
Proc nlin Method=Gauss;
Parms a=0.5 b=1.8;
Model y=a*(b**x);
Der.a=b**x;
Der.b=a*x*(b**(x-1));
run;quit;
Neste programa a e b representam os parmetros e , respectivamente;

os comandos <der.a=b**x;> e <der.b=a*x*(b**(x-1));> indicam as derivadas parciais da varivel resposta em relao aos parmetros e , respectivamente; o modelo especificado com o comando <model y=a*(b**x);>.
O SAS utilizou 4 iteraes e apresentou uma mensagem que o ajuste do
modelo atingiu convergncia. O modelo ajustado foi yi = 0, 81171, 9542xi .
Ambos os parmetros foram significativamente diferentes de zero, pois os
intervalos assintticos de 95% de confiana no abrangeram o valor 0. O intervalo assinttico de 95% confiana para o parmetro foi [0, 7903; 0, 8330]
e para o parmetro , [1, 9206; 1, 9877]. O R2 do modelo pode ser estimado por R2 = 1 SQRes/SQT otal.
Para este exemplo, o R2 =
1 0, 00276/4, 2178 = 0, 9993, indicando que 99, 93% da variao do crescimento das plantas foi explicado pelo modelo de regresso.
Vamos ilustrar o proc nlin com o ajuste de mais um modelo aos dados
da Tabela 3.2 dado por:
yi = xi + i
(4.13)
As derivadas parciais em relao a cada parmetro so dadas pelas funes yi / = xi e yi / = xi ln (xi ). O programa correspondente a
este exemplo dado por:
Data regnlm2;
input X Y;
Cards;
Ferreira, D.F.
80
Regresso No-Linear
0.1 0.88
0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20
2.0 3.10
;
Proc nlin Method=Gauss maxiter=500;
Parms a=0.5 b=1.8;
Model y=a*(x**b);
Der.a=x**b;
Der.b=a*x**b*log(x);
run;quit;
Especificamos um nmero mximo de iteraes igual a 500. O padro

do SAS, se nada for especificado, 100. Neste caso ocorreu a convergncia
com apenas 8 iteraes. Este comando (maxiter=nit) se torna til apenas
quando o valor inicial precrio, requerendo um nmero grande de iteraes, principalmente se houver correlaes elevadas entre os estimadores
dos parmetros. Neste exemplo, o modelo ajustado foi yi = 1, 8548x0,575
,
i
sendo que este ajuste foi um pouco inferior ao ajuste do modelo anterior.
Isto pode ser constatado observando o valor do coeficiente de determinao R2 = 89, 61% deste modelo e comparando com o valor anteriormente
obtido. Os dois modelos ajustados esto apresentados na Figura 4.1. Devemos procurar sempre, alm de um bom ajuste, modelos que possam ter
uma relao com o fenmeno que estamos estudando. Apesar dos bons
ajustes alcanados, podemos para este exemplo escolher, do ponto de vista
biolgico, melhores modelos no-lineares.
4.3
Modelos Segmentados
Dentre os modelos segmentados existe o modelo de response plateau

que muito utilizado na pesquisa em diversas reas. Esse modelo possui
dois segmentos, sendo que o primeiro descreve uma curva crescente ou deFerreira, D.F.
4.3 Modelos Segmentados
81
2.5
1.5
0.5
0
0
0.5
1.5
Figura 4.1: Modelos no lineares ajustados - modelo yi = 1, 8548xi0,575

iniciando pela origem e modelo yi = 0, 8117 1, 9542xi iniciando pelo ponto
0, 8117.
crescente at uma determinada altura da ordenada (P ) que o plat. A
partir desse ponto o valor Y assume um valor constante P . O ponto correspondente ao valor P na abscissa o ponto X0 , que tambm um parmetro
a ser estimado. Vrios modelos podem ser utilizados para modelar o comportamento da curva entre a origem e o ponto onde se encontra o plat.
Nesta seo apresentamos o exemplo do manual do SAS (proc nlin) com
um modelo quadrtico anterior ao plat. Na Figura 4.2 apresentado um
exemplo de um modelo de response plateau, destacando-se os pontos X0 e
P.
Para ilustrarmos o ajuste de um modelo bi-segmentado desta natureza
considerado o exemplo apresentado no manual do SAS, relativo ao proc
nlin. Seja para isso o seguinte modelo quadrtico de response plat:
Yi =
0 + 1 Xi + 2 X 2 se Xi < X0
i
(4.14)
P se X X
i
0
Para valores de X < X0 , os de Y so explicados por um modelo quadrtico (parbola) e para valores de X X0 , a equao explicativa constante
Ferreira, D.F.
82
Regresso No-Linear
Y
P
X
0
Figura 4.2: Modelo segmentado considerando um plateau no ponto X = X0

com valor de Y = P e um modelo crescente para X < X0 .
e paralela a abscissa. O ponto X0 considerado desconhecido e deve ser
estimado juntamente com os demais parmetros do modelo. Este ponto
representa a juno do segmento quadrtico com o segmento de plat. As
curvas devem ser contnuas (os dois segmentos devem se encontrar em X0 )
e suavizada, ou seja, as primeiras derivadas com relao a X nos dois segmentos devem ser a mesma no ponto X0 . Essas condies implicam em
algumas conseqncias descritas a seguir.
A primeira derivada de Y em relao a X no modelo quadrtico dada
por:
dYi
= 1 + 22 Xi
dXi
Se igualarmos esta deriva a zero, resolvermos a equao resultante em
X e substituirmos o valor de X por X0 , ponto em que a curva deve ser
contnua e suavizada, obtemos:
Ferreira, D.F.
83
X0 =
1
22
Substituindo esse valor na equao (4.14) obtemos o mximo, que corresponde ao plat almejado. Assim, este plat dado por:
Y = P = 0 + 1 X0 + 2 X02 = 0
2 2
12
2
+ 1 2 = 0 1
22
42
42
Neste caso temos apenas trs parmetros efetivos, pois tanto X0 , quanto
P so determinados a partir de 0 , 1 e 2 . Este um modelo no linear
nos parmetros, pois as derivadas parciais de Y so funes dos parmetros
em alguns casos, justificando o uso do proc nlin. O programa final apresentado na seqncia. Podemos destacar que ele dividido em duas partes:
a primeira com a parte quadrtica polinomial e a segunda, com a parte
do plat. Em cada ciclo do processo iterativo imprimimos nos resultados,
juntamente com os demais parmetros, as estimativas de X0 e de P . Utilizamos o proc plot para produzir um grfico de baixa qualidade dos valores
ajustados. Neste modelo, a representa 0 , b representa 1 e c representa 2 .
/* Ajuste do modelo segmentado usando o NLIN */

/* y= a + b*x + c*x*x e y=P se x>x0 */
/* restrio de continuidade: P= a +b*x0+c*x0*x0 */
/* restrio de suavizao: 0=b+2*c*x0, ento, x0=-b/(2*c) */
title Modelo quadrtico com plat;
data reg;
input x y @@;
cards;
1 0.46 2 0.47 3 0.57 4 0.61 5 0.62 6 0.68 7 0.69
8 0.78 9 0.70 10 0.74 11 0.77 12 0.78 13 0.74 13 0.80
15 0.80 16 0.78
;
proc nlin data=reg;
parms a=0.45 b=0.05 c=-0.0025;
file print;
x0=-0.5*b/c; /*estimao do ponto comum */
db=-0.5/c; /* derivada de xo em relao a b */
Ferreira, D.F.
84
Regresso No-Linear
dc=0.5*b/c**2; /* derivada de xo em relao a c */
if x<x0 then /* parte quadrtica do modelo */
do;
model y=a+b*x+c*x**2;
der.a=1;
der.b=x;
der.c=x**2;
end;
else /* parte do modelo relativo ao plat de resposta*/
do;
model y=a+b*x0+c*x0**2;
der.a=1;
der.b=x0+b*db+2*c*x0*db;
der.c=b*dc+x0*x0+2*c*x0*dc;
end;
if _obs_=1 then
do;
plateau=a+b*x0+c*x0**2;
put x0= plateau=;
end;
output out=reg1 predicted=yp;
run;quit;
proc plot data=reg1;
plot y*x yp*x="*"/overlay vpos=35;
run;quit;
O modelo ajustado foi Yi = 0, 3921 + 0, 0605Xi 0, 00237Xi2 se Xi <

12, 7477 e Yi = 0, 7775, caso contrrio. As estimativas de 0 e 1 foram
significativamente (P < 0, 05) superiores a zero e a de 2 , significativamente
inferior a zero. Estes resultados foram obtidos analisando os intervalos de
confiana assintticos. O R2 do modelo foi igual a 1 0, 0101/0, 1869 =
0, 9460.
Outro modelo que aparece freqentemente na literatura o linear response plateau ou LRP. Este modelo possui um segmento de reta antes do
ponto de juno (X0 ) com o plat e dado por:
Ferreira, D.F.
Yi =
0 + 1 Xi + i se Xi X0
85
(4.15)
P + se X > X
i
i
0
comum utilizarmos uma varivel binria (Dummy) para representarmos o modelo. Neste caso utilizaremos a varivel Zi , que receber o
valor 1 se Xi X0 , ou 0 se Xi > X0 . Este modelo poder ser reescrito por
Yi = (0 + 1 Xi ) Zi +P (1Zi ). Para termos continuidade em X0 , devemos
igualar 0 + 1 X0 = P , ou seja, X0 = (P 0 )/1 .
Neste caso temos um modelo com trs parmetros (0 , 1 e P ). Diferentemente do modelo anterior, P no pde ser expresso em funo dos
demais parmetros. Apesar de as variveis parciais no dependerem dos
parmetros, este um modelo no-linear uma vez que a matriz Jacobiana
depende de X0 para ser construda, sendo que X0 funo de 0 , 1 e de P .
Assim, as derivadas parciais, dadas por Yi /0 = Zi , Yi /1 = Xi Zi e
Yi /P = 1 Zi , dependem dos parmetros por meio de X0 . A cada passo
do processo iterativo, o parmetro X0 estimado e a matriz do modelo
composta, pois os Zi s ficam completamente definidos.
Utilizamos os recursos do proc nlin para estimar os parmetros deste
modelo segmentado do tipo LRP. O resultado final est apresentado na
seqncia para um conjunto simulado de dados. Neste conjunto de dados
os parmetros so 0 = 2, 1 = 2 e P = 10.

/* y= a + b*x se x<x0 e y=P se x>=x0 */
/* restrio de continuidade: P= a +b*x0 */
title Modelo Linear com plat;
data LRP;
input x y;
cards;
1.0
4.10
2.0
5.90
2.5
7.10
3.0
7.80
4.0
9.90
Ferreira, D.F.
86
Regresso No-Linear
5.0
10.10
6.0
10.20
7.0
9.80
8.0
9.78
;
proc nlin data=LRP;
parms a=1 b=2 p=2.0;
X0=(p-a)/b;
if x<=x0 then /* Parte no-plateau do modelo */
do;
model y=a+b*x;
der.a=1;
der.b=X;
end;
else /* Parte plateau do modelo */
do;
model y=p;
der.a=0;
der.b=0;
der.p=1;
end;
if _obs_=1 then /*Para imprimir a sada se for a 1a observao*/
do;
put x0=;
end;
output out=saida predicted=yp Residual=Res parms=a b p ess=sqe;
run;quit;
O modelo ajustado foi Yi = 2, 135 + 1, 93Xi se Xi 4, 06 e Yi = 9, 97

se Xi > 4, 06. O coeficiente de determinao do modelo foi igual a R2 =
99, 53%. Todos os valores paramtricos esto dentro do intervalo de confiana assinttico construdo.
Apresentamos na seqncia um outro exemplo, tambm simulado, em
que temos os parmetros iguais a 0 = 5, 1 = 2, 4, P = 29 e 2 = 1.

/* y= a + b*x se x<x0 e y=P se x>=x0 */
/* restrio de continuidade: P= a +b*x0 */
Ferreira, D.F.
87
title Modelo Linear com plat;

data LRP;
input x y;
cards;
1 8.6264841
2 8.9408731
3 11.909886
4 13.936262
5 17.945067
6 18.732450
7 21.847226
8 23.769043
9 27.671300
10 28.441954
11 27.811677
12 30.827451
13 28.817408
14 30.665168
15 28.813364
16 29.127870
17 28.218656
18 28.309338
19 28.651342
20 29.230743
;
proc nlin data=LRP;
parms a=1 b=2 p=2.0;
X0=(p-a)/b;
if x<=x0 then /* Parte no-plateau do modelo */
do;
model y=a+b*x;
der.a=1;
der.b=X;
end;
else /* Parte plateau do modelo */
do;
model y=p;
der.a=0;
der.b=0;
der.p=1;
end;
if _obs_=1 then /*Para imprimir a sada se for a 1a observao*/
Ferreira, D.F.
88
Regresso No-Linear
do;
put x0=;
end;
output out=saida predicted=yp Residual=Res parms=a b p ess=sqe;
run;quit;
O modelo ajustado para este exemplo foi Yi = 5, 0731 + 2, 3834Xi se

Xi 10, 06 e Yi = 29, 05 se Xi > 10, 06. O coeficiente de determinao
do modelo foi igual a R2 = 98, 64%. Tambm neste caso, todos os valores
paramtricos esto dentro do intervalo de confiana assinttico construdo.
4.4
Exerccios
1. Utilize os dados da Tabela 3.2 e o proc nlin do SAS para ajustar o

seguinte modelo:
Yi =
+ i
0 + i Xi
2. Este modelo se ajustou melhor do que aqueles da seo 4.2? Justifique

sua resposta.
3. Tente ajustar um modelo LRP aos dados da Tabela 3.2. Qual foi o
modelo encontrado? Este modelo um modelo LRP? Justifique sua
resposta. Plote os dados e verifique se existe uma disperso dos pontos
que justifique a representao por meio de um modelo LRP.
4. Utilize os resduos gerados no exemplo apresentado em aula do ajuste
do modelo LRP e realize a anlise grfica dos resduos.
5. Busque em sua rea de atuao dados que poderiam se enquadrar
dentro do modelo segmentado quadrtico. Descreva as situaes e os
possveis benefcios de ajustar um modelo deste tipo. Se os dados
estiverem disponveis, utilize o programa apresentado em aula para
ajustar o modelo de plat de resposta quadrtico.
Ferreira, D.F.
Captulo 5
Anlise de Varincia para

Dados Balanceados
Para realizarmos inferncias sobre a hiptese de igualdade entre vrias
mdias dos nveis de algum fator de interesse, utilizamos o teste F da anlise
de varincia (Anava). Esta hiptese pode ser formalizada por:
H0 : 1 = 2 = = ` =
(5.1)
H : pelo menos uma mdia difere das demais

1
em que ` o nmero de nveis deste fator de interesse e i a mdia do
i-simo nvel, i = 1, 2, , `.
Um valor de F observado superior a um valor crtico da distribuio
F para um nvel de significncia indica que devemos rejeitar a hiptese
nula H0 ; caso contrrio, no existiro evidncias significativas para rejeitar
a hiptese nula. Podemos ter mais de um fator. Neste caso teremos uma
hiptese nula para cada fator separadamente. Alm disso, estes fatores podem interagir. Se houver algum tipo de interao entre eles, um teste F
especfico para a hiptese de haver interao ir apresentar efeito significativo da estatstica. Tambm podemos ter efeitos hierarquizados, onde os
nveis de um fator A, por exemplo, dentro de um determinado nvel de outro
fator, digamos B, so diferentes dos nveis de A em outro nvel de B. Isto
ocorre, por exemplo, quando temos diferentes procedncias de eucalipto e
dentro de cada procedncia, temos diferentes prognies.
Ferreira, D.F.
90
Anlise de Varincia para Dados Balanceados

Neste captulo estaremos interessados nestes diferentes modelos estats-
ticos, contendo um ou mais fatores, cujos efeitos podem ser cruzados ou

hierarquizados, porm em uma estrutura experimental balanceada. Entenderemos por estrutura balanceada, aquele conjunto de dados cujo nmero
de observaes em cada combinao dos nveis dos fatores o mesmo. Cada
nvel de um fator, ou cada nvel resultante da combinao dos nveis de dois
ou mais fatores, denominado de casela. Se houver diferenas neste nmero
de observaes por casela, teremos dados no balanceados. O procedimento
do SAS apropriado para lidar com estas estruturas o proc anova. Se a
estrutura no-balanceada devemos utilizar o proc glm.
5.1
O Proc Anova
O proc anova o procedimento apropriado para realizarmos anlises de

varincia envolvendo dados balanceados. Podemos utilizar muitas opes
especficas entre os comandos deste procedimento. Vamos apresentar na
seqncia alguns dos comandos bsicos e especficos para ilustrar a sintaxe
do proc anova.
proc anova data=conjdados options;

class variables;
model dependents=effects / options;
means effects / options;
test H=effects E=effect;
manova H= effects E=effect / options;
by variables;
run; quit;
So comandos obrigatrios <class variables;> e <model dependents =

effects /options;>. No primeiro caso, especificamos as variveis classificatrias aps o comando class, separadas por espaos em branco. Estas variveis
classificatrias so os fatores da anlise. No devemos especificar as interaes entre estes fatores e nem os efeitos aninhados, mas somente os efeitos
Ferreira, D.F.
5.1 O Proc Anova
91
principais. Obviamente devemos usar os mesmos nomes especificados no

comando input. No comando model devemos colocar do lado esquerdo da
igualdade, as variveis respostas e do lado direito, as fontes de variao
do modelo adotado (effects). Ainda podemos especificar algumas opes
associadas ao modelo. Estas opes aparecem aps a barra (/). Duas opes esto disponveis no proc anova: nouni e intercept. A opo nouni
suprime as anlises univariadas da sada do programa. Em geral utilizada
de forma associada com o comando manova, para realizarmos anlises de
varincia multivariadas. A opo intercept ou simplesmente int utilizada
quando pretendemos testar hipteses relativas ao intercepto como um efeito
do modelo.
Os demais comandos so opcionais, ou seja, devemos utiliz-los conforme
nosso interesse particular em algum tipo de anlise. O comando <means effects /options;> utilizado para estimarmos as mdias de um determinado
fator na anlise de varincia, podendo ser inclusive um efeito de interao
ou hierrquico. Podemos utilizar vrios comandos means, desde que eles
apaream aps o comando model. As opes deste comando permitem que
faamos testes de comparaes mltiplas. Entre as opes podemos destacar: alpha=p para determinar o valor da significncia p (0,05 o padro),
cldiff para obter os intervalos de confiana de um determinado teste em
relao a todas as diferenas entre mdias, clm para obter os intervalos de
confiana dos nveis dos fatores para um determinado teste, E=effect para
determinar o efeito que ir ser utilizado como erro nos testes de comparaes mltiplas, Bon para o teste de Bonferroni, Duncan para o teste de
Duncan, Dunnett(Controle) para realizar o teste de Dunnett de um tratamento com o controle especificado entre aspas e entre parnteses aps a
opo. As opes GABRIEL, LSD ou T, Scheffe, SNK, Tukey, Waller so
utilizadas para solicitar os testes de Gabriel, t de Student, Scheff, StudentNewman-Keuls, Tukey e Waller-Duncan, respectivamente. A opo nosort
utilizada para solicitar que as mdias no sejam ordenadas; a opo lines,
para listar as mdias ordenadas com o indicativo das mdias consecutivas
no significativamente diferentes por uma linha.
Finalmente, a opo HovTest=teste possibilita que seja aplicado o teste
de homogeneidade de varincias para os grupos de tratamentos, no modelo
Ferreira, D.F.
92
inteiramente casualizado. Se outros modelos forem especificados, a opo

ignorada. Os testes escolhidos podem ser: Bartlett, Levene(type=abs|
square), BF, OBrien. O teste BF o de Brown e Forsythe, que uma variao do teste de Levene que utiliza desvios da mediana; o teste OBrien
tambm uma variao do teste Levene atribuda a OBrien. Ferreira
(2005)[3] descreve com detalhes estes testes.
O comando <test H=effects E=effect;> bastante til em modelos com
mais de um erro ou em modelos mistos, para realizarmos testes de hipteses de alguns efeitos da anlise de varincia (opo H=effects) com um erro
particular de interesse (opo E=effect). Os riscos de utilizao inadequada
so relegados aos usurios. O comando <manova H= effects E=effect / options;> possibilita a realizao de testes de hipteses multivariados para os
fatores especificados em H=effects, utilizando como erro o efeito especificado em E=effect. As opes que podemos utilizar so canonical, printe
e printh entre outras. A opo printe particularmente interessante por
proporcionar a estimao das correlaes parciais entre as variveis dependentes, dadas as variveis independentes (fatores). Finalmente o comando
<by variables;> permite a obteno das anlises de varincias para cada
grupo das variveis especificadas aps o comando by. Esta opo exige que
as variveis, utilizadas no comando by, estejam em ordem crescente. Caso
isso no seja verdade, necessrio utilizar o proc sort antes de chamar o
proc anova.
Vamos ilustrar algumas formas que podemos utilizar para especificar o
modelo de anlise de varincia. Suponhamos que A, B e C sejam fatores de
interesse e Y a varivel resposta. Podemos especificar diferentes modelos
utilizando os seguintes comandos:
a) Exemplos de modelos com efeitos simples: <model Y=A;> ou <model
Y=A B;> ou <model Y=A B C;>.
b) Exemplos de efeitos cruzados: model Y=A B A*B; ou simplesmente
<model Y=A | B;>. Neste ltimo caso a | uma notao geral para
a estrutura de efeitos. No exemplo particular significa que o modelo
ajustado funo dos efeitos principais e da interao, ou seja, igual
ao primeiro modelo deste item.
Ferreira, D.F.
5.2 Delineamento Inteiramente Casualizado
93
c) Exemplos de efeitos hierrquicos: <model Y=B A(B);>, indicando que

temos um modelo com o fator principal B e com o fator A hierarquizado,
dentro dos nveis de B. Isto significa que os nveis de A no so os
mesmos quando consideramos dois diferentes nveis de B. Um outro
exemplo onde temos os nveis de A dentro da combinao dos nveis de
B e C dado por: <model Y=B C A(B C);>. A sintaxe para este
caso no proc glm seria: <model Y=B C A(B*C);>. Assim, os dois
procedimentos diferem pela utilizao ou no do asterisco, nos fatores
que esto dentro dos parnteses.
d) Exemplos de modelos com efeitos cruzados e hierrquicos: <model Y=A
B(A) C(A) B*C(A);>
5.2
Delineamento Inteiramente Casualizado
Os delineamentos inteiramente casualizados, com um fator, sero utilizados para ilustrarmos inicialmente os comandos bsicos do proc anova.
Para isso, utilizaremos os dados apresentados por Gomes (2000)[5], onde os
efeitos no ganho de peso de animais em kg de 4 raes foram comparados.
Os dados esto apresentados na Tabela 5.1.
Tabela 5.1: Ganho de peso (gp), em kg, de animais que foram submetidos
a uma dieta com determinadas raes. Um delineamento inteiramente casualizado com cinco repeties (animais) e 4 raes foi utilizado (Gomes,
2000)[5].
1
35
40
39
27
19
35
27
12
31
46
20
13
15
41
29
28
30
33
45
30
O modelo de anlise de varincia adotado dado por:

Ferreira, D.F.
94
Yij = + i + ij
(5.2)
em que Yij o ganho de peso observado no j-simo animal para a i-sima

rao, a constante geral, i o efeito da i-sima rao e ij o efeito
do erro experimental suposto normal e independentemente distribudo com
mdia 0 e varincia comum 2 .
O programa SAS para obteno da anlise de varincia do modelo 5.2
dado por:
/* Exemplo da utilizao do Proc Anova*/

data dic;
input racoes gp;
cards;
1 35
1 19
1 31
1 15
1 30
2 40
2 35
2 46
2 41
2 33
3 39
3 27
3 20
3 29
3 45
4 27
4 12
4 13
4 28
4 30
;
proc anova;
class racoes;
model gp=racoes;
Ferreira, D.F.
95
means racoes / snk alpha=0.05 lines;

run; quit; /* fim do programa */
Os principais resultados do SAS esto apresentados na seqncia. Neste

programa, modelamos o ganho de peso em funo do fator raes. No
precisamos especificar nem o erro do modelo e nem a constante geral. Solicitamos as mdias de tratamentos e a aplicao do teste SNK para realizao das comparaes mltiplas. Os resultados da anlise de varincia esto
apresentados nas Tabelas 5.2 e 5.3.
Tabela 5.2: Anlise de varincia para o delineamento inteiramente casualizado com um fator (raes) com quatro nveis e cinco repeties.
FV
G.L.
SQ
QM
823,7500
274,5833
Erro
16
1100,0000
68,7500
total corrigido
19
1923,7500
Modelo
R2
0,4282
CV
27,8708
Mdia
29,7500
Pr > F
3,99
0,0267
Tabela 5.3: Anlise da variao contendo as fontes de variao do modelo

para o delineamento inteiramente casualizado das raes.
FV
Raes
G.L.
SQ
QM
823,7500
274,5833
Pr > F
3,99
0,0267
O resultado do teste F da anlise de varincia indica que devemos rejeitar a hiptese nula de igualdade de efeitos das raes. Assim, pelo menos
uma delas difere das demais. Devemos utilizar um teste de comparaes
mltiplas para identificar estas diferenas. Neste exemplo foi utilizado o
teste SNK para identificar quais raes diferiram entre si. Na Tabela 5.4
apresentamos o resultado do teste SNK e as respectivas diferenas mnimas significativas (dms). As mdias que possuem a mesma letra no so
Ferreira, D.F.
96
consideradas significativamente diferentes pelo teste SNK no nvel nominal

de significncia de 5%. Neste caso, as raes 2, 3 e 1 no so estatisticamente diferentes em mdia, como ocorre tambm com as raes 3, 1 e 4.
No entanto, as raes 2 e 4 so significativamente diferentes (P < 0, 05).
Tabela 5.4: Teste de SNK e mdias para a fonte de variao raes juntamente com as diferenas mnimas significativas dms.
Grupo
Mdia
ri
Raes
39,000
AB
32,000
AB
26,000
22,000
dms3 =13,53137,
dms2 =15,003329.
dms4 =11,116861,
Um aspecto importante deste teste apresentado juntamente com os

resultados. Esta caracterstica refere-se ao fato de que este teste controla o
erro tipo I por experimento sob H0 completa, mas no sob a hiptese nula
parcial.
Podemos realizar inferncias de interesse sobre parmetros decorrentes
de uma combinao linear das mdias por meio dos testes hipteses e construindo intervalos de confiana. A realizao de inferncias sobre combinaes lineares (usualmente contrastes) de mdias, em geral, o passo seguinte
rejeio da hiptese global da equao (5.1), s vezes denominada hiptese
nula completa.
Como o teste F , que testa a hiptese global, no informa quais so as
mdias que diferem entre si, passamos, ento, a realizar uma seqncia de
testes de hipteses sobre um conjunto de combinaes lineares de mdias
utilizando os mesmos dados observados. A estes testes esto associados
erros de deciso. Se a hiptese nula global for verdadeira e se uma destas
hipteses for rejeitada, estaremos cometendo o erro tipo I. O controle do
erro tipo I, no caso de comparaes mltiplas, envolve alguns conceitos
diferentes. Se por outro lado no rejeitamos uma hiptese que deveria ser
rejeitada, estaremos cometendo o erro tipo II. Acontece, tambm, que as
taxas de erro dos tipos I e II, decorrentes da aplicao de um nico teste,
Ferreira, D.F.
97
tm comportamentos diferentes daquelas associadas aplicao de uma

seqncia de testes.
Um grande nmero de estratgias existem para garantir uma taxa de
erro global para todas as comparaes. Procedimentos de inferncia que
asseguram uma probabilidade conjunta 1 contra o erro do tipo I so
denominados procedimentos de inferncia simultnea ou conjunta e procedimentos que asseguram proteo apenas para a comparao que est
sendo realizada so denominados procedimentos de inferncia individual.
Nos procedimentos de inferncia individual no feito nenhum ajuste na
probabilidade por causa da multiplicidade dos testes.
Algumas definies conduzem a uma taxa de erro que so dependentes
da nulidade da hiptese global. Outras conduzem a uma taxa de erro dependente do nmero de inferncias erradas em relao ao nmero total de
inferncias feitas. Assim, ONeill e Wetherill (1971)[9] definem duas maneiras bsicas para calcularmos a taxa de erro do tipo I. Uma delas diz
respeito probabilidade de a famlia de testes conter pelo menos uma inferncia errada e a outra, ao nmero esperado de inferncias erradas na
famlia.
De acordo ONeill e Wetherill (1971)[9] as possibilidades para as taxas
de erro observadas so:
i. Taxa de erro por comparao (comparisonwise error rate):
Nmero de inferncias erradas
Nmero total de inferncias
ii. Taxa de erro por experimento (experimentwise error rate):
Nmero de experimentos com pelo menos uma inferncia errada
Nmero total de experimentos
Os vrios procedimentos de comparaes mltiplas possuem diferentes
controle do erro tipo I por experimento. O teste Tukey por exemplo, controla a taxa de erro por experimento sob H0 nula e parcial, mas na medida
em que o nmero de nveis do fator aumenta, o teste se torna mais conservador. Assim, este teste possui elevadas taxas de erro tipo II, ou seja, baixo
poder quando temos muitos nveis do fator. O teste Duncan e t de Student
Ferreira, D.F.
98
so muito liberais e apresentam elevadas taxas de erro tipo I por experimento, com baixas taxas de erro tipo II ou com elevado poder. Por causa de
no haver controle do erro tipo I por experimento os elevados poderes no
so vantajosos. O teste SNK, como j afirmamos, controla o erro tipo I sob
a hiptese de nulidade completa, mas no sob a nulidade parcial. O teste
t com proteo de Bonferroni na maioria das vezes mais conservador do
que o teste de Tukey, da mesma forma que ocorre com teste Scheff quando
utilizado no contexto de comparaes mltiplas.
Uma importante pressuposio na anlise de varincia a homogeneidade de varincias. Podemos testar hipteses de igualdade de varincias
facilmente no SAS. Como j mencionamos em outra oportunidade, devemos utilizar a opo hovtest do comando means. A hiptese de interesse
neste caso dada por:
H0 : 2 = 2 = = 2 = 2
1
2
k
(5.3)
H : pelo menos uma varincia difere das demais

1
em que k o nmero de nveis do fator de interesse e i2 a varincia do
i-simo nvel, i = 1, 2, , k.
Existem vrios testes para esta hiptese na literatura. O SAS apresenta a implementao para alguns deles. Vamos descrever estes testes de
forma bastante simplificada. Maiores detalhes podem ser vistos em Ferreira
(2005)[3]. O teste de Bartlett um teste de razo de verossimilhanas.
Para apresentarmos a estatstica deste teste, devemos considerar que Si2 o
estimador da varincia do i-simo nvel do fator estudado em ni repeties;
Pk
2
Sp2 =
i=1 (ni 1)Si /(n k) o estimador da varincia comum das k
P
populaes (ou dos k nveis do fator); e n = ki=1 ni total de parcelas
experimentais. Assim, a estatstica
(n
2c
Ferreira, D.F.
k) ln(Sp2 )
k
X

(ni 1) ln(Si2 )
i=1
=
1
1+
3(k 1)
"
k
X
i=1
1
ni 1
nk
(5.4)
99
sob H0 possui distribuio assintoticamente de qui-quadrado com = k 1

graus de liberdade. Assim, se o valor calculado da estatstica superar o
quantil superior 100% (2; ) da distribuio de qui-quadrado com graus
de liberdade, a hiptese nula (5.3) deve ser rejeitada.
Os demais testes que veremos na seqncia so os de Levene e Brown e
Forsythe (Ferreira (2005)[3]). Estes testes so baseados em uma anlise de
varincia, onde os valores originais da varivel resposta so substitudos por
outra varivel Zij . O teste F aplicado e a sua estatstica obtida entre
a razo da variao entre grupos e dentro de grupos. A diferena bsica
entre os procedimentos determinada pela forma como os valores desta
nova varivel so obtidos. Para o teste de Levene, duas opes existem.
A primeira baseada nos desvios da i-sima mdia, tomados em mdulo.
Assim, os valores para a varivel Zij = |Yij Yi. | so obtidos e o teste F
aplicado. Para a segunda opo, devemos obter os valores da varivel
Zij = (Yij Yi. )2 , a qual refere-se aos desvios da mdia do i-simo nvel do
fator tomados ao quadrado. Para realizarmos o teste de Brown e Forsythe
devemos obter esta varivel por: Zij = |Yij Yi |, sendo Yi a mediana do
i-simo nvel do fator.
Obtidos os valores desta varivel para as n observaes amostrais, devemos utilizar a estatstica do teste:
(n k)
Fc =
(k 1)
k
X
ni Zi. Z..
i=1
ni
k X
X
2
(5.5)
Zij Zi.
2
i=1 j=1
em que:
ni
X
Zi. =
ni
k X
X
Zij
j=1
ni
Z.. =
Zij
i=1 j=1
para testarmos a hiptese nula (5.3), utilizando a distribuio F com 1 =

k 1 e 2 = n k graus de liberdade. Devemos rejeitar a hiptese nula se
Fc de (5.5) for superior ao quantil superior 100% (F,1 ,2 ) da distribuio
F.
Ferreira, D.F.
100
Todos estes testes podem ser obtidos com a opo hovtest=teste do

comando means. Onde no lugar de teste, podemos utilizar levene(type =
square), levene(type=abs), BF, Bartlett e o teste no apresentado OBrien.
O programa SAS na seqncia ilustra a aplicao do teste de Levene com
desvios absolutos da mdia. Obtivemos um valor-p para a estatstica Fc de
19, 5% e tomamos a deciso de no rejeitar a hiptese de homogeneidade
de varincias.
/* Exemplo da utilizao do Proc Anova para realizar testes de homogeneidade de varincias*/

data dic;
input racoes gp @@;
cards;
1 35
1 19
1 31
1 15
1 30
2 40
2 35
2 46
2 41
2 33
3 39
3 27
3 20
3 29
3 45
4 27
4 12
4 13
4 28
4 30
;
proc anova;
class racoes;
model gp=racoes;
means racoes / hovtest=levene(type=abs);
5.3
Estrutura Cruzada de Tratamentos
Em muitas situaes experimentais temos delineamentos mais complexos que o inteiramente casualizado, ou mesmo para este delineamento, podemos ter mais de um fator em estruturas mais intrincadas. Entre estes delineamentos mais complexos, encontram-se os blocos casualizados, os
quadrados latinos e os ltices. Alm da estrutura experimental ser mais
Ferreira, D.F.
5.3 Estrutura Cruzada de Tratamentos
101
complexa, a estrutura de tratamentos tambm pode no ser a de um simples fator. Uma estrutura muito comum a cruzada, onde os fatores so
combinados fatorialmente. Como a modelagem no SAS bastante simples,
independentemente das estruturas experimental e de tratamentos, vamos
ilustrar o seu uso com um caso onde temos um delineamento em blocos casualizados com dois fatores quantitativos (adubo mineral e torta de filtro).
Foram utilizados os nveis 0 e 20 kg/ha de adubo mineral e 10% e 20%
de torta de filtro. Cada combinao fatorial dos tratamentos foi repetida 4
vezes e a produtividade das plantas foi mensurada. O programa SAS para a
anlise de varincia deste modelo est apresentado na seqncia. O modelo
estatstico da anlise de variao dado por:
Yijk = + i + j + k + jk + ijk
(5.6)
em que a constante geral do modelo, i o efeito do i-simo bloco,

j o efeito do j-simo adubo mineral, k o efeito da k-sima torta de
filtro, jk o efeito da interao entre a j-sima dose do adubo mineral e a
k-sima dose da torta de filtro e ijk o erro experimental suposto normal
e independentemente distribudo com mdia 0 e varincia 2 .
/* Exemplo da utilizao do Proc Anova para uma estrutura fatorial em um DBC*/

data Fat;
input A T bloco prod;
cards;
0 10 1 18.0
20 10 1 20.6
0 20 1 19.6
20 20 1 19.2
0 10 2 8.6
20 10 2 21.0
0 20 2 15.0
20 20 2 19.6
0 10 3 9.4
20 10 3 18.6
0 20 3 14.6
20 20 3 18.4
Ferreira, D.F.
102
0 10 4 11.4
20 10 4 20.6
0 20 4 15.8
20 20 4 20.2
;
proc anova data=fat;
class A T bloco;
model prod = bloco A T A*T;
run; quit;
O resultado da anlise de variao foi reapresentado na Tabela 5.5 em

uma forma que encontramos mais comumente nos livros textos.
Tabela 5.5: Anlise da variao para o modelo fatorial (2 fatores) em um
delineamento de blocos casualizados.
G.L.
SQ
QM
Bloco
37,83
12,6100
3,01
0,09
131,10
131,1000
31,30
0,00
12,60
12,6000
3,01
0,12
A*T
27,55
27,5500
6,58
0,03
Erro
37,70
4,1889
Total
15
246,80
FV
Pr > F
Podemos observar efeitos significativos (P < 0, 05) para adubo mineral e

interao. Poderamos pensar inicialmente em desdobrar a interao adubo
mineral e torta de filtro A T , estudando o efeito do adubo mineral em
cada nvel de torta. Uma abordagem um pouco mais interessante consiste
em utilizar um modelo de regresso contendo efeitos de ambos os fatores
simultaneamente. Este tipo de modelo conhecido como superfcie de resposta. Vamos utilizar um modelo com trs parmetros, sem considerar o
intercepto. O modelo de anlise de varincia para as fontes de variao
adubo mineral, torta de filtro e interao adubo mineral e torta de filtro
(A T ) possui 3 graus de liberdade associados. O modelo escolhido deveria
conter apenas 2 parmetros, para que o grau de liberdade remanescente
Ferreira, D.F.
103
fosse utilizado para testar a falta de ajuste do modelo. Neste exemplo no

poderemos aplicar tal teste, por termos esgotados os trs graus de liberdade
disponveis. O R2 ser igual unidade, mostrando que podemos obrigar a
superfcie a passar exatamente sobre os pontos observados. Utilizaremos
esta superfcie apenas para ilustrar como recalcular determinadas quantidades como R2 , erros padres e testes F e t para as hipteses de interesse.
O modelo que ajustaremos dado por:
Y.jk = 0 + 1 Aj + 2 Tk + 3 ATjk + jk
(5.7)
em que Y.jk a resposta mdia para os nveis j e k do adubo mineral e da

torta de filtro, ` so os parmetros da regresso, Aj o nvel j do adubo
mineral, Tk o k-simo nvel da torta de filtro, ATjk o produto dos nveis
j e k do adubo mineral e da torta de filtro e jk o erro mdio associado
com varincia 2 /r, sendo r = 4.
Para ajustar o modelo da equao (5.7) foi utilizado o proc reg com
todas as observaes experimentais. Poderamos ter utilizado somente as
mdias da interao para realizarmos este ajuste. Neste caso as somas de
quadrados deveriam ser recalculadas para a escala original e optamos por
no faz-lo e utilizarmos todos os dados. Assim, criamos a varivel AT dada
pelo produto dos nveis de A pelos de T. O programa resultante dado por:
/* Exemplo da utilizao do Proc Anova para uma estrutura fatorial em um DBC*/

data Fat;
AT=A*T;
cards;
0 10 1 18.0
20 10 1 20.6
0 20 1 19.6
20 20 1 19.2
0 10 2 8.6
20 10 2 21.0
0 20 2 15.0
20 20 2 19.6
Ferreira, D.F.
104
0 10 3 9.4
20 10 3 18.6
0 20 3 14.6
20 20 3 18.4
0 10 4 11.4
20 10 4 20.6
0 20 4 15.8
20 20 4 20.2
;
proc reg data=fat;
model prod= A T AT/ss1;
Run;Quit;
Como fizemos as anlises utilizando os dados originais, a soma de quadrados de modelo de regresso (171, 2675), apresentada na Tabela 5.6, representa a soma das somas de quadrados de A, T e A T (131,10, 12,60 e
27,55) obtidas na anlise de varincia (Tabela 5.5). A soma de quadrados do
resduo (75, 53) desta anlise contempla a soma de quadrados do erro puro
(37, 70) e a soma de quadrados de blocos (37, 83). Tambm conteria a soma
de quadrados do desvio do modelo ajustado, se no tivssemos utilizado um
modelo completo. Como neste exemplo esgotamos os graus de liberdade do
modelo, no houve desvios. Devemos sempre isolar todos estes componentes
manualmente, pois o SAS no tem uma opo que nos possibilita ajustar
o modelo dentro do contexto da anlise de varincia. Devemos utilizar o
proc reg e os resultados obtidos devem ser corrigidos posteriormente pelo
usurio.
Tabela 5.6: Anlise da variao para o modelo de regresso para o exemplo
fatorial da adubao com 2 fatores.
FV
G.L.
SQ
QM
171,27
57,0900
Erro
12
75,53
6,2942
Total
15
246,80
Modelo
Pr > F
9,070
0,002
No precisamos ajustar nenhum coeficiente de regresso, mas devemos

ajustar os erros padres e os testes associados, o R2 do modelo e outros
Ferreira, D.F.
105
testes e estimativas. O R2 = 0, 6940 utilizou a soma de quadrados de totais

corrigido como denominador, mas deveria utilizar a soma de quadrados
de tratamentos SQA + SQT + SQAT = 171, 27. Assim, o real valor do
coeficiente de determinao R2 = 1. As estimativas dos parmetros do
modelo e os seus erros padro esto apresentados na Tabela 5.7. Estes
resultados referem-se as estimativas originais do programa SAS, as quais
devemos ajustar.
Tabela 5.7: Estimativas dos parmetros do modelo com seus erros padres
e teste da hiptese para i = 0 fornecidas originalmente pelo SAS.
tc para
Parmetro
H0 : i = 0
P r > |t|
GL
Estimativas
Erro padro
7,4500
2,8049
2,66
0,021
0,6800
0,1983
3,43
0,005
0,4400
0,1774
2,48
0,029
-0,0263
0,0125
-2,09
0,058
O erro padro de uma determinada estimativa obtido pela expres

so (3.15), ou seja, por xii S 2 , em que S 2 o estimador da varincia
residual e xii a diagonal de (X 0 X)1 . Como S 2 utilizada foi a varincia
contendo outros efeitos do modelo, como o efeito de blocos, de outros fatores do modelo, do desvio de regresso e do erro puro, ento devemos
obter o quadrado do erro padro, multiplicar pela estimativa da varincia do erro do modelo de regresso do proc reg e assim obter xii . O novo
erro padro estimado multiplicando xii pelo QM E da anlise de varincia (Tabela 5.5) e extraindo a raiz quadrada. Para ilustrarmos, vamos
considerar o erro padro da estimativa de 0 . Este erro padro foi igual
a 2, 8049. Devemos elev-lo ao quadrado e dividi-lo por 6, 2942, obtendo
2, 80492 /6, 2942 = 1, 25. Este valor deve ser multiplicado pelo quadrado
mdio do erro puro (4, 1889) e em seguida extrair sua raiz quadrada. O va
lor obtido 1, 25 4, 1889 = 2, 2883. Repetindo este processo para todos
os demais parmetros, encontramos os resultados apresentados na Tabela
5.8, aps recalcular os valores-p da ltima coluna. Conclumos que todos
os efeitos foram significativamente importantes na presena dos demais, o
Ferreira, D.F.
106
que no havia acontecido para A T ou 3 , quando consideramos a anlise

original do proc reg.
Tabela 5.8: Estimativas dos parmetros do modelo com seus erros padres
e teste da hiptese para i = 0 devidamente corrigidas.
tc para
Parmetro
H0 : i = 0
P r > |t|
GL
Estimativas
Erro padro
7,4500
2,2882
3,26
0,010
0,6800
0,1618
4,20
0,002
0,4400
0,1447
3,04
0,014
-0,0263
0,0102
-2,58
0,030
A anlise de varincia para o modelo de regresso devidamente corrigida

foi apresentada na Tabela 5.9. No temos neste caso graus de liberdade para
o desvio de regresso, que nos possibilitaria aplicar o conhecido teste da falta
de ajuste, um dos mais importantes testes na anlise de regresso. O ideal
ajustarmos modelos que no esgotem os graus de liberdade de tratamentos,
permitindo que haja pelo menos um grau de liberdade para realizarmos o
teste da falta de ajuste.
Tabela 5.9: Anlise da variao devidamente corrigida para o modelo de
regresso do exemplo fatorial da adubao com 2 fatores.
FV
G.L.
SQ
QM
Modelo
171,27
57,0900
Desvios
Erro
37,70
4,1889
Tratamento
171,27
Pr > F
13,62
0,001
Muitos pesquisadores no se atentam para estas correes da anlise de

regresso quando submetida ao proc reg, sendo os dados oriundos de uma
anlise de varincia. Assim, muitas inferncias podem estar comprometidas
e at mesmo incorretas.
O modelo ajustado dado por:
Ferreira, D.F.
107
Y.jk = 7, 45 + 0, 68Aj + 0, 44Tk 0, 0263ATjk

Na Figura 5.1 apresentamos a superfcie de resposta ajustada para os
valores mdios dos nveis dos fatores A e T em relao a produo. Observamos que as respostas mximas foram obtidas quando se utilizou a dose
20 kg/ha de adubo mineral com a dose mnima de torta de filtro (10%).
20
18
16
14
12
20
18
16
14
0
12
15
10 A
20
10
Figura 5.1: Modelo ajustado de superfcie de resposta para os dados de

produo em funo da adubao mineral (A) e da adubao orgnica com
torta de filtro (T ).
Podemos observar que haver uma queda acentuada da produtividade
se no for utilizado adubo qumico. Nesta mesma condio se passarmos
do nvel de 10% de torta para 20%, observamos um incremento na produtividade. No entanto, se estamos utilizando a dose de 20 kg/ha de adubo
qumico, este aumento de 10% para 20% na torta de filtro provoca uma reduo da produtividade mdia. Assim, devemos recomendar as doses de 20
Ferreira, D.F.
108
kg/ha de adubo mineral e 10% de torta de filtro para obtermos a mxima

resposta.
5.4
Modelos Lineares Com Mais de Um Erro
Em algumas situaes reais nos deparamos com modelos que contm

mais de um erro experimental. Isso acontece em delineamentos experimentais como o de parcelas subdivididas, sub-subdivididas ou em faixas. Um
outro caso que ocorre normalmente o de parcela subdividida no tempo.
Neste caso o delineamento em geral simples, como o inteiramente casualizado ou o de blocos casualizados e cada parcela ou unidade experimental
avaliada ao longo do tempo. Se pudermos supor que existe uma varincia constante entre as observaes ao longo do tempo e que a estrutura de
correlao entre diferentes tempos a mesma, ento podemos fazer uma
abordagem biomtrica bastante simples, tratando este modelo com um modelo de parcelas subdividas no tempo. Assim, mais de um erro ir aparecer
no modelo e este caso pode ser encaixado dentro desta seo. Esta estrutura
de correlao denominada de simetria composta.
Vamos ilustrar este tipo de modelo, contendo mais de um erro, com um
exemplo de parcela subdividida no tempo. Um adubo mineral foi utilizado
como fator principal, onde desejvamos comparar seus trs nveis 0, 10 e 20
kg/ha. Estas trs dosagens foram submetidas a um delineamento em blocos
completos casualizados com 2 repeties. O interesse era o crescimento das
plantas ao longo do tempo. Assim, foram avaliadas as alturas das plantas
durante 3 meses consecutivos. O modelo estatstico para este experimento
dado por:
Yijk = + i + j + ij + k + jk + ik + ijk
(5.8)
em que Yijk a observao da altura das plantas em metros, a constante

geral do modelo, i o efeito do i-simo nvel da adubao qumica, j
o efeito do j-simo bloco, ij o efeito do erro experimental entre a i-sima
dose e o j-simo bloco, k o efeito do k-simo ms, jk efeito do erro
experimental do j-simo bloco com o k-simo ms, ik o efeito da interao
Ferreira, D.F.
5.4 Modelos Lineares Com Mais de Um Erro
109
entre a i-sima dose de adubo qumico com o k-simo ms e ijk o erro

experimental entre a i-sima dose, j-simo bloco e k-simo ms.
O programa SAS contendo os dados experimentais e a sintaxe para especificar os erros do modelo e determinar os testes corretos apresentado na
seqncia. Como os erros intermedirios do modelo no so prontamente reconhecidos pelo SAS, estes devem ser indicados para que possamos realizar
os testes de hipteses corretamente. Se esta indicao dos erros intermedirios no for feita, os resultados dos testes de hipteses sero incorretos.
/* Programa para realizar anlise de varincia de um modelo contendo mltiplos erros.

O modelo escolhido foi o de parcela subdividida no tempo.*/
data sub;
input bloco trat mes alt;
cards;
1 0 1 1.00
1 10 1 1.05
1 20 1 1.08
2 0 1 1.02
2 10 1 1.06
2 20 1 1.09
1 0 2 1.10
1 10 2 1.12
1 20 2 1.14
2 0 2 1.08
2 10 2 1.15
2 20 2 1.18
1 0 3 1.14
1 10 3 1.20
1 20 3 1.22
2 0 3 1.15
2 10 3 1.21
2 20 3 1.23
;
proc anova data=sub;
class bloco trat mes;
model alt = bloco trat bloco*trat mes bloco*mes mes*trat;
test h=bloco trat e=bloco*trat;
test h=mes e=bloco*mes;
Ferreira, D.F.
110
means mes/ Tukey e=bloco*mes;

run; quit;
Se os nveis dos tratamentos fossem qualitativos, o que no o caso

deste exemplo, o comando <means trat / tukey e=bloco*trat;>, poderia
ser utilizado. Com este comando, so requisitados o clculo das mdias de
tratamento e a aplicao do teste de Tukey usando como erro o efeito de
bloco*trat. Se for utilizado apenas o comando <means trat / tukey;>, o
proc anova ir aplicar o teste de Tukey com o erro inadequado, ou seja, com
o erro geral do modelo. Os testes de hipteses sobre os efeitos dos fatores
so aplicados corretamente se for especificado o comando test, indicando ao
SAS qual deve ser o procedimento adequado. Neste comando as hipteses a
serem testadas so determinadas no comando h=efeito e o erro apropriado
para test-las, no comando e=efeito. Os resultados incorretos do SAS, que
utiliza o erro do modelo para testar estas hipteses, devem ser ignorados. A
opo test no checada pelo proc anova e de inteira responsabilidade do
usurio a correta aplicao do teste F . Os resultados da anlise de varincia
devidamente reorganizada est apresentada na Tabela 5.10.
Tabela 5.10: Anlise da variao devidamente apresentada para o modelo
de parcela subdividida no tempo.
G.L.
SQ
QM
Pr > F
0,00080000
0,00080000
6,86
0,1201
(2)
(0,01750000)
0,00875000
75,00
0,0132
RL
0,01687000
0,01687000
144,60
0,0068
Desvio
0,00062500
0,00062500
5,35
0,1468
Erro a
0,00023333
0,00011667
Ms
0,06043333
0,03021667
1.813,00
0,0006
Erro b
0,00003333
0,00001667
Trat*Ms
0,00016667
0,00004167
0,20
0,9259
Erro
0,00083333
0,00020833
Total
17
0,08000000
FV
Bloco
Trat
Ferreira, D.F.
5.5 Modelos lineares multivariados
111
Ajustamos um modelo linear simples da varivel resposta altura em

funo da adubao qumica utilizando o proc reg e obtivemos o seguinte
modelo: Yi.. = 1, 08583 + 0, 00375Ai , em que Ai o i-simo nvel do adubo
qumico. O coeficiente de determinao deve ser reestimado por R2 =
0, 01687/0, 0175 = 0, 964. A anlise de varincia do modelo de regresso,
apresentando o teste de falta de ajuste foi incorporado na Tabela 5.10. Neste
caso, obtivemos um teste de falta de ajuste no significativo, um R2 alto e o
modelo de regresso com teste F significativo, ou seja, obtivemos resultados
considerados ideais.
Consideramos ainda que os nveis de ms sejam qualitativos e no quantitativos e aplicamos o teste Tukey. Todas as mdias diferiram entre si pelo
teste de Tukey. Deve-se observar que foi utilizado o erro apropriado para
realizarmos o teste de comparaes mltiplas de Tukey. As maiores mdias
para a altura em relao ao ms, como era esperado, estavam associadas ao
3, seguidas pelo 2 e finalmente pelo 1.
5.5
Modelos lineares multivariados
Na pesquisa agropecuria e de outras reas comum as situaes em que

vrias variveis so mensuradas simultaneamente. Os fenmenos estudados
respondem aos tratamentos no apenas com relao a uma varivel, mas sim
em relao ao conjunto total de variveis associadas aquele fenmeno. Nestes casos, duas aproximaes podem ser feitas: a primeira utilizando uma
anlise para cada varivel separadamente, produzindo uma grande quantidade de informaes, alm de no levar em considerao a estrutura de
covarincia entre as variveis; a segunda utilizando a anlise multivariada,
que considera esta estrutura de covarincia entre as variveis sob estudo.
Para ilustrar como so realizados os ajustes dos modelos e obtidas as
somas de quadrados e de produtos, vamos utilizar um modelo linear multivariado com m parmetros associados a cada uma das p variveis respostas.
Diferentemente dos casos univariados, onde so calculadas apenas somas de
quadrados, nos modelos lineares multivariados so obtidas somas de produtos entre as variveis. Isto deve ser feito para cada fonte de variao (ou
efeito) do modelo. As somas de quadrados e produtos so apresentadas em
Ferreira, D.F.
112
uma matriz p p e os testes de hipteses envolvem estatsticas que so relacionadas com razes de determinantes ou de funes dos autovalores das
matrizes de somas de quadrados e produtos associadas hiptese e ao erro.
Os modelos lineares multivariados podem ser escritos matricialmente
por:
Y = X +
(5.9)
em que Y matriz das variveis respostas com n linhas (observaes) e

p colunas (variveis), X a matriz de modelo com n linhas e m colunas
(parmetros do modelo), a matriz de parmetros com m linhas e p
colunas e a matriz de erros n p supostos normal multivariados e
independentemente distribudos com mdia 0 e covarincia comum .
A soluo de mnimos quadrados obtida por:
= (X 0 X)g X 0 Y
(5.10)
A matriz de somas de quadrados e produtos do modelo determinado por

5.9 dada por:
H = R() = 0 X 0 Y
(5.11)
A matriz de soma de quadrados e produtos do resduo E obtida por

E = Y 0 Y 0 X 0 Y . Mediante redues de modelos hierrquicos, aplicamos as expresses 5.10 e 5.11 para estimarmos as matrizes de somas de
quadrados e produtos dos efeitos de um modelo ajustados para os efeitos de
outros, da mesma forma como feito para regresso e para modelos univariados. A diferena neste caso o resultado matricial obtido. No daremos
nenhum outro resultado adicional neste material, devido s dificuldades
tericas deste assunto.
Vamos ilustrar a utilizao do proc anova para realizarmos uma anlise
de varincia multivariada, com os respectivos testes de hipteses. O exemplo
que vamos utilizar refere-se a trs mtodos de ensino diferentes aplicados a
uma determinada srie do ensino bsico. As notas de duas disciplinas em
Ferreira, D.F.
113
cada mtodo de ensino foram anotadas em amostras de diferentes tamanhos.

O programa SAS com os trs mtodos de ensino (A, B e C) juntamente
com os comandos da opo Manova so apresentados na seqncia.
/* Programa ilustrativo da Manova */

data multi;
input met $ n1 n2;
cards;
A 69 75
A 69 70
A 71 73
A 78 82
A 79 81
A 73 75
B 69 70
B 68 74
B 75 80
B 78 85
B 68 68
B 63 68
B 72 74
B 63 66
B 71 76
B 72 78
B 71 73
B 70 73
B 56 59
B 77 83
C 72 79
C 64 65
C 74 74
C 72 75
C 82 84
C 69 68
C 76 76
C 68 65
C 78 79
C 70 71
C 60 61
;
Ferreira, D.F.
114
proc anova;
class met;
model n1 n2 = met;
manova h = met / printe printh;
run;quit;
Os principais resultados desta anlise foram sumariados na seqncia.

Inicialmente foram obtidas as anlises de varincias para cada uma das
notas das matrias. Os resultados para a varivel 1 esto apresentados na
Tabela 5.11. Observamos que no foram detectadas diferenas significativas
entre os mtodos.
Tabela 5.11: Anlise da variao para nota da disciplina 1 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino.
FV
G.L.
SQ
QM
60,6051
30,3025
Erro
28
932,8788
33,3171
Tratamento
30
993,4839
Mtodos
Pr > F
0,91
0,4143
Os resultados para a varivel 2 esto apresentados na Tabela 5.12. Da

mesma forma que ocorreu para a varivel 1, observamos que no foram
detectadas diferenas significativas entre os mtodos.
Tabela 5.12: Anlise da variao para nota da disciplina 2 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino.
FV
G.L.
SQ
QM
49,7359
24,8679
Erro
28
1243,9416
44,4265
Tratamento
30
1293,6774
Mtodos
Pr > F
0,56
0,5776
Os comandos printe e printh geram sadas com as matrizes de somas

de quadrados e produtos do resduo e de mtodos. Alm disso, o primeiro
comando permite que se obtenha as estimativas das correlaes parciais
Ferreira, D.F.
115
entre as variveis ajustadas paras as fontes de variao do modelo. As

matrizes de soma de quadrados e produtos so:
"
E=
932, 8788
1018, 6818
1018, 6818 1243, 9416
"
e
H=
60, 6051 31, 5117

31, 5117 49, 7359
A matriz de correlaes parciais acompanhada das probabilidade para

os testes de hipteses H0 : = 0 dada por:
1, 0000
0, 94564
< 0, 0001
R=
0, 945640 1, 0000
< 0, 0001
Conclumos que as duas variveis so altamente correlacionadas, eliminando-se o efeito dos mtodos. Os testes de hipteses multivariados sobre a
igualdade do vetor de mdias so feitos basicamente por 4 critrios distintos.
O critrio de Wilks um deles e um teste via razo de verossimilhanas.
Muitos pesquisadores preferem tomar a deciso de rejeitar a hiptese nula
quando pelo menos 3 dos 4 critrios apresentarem estimativas significativas
das estatsticas dos testes. Outros preferem utilizar o critrio de Wilks
para tomar esta deciso. Para testarmos a hiptese nula, qualquer que
seja a opo escolhida, os valores destas estatsticas so convertidos para
F, que a distribuio utilizada para aproximar as exatas. Em alguns
casos dependendo do nmero de tratamentos e de variveis a estatstica F
resultante possui distribuio F exata. Na verso 9, o SAS j apresenta uma
opo para solicitar que os testes exatos sejam computados. Os resultados
do teste de hiptese de igualdade dos vetores de mdias dos trs mtodos
foram apresentados na Tabela 5.13. Todos os critrios apresentaram valores
correspondentes de F significativos.
Uma outra observao que pode ser feita neste exemplo, refere-se ao
fato de os nveis de significncia multivariados terem sido muito menores
que os univariados, indicando os casos clssicos em que os testes univariados
Ferreira, D.F.
116
Tabela 5.13: Testes de hipteses multivariados para a igualdade dos efeitos

dos mtodos de ensino.
GL
GL
Estatstica
Estimativa
num.
den.
Pr > F
Wilks Lambda
0,67310116
2,95
54
0,0279
Pillais Trace
0,33798387
2,85
56
0,0322
Hotelling-Lawley Trace
0,46919220
3,13
31,389
0,0281
Roys Greatest Root
0,43098027
6,03
28
0,0066
falham em detectar alguma diferena entre os tratamentos, mas os multivariados no. Este fato provavelmente pode ser em parte explicado pela alta
correlao parcial entre as variveis respostas.
5.6
Exerccios
1. Utilizar dados balanceados resultantes de pesquisas desenvolvidas em

sua rea e realizar anlises de varincias utilizando o proc anova. Aplicar os testes de mdias, se os nveis forem qualitativos, ou ajustar modelos de superfcie de resposta ou de regresso, se os nveis dos fatores
forem quantitativos.
2. Em sua opinio, qual foi a vantagem de se utilizar uma modelagem
multivariada para o exemplo deste captulo que comparava trs mtodos de ensino em relao a anlise de varincia univariada. Voc
utilizaria anlises multivariadas de varincia em sua rea profissional?
Ferreira, D.F.
Captulo 6
Anlise de Varincia para

Dados No-Balanceados
Muitas vezes precisamos realizar inferncia sobre a igualdade de mdias de um determinado fator. Se o conjunto de dados for no-balanceado,
apresentando perdas de parcelas ou at mesmo de caselas devemos utilizar
a anlise de varincia para isso. A anlise de varincia neste caso deve
ser realizada por meio de mtodos matriciais para lidarmos com o nobalanceamento dos dados. A partio da variao entre as observaes em
partes associadas a certos fatores, que so definidos pelo esquema de classificao dos dados experimentais, pode ser realizada de diferentes formas.
Assim, diferentes hipteses podem ser testadas a partir de um mesmo conjunto de dados.
O proc anova apropriado para conjuntos de dados que sejam balanceados. O proc glm nos permite analisar conjuntos de dados no-balanceados,
incluindo casos extremos de desconexo. Neste captulo aplicaremos o proc
glm a conjuntos de dados no-balanceados. Estudaremos trs dos quatro
tipos de somas de quadrados que podem ser estimados por este procedimento. No caso de delineamentos balanceados, estas somas de quadrados,
so todas iguais, no havendo diferenas nas hipteses que so testadas,
exceto se para a soma de quadrados tipo I for utilizada uma ordem em que
um efeito de interao aparece antes dos efeitos principais ou de interaes
de menor ordem destes efeitos principais que compem esta interao.
Ferreira, D.F.
118
Anlise de Varincia para Dados No-Balanceados
A soma de quadrados tipo I refere-se soma de quadrados seqencial.

Esta soma de quadrado obtida com a reduo no modelo de um fator por
vez, na ordem inversa de entrada dos fatores no modelo. Para ilustrarmos,
vamos considerar um modelo com dois fatores (, ) e interao () dado
por:
Yijk = + i + j + ij + ijk
(6.1)
em que Yijk o valor observado da varivel resposta, a constante geral,

i o efeito do i-simo nvel do fator , j o efeito do j-simo nvel do
fator , ij o efeito da interao entre o i-simo nvel do fator com o
j-simo nvel do fator e ijk o efeito do erro experimental suposto normal
e independentemente distribudo com mdia 0 e varincia comum 2 .
A soma de quadrados tipo I, II e III para os efeitos do modelo da equao
(6.1) est apresentada na Tabela 6.1.
Tabela 6.1: Tipos de somas de quadrados de um modelo de anlise de
varincia contendo dois fatores e e interao .
FV
SQ Tipo I
SQ Tipo II
SQ Tipo III
R(/)
R(/, )
R( / , , )
R(/, )
R(/, )
R( / , , )
R(/, , )
R(/, , )
R( / , , )
indica parmetros obtidos sob o uso de restrio paramtrica.

A soma de quadrado tipo II para um dado fator obtida ajustando
esta fonte de variao para todas as outras que no contenha o efeito em

questo. Assim, a soma de quadrados para , no pode ser ajustada para a
fonte de variao , uma vez que esta ltima contm o efeito de , por ser
a interao deste fator com . A soma de quadrados tipo III, ou parcial,
refere-se ao ajuste de cada fator para todos os demais efeitos do modelo sob
restrio paramtrica do tipo soma de efeitos igual a zero.
As somas de quadrados do tipo I so dependentes da ordem de entrada
dos fatores no modelo. As somas de quadrados do tipo II e III no dependem
desta ordem de entrada. Como dissemos, elas so iguais quando os dados
Ferreira, D.F.
119
so balanceados, tomando-se o cuidado de entrar com uma ordem dos efeitos

no modelo, em que os fatores principais vm antes das interaes de que
participam.
O proc glm um dos procedimentos do SAS utilizados para lidar com estes casos no-balanceados. As sintaxes deste procedimento e do proc anova
so praticamente idnticas. As principais diferenas so, entre outras, a
possibilidade de estimar efeitos e testar contrastes, de realizar anlise de
covarincia e de estimar componentes de varincia.
Vamos utilizar alguns dos conjuntos de dados anteriores, provocando
artificialmente algum tipo de no balanceamento em algumas ocasies e
em outras utilizando os dados balanceados, para ilustrarmos as principais
peculiaridades do proc glm.
6.1
Delineamento Inteiramente Casualizado
No modelo inteiramente casualizado com um fator (equao 5.2), vamos

considerar o mesmo conjunto de dados apresentados na Tabela 5.1, para
ilustrarmos o uso de contrastes no proc glm. A varivel resposta o ganho de
peso dos animais submetidos a quatro raes diferentes. Um delineamento
inteiramente casualizado com 5 repeties foi utilizado. Vamos imaginar
que houvesse uma estrutura dos nveis dos tratamentos, estabelecida por
diferentes firmas produtoras das raes e diferentes fontes de protenas.
Assim, a rao 1 proveniente da firma A e as raes 2, 3 e 4 da firma B.
A rao 2 possui fonte de protena animal e as raes 3 e 4 tm protena
de origem vegetal. As raes 3 e 4 diferem quanto ao nvel de energia que
possuem.
Devido aos tratamentos serem estruturados natural que faamos contrastes sugeridos por esta estrutura. Um conjunto de contrastes ortogonais
que poderamos desejar testar seria: 1 vs 2, 3, e 4, contrastando firma A contra firma B, 2 vs 3 e 4, contrastando protena animal contra protena vegetal
e finalmente 3 vs 4, contrastando os nveis de energia. Como temos 3 graus
de liberdade e 3 contrastes ortogonais, ento, teramos feito uma decomposio ortogonal das somas de quadrados de tratamento. Para estimarmos
os efeitos dos contrastes, aplicamos o comando estimate e para testarmos o
Ferreira, D.F.
120
contraste, o comando contrast. O programa resultante, para estimarmos e

testarmos os efeitos dos contrastes, apresentado na seqncia.
/* Exemplo da utilizao do Proc GLM para testarmos contrastes em um DIC balanceado*/

data dic;
input racoes gp @@;
cards;
1 35
1 19
1 31
1 15
1 30
2 40
2 35
2 46
2 41
2 33
3 39
3 27
3 20
3 29
3 45
4 27
4 12
4 13
4 28
4 30
;
proc glm;
class racoes;
model gp=racoes;
means racoes / tukey alpha = 0.05 lines;
lsmeans racoes / pdiff adjust = tukey;
lsmeans racoes / pdiff = control(1) adjust = dunnett;
contrast 1 vs 2, 3 e 4 racoes 3 -1 -1 -1;
contrast 2 vs 3 e 4 racoes 0 2 -1 -1;
contrast 3 vs 4 racoes 0 0 1 -1;
estimate 1 vs 2, 3 e 4 racoes 3 -1 -1 -1/divisor=3;
estimate 2 vs 3 e 4 racoes 0 2 -1 -1/divisor=2;
estimate 3 vs 4 racoes 0 0 1 -1;
Utilizamos os comandos means e lsmeans, neste exemplo, simplesmente

para ilustrarmos as sintaxes, pois como os tratamentos so qualitativos estruturados, devemos utilizar contrastes para otimizarmos as comparaes
realizadas. Ilustramos o uso de um teste de comparaes mltiplas sobre
mdias no ajustadas e ajustadas e o teste de Dunnett bilateral, utilizando
a rao 1 como controle. O objetivo foi de apresentar a sintaxe dos comandos para podermos obter mdias ajustadas e para aplicarmos os testes
de comparaes mltiplas e de Dunnett. Todos estes resultados devem ser
Ferreira, D.F.
121
ignorados neste exemplo e somente os resultados dos contrastes e das estimativas devem ser considerados. Somente o contraste entre os tipos de
origem das protenas na formulao das raes da firma B foi significativo
(P < 0, 0177). Como a estimativa positiva, podemos afirmar que em
mdia teremos um ganho superior em 12 kg/animal/perodo, se utilizarmos rao com protena animal em vez de protena de origem vegetal. No
solicitamos somas de quadrados de nenhum tipo, mas o padro do glm
apresentar tanto a soma de quadrados do tipo I, quanto do tipo III. Nos
modelos lineares para os quais temos apenas um efeito, alm do intercepto
e do erro, no faz sentido diferenciar as somas de quadrados, pois todas elas
so idnticas. Neste caso, a soma de quadrados do tipo I para raes foi de
823, 75, sendo o mesmo resultado obtido para as somas de quadrados dos
tipos II e III.
Uma outra vantagem do proc glm obter predies para os valores da

varivel resposta, que neste caso, so as mdias de caselas. Adicionalmente
os valores residuais so preditos. Para isso basta substituir o comando
<model gp=racoes;> por <model gp=racoes/p;>. Este comando, alm destas estimativas e predies, fornece a estatstica de Durbin-Watson, para
realizarmos testes de autocorrelao. Outra estimativa, que utilizamos com
freqncia na anlise de dados no-balanceados, a da mdia ajustada. Em
vez de utilizarmos o comando <means racoes / tukey alpha=0.05 lines;>
podemos utilizar o comando <lsmeans racoes / pdiff adjust=tukey;>. Neste
caso, o SAS calcular os valores-p das comparaes entre as lsmeans utilizando o procedimento ajustado de Tukey. Para comparao com o controle
fazemos pdiff = control(trat) com o comando adjust = opo. A opo que
devemos utilizar a do teste de Dunnett, determinada por dunnett. Apesar
de o natural ser a escolha do comando adjust=dunnett, podemos escolher
outras formas de ajustes como Bon, Sidak, Scheffe, entre outras. claro
que para um delineamento inteiramente casualizado com um fator balanceado ou no-balanceado no existem diferenas entre as mdias ajustadas e
no-ajustadas. Mas, entre os testes utilizando as mdias ajustadas e as mdias no ajustadas existem diferenas nos casos no balanceados. Devemos
optar por utilizar as mdias ajustadas solicitando o teste apropriado.
Ferreira, D.F.
122
6.2
Estrutura Cruzada de Tratamentos
Para ilustramos a anlise de modelos mais complexos, onde temos conjuntos de dados no-balanceados, vamos retornar ao exemplo apresentado
na seo 5.3, simulando algumas perdas de parcelas. Com este exemplo,
vamos mostrar as dificuldades existentes para realizar uma anlise de dados
no-balanceados e as diferenas entre os trs tipos de somas de quadrados que estamos considerando. Posteriormente consideraremos, ainda, uma
anlise de covarincia. Os dados apresentados na seo 5.3 com algumas
perdas de unidades experimentais simuladas e o modelo da equao (5.6)
foram utilizados. Temos um delineamento em blocos casualizados com 4
repeties e 2 fatores (adubo mineral e torta de filtro) com 2 nveis cada.
O programa ilustrando a anlise de varincia e os principais resultados
alcanados esto apresentados na seqncia. Vamos destacar o uso da opo slice do comando lsmeans neste programa, a qual possibilita que seja
realizado o desdobramento de interaes entre efeitos do modelo.
/* Exemplo da utilizao do proc GLM para uma estrutura fatorial de tratamentos em

um DBC e no-balanceada*/
data Fat;
cards;
0 10 1 18.0
20 10 1 20.6
0 20 1 19.6
20 20 1 19.2
0 10 2 8.6
0 20 2 15.0
20 20 2 19.6
0 10 3 9.4
20 10 3 18.6
0 20 3 14.6
20 20 3 18.4
0 10 4 11.4
0 20 4 15.8
20 20 4 20.2
;
Ferreira, D.F.
123
proc glm data=fat;

class A T bloco;
model prod = bloco A T A*T/ss1 ss2 ss3;
means A T/Tukey;
lsmeans A T/pdiff adjust=Tukey;
lsmeans A*T/slice=A slice=T;
run; quit;
Inicialmente, observamos que uma anlise de variao contendo as fontes

de variao de modelo e de resduos foi obtida. Estes resultados esto
apresentados na Tabela 6.2. Na Tabela 6.3 apresentamos os trs tipos de
somas de quadrados solicitadas (I, II e III). Podemos observar um efeito
significativo de A e de T para os trs tipos de somas de quadrados, exceto
para o efeito da torta de filtro com a soma de quadrado do tipo III. Em
todos os casos (I, II e III) tivemos um efeito no significativo da interao,
sendo as somas de quadrados tipo I, II e III para este efeito iguais.
Tabela 6.2: Anlise da variao para o modelo fatorial (2 fatores) em um
delineamento de blocos casualizados, destacando-se as fontes de variao de
modelo e erro.
G.L.
SQ
QM
Pr > F
Modelo
180,89
30,15
6,75
0,0120
Erro
31,29
4,47
Total
13
212,17
FV
CV = 12,92%
Y... = 16, 36
Houve uma diferena muito grande entre algumas das somas de quadrados, sendo que no efeito da adubao mineral, isto foi mais pronunciado.
Era esperado, por exemplo, que as somas de quadrados do tipo I e do tipo
II para efeito da torta de filtro fossem iguais, considerando a ordem que os
fatores entraram no modelo. Dessa forma, podemos observar a importncia
de saber exatamente o que testamos, para interpretar adequadamente as
sadas do proc glm. Detalhes tcnicos a respeito das hipteses associadas a
estas somas de quadrados podem ser obtidos em publicaes especializadas.
Ferreira, D.F.
124
Tabela 6.3: Resumo da anlise da variao para o modelo fatorial (2 fatores) em um delineamento de blocos casualizados, destacando as somas de
quadrados tipo I, II e III e as significncias correspondentes.
FV
G.L.
SQ I
SQ II
Bloco
53,1543ns
42,7233ns
42,7233ns
88,7520
66,9780
77,0133
27,3780
27,3780
17,7633ns
A*T
11,6033ns
11,6033ns
11,6033ns
SQ III
e ns: significativo a 5, 1% e no significativo, respectivamente.
Se observarmos as sadas do SAS, podemos verificar que existem diferenas entre as mdias ajustadas e no-ajustadas, destacando-se a importncia
de utilizar o comando adequado para o caso balanceado. Neste exemplo
observamos que tanto para torta de filtro, como para a adubao mineral,
obtivemos diferenas significativas para as mdias. No entanto, quando utilizamos o teste com correo de Tukey sobre as mdias ajustadas, somente
detectamos diferenas significativas para adubo mineral, mas no para torta
de filtro.
Finalmente o comando slice nos possibilita obter a anlise do desdobramento da interao A T . Solicitamos os dois tipos de desdobramento: o
de A dentro dos nveis de T e o de T fixados os nveis de A. Nenhum destes
dois casos sero apresentados, pois a interao foi no significativa. Assim, recomendamos utilizar a maior dose de adubo mineral (teste marginal
significativo) e a menor porcentagem de torta de filtro (teste marginal no
significativo).
Reiteramos que as somas de quadrados do tipo I so afetadas pela ordem dos efeitos na especificao do modelo. Podemos ver claramente que
se alterarmos esta ordem, teremos diferentes somas de quadrados do tipo
I, mas as mesmas somas de quadrados dos tipos II e III obtidas anteriormente. O caso mais crtico desta alterao ocorre quando colocamos o efeito
da interao dos fatores antes dos efeitos principais. Como o espao paramtrico da interao contm os espaos paramtricos dos efeitos principais,
teremos resultados nulos para os graus de liberdade e somas de quadrados
Ferreira, D.F.
125
associados. O leitor conclamado a verificar este resultado para o modelo

em questo.
Alguns outros aspectos interessantes da anlise merecem destaques. Como todos os procedimentos so realizados por meio de lgebra matricial e
vetorial, podemos solicitar a matriz inversa, a matriz X 0 X, valores preditos,
soluo mnimos de quadrados, entre outras opes. Para isso bastaria
substituir o comando <model prod = bloco A T A*T/ss1 ss2 ss3;> por
<model prod = bloco A T A*T/ss1 ss2 ss3 p solution XPX I;>.
Outra grande vantagem do proc glm a possibilidade de realizarmos
anlises de regresso. Um fator omitido do comando class ser considerado
varivel regressora e no varivel classificatria. Assim, temos a possibilidade de realizar anlises de covarincia. A anlise de covarincia ocorre
quando temos variveis classificatrias (fatores qualitativos) e variveis regressoras (fatores quantitativos) no mesmo modelo. Em geral estas covariveis devem ser mensuradas em todas as unidades experimentais e no devem
ser influenciadas pelo tratamento. Por exemplo, se estamos testando diferentes cultivares, utilizar o estande final como covarivel, pode no ser uma
boa estratgia. Isso porque pode existir um efeito de cultivares no estande
final, ou seja, o efeito de estande influenciado pelo efeito de cultivares.
Assim, uma anlise como essa vai produzir um ajuste do efeito de cultivar
pelo efeito de estande. Como os dois efeitos podem estar relacionados, como
acabamos de discutir, teremos o efeito de cultivar ajustado, de forma indireta, para o prprio efeito de cultivar. Assim, devemos utilizar covariveis
que no sejam influenciadas pelos tratamentos. Neste caso, poderamos,
por exemplo, ter tomado medidas da fertilidade do solo em cada parcela
experimental, antes de as cultivares terem sido semeadas. Estas variveis
de fertilidade poderiam ser utilizadas como covariveis.
Neste exemplo fatorial foi simulada a avaliao de uma covarivel em
cada parcela, para podermos ilustrar uma anlise de covarincia. Assim, em
cada parcela experimental foi avaliado o teor de nitrognio. Uma amostra
de cada unidade foi coletada e os nveis de nitrognio do solo foram mensurados, antes da implantao dos tratamentos, correspondentes ao adubo
mineral e a torta de filtro. Um aspecto da anlise de covarincia que empiricamente podemos mencionar, refere-se ao fato de que ao utilizarmos
Ferreira, D.F.
126
uma covarivel e ajustarmos o efeito de tratamentos para essa covarivel,

estaramos fazendo algo semelhante a ter um experimento cujas condies
iniciais seriam homogneas para os nveis desta covarivel. Assim, como
se indiretamente estivssemos utilizando um controle local.
No exemplo que se segue apresentamos a anlise de covarincia utilizando como covarivel os nveis de nitrognio nas unidades experimentais
mensurados anteriormente a implantao do experimento. A especificao
de uma covarivel no modelo feita de maneira bastante simples. Para isso
omitimos no comando class a covarivel, mas a introduzimos no comando
model. O proc glm ir reconhecer a varivel omitida como uma varivel
regressora e o comando lsmeans ir ajustar as mdias dos fatores para a
covarivel ou covariveis presentes no modelo. O programa SAS, ilustrativo
deste caso, dado por:
/* Exemplo da utilizao do proc GLM para uma estrutura fatorial dos tratamentos com
covarivel em um DBC no-balanceado*/
data Fat;
input A T bloco prod N;
cards;
0 10 1 18.0 3
20 10 1 20.6 4
0 20 1 19.6 5
0 10 2 8.6 3
0 20 2 15.0 4
20 20 2 19.6 4
0 10 3 9.4 6
20 10 3 18.6 5
0 20 3 14.6 2
20 20 3 18.4 7
0 10 4 11.4 4
0 20 4 15.8 3
20 20 4 20.2 3
;
proc glm data=fat;
class A T bloco;
model prod = bloco A T A*T N/solution ss1 ss2 ss3;
means A T/Tukey;
lsmeans A T/pdiff adjust=Tukey;
Ferreira, D.F.
6.3 Modelos Com Mais de Um Erro
127
lsmeans A*T/slice=A slice=T;

run; quit;
Se realizarmos uma anlise de varincia com e sem a covarivel podemos observar que os resultados para este exemplo apresentam uma ligeira
diferena nas somas de quadrados dos dois modelos. claro que a soma de
quadrados do tipo I no foi afetada, pois a covarivel apareceu aps todos os
demais efeitos do modelo. A opo solution permitiu que fosse apresentada
a soluo de mnimos quadrados. A covarivel foi nico efeito do modelo
cuja estimativa era no viesada. As demais concluses so similares s j
apresentadas anteriormente para este modelo de anlise de variao.
6.3
Modelos Com Mais de Um Erro
Para analisarmos experimentos mais complexos, contendo mais de um

erro e em estruturas no balanceadas, devemos definir quais tipos de somas
de quadrados desejamos utilizar, tanto para o tratamento quanto para o
resduo. Alm disso, temos que especificar quais so os testadores das fontes de variao do modelo e tambm qual tipo de soma de quadrados deve
ser utilizada para realizar o teste de interesse. Vamos ilustrar este tipo de
anlise considerando modelos que contenham mais de um erro, a partir do
mesmo exemplo de parcela subdividida no tempo, apresentado na seo 5.4.
Vamos provocar artificialmente um desbalanceamento no conjunto original
de dados para ilustrarmos a anlise almejada. Um adubo mineral foi utilizado como fator principal, onde desejvamos comparar seus trs nveis 0,
10 e 20 kg/ha. Estas trs dosagens foram submetidas a um delineamento
em blocos completos casualizados com 2 repeties. O interesse focava o
crescimento das plantas ao longo do tempo. Assim, foram avaliadas as alturas das plantas durante 3 meses consecutivos. O modelo estatstico para
este experimento dado por:
Yijk = + i + j + ij + k + jk + ik + ijk

(6.2)
Ferreira, D.F.
128
em que Yijk a observao da altura das plantas em metros, a constante

geral do modelo, i o efeito do i-simo nvel da adubao qumica, j
o efeito do j-simo bloco, ij o efeito do erro experimental entre a i-sima
dose e o j-simo bloco, k o efeito do k-simo ms, jk efeito do erro
experimental do j-simo bloco com o k-simo ms, ik o efeito da interao
entre a i-sima dose de adubo qumico com o k-simo ms e ijk o erro
experimental entre a i-sima dose, j-simo bloco e k-simo ms.
O programa SAS contendo os dados experimentais modificados artificialmente para se tornarem no balanceado e a sintaxe para especificar os
erros do modelo e determinar os testes corretos com o tipo de soma de
quadrados pretendida apresentado na seqncia. O comando test deve
ser utilizado e em suas opes devemos nos preocupar em indicar o tipo de
soma de quadrados que utilizaremos. O programa resultante dado por:
/* Programa para realizar anlise de varincia de um modelo contendo mltiplos erros.

O modelo escolhido foi o de parcela subdividida no tempo com dados no-balanceados.*/
data sub;
input bloco trat mes alt;
cards;
1 0 1 1.00
1 10 1 1.05
1 20 1 1.08
2 10 1 1.06
2 20 1 1.09
1 0 2 1.10
1 10 2 1.12
1 20 2 1.14
2 0 2 1.08
2 10 2 1.15
2 20 2 1.18
1 0 3 1.14
1 10 3 1.20
1 20 3 1.22
2 10 3 1.21
2 20 3 1.23
;
proc glm data=sub;
class bloco trat mes;
Ferreira, D.F.
6.3 Modelos Com Mais de Um Erro
129
model alt = bloco trat bloco*trat mes bloco*mes mes*trat/ss1 ss2 ss3;
test h=bloco trat e=bloco*trat / htype = 3 etype = 3;
test h=mes e=bloco*mes /htype = 3 etype = 3;
lsmeans trat/e=bloco*trat etype = 3 stderr;
lsmeans mes/e=bloco*mes etype = 3 pdiff stderr adjust=Tukey;
lsmeans trat*mes/ etype = 3 stderr slice = trat slice = mes;
run; quit;
Nesta anlise podemos destacar que os testes so inicialmente realizados

utilizando o erro do modelo (erro C) como testador. Somente com o uso
do comando test que este problema foi corrigido. Assim, o teste para
bloco e para tratamento foi realizado com o erro A (bloco*trat) e o efeito
de ms foi testado com erro B (bloco*mes). No comando <test h=bloco trat
e=bloco*trat / htype = 3 etype = 3;> especificamos que iramos utilizar as
somas de quadrados do tipo III para tratamento e bloco e tambm para o
resduo. Comando similar utilizado para o teste do efeito relativo a ms.
Os comandos solicitando as mdias ajustadas de tratamento e de ms
so acrescidos das opes para que sejam estipulados o erro e o tipo de somas de quadrados que sero utilizados. Tambm possibilitam obtermos os
erros padres dos efeitos e no caso de efeitos qualitativos, permitem realizarmos testes de comparaes mltiplas com ajuste das probabilidade pelo
mtodo de Tukey-Kramer. No caso de efeitos de interao, permitem que
sejam realizados desdobramentos com o comando slice. O problema do comando <lsmeans trat*mes/ etype = 3 stderr slice = trat slice = mes;> no
possibilitar que em alguns desdobramentos pudssemos utilizar varincias
complexas, como o caso destes dois tipos de desdobramento realizados.
O SAS no permite que especifiquemos erros que so combinaes de quadrados mdios distintos. Ento, apesar de as somas de quadrados estarem
corretamente calculadas, os testes de hipteses desta opo devem ser refeitos manualmente. Um outro problema a impossibilidade de aplicar um
teste de mdias para algum desdobramento que tenha apresentado teste de
hiptese significativo, utilizando o prprio programa.
Ferreira, D.F.
130
6.4
Componentes de Varincia
Podemos utilizar o proc glm para obtermos componentes de varincia.

Componentes de varincia surgem quando alguns dos fatores que estamos
estudando so aleatrios. Estes fatores so considerados aleatrios quando
temos interesse na populao de origem. Os nveis destes fatores so amostras aleatrias destas populaes. Assim, temos interesse na mdia geral
daquele efeito e principalmente na varincia. Em geral, no temos nenhum
interesse particular de comparar os nveis de fator aleatrio.
A idia de um dos mtodos para estimarmos os componentes da varincia dos efeitos aleatrios do modelo consiste em igualarmos as estimativas
dos quadrados mdios s suas esperanas E(QM ) e resolvermos as equaes
resultantes. Este mtodo conhecido como mtodo dos momentos. O proc
glm permite que obtenhamos as esperanas dos quadrados mdios por meio
do comando random. Um modelo pode ser classificado como fixo, quando
todos os seus efeitos, excetuando a mdia geral e o erro, so fixos. Se todos
os efeitos forem aleatrios, temos um modelo aleatrio. Se por outro lado,
tivermos efeitos fixos e efeitos aleatrios, teremos um modelo misto.
Quando temos efeitos aleatrios no modelo, os testes de hipteses em
muitas situaes podem no ser feitos utilizando o quadrado mdio do resduo na obteno da estatstica. A deciso de qual deve ser o denominador
da estatstica do teste F , depende das esperanas dos quadrados mdios.
Nem sempre a especificao deste denominador trivial, pois pode haver a
necessidade de composio de quadrados mdios. A opo test do comando
random permite que testes F adequados sejam feitos nos modelos mistos
ou aleatrios. Este comando (random) essencialmente til quando temos
dados no balanceados.
Vamos ilustrar o uso do proc glm com um delineamento em blocos casualizados com 2 repeties. Uma amostra aleatria de 5 cultivares foi
obtida pelo pesquisador e constituiu o fator de interesse da anlise. Adicionalmente, este experimento foi implantado em 2 locais. Assim, este
um exemplo em que aplicaremos uma anlise conjunta. Ocorreu, no experimento do local 1, uma perda de parcela. A repetio 1 da cultivar 5 foi
perdida.
Ferreira, D.F.
6.4 Componentes de Varincia
131
O interesse reside no componente de varincia para cultivar, que foi considerada de efeito aleatrio. O efeito de bloco, em geral, considerado como
aleatrio na literatura. Pelo fato de o efeito de cultivar ter sido considerado
aleatrio e o de local fixo, a interao considerada aleatria. Os comandos
SAS, necessrios para estimarmos os componentes de varincia dos efeitos
aleatrios, so dados por:
/* Programa para realizar anlise de varincia conjunta de um modelo misto.*/

data rand;
input cult bl local prod;
cards;
1 1 1 8.4
1 2 1 8.6
2 1 1 5.7
2 2 1 5.8
3 1 1 4.5
3 2 1 6.7
4 1 1 5.9
4 2 1 7.8
5 2 1 8.9
1 1 2 6.2
1 2 2 7.6
2 1 2 8.3
2 2 2 9.5
3 1 2 3.5
3 2 2 4.9
4 1 2 7.4
4 2 2 8.8
5 1 2 8.9
5 2 2 9.0
;
proc glm data=rand;
class cult bl local;
model prod = bl(local) cult local cult*local / e3 ss3;
random bl(local) cult cult*local / test;
run; quit;
Ferreira, D.F.
132
Merecem destaques alguns comandos e especificaes de modelo utilizados. O comando <model prod = bl(local) cult local cult*local / e3 ss3;>
possui o efeito de bloco hierarquizado em local. No podemos especificar
apenas o efeito de bloco, pois estaramos ignorando o fato de que os blocos
dos diferentes locais no so os mesmos. Assim, o bloco 1 do local 1 diferente do bloco 1 do local 2. As opes e3 e ss3 indicam que as esperanas
dos quadrados mdios, utilizando somas de quadrados do tipo III, devem
ser utilizadas. No comando <random bl(local) cult cult*local / test;>, que
aparece aps o comando model, indicamos ao proc glm quais so os efeitos
aleatrios do modelo. Neste exemplo foram os efeitos de bloco dentro de
local, de cultivar e da interao cultivar local.
Inicialmente o SAS apresenta o resultado da anlise de varincia do tipo
III, cujo resumo apresentamos na Tabela 6.4. Se o modelo possui efeitos
aleatrios, os testes de significncia (teste F ) apresentados nesta anlise
provavelmente podem estar incorretos. Neste exemplo, como apenas o efeito
de local considerado fixo, sendo todos os demais aleatrios, a maioria dos
testes F est incorreta. O correto utilizar as esperanas dos quadrados
mdios para especificar os testes de hipteses adequados e tambm para
estimar os componentes de varincia.
Tabela 6.4: Anlise da variao para o modelo de anlise conjunta (2 locais)
em um delineamento de blocos casualizados.
FV
G.L.
SQ III
QM
Pr > F
Modelo
(11)
(52,9816)
4,8165
13,65
0,0011
bl(local)
5,4450
2,7225
7,72
0,0170
cult
27,4770
6,8693
19,47
0,0007
local
0,7111
0,7111
2,02
0,1987
cult*local
15,5483
3,8871
11,02
0,0038
Erro
2,4700
0,3529
Total
18
55,4516
CV = 8,27%
Y... = 7, 1789
Um segundo resultado apresentado pelo SAS, associado a anlise de

variao, refere-se as esperanas dos quadrados mdios. Estes resultados
Ferreira, D.F.
6.4 Componentes de Varincia
133
esto sumariados na Tabela 6.5. Uma anlise das esperanas dos quadrados
mdios mostra que o testador para bloco(local) e para a interao cultivar
local o erro experimental. O testador para cultivar a interao cultivar
local e o testador para local tem de ser obtido por uma combinao de
quadrados mdios. A opo test do comando random nos permite obter as
estatsticas destes testes automaticamente.
Tabela 6.5: Esperana dos quadrados mdios e resumo da anlise da variao para o modelo de anlise conjunta (2 locais) em um delineamento de
blocos casualizados.
FV
G.L.
QM
E(QM)
bl(local)
2,7225
2
2 + 4, 5b(L)
cult
6,8693
2 + 3, 6667 2
2 + 1, 8333CL
C
local
0,7111
2 + 4, 4444 2
2 + 1, 7778CL
b(L) + QL
cult*local
3,8871
2
2 + 1, 8333CL
Erro
0,3529
QL a forma quadrtica associada a local

A estimativa do componente de varincia de cultivar pode ser obtida por:
C = (QM Cult QM Cult Local)/3, 6667 = 0, 8133. Os demais componentes de varincia podem ser obtidos de maneira similar. Muitas vezes temos dificuldades em determinar qual o quadrado mdio que devemos subtrair do quadrado mdio correspondente ao fator aleatrio para o qual desejamos estimar o componente. Para a interao, isso foi obtido de uma maneira bastante simples por
CL = (QM Cult Local QM Erro)/1, 8333 =
1, 9278. Quando precisamos combinar quadrados mdios, o melhor indicativo para determinarmos esta combinao fornecida pelo comando test.
Por exemplo, se desejssemos testar a hiptese de que o efeito quadrtico
QL devido a local, que fixo, seja nulo, poderamos utilizar a seguinte combinao de quadrados mdios como denominador da expresso da estatstica
do teste F :
0,9877QMbl(local) + 0,9697QMcult local - 0,9574QMErro,
cujos graus de liberdade associados seriam obtidos pelo processo de SatUso de Recursos Computacionais
Ferreira, D.F.
134
terthwaite (1946)[11].
Utilizando os testes adequados apenas os efeitos de bloco(local) e da
interao cultivar local foram significantes, indicando que os componentes de varincia associados so diferentes de zero. Para cultivar no foi
detectada significncia estatstica, sendo considerado nulo o componente de
varincia associado. Outras tipos de somas de quadrados podem ser utilizadas para estimarmos componentes de varincia e para realizarmos os testes
F . Para selecionarmos, por exemplo, as somas de quadrados do tipo II,
bastaria trocar o comando <model prod = bl(local) cult local cult*local / e3
ss3;> por <model prod = bl(local) cult local cult*local / e2 ss2;>. Quando
aplicamos esta mudana, os resultados dos testes so praticamente idnticos
aos obtidos com as somas de quadrados do tipo III.
O SAS possui outros procedimentos para estimarmos componentes de
varincia. Podemos destacar o proc mixed e o proc proc varcomp. Estes procedimentos so muitas vezes mais adequados para estimarmos componentes
de varincia, alm de oferecerem mais alternativas de mtodos. Discutiremos o varcomp posteriormente neste material. Os modelos mistos so uma
generalizao dos modelos lineares utilizados no proc glm.
6.5
Exerccios
1. Utilizar dados no balanceados resultantes de pesquisas desenvolvidas

em sua rea e realizar anlises de varincias utilizando o proc glm.
Aplicar os testes de mdias, se os nveis forem qualitativos, ou ajustar
modelos de superfcie de resposta ou de regresso, se os nveis dos
fatores forem quantitativos.
2. Dar sua opinio sobre o fato de muitos autores ainda recomendarem
estimao de parcelas, em conjuntos de dados onde foram perdidas
uma ou mais delas. Como voc lidaria com conjuntos de dados no
balanceados? Estimaria os valores perdidos?
Ferreira, D.F.
Captulo 7
O varcomp foi designado para lidar com modelos lineares que possuam
efeitos aleatrios. Efeitos aleatrios so fatores cujos nveis so amostras
aleatrias de uma populao de possveis infinitos nveis. O proc varcomp
estima a contribuio de cada fator aleatrio para a varincia da varivel
resposta. Vrios mtodos existem para a estimao dos componentes de varincia. O proc varcomp possui implementado os mtodos type 1 (baseado
no cmputo da soma de quadrados do tipo I para cada efeito do modelo),
MIVQUE0, mxima verossimilhana (ML) e mxima verossimilhana restrita (REML).
Componentes de varincia so, por definio, positivos. No entanto,
estimativas negativas podem ocorrer. Algumas razes potenciais para que
estimativas negativas de componentes de varincia ocorram podem ser destacadas por:
Variabilidade muito grande dos dados, produzindo estimativas negativas, apesar do valor verdadeiro do componente ser positivo;
Presena de outliers nos dados experimentais;
Especificao incorreta do modelo estatstico.
Alguns mtodos especficos para lidarmos com cada uma destas situaes existem. No caso de outliers, anlises exploratrias de dados podem
ser aplicadas facilmente para identificao e eliminao destas observaes
Ferreira, D.F.
136
discrepantes. A especificao incorreta do modelo est diretamente sob o

controle do pesquisador que ao identificar o problema pode prontamente
corrig-lo.
7.1
Mtodos de Estimao de Componentes de Varincia
O mtodo denominado por Type 1 um mtodo dos momentos. As

esperanas dos quadrados mdios so determinadas e igualadas aos quadrados mdios de uma anlise de varincia seqencial (somas de quadrados do
tipo I). O mtodo Mivque0 baseado no mtodo de Hartley, Rao e LaMotte
(1978)[7], o qual produz estimativas que so invariantes em relao aos efeitos fixos do modelo e so localmente os melhores estimadores quadrticos
no viciados. Possui estimao semelhante a do mtodo Type 1, exceto pelo
fato de que os efeitos aleatrios so ajustados somente para os efeitos fixos.
Os estimadores de Mxima Verossimilhana (ML) para os componentes
de varincia usam a transformao W, desenvolvida por Hemmerle e Hartley (1973)[8] e Goodnigth e Hemmerle (1978)[6] e o algoritmo de NewtonRaphson, aplicado iterativamente at que o logaritmo da funo de verossimilhana seja maximizado. O mtodo da mxima verossimilhana restrita
(REML) semelhante ao ML, s que h uma separao da funo de verossimilhana em duas partes. A primeira com os efeitos fixos e a segunda
com os aleatrios (Patterson e Thompson, 1971[10]).
7.2
O Proc Varcomp
Para apresentarmos os comandos do proc varcomp, ilustrando a forma

de especificar tanto os mtodos, quanto os efeitos fixos, vamos utilizar o
delineamento em blocos casualizados com 2 repeties, apresentado no captulo 6. Uma amostra aleatria de 5 cultivares foi obtida. Adicionalmente,
este experimento foi conduzido em 2 locais. Ocorreu, no local 1, a perda da
parcela correspondente repetio 1 da cultivar 5. Todos os efeitos do modelo foram considerados aleatrios, exceto a mdia geral (por razes bvias)
e o efeito de local. O programa SAS resultante dado por:
Ferreira, D.F.
7.2 O Proc Varcomp
137
/* Programa para estimar componentes de varincia em um modelo misto.*/

data rand;
input cult bl local prod;
cards;
1 1 1 8.4
1 2 1 8.6
2 1 1 5.7
2 2 1 5.8
3 1 1 4.5
3 2 1 6.7
4 1 1 5.9
4 2 1 7.8
5 2 1 8.9
1 1 2 6.2
1 2 2 7.6
2 1 2 8.3
2 2 2 9.5
3 1 2 3.5
3 2 2 4.9
4 1 2 7.4
4 2 2 8.8
5 1 2 8.9
5 2 2 9.0
;
proc varcomp data=rand maxiter=500 method=type1;
class cult bl local;
model prod = local bl(local) cult cult*local /fixed = 1;
run; quit;
Na linha de comando <proc varcomp data = rand maxiter = 500 method

= type1;> declaramos o nmero mximo de iteraes para o processo iterativo, por meio da opo maxiter=500, e o mtodo que desejamos utilizar,
com a opo method=type1. Neste caso, limitamos em no mximo 500
iteraes e utilizamos o mtodo type 1. Podemos alterar o mtodo, substituindo type1 por mivque0, ML ou RML. Diferentemente do proc glm, onde
com o comando random especificamos os efeitos aleatrios, no proc varcomp devemos mencionar o nmero de efeitos fixos do modelo. Assim, com
Ferreira, D.F.
138
o comando <model prod = local bl(local) cult cult*local /fixed = 1;>, informamos ao programa que temos um efeito fixo (fixed=1 ) e que o efeito
de local este efeito fixo. O programa ao ser informado do nmero de
efeitos fixos, comea a reconhec-los a partir da igualdade (primeiro efeito
do modelo) entre a parte dependente e independente do modelo. Devemos,
portanto, posicionar os efeitos fixos antes dos efeitos aleatrios no modelo
especificado, quando utilizamos o proc varcomp.
O SAS apresenta entre os seus resultados a anlise de varincia e as
esperanas dos quadrados mdios para o mtodo Type 1. Para os demais
mtodos, alguns outros resultados particulares so apresentados. Em todos os casos temos as estimativas dos componentes de varincia dos efeitos
aleatrios. Alteramos a opo method = type1, considerando as demais possibilidades, para estimarmos os componentes de varincia utilizando todos
os mtodos (mivque0, ml ou reml ) e apresentamos os resultados na Tabela
7.1.
Tabela 7.1: Estimativas dos componentes de varincia para o modelo de
anlise conjunta (2 locais) em um delineamento de blocos casualizados utilizando os 4 mtodos de estimao do proc varcomp.
Mtodo
G.L.
Type 1
Mivque0
ML
REML
bl(local)
0,69760
0,71978
0,38173(0,37)
0,54146(0,62)
cult
0,83428
0,89047
0,78798(1,18)
0,96363(1,55)
cult*local
1,92776
2,03984
1,51873(1,10)
1,79084(1,39)
Erro
0,35286
0,19096
0,35252(0,20)
0,34854(0,17)
FV
Erro padro das estimativas entre parnteses.

O SAS apresenta a matriz de covarincia dos estimadores dos compo-
nentes de varincia dos efeitos aleatrios do modelo para os mtodos da

mxima verossimilhana e da mxima verossimilhana restrita. A raiz quadrada dos elementos da diagonal so os erros padres das estimativas destes componentes de varincias, que foram apresentados na Tabela 7.1. Em
geral, os erros padres das estimativas associadas ao mtodo da mxima
verossimilhana restrita foram maiores do que os do mtodo da mxima
Ferreira, D.F.
7.2 O Proc Varcomp
139
verossimilhana.
Um segundo exemplo, para ilustrar a estimao de componentes de varincia negativos, apresentado na seqncia. Para isso um delineamento em
blocos casualizados com 5 cultivares e 2 repeties foi considerado. Duas
repeties dentro de cada bloco foram obtidas. Uma das repeties dentro
do bloco 1, para a cultivar 5, foi perdida. O modelo foi considerado aleatrio
e dado por:
Yijk = + i + j + ij + k(ij)
(7.1)
em que Yijk o valor observado da varivel resposta, a constante geral,

i o efeito aleatrio do i-simo nvel das cultivares, j o efeito aleatrio
do j-simo nvel dos blocos, ij o efeito aleatrio do erro experimental
suposto normal e independentemente distribudo com mdia 0 e varincia
comum e2 e kij o efeito do erro amostral aleatrio suposto normal e
independentemente distribudo com mdia 0 e varincia comum 2 .
O programa SAS para estimarmos os componentes de varincia dado
por:
/* Programa para estimar componentes de varincia em um modelo aleatrio.*/

data vc2;
input cult bl rep prod;
cards;
1 1 1 8.4
1 2 1 7.6
2 1 1 5.7
2 2 1 5.8
3 1 1 4.5
3 2 1 6.7
4 1 1 8.9
4 2 1 7.8
5 2 1 8.9
1 1 2 6.2
1 2 2 7.6
2 1 2 8.3
2 2 2 2.5
Ferreira, D.F.
140
3 1 2 3.5
3 2 2 4.9
4 1 2 7.4
4 2 2 8.8
5 1 2 8.9
5 2 2 9.0
;
proc varcomp data=vc2 maxiter=500 method=type1;
class cult bl;
model prod = cult bl bl*cult;
run; quit;
O erro amostral dado pelo efeito de repetio dentro de cada combinao

de cultivar bloco foi obtido por diferena e o erro experimental dado
pela interao bloco cultivar. Alterando a opo <method=type1> para
os demais mtodos, obtivemos as estimativas dos componentes de varincia
apresentados na Tabela 7.2.
Tabela 7.2: Estimativas dos componentes de varincia para o modelo de
blocos casualizados com repetio dentro de cada bloco em um ensaio de
cultivares, utilizando os 4 mtodos de estimao do proc varcomp.
Mtodo
FV
G.L.
Type 1
Mivque0
ML
REML
cult
2,11787
1,96139
1,70757(1,54)
2,30153(2,12)
bl
-0,30145
-0,34551
0,00000(0,00)
0,00000(0,00)
Erro
0,63854
0,80142
0,40027(0,85)
0,39980(0,85)
Erro amostral
1,66611
1,66676
1,62392(0,75)
1,62262(0,75)
Erro padro das estimativas entre parnteses.

Grandes diferenas podem ser observadas nas estimativas dos compo-
nentes de varincia. Uma delas so as estimativas negativas dos componentes de varincia nos mtodos Type 1 e Mivque0. uma prtica comum
tratar as estimativas negativas como se elas fossem nulas. Nos mtodos ML
e REML este procedimento j feito automaticamente durante o processo
de estimao e componentes de varincia negativos so evitados.
Ferreira, D.F.
7.3 Exerccios
7.3
141
Exerccios
1. Exemplificar situaes em sua rea em que componentes de varincia

poderiam ser estimados.
2. Podemos utilizar intervalos de confiana normais para componentes
de varincia se considerarmos a propriedade de normalidade assinttica dos estimadores de mxima verossimilhana. Assim, construir
intervalos de confiana normais para os componentes de varincia de
2 nos dois exemplos, utilizando a seguinte expresso:
cultivares C
2
2
2
IC1 (C
):
C
Z/2 EP (
C
)
em que Z/2 o quantil superior 100/2% da distribuio normal

2 ) o erro padro do estimador do componente de
padro e EP (
C
varincia de cultivar.
Ferreira, D.F.
142
Ferreira, D.F.
Captulo 8
Pressuposies da Anlise de
Varincia
A validade da anlise de varincia depende que algumas condies pressupostas sejam atendidas. Quando um estatstico formula um modelo e
estima seus parmetros e prope algum mtodo de estimao ou teste, h a
necessidade de que algumas condies sejam ratificadas. A validade desta
inferncia depende de algumas restries impostas aos efeitos deste modelo,
como por exemplo, a suposio de normalidade dos erros. Se o pesquisador
obtiver um conjunto de dados amostrais, em que essas condies no foram
obedecidas, ento a validade das inferncias realizadas no mnimo questionvel. Especificamente no caso dos modelos lineares, fazemos suposies
de distribuio normal dos erros, aditividade dos efeitos do modelo e homogeneidade das varincias dos erros associados aos nveis de um determinado
efeito ou fator. Estas pressuposies muitas vezes no so checadas, o que
pode comprometer a validade dos resultados dos testes e da estimao realizados. Desta forma, o pesquisador pode eventualmente tomar decises
errneas.
Uma das razes de se ignorar a checagem das pressuposies para validade da anlise de varincia a dificuldade de se encontrar recursos computacionais para realizar esta tarefa. A maioria dos softwares no checa estas
pressuposies, ou no possui rotinas para realizao destes testes.
O programa SAS, pela sua flexibilidade e facilidade de programao,
Ferreira, D.F.
144
Pressuposies da Anlise de Varincia
permite que muitos mtodos, existentes para esta finalidade, sejam implementados. No entanto, os testes existentes na literatura, para checarmos
se as pressuposies foram atendidas, so especficos para alguns modelos,
o que dificulta a sua aplicao em casos mais gerais. Um outro fator limitante diz respeito ao fato de que estes procedimentos ficariam limitados a
pesquisadores que tivessem uma maior familiaridade com a linguagem SAS.
Desta forma, a busca de procedimentos mais gerais e mais fceis de utilizar, facilitaria a verificao das pressuposies feitas aos efeitos do modelo.
Para isso, Gill (1978)[4] apresenta alguns mtodos mais abrangentes, que
so tratados nas prximas sees. Vamos apresentar os testes para verificar
a normalidade dos resduos e a aditividade dos efeitos do modelo.
8.1
Normalidade dos Resduos
A pressuposio de normalidade, exigida na anlise de varincia, na

maioria das vezes mal interpretada e checada de forma incorreta. A exigncia que se faz, a respeito da distribuio normal, para a distribuio
dos resduos de um determinado modelo linear e no para os dados observados nas unidades experimentais. Muitos pesquisadores desavisados, ou por
desconhecimento, realizam o teste de normalidade nos dados experimentais observados, o que uma prtica incorreta. Este procedimento s seria
vlido se estivssemos avaliando uma amostra aleatria de uma nica populao, cujos dados pudessem ser explicados pelo modelo linear simples dado
por Yi = + i . Em modelos onde temos um ou mais fatores, os valores da
varivel Yi so explicados por diferentes constantes ao longo da amostra aleatria de tamanho n. Assim, por exemplo, para o modelo Yij = + i + ij
temos diferentes constantes + i , que so funes do i-simo nvel do efeito
i . Ento a distribuio da varivel Y na verdade uma mistura de normais com diferentes mdias. Quanto maior a complexidade do modelo, mais
complexa fica esta mistura de distribuies normais.
Como a suposio de normalidade que fazemos para o erro deste modelo, que uma varivel aleatria no observvel, temos de estim-lo e ento
aplicar os testes de normalidade. Podemos utilizar os recursos do SAS para
realizar esta tarefa. O SAS permite que estimemos e salvemos os erros dos
Ferreira, D.F.
8.1 Normalidade dos Resduos
145
modelos em um SAS data set em cada procedimento. Se utilizarmos o teste

de normalidade de Shapiro-Wilk do proc univariate, poderemos avaliar se
a pressuposio de normalidade foi atendida. Vamos utilizar um exemplo
de um experimento realizado em blocos casualizados com 4 repeties e 3
tratamentos de um nico fator. O modelo estatstico dado por:
Yij = + i + j + ij
(8.1)
em que Yij o valor observado da varivel resposta produo, a constante

geral, i o efeito do i-simo nvel dos tratamentos, j o efeito do j-simo
nvel dos blocos e ij o efeito do erro experimental suposto normal e
independentemente distribudo com mdia 0 e varincia comum 2 .
Os valores preditos da varivel resposta so dados por Yij =
+ i + j ,
, em que Y o
que de forma matricial podem ser obtidos por Y = X
o vetor de solues de
vetor de observaes, X matriz do modelo e
mnimos quadrados. Assim, os resduos so estimados por ij = Yij Yij ou

simultaneamente por = Y Y . Aps estimarmos os resduos do modelo,
aplicamos o teste de Shapiro-Wilk utilizando o proc univariate. O programa

SAS para realizarmos o teste de normalidade dos resduos do exemplo que
estamos considerando dado por:
/* Programa para testar a pressuposio de erros normais em um modelo linear em blocos

casualizados.*/
data press1;
input bl trat prod;
cards;
1 1 12.34
1 2 13.45
1 3 14.56
2 1 12.34
2 2 16.78
2 3 17.89
3 1 10.32
3 2 15.67
3 3 16.01
Ferreira, D.F.
146
4 1 13.45
4 2 16.78
4 3 17.89
;
proc glm data=press1;
class bl trat;
model prod = bl trat;
output out=norm P=pred R=res;
run;quit;
proc univariate data=norm normal;
var res;
run;quit;
Realizamos a anlise de varincia para estimarmos os resduos, utilizando o proc glm para isso. Armazenamos os resduos e os valores preditos em um SAS data set utilizando o comando <output out=norm P=pred
R=res;>. Definimos que a varivel correspondente aos valores preditos seria
denominada de pred e a dos resduos de res. Utilizamos o proc univariate na
seqncia para aplicar o teste de normalidade a varivel res do SAS data set
norm. O resultado que nos interessa o do teste de Shapiro-Wilk. O valor
observado da estatstica foi W = 0, 946844 e o valor-p associado foi igual
a 0, 5914. Assim, no devemos rejeitar a hiptese nula de normalidade dos
resduos, se considerarmos um nvel nominal de significncia de = 0, 05.
8.2
Aditividade
Em um modelo linear, assumimos que os efeitos so aditivos e no multiplicativos (Tukey, 1949[14]). O mtodo de Tukey decompe a soma de
quadrado do erro em duas partes. Uma delas com apenas 1 grau de liberdade e a outra com os graus de liberdade remanescentes. Um teste
F aplicado e denominado de teste da no-aditividade de Tukey. Este
teste da no-aditividade de Tukey pode ser generalizado para possibilitar
sua aplicao em diversos modelos lineares. Esta generalizao consiste em
obtermos os valores preditos e em seguida introduzirmos o seu quadrado
como covarivel no modelo de anlise de varincia. Esta anlise se prestar
Ferreira, D.F.
8.2 Aditividade
147
unicamente para testarmos a hiptese de aditividade dos efeitos. Se houver efeito significativo da covarivel, deveremos rejeitar a hiptese nula de
efeitos aditivos.
Utilizando o exemplo da seo 8.1 e definindo os valores preditos por
Yij , devemos ajustar o seguinte modelo linear:
Yij = + i + j + Yij2 + ij
(8.2)
em que o coeficiente de regresso associado covarivel determinada

pelos valores preditos ao quadrado; os demais efeitos tm os mesmos significados do modelo 8.1.
A hiptese de interesse H0 : = 0 equivalente hiptese nula de que o
modelo aditivo. Devemos realizar uma anlise de covarincia e realizar o
teste de interesse sobre o efeito da covarivel, que como j dissemos, equivalente ao teste de aditividade dos efeitos. Infelizmente este procedimento
no pode ser utilizado em experimentos inteiramente casualizados com um
fator, por razes bvias, ou com dois fatores e interao, pois haver um
confundimento da interao com o efeito da covarivel. O programa SAS
utilizado para aplicarmos este teste aos dados do exemplo da seo 8.1
dado por:
/* Programa para testar a pressuposio de efeitos aditivos em um modelo linear em

blocos casualizados.*/
data press2;
input bl trat prod;
cards;
1 1 12.34
1 2 13.45
1 3 14.56
2 1 12.34
2 2 16.78
2 3 17.89
3 1 10.32
3 2 15.67
3 3 16.01
4 1 13.45
Ferreira, D.F.
148
4 2 16.78
4 3 17.89
;
proc glm data=press2;
class bl trat;
model prod = bl trat;
output out=norm P=pred R=res;
run;quit;
data norm; set norm;
pred2=pred*pred;
run;quit;
proc glm data=norm;
class bl trat;
model prod= bl trat pred2;
run;quit;
Observamos um valor da estatstica F para o teste de Fc = 1, 02 com

1 = 1 e 2 = 5 graus de liberdade. O valor-p associado foi de 0, 3581,
portanto no devemos rejeitar a hiptese nula, indicando que no existem
evidncias significativas (5%) para afirmarmos que haja no-aditividade
dos efeitos do modelo. Para o caso de rejeitarmos a hiptese nula, Tukey (1949)[14] recomenda algum tipo de transformao dados para corrigir
o problema. A justificativa para tentar eliminar o problema baseada no
fato de que o teste F na presena da no-aditividade considerado bastante
conservador.
8.3
Homogeneidade de Varincias
A suposio de que os erros ij de um modelo tm distribuio normal e

varincia comum, indica que as varincias dos diferentes nveis dos fatores
presentes no modelo devem ser homogneas. Para o modelo inteiramente
casualizado com um fator, apresentamos o teste de homogeneidade de varincias na seo 5.2 de acordo com os procedimentos descritos por Ferreira
(2005)[3]. O proc anova do SAS, no caso de um fator nico no modelo, nos
possibilita testar a homogeneidade de varincias entre os nveis do fator.
Em casos mais gerais Gill (1978)[4] recomenda utilizar como covarivel
Ferreira, D.F.
8.4 Exerccios
149
os valores preditos do resduo ao quadrado. Por no termos avaliado este

procedimento e no conhecermos na literatura nenhum indicativo cientfico
de sua validade, optamos por no apresentar maiores detalhes deste mtodo.
8.4
Exerccios
1. Aplicar testes de normalidade para alguns modelos de regresso apresentados no capitulo 3.

2. Em sua opinio qual dos trs pressupostos causaria mais impacto sobre
a validade das inferncias?
Ferreira, D.F.
150
Ferreira, D.F.
Referncias Bibliogrficas
[1] BECKMAN, R. J.; TRUSSELL, H. J. The distribution of an arbitrary
studentized residual and the effects of updating in multiple regression.
Journal of the American Statistical Association, 69:179201, 1974. 62
[2] CHATTERJEE, S.; HADI, A. S. Influential observations, high leverage
points, and outliers in linear regression. Statistical Science, 1(3):379
393, 1986. 59, 61, 62, 64
[3] FERREIRA, D. F. Estatstica bsica. Editora UFLA, Lavras, 2005.
676p. 12, 15, 92, 98, 99, 148
[4] GILL, J. W. Design and analysis of experiments in the animal and
medical sciences., volume 2. Iowa State University, Ames, 1978. 301p.
144, 148
[5] GOMES, F. P. Curso de estatstica experimental. Esalq/Usp, Piracicaba, 14 edition, 2000. 476p. vii, 93
[6] GOODNIGTH, J. H.; HEMMERLE, W. J. A simplified algorithm for
the W-transformation in variance component estimation. Technometrics, 21:265268, 1978. 136
[7] HARTLEY, H. O.; RAO, J. N. K.; LaMOTTE, L. A simple synthesisbased method of variance component estimation. Biometrics, 34:233
244, 1978. 136
[8] HEMMERLY, W. J.; HARTLEY, H. O. Computing maximum likelihood estimates for mixed AOV model using the W-transformation.
Technometrics, 15:819831, 1973. 136
Ferreira, D.F.
152
REFERNCIAS BIBLIOGRFICAS
[9] ONEILL, R.; WETHERILL, G. B. The present state of multiple comparison methods. Journal of the Royal Statistical Society, 33(2):218
250, 1971. 97
[10] PATTERSON, H. D.; THOMPSON, R. Recovery of inter-block information when block sizes are unequal. Biometrika, 58:545554, 1971.
136
[11] SATTERTHWAITE, F. E. An approximate distribution of estimates
of variance components. Biometrics Bulletin, 2(6):110114, 1946. 21,
30, 32, 134
[12] SEARLE, S. R. Linear models. John Wiley, New York, 1971. 532p. 40
[13] SEARLE, S. R. Linear models for unbalanced models. John Wiley, New
York, 1987. 536p. 40
[14] TUKEY, J. W. One degree of freedom for non-additivity. Biometrics,
5(3):232242, 1949. 146, 148
[15] VANGEL, M. G. Confidence intervals for a normal coefficient of variation. The American Statistician, 15(1):2126, 1996. 19
[16] VELLEMAN, P. F.; WELSCH, R. E. Efficient computing of regression
diagnostics. The American Statistician, 35(4):234242, 1981. 59, 63
Ferreira, D.F.
ndice Remissivo
ajuste
critrio
da distribuio
de Wilks, 115
normal, 13
das probabilidades
derivadas
parciais, 35
Cochran e Cox, 31
dos valores-p
desconexo
estatstica, 117
Tukey, 121
anlise
desdobramento
da interao, 122
de covarincia, 125
assist, 2
desvio padro
estimao
backward, 56
intervalar, 17
dfbeta, 64, 65
caselas, 117
dffits, 65
coeficiente
distncia
de assimetria, 12
de Cook, 66
de confiana, 16
modificada, 66
de curtose, 12
de determinao
efeitos
ajustado, 53
aditivos, 143
coeficientes
aleatrios, 130, 135
de determinao
fixos, 131
parciais, 55
semi-parciais, 55
hierrquizados, 89
equaes
contrastes, 120
normais, 37
correlao
parcial, 116
covratio, 67
modelos no-lineares, 72
erro
tipo I, 96
Ferreira, D.F.
154
NDICE REMISSIVO
tipo II, 96
erro padro
coeficiente
regresso, 51
do valor predito, 54
hiptese
nula, 25
histograma, 13
homogeneidade
de varincias, 98, 143
valor predito
futuro, 54
inferncia
individual, 97
erros
normais, 143
estatstica
do teste
sinal, 26
estatsticas
descritivas, 11, 13, 15
estimador
beta, 12
do coeficiente
de assimetria, 12
de curtose, 12
simultnea, 97
influncia, 63
influence, 67
interao
de efeitos, 89
intervalo
de confiana
assinttico, 86
intervalo de confiana, 11
aproximado
diferena de mdias, 21
gama, 12
para CV, 19
Kernel
para p, 18
de densidade, 13
estimativas
negativas
componentes de varincia, 135
componentes de varincia, 140
estrutura
de dados
balanceada, 90
no balanceada, 117
forward, 56
exato
diferena de mdias, 20
para p, 18
mdias
dados emparelhados, 24, 30
valor predito
futuro, 54
mdio, 54
inversa
nica, 38
de Moore-Penrose, 74
graus
de liberdade, 38
Ferreira, D.F.
de parte
da inversa, 40
NDICE REMISSIVO
generalizada, 74
155
no-linear, 35
reflexiva, 74
nos parmetros, 70
modelos
jackknife, 61
mistos, 92, 134
janela
de erros, 1
de programas, 1
normalidade
dos resduos, 34
de sada, 1
parmetros
de disperso, 12
mdia
ajustada, 121
amostral, 12
apresentao da, 14
de locao, 12
parcela
subdividida
estimao
intervalar, 16
mtodo
no tempo, 108
pp-plots, 13
pressuposio
de DUD, 77
de homocedasticidade, 34
dos momentos
de independncia, 34
componentes de varincia, 130 proc

dos quadrados mnimos, 37
no-lineares, 71
manuais
do SAS, 2
matriz
de covarincia
das estimativas, 138
de derivadas parciais, 38
Jaobiana, 77
misturas
de distribuies
normais, 34
modelo
de regresso
linear, 35, 36
linear, 34
iml, 18, 19
nlin, 69
summary, 11
ttest, 11, 31
univariate, 11
procedimentos
de comparaes
mltiplas, 97
processo
iterativo, 83
programa
R, 1
SAS, 1
propores
estimao
intervalar, 17
Ferreira, D.F.
156
NDICE REMISSIVO
proteo
de Bonferroni, 98
qq-plots, 13
resduos, 37
estudentizados
externamente, 62
internamente, 61
response
plateau, 69, 80
linear, 84
quadrtico, 81
teste
aproximado
diferenas de mdias, 31
da falta
de ajuste, 111
da no-aditividade
de Tukey, 146
de Bartlett, 98
de Browb e Forsythe, 99
de hiptese
mdias normais, 25
de homogeneidade
Satterthwaite, 21
simulao
de dados, 85
soluo
do sistema
de EN, 38
soma
de quadrados
do resduo, 38
modelo, 38
parcial, 39
seqencial, 39
tipo I, 39
tipo II, 39, 40
stepwise, 56
superfcie
de resposta, 102
de Levene, 99
de normalidade
de Shapiro-Wilk, 145
de Wilcoxon, 26, 27
dados emparelhados, 28
do sinal, 26
dos postos
com sinais, 26
Duncan, 97
Dunnett, 121
exato
diferenas de mdias, 31
F, 89
conservador, 148
OBrien, 100
Scheff, 98
Shapiro-Wilk, 33
taxa
de erro
por comparao, 97
por experimento, 97
Ferreira, D.F.
SNK, 98
t de Student
na regresso, 51
NDICE REMISSIVO
157
Tukey, 97
testes
de autocorrelao, 121
de comparaes
mltiplas, 91
de homogeneidade
tipos
somas de quadrados, 39, 47, 117,
118
transformao
de dados, 148
valores
perdidos, 2
preditos, 38, 54
varivel
binria, 85
dummy, 85
varincia
amostral, 13
combinada, 21
estimao
intervalar, 17
varincias
complexas, 129
homogneas, 20
Ferreira, D.F.

Aprendendo A Usar o Sas 9.2 Estatistica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aprendendo A Usar o Sas 9.2 Estatistica

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE LAVRAS

DEPARTAMENTO DE CINCIAS EXATAS

Uso de Recursos Computacionais

Daniel Furtado Ferreira

Uso de Recursos Computacionais

1 Introduo ao sistema SAS

Procedimentos para anlise estatstica . . . . . . . . . . . .

2 Estatstica bsica no SAS

Estimao de Mdias, Desvio Padro e Varincias . .

Estimao de Coeficientes de Variao . . . . . . . .

Diferena de Duas Mdias Independentes . . . . . .

Estimao da Diferenas de Duas Mdias Em Dados

Teste Sobre Mdias . . . . . . . . . . . . . . . . . . .

Teste Sobre Mdias de Duas Populaes Emparelhadas 28

Teste Sobre Mdias de Duas Populaes Independentes 30

Uso de Recursos Computacionais

Mtodo dos Quadrados Mnimos . . . . . . . . . . . . . . .

Um Exemplo de Regresso Pelo Proc IML . . . . . . . . . .

Diagnstico em Regresso Linear . . . . . . . . . . . . . . .

Influncia no Espao das Variveis Preditoras . . . .

Influncia no Vetor de Estimativas dos Parmetros .

Influncia no Vetor de Valores Preditos . . . . . . . .

Influncia na Matriz de Covarincias . . . . . . . . .

Introduo aos Modelos No-Lineares . . . . . . . . . . . . .

Tamanho do passo da iterao

5 Anlise de Varincia para Dados Balanceados

Delineamento Inteiramente Casualizado . . . . . . . . . . .

Estrutura Cruzada de Tratamentos . . . . . . . . . . . . . . 100

Modelos Lineares Com Mais de Um Erro . . . . . . . . . . . 108

Modelos lineares multivariados . . . . . . . . . . . . . . . . 111

Uso de Recursos Computacionais

6 Anlise de Varincia para Dados No-Balanceados

Delineamento Inteiramente Casualizado . . . . . . . . . . . 119

Estrutura Cruzada de Tratamentos . . . . . . . . . . . . . . 122

Modelos Com Mais de Um Erro . . . . . . . . . . . . . . . . 127

Componentes de Varincia . . . . . . . . . . . . . . . . . . . 130

Mtodos de Estimao de Componentes de Varincia . . . . 136

O Proc Varcomp . . . . . . . . . . . . . . . . . . . . . . . . 136

8 Pressuposies da Anlise de Varincia

Normalidade dos Resduos . . . . . . . . . . . . . . . . . . . 144

Homogeneidade de Varincias . . . . . . . . . . . . . . . . . 148

Uso de Recursos Computacionais

Uso de Recursos Computacionais

Tipos de somas de quadrados de um modelo de regresso

Resultados mais importantes do ajuste dos modelos lineares

Estimativas dos parmetros e teste t de Student para a nulidade das estimativas. . . . . . . . . . . . . . . . . . . . . . .

Ganho de peso (gp), em kg, de animais que foram submetidos

Uso de Recursos Computacionais

Anlise da variao para o modelo fatorial (2 fatores) em um

Anlise da variao devidamente corrigida para o modelo de

5.10 Anlise da variao devidamente apresentada para o modelo

Tipos de somas de quadrados de um modelo de anlise de

Anlise da variao para o modelo fatorial (2 fatores) em um

Uso de Recursos Computacionais

Anlise da variao para o modelo de anlise conjunta (2

Estimativas dos componentes de varincia para o modelo de

Estimativas dos componentes de varincia para o modelo de

Uso de Recursos Computacionais

Uso de Recursos Computacionais

Equao quadrtica resultante do ajuste de quadrados mnimos do exemplo tratado. . . . . . . . . . . . . . . . . . . . .

Modelos no lineares ajustados - modelo yi = 1, 8548x0,575

Modelo segmentado considerando um plateau no ponto X =

Modelo ajustado de superfcie de resposta para os dados de

/exemplo de ordenao utilizando o proc sort./