Você está na página 1de 169

UNIVERSIDADE FEDERAL DE LAVRAS

DEPARTAMENTO DE CINCIAS EXATAS

Uso de Recursos Computacionais

Daniel Furtado Ferreira

LAVRAS
Minas Gerais - Brasil
21 de maro de 2007

ii

Ferreira, D.F.

Uso de Recursos Computacionais

Sumrio
Lista de Tabelas

ix

Lista de Figuras

xi

1 Introduo ao sistema SAS

1.1

Entrada de dados . . . . . . . . . . . . . . . . . . . . . . . .

1.2

Transformaes de variveis . . . . . . . . . . . . . . . . . .

1.3

Ordenamento de dados . . . . . . . . . . . . . . . . . . . . .

1.4

Procedimentos para anlise estatstica . . . . . . . . . . . .

10

2 Estatstica bsica no SAS

11

2.1

Estatsticas descritivas . . . . . . . . . . . . . . . . . . . . .

11

2.2

Estimao de Parmetros . . . . . . . . . . . . . . . . . . .

16

2.2.1

Estimao de Mdias, Desvio Padro e Varincias . .

16

2.2.2

Estimao de Propores . . . . . . . . . . . . . . .

17

2.2.3

Estimao de Coeficientes de Variao . . . . . . . .

19

2.2.4

Diferena de Duas Mdias Independentes . . . . . .

20

2.2.5

Estimao da Diferenas de Duas Mdias Em Dados

2.3

Emparelhados . . . . . . . . . . . . . . . . . . . . . .

23

Testes de Hipteses . . . . . . . . . . . . . . . . . . . . . . .

25

2.3.1

Teste Sobre Mdias . . . . . . . . . . . . . . . . . . .

25

2.3.2

Teste Sobre Mdias de Duas Populaes Emparelhadas 28

2.3.3

Teste Sobre Mdias de Duas Populaes Independentes 30

2.3.4

Teste de Normalidade . . . . . . . . . . . . . . . . .

Uso de Recursos Computacionais

33

Ferreira, D.F.

iv

SUMRIO

3 Regresso Linear

35

3.1

Mtodo dos Quadrados Mnimos . . . . . . . . . . . . . . .

36

3.2

Um Exemplo de Regresso Pelo Proc IML . . . . . . . . . .

40

3.3

O Proc Reg . . . . . . . . . . . . . . . . . . . . . . . . . . .

46

3.4

Seleo de Modelos . . . . . . . . . . . . . . . . . . . . . . .

56

3.5

Diagnstico em Regresso Linear . . . . . . . . . . . . . . .

58

3.5.1

Anlise de resduos . . . . . . . . . . . . . . . . . . .

59

3.5.2

Influncia no Espao das Variveis Preditoras . . . .

63

3.5.3

Influncia no Vetor de Estimativas dos Parmetros .

64

3.5.4

Influncia no Vetor de Valores Preditos . . . . . . . .

65

3.5.5

Influncia na Matriz de Covarincias . . . . . . . . .

67

3.5.6

Comandos SAS . . . . . . . . . . . . . . . . . . . . .

67

Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . .

68

3.6

4 Regresso No-Linear
4.1

69

Introduo aos Modelos No-Lineares . . . . . . . . . . . . .

70

4.1.1

Mtodo do Gradiente . . . . . . . . . . . . . . . . . .

74

4.1.2

Mtodo de Newton . . . . . . . . . . . . . . . . . . .

75

4.1.3

Mtodo de Gauss-Newton . . . . . . . . . . . . . . .

75

4.1.4

Mtodo de Marquardt . . . . . . . . . . . . . . . . .

76

4.1.5

Tamanho do passo da iterao

. . . . . . . . . . . .

77

4.2

O Proc Nlin . . . . . . . . . . . . . . . . . . . . . . . . . . .

77

4.3

Modelos Segmentados . . . . . . . . . . . . . . . . . . . . .

80

4.4

Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . .

88

5 Anlise de Varincia para Dados Balanceados

89

5.1

O Proc Anova . . . . . . . . . . . . . . . . . . . . . . . . . .

90

5.2

Delineamento Inteiramente Casualizado . . . . . . . . . . .

93

5.3

Estrutura Cruzada de Tratamentos . . . . . . . . . . . . . . 100

5.4

Modelos Lineares Com Mais de Um Erro . . . . . . . . . . . 108

5.5

Modelos lineares multivariados . . . . . . . . . . . . . . . . 111

5.6

Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

Ferreira, D.F.

Uso de Recursos Computacionais

SUMRIO

6 Anlise de Varincia para Dados No-Balanceados

117

6.1

Delineamento Inteiramente Casualizado . . . . . . . . . . . 119

6.2

Estrutura Cruzada de Tratamentos . . . . . . . . . . . . . . 122

6.3

Modelos Com Mais de Um Erro . . . . . . . . . . . . . . . . 127

6.4

Componentes de Varincia . . . . . . . . . . . . . . . . . . . 130

6.5

Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

7 Componentes de Varincia

135

7.1

Mtodos de Estimao de Componentes de Varincia . . . . 136

7.2

O Proc Varcomp . . . . . . . . . . . . . . . . . . . . . . . . 136

7.3

Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

8 Pressuposies da Anlise de Varincia

143

8.1

Normalidade dos Resduos . . . . . . . . . . . . . . . . . . . 144

8.2

Aditividade . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

8.3

Homogeneidade de Varincias . . . . . . . . . . . . . . . . . 148

8.4

Exerccios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Referncias Bibliogrficas

151

ndice Remissivo

153

Uso de Recursos Computacionais

Ferreira, D.F.

vi

Ferreira, D.F.

SUMRIO

Uso de Recursos Computacionais

Lista de Tabelas
3.1

Tipos de somas de quadrados de um modelo de regresso


contendo m variveis. . . . . . . . . . . . . . . . . . . . . . .

3.2

Crescimento de uma planta Y aps ser submetida a um tempo X de exposio solar em horas. . . . . . . . . . . . . . .

3.3

39

41

Testes de hiptese do tipo H0 : i = 0, com i = 0, 1, 2 utilizando a distribuio t de Student com = 5 graus de liberdade. 46

3.4

Dados de uma amostra de n = 10 rvores de araucria (Araucaria angustifolia) mensuradas em relao ao volume Y , rea
basal X1 , rea basal relativa X2 e altura em ps X3 . . . . .

3.5

48

Resultados mais importantes do ajuste dos modelos lineares


simples para os dados dos volumes das n = 10 rvores de
araucria Araucaria angustifolia. . . . . . . . . . . . . . . .

3.6

Resumo da anlise de varincia do ajuste de regresso mltipla aos dados do volume das rvores de araucria. . . . . .

3.7

51

Estimativas dos parmetros e teste t de Student para a nulidade das estimativas. . . . . . . . . . . . . . . . . . . . . . .

5.1

49

52

Ganho de peso (gp), em kg, de animais que foram submetidos


a uma dieta com determinadas raes. Um delineamento
inteiramente casualizado com cinco repeties (animais) e 4
raes foi utilizado (Gomes, 2000)[5]. . . . . . . . . . . . . .

5.2

93

Anlise de varincia para o delineamento inteiramente casualizado com um fator (raes) com quatro nveis e cinco
repeties. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Uso de Recursos Computacionais

95

Ferreira, D.F.

viii
5.3

LISTA DE TABELAS
Anlise da variao contendo as fontes de variao do modelo
para o delineamento inteiramente casualizado das raes. . .

5.4

Teste de SNK e mdias para a fonte de variao raes juntamente com as diferenas mnimas significativas dms. . . .

5.5

95

96

Anlise da variao para o modelo fatorial (2 fatores) em um


delineamento de blocos casualizados. . . . . . . . . . . . . . 102

5.6

Anlise da variao para o modelo de regresso para o exemplo fatorial da adubao com 2 fatores. . . . . . . . . . . . . 104

5.7

Estimativas dos parmetros do modelo com seus erros padres e teste da hiptese para i = 0 fornecidas originalmente
pelo SAS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

5.8

Estimativas dos parmetros do modelo com seus erros padres e teste da hiptese para i = 0 devidamente corrigidas. 106

5.9

Anlise da variao devidamente corrigida para o modelo de


regresso do exemplo fatorial da adubao com 2 fatores. . . 106

5.10 Anlise da variao devidamente apresentada para o modelo


de parcela subdividida no tempo. . . . . . . . . . . . . . . . 110
5.11 Anlise da variao para nota da disciplina 1 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino. . . 114
5.12 Anlise da variao para nota da disciplina 2 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino. . . 114
5.13 Testes de hipteses multivariados para a igualdade dos efeitos
dos mtodos de ensino. . . . . . . . . . . . . . . . . . . . . . 116
6.1

Tipos de somas de quadrados de um modelo de anlise de


varincia contendo dois fatores e e interao . . . . . . 118

6.2

Anlise da variao para o modelo fatorial (2 fatores) em um


delineamento de blocos casualizados, destacando-se as fontes
de variao de modelo e erro. . . . . . . . . . . . . . . . . . 123

6.3

Resumo da anlise da variao para o modelo fatorial (2 fatores) em um delineamento de blocos casualizados, destacando
as somas de quadrados tipo I, II e III e as significncias correspondentes. . . . . . . . . . . . . . . . . . . . . . . . . . . 124

Ferreira, D.F.

Uso de Recursos Computacionais

LISTA DE TABELAS
6.4

ix

Anlise da variao para o modelo de anlise conjunta (2


locais) em um delineamento de blocos casualizados. . . . . . 132

6.5

Esperana dos quadrados mdios e resumo da anlise da variao para o modelo de anlise conjunta (2 locais) em um
delineamento de blocos casualizados. . . . . . . . . . . . . . 133

7.1

Estimativas dos componentes de varincia para o modelo de


anlise conjunta (2 locais) em um delineamento de blocos
casualizados utilizando os 4 mtodos de estimao do proc
varcomp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

7.2

Estimativas dos componentes de varincia para o modelo de


blocos casualizados com repetio dentro de cada bloco em
um ensaio de cultivares, utilizando os 4 mtodos de estimao
do proc varcomp. . . . . . . . . . . . . . . . . . . . . . . . . 140

Uso de Recursos Computacionais

Ferreira, D.F.

Ferreira, D.F.

LISTA DE TABELAS

Uso de Recursos Computacionais

Lista de Figuras
3.1

Equao quadrtica resultante do ajuste de quadrados mnimos do exemplo tratado. . . . . . . . . . . . . . . . . . . . .

4.1

45

Modelos no lineares ajustados - modelo yi = 1, 8548x0,575


i
iniciando pela origem e modelo yi = 0, 8117 1, 9542xi iniciando pelo ponto 0, 8117. . . . . . . . . . . . . . . . . . . . .

4.2

81

Modelo segmentado considerando um plateau no ponto X =


X0 com valor de Y = P e um modelo crescente para X < X0 . 82

5.1

Modelo ajustado de superfcie de resposta para os dados de


produo em funo da adubao mineral (A) e da adubao
orgnica com torta de filtro (T ).

Uso de Recursos Computacionais

. . . . . . . . . . . . . . . 107

Ferreira, D.F.

xii

Ferreira, D.F.

LISTA DE FIGURAS

Uso de Recursos Computacionais

Captulo 1

Introduo ao sistema SAS


O sistema SAS um dos melhores software existentes na atualidade.
Atualmente somente o programa R tem competido com o SASr . O sistema SAS um software que propicia grandes vantagens no tratamento de
bancos de dados, nas anlises estatsticas e na gerao de relatrios das
mais variadas formas. Para utilizarmos o SAS precisamos conhecer como
sua estrutura e como se d o seu funcionamento. O ambiente de interao
com o usurio do SAS possui trs janelas, que por sua vez possuem funes
especficas, a saber:
1. Janela de programas: nesta janela digitamos os programas, que so
seqncias de passos e comandos para utilizarmos o sistema SAS de
acordo com a finalidade que almejamos. Temos que utilizar determinados comandos especficos para chamar rotinas prontas do SAS
ou podemos utilizar programas desenvolvidos para um ambiente de
programao interativo, o IML.
2. Janela de erros: esta janela conhecida como janela log e deve ser
utilizada para consultarmos a ocorrncia de erros de sintaxe em nossos
comandos ou programas. O SAS marca os erros com letras em cor
vermelha e aponta a linha do programa onde este erro ocorreu.
3. Janela de sada ou output: nesta janela obtemos os resultados no
grficos da anlise recm executada. O seu contedo pode ser salvo
em diferentes formatos ou impressos diretamente.
Uso de Recursos Computacionais

Ferreira, D.F.

Introduo ao sistema SAS


Todo o contedo das janelas pode ser salvo, marcado e eliminado uti-

lizando os recursos do Windows e da barra de ferramentas. No daremos


maiores detalhes destes procedimentos por julg-los muito simples. Devemos ter o cuidado nico de que esses comandos so especficos para a janela
que estiver ativa e no para o contedo de todas elas.
O SAS infelizmente no um programa com muita interatividade, a menos que o mdulo ASSIST esteja presente. Um outro recurso extremamente
til ao se utilizar o SAS o sistema de auxlio (help on line), que permite
a consulta, atravs de uma navegao no linear, dos principais comandos
e bibliotecas do programa. Existem manuais on line em HTML e que podem ser consultados pela internet e ainda manuais em PDF que podem ser
baixados e utilizados gratuitamente. Nestas notas veremos apenas os principais procedimentos do sistema SAS para realizarmos anlises estatsticas.
Enfatizaremos os principais recursos relacionados as anlises de estatstica
bsica, regresso e estatstica experimental. Estes recursos so os mais variados e flexveis e so abordados de maneira simples, sendo que daremos
nfase nas interpretaes estatsticas dos fundamentos dos mtodos e da
inferncia. Utilizaremos apenas exemplos acadmicos simples, que muitas
vezes foram simulados ou so dados fictcios.

1.1

Entrada de dados

O SAS possui inmeros recursos de importao dos mais diferentes banco


de dados e planilhas. Utilizaremos o recurso mais comum de simplesmente
colarmos os dados de outro programa na janela de programa e salvarmos
o arquivo resultante como texto (ASCII). Este formato mais robusto, livre
de vrus, alm de os arquivos resultantes ocuparem menos memria. Quando
possumos valores perdidos no nosso arquivo ou banco de dados, podemos
substituir a clula do arquivo que foi perdida por um ponto. Este o default
do programa SAS, podendo ser mudado de acordo com a preferncia do
usurio.
O arquivo SAS pode ser lido de inmeras maneiras diferentes, porm
utilizaremos as formas mais simples. Temos que pensar que cada varivel
deve ocupar uma coluna do arquivo e cada observao ou unidade amostral
Ferreira, D.F.

Uso de Recursos Computacionais

1.1 Entrada de dados

uma linha. Esta a estrutura utilizada pela maioria dos programas de anlise estatstica. Internamente, ao criarmos o banco de dados e executarmos
o programa, temos que dar um nome, o qual o programa SAS utilizar para
criar no seus diretrios de trabalho SASWORK ou SASUSER o conjunto
de dados que estamos utilizando. Este conjunto de dados SAS Data Set.
Antes dos dados devemos criar trs linhas de comando indicando o nome
deste conjunto de dados, as variveis e um comando de iniciao da leitura
dos dados.
Cada linha de comando do SAS tem algumas palavras reservadas de
comandos e termina com um <;>. Apesar de termos inmeros comandos
diferentes para entrarmos com o SAS Data Set, utilizaremos quase sempre
a seguinte estrutura:

/*exemplo de um arquivo de dados com peso em kg de coelhos hbridos Norfolk abatidos


aos 90 dias de idade. Tudo que est aqui dentro um comentrio do programa.*/
data coelhos;
input peso;
cards;
2.50
2.58
2.60
2.62
2.65
2.66
2.58
2.70
2.55
2.57
2.70
2.62
2.59
2.54
2.53
2.20
;
proc print;
var peso;
run;

Uso de Recursos Computacionais

Ferreira, D.F.

Introduo ao sistema SAS

Podemos explicar os comandos usados neste simples programa da seguinte forma:


1. <data coelhos;>: este comando indica o nome do SAS Data Set. A
palavra data um comando do SAS para indicar o nome do conjunto
de dados e coelhos foi o nome que escolhemos para este exemplo especfico. Podemos observar que terminamos sempre com um ; a linha
de comando. Assim, apesar de no ter vantagem alguma, poderamos colocar data em uma linha, coelhos na outra e o ponto e vrgula
na terceira. Fisicamente teramos trs linhas, mas uma s linha de
comando.
2. <input peso;>: este comando vem com a palavra input para designar as variveis que o nosso conjunto de dados possui. Como temos
somente o peso dos coelhos hbridos Norfolk abatidos aos 90 dias em
kg, somente esta varivel apareceu aps o comando input. Se houvesse mais variveis, estas deveriam ser separadas por pelo menos um
espao em branco, antes do ponto e vrgula.
3. <cards;>: este comando indica que os dados viro na seqncia.
4. <proc print;>: este um dos procedimentos, procedure, do SAS. Os
procedimentos aparecem depois da palavra proc, utilizada como indicativo de procedimento e seguida do nome do procedimento, no caso,
print. Este procedimento utilizado para gerar relatrios de impresso na janela output.
5. <run;>: comando utilizado aps cada procedimento para indicar ao
SAS para execut-lo.
Depois de digitados estes comandos e colocados na janela de programas
do SAS devemos submet-lo ao compilador do programa. Para isso utilizamos o comando submit, que possui o atalho por meio da tecla F 8 ou do
cone (run) correspondente na janela de programas.
Podemos utilizar na linha de comando do input os seguintes caracteres
@@. Isto nos permite digitar o arquivo na seqncia de variveis do arquivo,
Ferreira, D.F.

Uso de Recursos Computacionais

1.1 Entrada de dados

mas no necessariamente obedecendo a estrutura de colunas. Para este


exemplo teramos:

/*exemplo de um arquivo de dados com peso em kg de coelhos hbridos Norfolk abatidos


aos 90 dias de idade. Tudo que est aqui dentro um comentrio do programa.*/
data coelhos;
input peso @@;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
2.54 2.53 2.20
;
proc print;
var peso;
run;

Um segundo exemplo com mais de uma varivel apresentado na seqncia com dados de dez rvores de Araucaria angustifolia. A primeira varivel
Y o volume em m3 /acre, a segunda varivel X1 a rea basal das rvores,
a terceira varivel X2 esta mesma rea basal, mas tomada com referncia
a rea basal de outra espcie (Pinus taeda) e a quarta varivel X3 a altura das rvores em ps. Observamos que a utilizao do @@ possibilita a
leitura dos dados em uma estrutura de uma aparente desorganizao. No
entanto, podemos observar que existe uma seqncia dos valores obedecendo
a seqncia das variveis do input Y , X1 , X2 e X3 .

/*exemplo de um arquivo de dados com dados de 10 rvores de araucria, com 4 variveis.


*/
data arvores;
input Y X1 X2 X3 @@;
cards;
65 41 79 35 78 71 48 53
82 90 80 64 86 80 81 59
87 93 61 66 90 90 70 64

Uso de Recursos Computacionais

Ferreira, D.F.

Introduo ao sistema SAS

93 87 96 62 96 95 84 67
104 100 78 70
113 101 96 71
;
proc print;
var Y X1 X3;
run;

Uma importante situao que acontece em exemplos reais a ocorrncia


de variveis qualitativas. Estas variveis so identificadas por nomes alfanumricos e o SAS permite sua presena. Assim, se um conjunto de dados
possui 3 variveis, sendo por exemplo blocos, tratamentos e produo e a
varivel tratamento possui seus nveis qualitativos (nomes), ento devemos
formar o conjunto de dados normalmente e no input aps as variveis cujos nveis so alfanumricos, devemos colocar um $, conforme o exemplo a
seguir. Isto indicar que aquelas variveis possuem nveis que so nomes e
no nmeros.

/*exemplo de um arquivo com dados experimentais fictcios, onde os nveis dos tratamentos so alfanumricos.*/
data exper;
input bl trat $ prod;
cards;
1 A 12.23
1 B 10.31
1 C 11.90
2 A 14.56
2 B 10.17
2 C 13.45
3 A 16.11
3 B 19.12
3 C 14.73
4 A 12.78
4 B 10.67
4 C 11.34
;
proc print data=exper;
run;

Ferreira, D.F.

Uso de Recursos Computacionais

1.2 Transformaes de variveis

1.2

Transformaes de variveis

Para obtermos novas variveis no SAS a partir de um grupo de variveis


j existentes, no precisamos cri-las fisicamente no SAS data set que temos.
Podemos fazer isso utilizando alguns comandos em determinados lugares de
nosso programa utilizando as funes dos SAS. O arquivo interno do SAS
ter as variveis criadas ou transformadas. Vamos descrever duas formas
bsicas de fazermos isso. A primeira delas utilizamos simples comandos
de transformao de variveis situados entre a linha de comando do input
e do cards. Podemos utilizar uma srie de operadores, sejam eles lgicos
ou no. Alguns exemplos destes operadores so: +: soma; : subtrao;
log: logaritmo neperiano; log 2: logaritmo na base 2; log 10: logaritmo na
base 10; : multiplicao; /: diviso; e : potenciao do tipo X Y , que
no SAS obtido por X Y . O comando no reconhecido pelo SAS
para potenciao. Operadores lgicos como >, GE (), <, LE () ou =
podem ser usados tambm. Estruturas condicionais if then; else so
permitidas, entre outras.
Apresentamos um exemplo na seqncia um exemplo utilizando algumas
destas transformaes de variveis para ilustrarmos os procedimentos.

/*exemplo de um arquivo de dados com peso em kg de coelhos hbridos Norfolk abatidos


aos 90 dias de idade.*/
data coelhos;
input peso @@;
sqrtp=peso**0.5;
pln=log(peso);
if peso<2.55 then classe=1;
else classe=2;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
2.54 2.53 2.20
;
proc print;

Uso de Recursos Computacionais

Ferreira, D.F.

Introduo ao sistema SAS


var peso sqrtp pln classe;

run;

A segunda alternativa nos possibilita realizarmos transformaes sobre


variveis de um SAS Data Set em um lugar qualquer do programa aps a
definio do data set original. Usamos o comando Data para denominarmos
um novo ou o mesmo conjunto de dados e o comando Set para selecionar o
conjunto de dados existente para realizarmos as programaes que almejarmos. Apresentamos o seguinte exemplo utilizando o data set coelhos, onde
no alteramos o seu nome. Veja que teremos o mesmo efeito do exemplo
anterior.

/*exemplo de um arquivo de dados com peso em kg de coelhos hbridos Norfolk abatidos


aos 90 dias de idade.*/
data coelhos;
input peso @@;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59
2.54 2.53 2.20
;
data coelhos; set coelhos;
sqrtp=peso**0.5;
pln=log(peso);
if peso<2.55 then classe=1;
else classe=2;
run;quit;
proc print;
var peso sqrtp pln classe;
run;

Ferreira, D.F.

Uso de Recursos Computacionais

1.3 Ordenamento de dados

1.3

Ordenamento de dados

Podemos utilizar o proc sort do SAS para ordenarmos conjuntos de dados especificando as variveis que almejamos utilizar como chaves do processo de ordenao dos valores do conjunto de dados. Podemos ordenar
em ordem crescente ou decrescente. Por default o SAS ordena em ordem
crescente cada varivel chave. Se quisermos uma ordem decrescente, devemos utilizar o comando descending. Ilustramos o uso do proc sort em um
exemplo, em que uma sala de aula foi dividida em dois grupos de acordo
com os lugares que os alunos sentavam. Os da bancada da direita foram
denominados de grupo 1 e os da esquerda de grupo 2. Foram mensurados os
pesos e altura destes alunos. Usamos o proc sort para ordenar por grupos
em ordem crescente e por peso em ordem decrescente dentro de cada grupo.

/*exemplo de ordenao utilizando o proc sort.*/


data sala;
input grupo peso alt;
cards;
2 72 1.80
1 48.5 1.58
2 88 1.80
1 86 1.83
2 62 1.72
1 79 1.69
2 95 1.93
1 53 1.60
;
proc sort data=sala;
by grupo descending peso;
run;
proc print data=sala;
run;

Uso de Recursos Computacionais

Ferreira, D.F.

10

Introduo ao sistema SAS

1.4

Procedimentos para anlise estatstica

Vamos utilizar neste material basicamente alguns procedimentos SAS


para realizarmos anlise estatstica. Estes procedimentos no SAS so referenciados por proc que a abreviatura de procedure. Vamos neste material apresentar a lgica de tais procedimentos, suas sintaxes e principalmente vamos enfatizar os mtodos estatsticos que esto envolvidos neste
procedimento. Vamos procurar tambm mostrar o proc IML. O programa
SAS/IML fornece ao usurio uma poderosa e flexvel linguagem de programao (Interactive Matrix Language) em um ambiente dinmico e interativo. O objeto fundamental da linguagem uma matriz de dados. A
programao dinmica por causa do dimensionamento das matrizes e da
alocao de memria serem feitos de forma automtica.
Vamos utilizar alguns procedimentos do SAS para efetuarmos anlises
de estatstica bsica, quais sejam, proc univariate, proc summary e proc
ttest. Para realizarmos anlises de regresso linear utilizaremos o proc reg
e para regresso no-linear o proc nlin. Para anlises de modelos lineares
vamos utilizar o proc anova, proc glm e o proc mixed para modelos lineares
mistos. Estimaremos componentes de varincias com o proc varcomp. Poderemos eventualmente utilizar algum outro procedimento especfico para
realizarmos algumas anlises multivariadas.
O SAS um programa que consideramos praticamente completo. Vamos
neste material abordar situaes especficas da estatstica para fazermos
uma introduo ao sistema SAS. No temos de forma alguma a pretenso
de que este seja um material de consulta imprescindvel, mas que sirva de
um roteiro bsico para aqueles que desejam ter uma noo inicial de como
efetuar anlises estatsticas pelo SAS.

Ferreira, D.F.

Uso de Recursos Computacionais

Captulo 2

Estatstica bsica no SAS


O SAS possui muitos recursos para realizarmos anlises estatsticas descritivas de uma amostra de tamanho n. Neste captulo vamos abordar
as principais estatsticas descritivas utilizando o proc univariate e o proc
summary. Vamos ilustrar a obteno de estimativas pontuais de vrios parmetros, histogramas e estimadores de Kernel. Vamos realizar inferncia
sobre mdia de uma populao e de dados emparelhados, tanto testes de
hipteses como estimao intervalar e vamos inferir sobre a distribuio de
probabilidade dos dados amostrais. Para dados de duas amostras independentes vamos utilizar o proc ttest para inferirmos sobre a mdia e sobre a
varincia das populaes amostradas. Para alguns parmetros vamos utilizar o IML para construirmos intervalos de confiana utilizando os recursos
do SAS e a teoria de inferncia. Vamos utilizar diferentes recursos dentro
do contexto da estatstica bsica.

2.1

Estatsticas descritivas

Vamos utilizar basicamente o proc univariate e summary para obtermos


as estatsticas descritivas de uma populao. Vamos supor que temos uma
populao com parmetros desconhecidos. Vamos considerar inicialmente
que essa populao possui uma determinada distribuio de probabilidade
e que este modelo probabilstico o normal, dado por:
Uso de Recursos Computacionais

Ferreira, D.F.

12

Estatstica bsica no SAS

f (x) =

(x )2
2 2 ,
e

(2.1)
2 2
em que os parmetros e 2 so a mdia e a varincia respectivamente.
Este modelo simtrico em relao mdia e o parmetro usado para
medir a simetria o coeficiente de assimetria que pode ter dois estimadores,
o estimador beta e o estimador gama. No SAS o estimador gama de simetria
obtido e o seu valor de referncia na distribuio normal o valor 0. Este
estimador (Ferreira, 2005[3]) dado por:

g1 =
em que mr =

Pn

i=1 (Xi

m3

p
n(n 1)
3/2

(2.2)

(n 2)m2

. )r /n o estimador de centrado de momento de


X

ordem r, sendo r 2.
O coeficiente de curtose populacional da distribuio normal tem como
referncia o valor zero, se for considerado o estimador gama ou o valor 3
se for considerado o estimador beta. O coeficiente de curtose mede o grau
de achatamento da curva. Como o SAS estima somente o parmetro gama,
temos o seguinte estimador do coeficiente de curtose:


(n 1) (n + 1)m4 3(n 1)m22
.
g2 =
(n 2)(n 3)m22

(2.3)

Assim uma distribuio com coeficiente de assimetria igual a zero considerada simtrica; se o coeficiente de assimetria for maior que zero, esta
distribuio ser assimtrica direita e se for menor que zero, assimtrica
esquerda. Da mesma forma uma distribuio com coeficiente de curtose
igual a 0 ser considerada mesocrtica; se o coeficiente de curtose for negativo, ser considerada platicrtica e se for maior que zero, ser considerada
leptocrtica.
Caracterizada a distribuio, o interesse se volta para a caracterizao
da locao e da disperso da populao. A mdia amostral dada por:
n

X
. = 1
Xi .
X
n

(2.4)

i=1

Ferreira, D.F.

Uso de Recursos Computacionais

2.1 Estatsticas descritivas

13

A varincia amostral dada por:

n
1
X 2
S =
Xi

n1
i=1
2

n
X

!2
Xi

i=1

(2.5)

O SAS estima ainda vrias outras estatsticas descritivas, como o desvio padro S, o coeficiente de variao CV , o erro padro da mdia SX , a
mediana md , a soma de quadrados corrigida e no corrigida, alguns percentis entre outras estimativas. Podemos utilizar o proc univariate para esta
finalidade. Este procedimento ainda apresenta a vantagem de propiciar a
estimao do histograma, bem como de permitir um ajuste da distribuio
normal a este histograma. Permite que outras distribuies sejam plotadas e que seus parmetros sejam estimados. Estas distribuies so: beta,
exponencial, gama, Weibull e lognormal. Permite ainda que um estimador
de Kernel de densidade seja estimado e plotado no mesmo grfico. Calcula
ainda grficos de probabilidade e os qqplots para as mesmas distribuies
utilizadas no comando histogram. Na seqncia apresentamos os principais
comandos do proc univariate, descrevendo suas principais opes.
Vamos ilustrar a utilizao do proc univariate com um conjunto de dados de feijo, onde foram avaliadas as produtividades em g/planta de 20
plantas da gerao F2 . Neste programa optamos por apresentar no mesmo
histograma o estimador kernel com suas trs opes (normal, quadratic e
triangular) e com o tamanho do parmetro de suavizao de cada igual a
1. A opo c = 1 1 1 que definiu este valor para cada mtodo. Escolhemos a opo normal para ajustar o polgono da normal ao histograma e
tambm traamos os grficos da probabilidade e dos quantis utilizando os
comandos qqplot e probplot.

/*Exemplo de um arquivo de dados com n = 20 plantas F2 de feijo com o peso de cada


uma em g/plantas.*/
data feijao;
input prod @@;

Uso de Recursos Computacionais

Ferreira, D.F.

14

Estatstica bsica no SAS

cards;
1.38

3.65

3.78

3.87

4.14

4.54

5.64

5.67

6.23

6.79

8.21

9.79

12.13

12.56

13.19

15.60

17.12

19.68

21.26

24.57

;
proc univariate data=feijao;
var prod;
histogram prod/ normal kernel(c=1 1 1 k=normal quadratic triangular);
probplot prod/normal;
qqplot prod/normal;
run;

Ao observamos os resultados, podemos verificar que embora as evidncias descritivas no sejam muito fortes, no parece haver uma boa concordncia da distribuio dos dados amostrais com a distribuio normal.
Testes formais precisam ser feitos para que haja uma confirmao ou no
destas evidncias descritivas. Um outro comentrio simples que gostaramos de fazer neste instante diz respeito forma que devemos sumariar os
resultados descritivos de posio e disperso em um trabalho cientfico. Em
geral, se a distribuio simtrica utilizamos a mdia como medida de posio. Associada a esta medida devemos apresentar uma medida de disperso.
Podemos escolher o desvio padro ou o erro padro, conforme o objetivo do
trabalho. Se queremos retratar a variabilidade dos dados populacionais em
relao a mdia desta populao, devemos utilizar o desvio padro como
uma estimativa desta medida. O coeficiente de variao tambm pode ser
utilizado se pretendemos apresentar esta variabilidade em uma escala relativa e no absoluta. Se por outro lado desejamos caracterizar a preciso
com que a mdia populacional foi estimada, ou seja, a preciso da estimativa
obtida, deveremos reportar o erro padro da mdia.
A forma como estas medidas devem ser apresentadas tambm alvo de
muita polmica no meio cientfico. Muitas crticas surgem quando apresen . S ou por X
. S .
tamos em uma tabela ou no texto, os resultados por X
X.

O uso do muito criticado, pois gera ambigidade dos resultados e das


interpretaes. Isto porque pode dar idia de que o resultado se trata de
Ferreira, D.F.

Uso de Recursos Computacionais

2.1 Estatsticas descritivas

15

um intervalo de confiana, o que no verdade. Assim, prefervel que



. (S) ou por X
. S . Em ambos
os resultados sejam apresentados por X
X.

os casos deve ficar claro para o leitor que se trata da estimativa da mdia
seguida, entre parnteses, pelo desvio padro ou pelo erro padro. No temos restries ao uso particular de um destes estimadores: coeficiente de
variao, desvio padro ou erro padro. Isto porque podemos calcular a
partir de um deles os demais. Ento se torna preponderante a apresentao
do tamanho da amostra n utilizado no experimento ou no levantamento
amostral (Ferreira, 2005[3]).
Podemos utilizar ainda o proc summary para obtermos algumas estatsticas descritivas. Este procedimento interessante por realizar estimao
por intervalo de mdias de populaes normais. Assim, podemos complementar a informao do proc univariate que realiza testes de hipteses paramtricos e no-paramtricos sobre a mdia. Utilizamos os dados de feijo
anteriormente apresentados para mostrar uma aplicao do proc summary
e de sua sintaxe bsica. Por default este procedimento no produz output. Devemos utilizar a opo print para obtermos o resultado na janela
de sada. As estatsticas descritivas que almejamos devem ser solicitadas ao
procedimento. A lista de opes : alpha, clm, range, css, skewness (skew),
cv, stddev (std), kurtosis (kurt), stderr, lclm, sum, max, sumwgt, mean,
uclm, min, n, uss, var, nmiss. As opes de quantis so: median (p50), q3
(p75), p1, p90, p5, p95, p10, p99, q1 (p25) e qrange. A opo qrange
a amplitude interquartlica: p75 p25. O exemplo final com algumas das
opes :

/*Exemplo de um arquivo de dados com n = 20 plantas F2 de feijo com o peso de cada


uma em g/plantas.*/
data feijao;
input prod @@;
cards;
1.38

3.65

3.78

3.87

4.14

4.54

5.64

5.67

6.23

6.79

8.21

9.79

12.13

12.56

13.19

15.60

17.12

19.68

21.26

24.57

Uso de Recursos Computacionais

Ferreira, D.F.

16

Estatstica bsica no SAS

;
proc summary data=feijao print range css skew cv std kurt stderr sum max mean min n
uss var nmiss p5 p95 qrange;
var prod;
run;

2.2

Estimao de Parmetros

Vamos apresentar vrios procedimentos para estimao dos principais


parmetros de uma populao. Nesta seo vamos considerar a estimao
de mdia, proporo, varincia, desvio padro, coeficiente de variao e
diferenas de mdias.

2.2.1

Estimao de Mdias, Desvio Padro e Varincias

Vamos apresentar o procedimento SAS para estimao intervalar de mdias de uma populao normal. Para isso vamos utilizar novamente o proc
summary. Neste caso utilizamos a opo clm (confidence limits for the
mean) e a opo alpha para determinarmos o valor do coeficiente de confiana que dado por 1 . Por default o SAS utiliza = 0, 05. O intervalo
de confiana para a mdia de uma normal dado por:
. t/2; S ,
IC1 () : X
n

(2.6)

em que t/2; o quantil superior 100/2% da distribuio t de Student


com = n 1 graus de liberdade.
O programa SAS para realizarmos a estimao por intervalo para a
mdia de uma populao normal, considerando os dados de feijo como
exemplo, est apresentado na seqncia. Vamos a partir deste instante fazer algumas simplificaes nos programas, apresentando somente a parte
contendo os comandos de interesse e omitindo a parte de entrada de dados.
S apresentaremos a parte de entrada de dados quando se tratar de conjuntos de valores que ainda no foram descritos anteriormente. O programa
simplificado :
Ferreira, D.F.

Uso de Recursos Computacionais

2.2 Estimao de Parmetros

17

/*Exemplo da utilizao dos dados de feijo para obtermos o intervalo de 95% para a
mdia.*/
proc summary data=feijao print alpha=0.05 mean stderr n std clm;
var prod;
run;

Tambm podemos utilizar o proc univariate para realizarmos intervalo


de confiana para mdia, desvio padro e varincia de uma populao normal utilizando a opo cibasic. O intervalo de confiana para a varincia
de uma populao normal dado por:
#
(n 1)S 2 (n 1)S 2
,
; 2
IC1 ( ) :
2/2;
1/2;
"

(2.7)

em que 2/2; e 21/2; so os quantis superiores 100/2% e 100(1


/2)% da distribuio qui-quadrado com = n 1 graus de liberdade,
respectivamente.
O intervalo de confiana para o desvio padro populacional () obtido calculando a raiz quadrada dos limites do intervalo de confiana para
varincia. O programa SAS para obteno destes intervalos, utilizando os
dados do feijo, dado por:

/*Exemplo da utilizao dos dados de feijo para obtermos o intervalo de 95% para a
mdia, desvio padro e varincia.*/
proc univariate data=feijao alpha=0.05 cibasic;
var prod;
run;

2.2.2

Estimao de Propores

Para estimarmos por intervalo propores binomiais podemos utilizar a


aproximao normal em grandes amostras e o intervalo de confiana exato.
Uso de Recursos Computacionais

Ferreira, D.F.

18

Estatstica bsica no SAS

Estes mtodos sero implementados no proc iml para ilustrarmos a sua utilizao e a de algumas funes do SAS para obteno de quantis dos modelos
probabilsticos necessrios em cada caso. Dada uma amostra de tamanho
n de eventos Bernoulli independentes e com probabilidade de sucesso constante p, em que exatamente y sucessos foram observados, o intervalo de
confiana normal aproximado para p dado por:

r
IC1 (p) : p z/2

p(1 p)
,
n

(2.8)

em que p = y/n estimador pontual de p e z/2 o quantil superior /2


da distribuio normal padro.
O intervalo de confiana exato para as propores binomiais deve ser
utilizado principalmente se n for pequeno e se p se afastar muito de 1/2.
Este intervalo baseado na relao da binomial com a beta incompleta
e portanto com a distribuio F . O intervalo de confiana exato para as
propores binomiais dado por:

IC1 (p) :

1
1
,
;

y
(n y + 1)F/2;2(ny+1),2y 1 +
1+
(y
+
1)F
/2;2(y+1),2(ny)
y

(2.9)

em que F/2;1 ,2 o quantil superior 100/2% da distribuio F com 1 e


2 graus de liberdade.
Implementamos um programa no proc iml utilizando os recursos da linguagem SAS, onde o usurio deve trocar os valores de y e de n apresentados
no programa, conforme forem os resultados de sua pesquisa. O valor de
tambm deve ser alterado se tivermos interesse em outro coeficiente de confiana do que aquele utilizado no programa.

/*Utilizao do Proc IML para a obteno de intervalos exato e aproximado para o


parmetro binomial p em uma amostra de tamanho n, com coeficiente de confiana de
(1 )100%, onde foram observados y sucessos.*/
proc iml;
/*Intervalo de confiana exato*/;

Ferreira, D.F.

Uso de Recursos Computacionais

2.2 Estimao de Parmetros

19

y=2;n=10;p=y/n;alpha=0.05;
if y=0 then F1=0;
else F1=Finv(1-alpha/2,2*(n-y+1),2*y);
if y=n then F2=0;
else F2=Finv(1-alpha/2,2*(y+1),2*(n-y));
if y=0 then LIE=0;
else LIE=1/(1+(n-y+1)*F1/y);
if y=n then LSE=1;
else LSE=1/(1+(n-y)/(F2*(y+1)));
print IC exato para p: LIE LSE alpha: alpha phat: p;
/*Intervalo de confiana normal aproximado*/;
z=probit(1-alpha/2);
LIap=p-z*(p*(1-p)/n)**0.5;
LSap=p+z*(p*(1-p)/n)**0.5;
print IC aproximado para p: LIap LSap alpha: alpha;
quit;

2.2.3

Estimao de Coeficientes de Variao

Para estimar o intervalo de confiana do coeficiente de variao popula . o estimador do coeficiente de variao.
cional de uma normal, seja
= S/X
O intervalo aproximado proposto por Vangel (1996)[15] dado por:

IC1 () :

LI = v

u
2

2/2
u /2 + 2

t
2

1
+

+1

(2.10)

LS = v
,

u
2
2

+
2

1/2
1/2

1
2 +

+1

em que 2/2 e 21/2 so os quantis superiores 100/2% e 100(1 /2)%


da distribuio de qui-quadrado com = n 1 graus de liberdade.
Novamente utilizamos o proc iml para obter o intervalo de confiana
para o coeficiente de variao, dadas as estimativas da varincia e da mdia
e o tamanho da amostra. O programa resultante dado por:
Uso de Recursos Computacionais

Ferreira, D.F.

20

Estatstica bsica no SAS

/*Utilizao do Proc IML para a obteno de intervalos de confiana para o coeficiente


de variao em uma amostra de tamanho n, com coeficiente de confiana de (1 )100%,
sendo dado a mdia e varincia amostral.*/
proc iml;
/*Intervalo de confiana para o CV*/
xbar=194.8333;S2=26.2947;n=6;alpha=0.05;
khat=S2**0.5/xbar;
qui1=cinv(1-alpha/2,n-1);
qui2=cinv(alpha/2,n-1);
LICV=khat/(((qui1+2)/n-1)*khat**2+qui1/(n-1))**0.5;
LSCV=khat/(((qui2+2)/n-1)*khat**2+qui2/(n-1))**0.5;
print IC para o CV: LICV LSCV alpha: alpha khat: khat;
quit;

2.2.4

Diferena de Duas Mdias Independentes

Esta uma situao de muito interesse para os pesquisadores, pois


muito comum obter amostras independentes de duas populaes. O objetivo obter o intervalo de confiana para a diferena das mdias 1 2 das
duas populaes. Algumas suposies so feitas para a utilizao dos procedimentos estatsticos adequados. Inicialmente pressupomos que ambas as
populaes possuem distribuio normal com mdias 1 e 2 e varincias
12 e 22 , respectivamente. Ao obtermos as amostras aleatrias de tamanhos
n1 e n2 das populaes 1 e 2, respectivamente, devemos supor independncia entre as observaes das diferentes amostras e tambm das observaes
dentro das duas amostras. Finalmente, supomos que as varincias das duas
populaes so homogneas, ou seja, que 12 = 22 .
Sejam X1 e X2 os estimadores das mdias da populaes 1 e 2 e S12
e S22 os estimadores das varincias populacionais obtidos em amostras de
tamanho n1 e n2 , respectivamente, ento duas situaes distintas podem
ser consideradas. A primeira quando 12 = 22 e a segunda quando 12 6= 22 .
Estas duas situaes esto destacadas na seqncia.
a. Se 12 = 22 : O intervalo de confiana quando as varincias so homogneas dado por:
Ferreira, D.F.

Uso de Recursos Computacionais

2.2 Estimao de Parmetros

21

s
IC1 (1 2 ) : X1 X2 t/2;

Sp2


1
1
+
,
n1 n2

(2.11)

em que t/2; o quantil superior /2 da distribuio t de Student com


= n1 + n2 2 graus de liberdade e Sp2 a varincia combinada (pooled )
dada por:

Sp2 =

(n1 1)S12 + (n2 1)S22


.
n1 + n2 2

(2.12)

b. Se 12 6= 22 : Neste caso a distribuio t de Student no mais exata


para obtermos o intervalo de confiana. No entanto, esta distribuio
utilizada de forma aproximada, ajustando somente os graus de liberdade.
Este ajuste aos graus de liberdade atribudo a Satterthwaite (1946)[11].
O intervalo de confiana aproximado dado por:

s
IC1 (1 2 ) : X1 X2 t/2;

S12 S22
+
.
n1
n2

(2.13)

Neste caso os graus de liberdade para a obteno do quantil superior


da distribuio t de Student ajustado (Satterthwaite, 1946) por:

2
S12 S22
+
n1
n2

=  2 2  2  2 .
S1
S2
n1
n2
+
n1 1
n2 1


(2.14)

O procedimento mais apropriado para estimar duas mdias populacionais por intervalo requer que tenhamos o conhecimento sobre a homogeneidade ou no das varincias das duas populaes. Como se tratam de
parmetros desconhecidos podemos inferir apenas a este respeito. Para isso
podemos utilizar o teste F. Um artifcio que utilizamos considerar a varincia maior no numerador da expresso, multiplicando o valor encontrado
por 2. Assim, para testarmos a hiptese H0 : 12 = 22 calculamos:
Uso de Recursos Computacionais

Ferreira, D.F.

22

Estatstica bsica no SAS

Fc =

2
SM
aior
2
SM
enor

(2.15)

e o valor-p determinado por 2 P (F > Fc ). Se valor-p for menor ou


igual ao valor nominal , rejeitamos H0 . O programa SAS resultante deste
procedimento dado por:

/*Utilizao do Proc IML para a obteno de intervalos de confiana para o diferena


de duas mdias, testando antes a igualdade de varincias, utilizando uma confiana de
(1 )100%.*/
proc iml;
/*Dados amostrais H pop. 1 e M= pop 2*/;
h={72,88,62,95};m={48.5,86,79,53};
n1=nrow(h);n2=nrow(m);alpha=0.05;
xb1=sum(h)/n1;xb2=sum(m)/n2;
s21=(t(h)*h-sum(h)**2/n1)/(n1-1);
s22=(t(m)*m-sum(m)**2/n2)/(n2-1);
/*teste de hiptese*/
smaior=max(s21,s22);
smenor=min(s21,s22);
if s21>s22 then v1=n1-1;
else v1=n2-1;
if s21>s22 then v2=n2-1;
else v2=n1-1;
Fc=smaior/smenor;
pval=2*(1-probF(fc,v1,v2));
print FC fc alpha: alpha pval: pval;
if pval>alpha then
do;
sp=((n1-1)*s21+(n2-1)*s22)/(n1+n2-2);
t=tinv(1-alpha/2, n1+n2-2);
LIE=xb1-xb2-t*(sp*(1/n1+1/n2))**0.5;
LSE=xb1-xb2+t*(sp*(1/n1+1/n2))**0.5;
print LI LIE LS LSE;
end;
else do;
v=(s21/n1+s22/n2)**2/((s21/n1)**2/(n1-1)+(s22/n2)**2/(n2-1));
t=tinv(1-alpha/2, v);
LIA=xb1-xb2-t*(s21/n1+s22/n2)**0.5;

Ferreira, D.F.

Uso de Recursos Computacionais

2.2 Estimao de Parmetros

23

LSA=xb1-xb2+t*(s21/n1+s22/n2)**0.5;
print LI LIA LS LSA;
end;
quit;

2.2.5

Estimao da Diferenas de Duas Mdias Em Dados


Emparelhados

Em muitas ocasies experimentais nos deparamos com a necessidade de


inferir sobre o efeito de algum medicamento, fertilizante, fungicida entre
outros tratamentos. Realizamos experimentos onde temos o maior grau de
controle local possvel, ou seja, mensuramos os indivduos ou as unidades
experimentais antes da aplicao do tratamento e aps a sua aplicao.
Neste experimento temos a mesma unidade experimental servindo de controle local. Isto torna este experimento mais eficiente que o experimento em
que as amostras so tomadas de forma independente na populao tratada
e no tratada. Uma alternativa a este delineamento experimental possvel
de ser obtida se utilizarmos duas parcelas experimentais locadas e submetidas sob as mesmas condies e sorteamos uma para receber o tratamento
e a outra para no receb-lo.
Se Xi e Yi so as respostas mensuradas antes e aps a aplicao do tratamento, respectivamente, na isima unidade amostral, para i = 1, 2, , n,
ento podemos gerar a varivel aleatria di = Yi Xi . A estimao pontual
do valor esperado desta varivel aleatria E(di ) = = Y X pode ser
feita por:

n
X

d =

i=1

di
.

(2.16)

O estimador da varincia populacional das diferenas dado por:


Uso de Recursos Computacionais

Ferreira, D.F.

24

Estatstica bsica no SAS

n
X
1

Sd2 =
d2i

n1
i=1

n
X

!2
di

i=1

(2.17)

Assim, o intervalo de confiana pode ser obtido por:

sd
IC1 () : d t/2;=n1 .
n

(2.18)

O artifcio que usaremos para obter o intervalo de confiana almejado


consiste em considerar com um conjunto de dados, para o qual especificamos
em cada parcela a varivel X e a varivel Y (antes e aps). Em seguida
utilizando o processo de transformao de variveis descritos na seo 1.2
devemos gerar D = Y X. Finalmente utilizamos o proc summary ou
o proc univariate para obtermos o intervalo de confiana para a mdia.
No programa seguinte descrevemos este processo com a utilizao do proc
summary. Este exemplo refere-se a produo de leite mdia diria em kg de
todos os animais de uma fazenda em uma amostra de 6 fazendas da regio
de Marechal Cndido Rondom antes X e aps Y um plano governamental.
A questo era responder se o plano foi eficiente e se sim, qual foi o aumento
na produo mdia diria de leite dos animais em kg. Tomamos apenas
uma parte dos dados n = 6 para ilustrar de forma didatica esta situao.
O programa SAS :

/*Utilizao do Proc Summary para a obteno de intervalos de confiana para o diferena de duas mdias emparelhadas, utilizando uma confiana de (1 )100%.*/
data leite;
input X Y;
d=Y-X;
cards;
12.00 12.56
11.58 13.98
11.67 14.23
12.32 14.56

Ferreira, D.F.

Uso de Recursos Computacionais

2.3 Testes de Hipteses

25

11.23 13.71
11.25 16.78
;
proc summary data=leite print alpha=0.05 n mean std stderr clm;
var d;
run;quit;

2.3

Testes de Hipteses

Neste seo trataremos dos testes de hipteses sobre os principais parmetros de uma ou duas populaes. Antes de apresentarmos os mtodos
e recursos computacionais para realizarmos os testes de hipteses, devemos
atentar para o fato de que existe uma relao estreita entre os procedimentos
de estimao e deciso.
Se j temos um intervalo de confiana construdo, podemos testar uma
hiptese bilateral apenas verificando se este intervalo contm o valor hipottico. Caso o valor hipottico pertena ao intervalo de confiana no temos
evidncias significativas para rejeitar a hiptese nula. Por outro lado, se o
valor hipottico no pertence ao intervalo de confiana, podemos concluir
a favor da hiptese alternativa, rejeitando a hiptese nula. Assim, vamos
apresentar somente os procedimentos para testarmos mdias de uma populao e de duas, sejam elas independentes ou emparelhadas. Testes sobre
varincias, desvios padres ou coeficientes de variao podero ser realizados com o uso dos intervalos de confiana apresentados anteriormente.

2.3.1

Teste Sobre Mdias

Para testarmos hipteses sobre mdias normais devemos utilizar o teste


t de Student. Assim, para testarmos a hiptese nula H0 : = 0 utilizamos
os seguintes procedimentos. Inicialmente calculamos a estatstica do teste
por

tc =

Uso de Recursos Computacionais

0
X
.
S

(2.19)

Ferreira, D.F.

26

Estatstica bsica no SAS


Se a hiptese alternativa for do tipo bilateral H1 : 6= 0 , calculamos

o valor-p por P (t > |tc |); se a hiptese alternativa for unilateral do tipo
H1 : > 0 , calculamos o valor-p por P (t > tc ); e se a hiptese alternativa
for unilateral do tipo H1 : < 0 , calculamos o valor-p por P (t < tc ).
Finalmente, confrontamos o valor-p com o valor nominal do nvel de significncia . Se o valor-p for inferior ou igual a , devemos rejeitar a hiptese
nula neste nvel de significncia; caso contrrio, no devemos rejeitar H0 .
Se a distribuio dos dados no for normal podemos utilizar dois testes
no-paramtricos: o teste do sinal e o teste dos postos com sinais de Wilcoxon. Vamos descrever o teste do sinal com detalhes e realizar apenas uma
breve descrio do teste de Wilcoxon.
Para aplicarmos o teste do sinal, inicialmente calculamos o nmero de
sinais positivos e negativos para a diferena de cada observao amostral
com o valor hipottico. Se Xi 0 representa esta diferena, ento podemos
definir n+ como o nmero de observaes para as quais Xi > 0 (sinais
positivos) e n com o nmero de observaes para as quais Xi < 0 (sinais
negativos). Devemos desprezar todas as observaes para as quais Xi = 0 .
Assim, o nmero de observaes efetivas amostrais ne = n+ + n . Ao
realizarmos este teste estamos supondo que se a hiptese nula for verdadeira,
o nmero de sinais positivos deve ser igual ao nmero de sinais negativos.
Aplicamos, ento, um teste binomial para p = 1/2, em que p a proporo
de sinais positivos ou negativos. Assim, a estatstica do teste sinal dada
por:

Mc =

n+ n
.
2

(2.20)

O valor-p calculado utilizando a distribuio binomial em um teste


bilateral por:
 (ne 1) min(n

+ ,n ) 
X
1
ne
valor p = P (M > |Mc |) =
.
2
j

(2.21)

j=0

O valor-p confrontado com o valor de e tomamos a deciso de rejeitar ou no a hiptese nula utilizando procedimentos semelhantes ao que
apresentamos anteriormente para o teste t.
Ferreira, D.F.

Uso de Recursos Computacionais

2.3 Testes de Hipteses

27

A estatstica do teste do sinal com postos de Wilcoxon obtida calculando-se todos os desvios das observaes em relao ao valor hipottico e
tomando-se os postos dos valores destas diferenas em mdulo di = |Xi 0 |.
Se algum valor amostral for igual a zero, devemos elimin-lo da amostra,
como fazemos no teste do sinal. Se houver empates, tomamos a mdia dos
postos que seriam atribudos a estas observaes empatadas. Retornamos
os sinais de Xi 0 aos postos das diferenas e somamos os valores positivos.
Esta soma representada por W + e a estatstica do teste. Os valores-p
podem ser obtidos utilizando-se uma aproximao normal ou a distribuio
nula da estatstica W + , derivada pela atribuio de sinais positivos ou negativos a cada posto amostral em todas as combinaes possveis. O teste
de Wilcoxon , em geral, mais poderoso do que o teste do sinal. Nenhum
detalhe adicional ser apresentado neste material.
Podemos utilizar o proc univariate para testarmos hipteses sobre a
mdia de uma populao. O proc univariate utiliza as trs opes apresentadas nesta seo para realizarmos o teste de hiptese. Devemos optar pelo
teste mais apropriado conforme for o caso. Esta escolha deve ser pautada
no atendimento ou no das pressuposies bsicas de cada teste. Um procedimento SAS apresentado na seqncia para testarmos a hiptese da
igualdade da mdia do peso dos coelhos hbridos Norfolk abatidos aos 90
dias a 2, 50 kg, ou seja, para testarmos H0 : = 2, 50. Se vrias variveis
so apresentadas no comando var, devemos utilizar a opo mu0 = 0.5 2.5
, indicando que o valor sob H0 para a primeira varivel 0, 5, para a
segunda 2, 5 e assim sucessivamente at completar o nmero de variveis
do comando var. O programa resultante :

/*Utilizao do Proc Univariate para testarmos a hiptese sobre a mdia de uma populao normal e no normais (testes no-paramtricos). Utilizamos o exemplo dos coelhos
Norfolk para ilustrar os testes.*/
data coelhos;
input peso @@;
cards;
2.50 2.58 2.60 2.62 2.65
2.66 2.58 2.70 2.55 2.57
2.70 2.62 2.59

Uso de Recursos Computacionais

Ferreira, D.F.

28

Estatstica bsica no SAS

2.54 2.53 2.20


;
proc univariate data=coelhos mu0=2.5 alpha=0.05;
var peso;
run;quit;

2.3.2

Teste Sobre Mdias de Duas Populaes Emparelhadas

Quando temos dados emparelhados, antes e aps a aplicao de um tratamento podemos estar interessados em testes de hipteses sobre o efeito
deste tratamento. Podemos utilizar o mesmo procedimento descrito anteriormente para mdia e assim testar hipteses sobre o efeito do tratamento.
A hiptese nula de interesse dada por H0 : = 0 . Podemos utilizar o
teste t de Student se as variveis (Xi , Yi ) tiverem distribuio normal bivariada ou, em caso contrrio, os testes no-paramtricos do sinal e do sinal
com postos de Wilcoxon.
Seja di = Yi Xi a diferena entre a observao da i-sima unidade
amostral aps Yi e antes Xi da aplicao do tratamento, sendo i = 1, 2, n.
Sejam d e S 2 a mdia e a varincia amostral destas n observaes, ento a
d

estatstica do teste da hiptese H0 : = 0 supondo normalidade bivariada


dado por:

tc =

d 0
,
Sd

(2.22)

que segue a distribuio t de Student com = n 1 graus de liberdade sob


a hiptese nula.
O teste do sinal obtido contando-se o nmero de vezes que di > 0
e desprezando-se os casos em que di = 0 . As expresses 2.20 e 2.21 so
usadas para testar a hiptese de interesse. O teste do sinal com postos de
Wilcoxon tambm obtido da mesma forma considerando tanto o posto da
diferena di 0 considerada em mdulo, quanto o sinal da diferena. Como
se trata apenas de uma aplicao do mesmo procedimento adaptado para
Ferreira, D.F.

Uso de Recursos Computacionais

2.3 Testes de Hipteses

29

esta situao, no faremos nenhum comentrio adicional, por julgarmos


suficiente o que j abordamos.
A seguir detalharemos o programa SAS para aplicar o teste de avaliao da eficincia de um plano governamental no aumento da mdia dos
ndices zootcnicos da regio de Marechal Cndido Rondom. A produo
mdia diria de seis fazendas foi avaliadas antes (X) e aps (Y ) o plano
governamental. Inicialmente criamos uma varivel com a diferena e ento
utilizamos o proc univariate da mesma forma que fizemos nos testes de hipteses sobre a mdia de uma populao. Neste exemplo, a hiptese nula
consiste na afirmativa que o plano no foi eficiente, ou seja, H0 : = 0 = 0.
Assim, ao utilizarmos o proc univariate devemos especificar a hiptese com
a opo mu0=0 ou simplesmente no especificar nada, pois o valor 0 o
default deste procedimento. O programa resultante dado por:

/*Utilizao do Proc univariate para a testarmos a hiptese de no haver efeito do plano


governamental panela cheia na melhoria da produtividade leiteira das fazendas da cidade
de Marechal Cndido Rondom no Paran.*/
data leite;
input X Y;
d=Y-X;
cards;
12.00 12.56
11.58 13.98
11.67 14.23
12.32 14.56
11.23 13.71
11.25 16.78
;
proc univariate data=leite mu0=0;
var d;
run;quit;

Podemos utilizar um procedimento especializado do SAS para aplicar


o teste de hiptese sobre a diferena de duas mdias emparelhadas. Este
procedimento o proc ttest. Uma vantagem deste procedimento podermos
Uso de Recursos Computacionais

Ferreira, D.F.

30

Estatstica bsica no SAS

obter, alm do teste de hiptese, o intervalo de confiana para a diferena


de mdias e para o desvio padro da diferena. Utilizamos a opo H0 = 0
para especificarmos o valor nulo da hiptese. O programa ilustrativo desta
situao dado por:

/*Utilizao do Proc ttest para testarmos a hiptese de no haver efeito do plano governamental panela cheia na melhoria da produtividade leiteira das fazendas da cidade de
Marechal Cndido Rondom no Paran.*/
data leite;
input X Y;
cards;
12.00 12.56
11.58 13.98
11.67 14.23
12.32 14.56
11.23 13.71
11.25 16.78
;
proc ttest data=leite h0=0;
paired y*x;
run;quit;

2.3.3

Teste Sobre Mdias de Duas Populaes Independentes

Finalmente podemos testar a hiptese da igualdade de duas mdias populacionais independentes. Para este caso o SAS possui um procedimento
especializado, o proc ttest. Conforme j apresentamos na seo de estimao
por intervalo, devemos inicialmente aplicar o teste de igualdade de varincias e de acordo com os resultados obtidos, escolhemos entre o teste t de
Student exato ou aproximado. O teste exato ocorre quando as varincias
so consideradas homogneas; o teste aproximado quando as varincias
so heterogneas. Devemos neste ltimo caso utilizar o ajuste de graus de
liberdade pelo procedimento de Satterthwaite (1946)[11] ou o procedimento
Ferreira, D.F.

Uso de Recursos Computacionais

2.3 Testes de Hipteses

31

de Cochran e Cox que aproxima o nvel de probabilidade da estatstica t de


Student aproximada.
Vamos apresentar na seqncia o proc ttest com o objetivo de ilustra
sua utilizao. Para isso, um exemplo em dois grupos de alunos foram
avaliados com relao ao peso em kg e a altura em m. Os grupos referemse aos alunos que sentam na bancada da direita (grupo 1) e da esquerda
(grupo 2) do laboratrio de informtica. A primeira turma desta disciplina
foi amostrada para esta finalidade. Esperamos a princpio que no haja
diferenas significativas entre os dois grupos, uma vez que a distribuio
completamente aleatria nas duas bancadas da sala de aula.
Devemos fazer um conjunto de dados criando uma varivel para identificarmos os grupos. Esta varivel tem que ter sempre dois nveis para
1 e X
2 as mdias das amostras
podermos utilizar o proc ttest. Sejam X
aleatrias de tamanhos n1 e n2 , respectivamente, retiradas das populaes
1 e 2. Sejam S12 e S22 as varincias amostrais relativas s populaes 1 e
2. Pressupomos que as amostras sejam aleatrias e independentes e que a
distribuio das duas populaes seja normal.
Inicialmente devemos testar a hiptese sobre a igualdade das varincias
H0 : 12 = 22 . Assim, de acordo com este teste devemos aplicar o teste de
igualdade da diferena das mdias populacionais a um valor de interesse,
ou seja, H0 : 1 2 = 0 utilizando os seguintes procedimentos:
a) Se 12 = 22 :
Neste caso, o teste de igualdade da diferena das mdias populacionais
a um valor de interesse exato e a estatstica do teste, dada por
1 X
2 0
X
tc = s 

1
1
2
Sp
+
n1 n2

(2.23)

segue a distribuio t de Student com = n1 +n2 2 graus de liberdade.


O significado de Sp2 foi apresentado na equao 2.12.
b) Se 12 6= 22 :
Neste caso, a estatstica do teste no segue de forma exata a distribuio
t de Student. Ento, ajustamos os graus de liberdade pelo procedimento
Uso de Recursos Computacionais

Ferreira, D.F.

32

Estatstica bsica no SAS


de Satterthwaite (1946)[11] ou ajustamos as probabilidades pelo procedimento de Cochran e Cox. A estatstica do teste dada por
1 X
2 0
X
tc = s
S12 S22
+
n1
n2

(2.24)

segue aproximadamente a distribuio t de Student com graus de liberdade obtidos com o uso da expresso 2.14.
Para utilizarmos o proc ttest devemos especificar o valor 0 . Isto feito
utilizando a opo H0 = 0 . A opo Cochran tambm foi utilizada. Devemos, no entanto, alertar o leitor que, via de regra, os dois procedimentos
utilizados para ajustar os graus de liberdade ou as probabilidades, fornecem
resultados similares dos testes. Alm disso, a deciso tomada, em geral,
a mesma. O programa SAS utilizando o exemplo dos grupos de alunos
dado por:

/*exemplo do uso do proc ttest para duas amostras independentes.*/


data sala;
input grupo peso alt;
cards;
1 48.5 1.58
1 53.0 1.60
1 86.0 1.83
1 79.0 1.69
2 62.0 1.72
2 95.0 1.93
2 88.0 1.80
2 72.0 1.80
;
proc ttest data=sala cochran h0=0;
class grupo;
var peso alt;
run;

Devemos especificar no comando class a varivel com dois nveis que so


usados para identificar as populaes. Devemos tambm determinar quais
Ferreira, D.F.

Uso de Recursos Computacionais

2.3 Testes de Hipteses

33

variveis vamos analisar com o comando var e o valor hipottico. Infelizmente o SAS no permite especificar um valor diferente para cada varivel
com o comando H0. Se quisermos testar um valor diferente para cada varivel, devemos fazer vrios comandos repetidos, como no programa anterior,
especificando um valor hipottico diferente para cada varivel. Por default
o proc ttest utiliza o valor zero se nada for especificado. Obtivemos para
ambas variveis resultados no significativos para os testes da igualdade
varincias e de mdias dos dois grupos, como era esperado.
O proc ttest nos permite calcular o intervalo de confiana para a mdia
de cada populao e para a diferena de mdias. Tambm fornece o intervalo de confiana para as varincias. No entanto, o intervalo de confiana
da diferena de duas mdias deste procedimento do SAS ignora completamente o teste de igualdade de varincias e estima a diferena de duas mdias
por intervalo utilizando o procedimento de quando as varincias so homogneas. Assim, se o teste de homogeneidade de varincias for rejeitado, o
intervalo de confiana fornecido via de regra muito impreciso e deve ser
desconsiderado. Recomendamos o uso do programa utilizando o proc iml
que fornecemos anteriormente.

2.3.4

Teste de Normalidade

O SAS nos permite realizar teste de normalidade para os dados amostrais coletados em n unidades. Anteriormente j apresentamos alguns destes
testes quando utilizamos o comando histogram prod/normal; no proc univariate. Os testes aplicados no SAS so Kolmogorov-Smirnov, Cramer-von
Mises e Anderson-Darling. Tambm possvel chamar o teste de normalidade sem solicitar o histograma e a estimao dos parmetros da normal.
Podemos utilizar a seguinte linha de comando: proc univariate data=feijao
normal;. Assim, teremos os mesmos testes de normalidade, incorporando,
porm, o poderoso teste de Shapiro-Wilk.
O SAS fornece o valor da estatstica de cada teste e o valor-p associado.
Se este valor-p for menor do que o valor nominal de significncia previamente adotado, ento devemos rejeitar a hiptese nula de normalidade;
caso contrrio, no haver evidncias significativas neste nvel para rejeitar
Uso de Recursos Computacionais

Ferreira, D.F.

34

Estatstica bsica no SAS

a hiptese de normalidade.
Devemos enfatizar que o teste de normalidade aplicado no contexto de
uma amostra aleatria simples onde no h controle local e efeitos de diferentes tratamentos atuando totalmente justificvel, pois estamos diante
de um modelo linear simples do tipo:
Yi = + i ,
em que Yi a observao amostral da i-sima unidade amostral, a mdia
geral e i o erro associado a i-sima unidade amostral.
Nos modelos lineares a suposio de normalidade feita sobre os resduos e no sobre a varivel dependente. Neste modelo linear simples, ao
erro de todas as observaes acrescido uma nica constante e esta constante somente faz uma translao dos valores de Y , no alterando a sua
distribuio. Assim, testar a normalidade de Y ou de  so procedimentos
equivalentes. O que muitos pesquisadores fazem muitas vezes dentro do
contexto da experimentao testar a hiptese de normalidade da varivel resposta para verificar se esta pressuposio foi atendida, para validar
as inferncias realizadas. Isto muitas vezes incorreto, pois se pressupe
resduos e no variveis respostas normais. Ento, sob um modelo mais
complexo, onde existe controle local, efeito de bloco (j ) e\ou efeitos de
tratamentos (i ), a varivel resposta Y ter uma distribuio que na verdade uma mistura de distribuies normais com diferentes mdias. Observe
que para o modelo linear
Yij = + j + i + ij ,
a varivel Yij tem a seguinte mdia: E(Yij ) = +j +i . Assim, se variarmos
a unidade experimental (i, j), teremos diferentes valores mdios para Yij .
Como supomos independncia e homocedasticidade de varincias, a mistura
de distribuies ter diferentes distribuies normais com diferentes mdias,
mas com a mesma varincia. Ento, em uma amostra de tamanho n, no
podemos testar a hiptese de normalidade utilizando os valores de Y , mas
devemos estimar o erro cuja mdia zero e a varincia constante para
realizarmos tal teste.

Ferreira, D.F.

Uso de Recursos Computacionais

Captulo 3

Regresso Linear
Os modelos de regresso linear desempenham um grande papel nas mais
diferentes reas do conhecimento. Os pesquisadores buscam sempre modelar
seus dados por um modelo e ento passam a compreender melhor o fenmeno
sob estudo. Os modelos lineares so apenas uma das classes utilizadas
pelos pesquisadores na compreenso dos problemas de suas pesquisas. A
classificao de um modelo como linear muitas vezes confundida com
o tipo de curva matemtica que aquele modelo descreve e, ainda, mal
compreendida. Assim, iniciaremos nossa discusso com a classificao de
dois modelos como linear ou no-linear. O primeiro modelo dado por
Yi = 0 + 1 Xi2 + i , em que Yi e Xi2 so as variveis resposta e regressoras,
respectivamente; 0 e 1 so os seus parmetros; e i o resduo ou erro.
O segundo modelo Yi = 0 Xi1 + i . Ambos os modelos descrevem curvas
que no so uma reta simples. Esta uma das causas de confuses na
classificao de um modelo como linear. Nestes exemplos, o primeiro modelo
linear e o segundo no-linear.
Para esclarecermos e definirmos um modelo como linear, devemos apresentar inicialmente um conceito filosfico. Dizemos que um modelo linear
ou no-linear nos parmetros e com isso no estamos interessado no tipo
de curva que a funo representa. Formalmente, podemos dizer que um
modelo linear se as derivadas parciais da varivel dependente em relao
a cada parmetro no forem funes dos prprios parmetros. Assim, as
derivadas parciais do primeiro modelo so: Yi /0 = 1 e Yi /1 = Xi2 .
Uso de Recursos Computacionais

Ferreira, D.F.

36

Regresso Linear

Como nenhuma das derivadas parciais dependem dos prprios parmetros,


ento este modelo linear. No segundo caso, as derivadas parciais so:
Yi /0 = Xi1 e Yi /1 = 0 Xi1 ln(Xi ). O segundo modelo no-linear
nos parmetros, pois as duas derivadas parciais so funes dos prprios
parmetros. Bastaria uma de estas derivadas ser funo dos parmetros
para classificarmos o modelo como no-linear.
Dois procedimentos, entre outros, podem ser utilizados para analisarmos
os modelos lineares e no lineares. Utilizaremos o proc reg para os modelos
lineares e o proc nlin para modelos no-lineares. Neste captulo estudaremos
apenas os modelos lineares nos parmetros. O proc reg , entre os possveis
procedimentos de regresso do SAS, aquele que tem um amplo propsito,
enquanto os demais possuem objetivos mais especficos. Este procedimento
permite entre outras as seguintes anlises:
Especificao de mltiplos modelos
Mtodos de seleo de modelos
Diagnsticos de regresso
Obteno de valores preditos
Diagnose de multicolinearidade
Grficos de resduos

3.1

Mtodo dos Quadrados Mnimos

O proc reg foi idealizado para ajustar modelos lineares e fornecer vrias
ferramentas de diagnstico da qualidade de ajuste. Seja o modelo linear de
regresso com m + 1 parmetros definido por:

Yi = 0 + 1 X1i + 2 X2i + + m Xmi + i

(3.1)

em que Yi a i-sima observao da varivel resposta; Xhi i-sima observao da h-sima varivel; h so os parmetros do modelo; i o resduo
de regresso associado a i-sima unidade amostral; h = 0, 1, 2, , m e
Ferreira, D.F.

Uso de Recursos Computacionais

3.1 Mtodo dos Quadrados Mnimos

37

i = 1, 2, , n; X0i constante com todos os valores iguais a 1; m representa o nmero de variveis e n o tamanho da amostra.
O mtodo dos quadrados mnimos baseado na idia de minimizar a
P
soma de quadrados dos resduos dos modelos lineares. Assim, se Q = ni 2i
a soma de quadrados de resduos, o seu valor mnimo deve ser encontrado
para obtermos uma soluo de quadrados mnimos. Matricialmente temos
o modelo 3.1 expresso da seguinte forma:

Y = X + 

(3.2)

em que Y o vetor de observaes de dimenses n 1; X a matriz do

modelo de dimenses n (m + 1) das derivadas parciais de Yi em relao


aos parmetros; o vetor de parmetros [(m + 1) 1]; e  o vetor de

resduos (n 1).
Os resduos podem ser isolados por  = Y X e a soma de quadrados

do resduos matricialmente expressa por:


0 

Q=   =

Q = 0 =

Y X

Y X

Y 0 Y 2 0 X 0 Y + 0 X 0 X

Obtemos as derivadas de Q com relao a e encontramos:


Q
= 2X 0 Y + 2X 0 X

Igualamos a zero e obtemos as conhecidas equaes normais (EN) na


seqncia. Assim, temos:
2X 0 Y + 2X 0 X = 0

X 0 X = X 0 Y

(3.3)

em que o estimador de mnimos quadrados do parmetro .

Uso de Recursos Computacionais

Ferreira, D.F.

38

Regresso Linear
A matriz de derivadas parciais ou de modelo X, em geral, possui posto

coluna completo nos modelos de regresso. Assim, a matriz X 0 X possui


inversa nica e a soluo do sistema :

= (X 0 X)1 X 0 Y

(3.4)

O valor esperado de Y E(Y ) = X . Podemos obter os valores esti

mados substituindo por . Assim, os valores preditos so dados por:

Y = X

(3.5)

importante obtermos as somas de quadrados do modelo e do resduo,


para aplicar uma anlise de varincia e realizarmos inferncia a respeito do
modelo ajustado. Nenhuma pressuposio foi feita at o momento sobre a
distribuio dos resduos, mas se temos a inteno de realizar inferncias
necessrio pressupormos normalidade e ainda distribuio idntica e independente de todos os componentes do vetor de resduos. Podemos estimar
Q substituindo por . Obtemos aps algumas simplificaes:

= Y 0 Y 0 X 0 Y
Q

Assim, podemos interpretar esta expresso da seguinte forma:


SQRes = SQTotal no corrigida SQModelo
Assim, a soma de quadrados de modelo dada por:

0
SQModelo = X 0 Y

(3.6)

Os graus de liberdade associado ao modelo igual ao posto coluna da


matriz X. Se esta matriz tem posto coluna completo m + 1, conclumos
que a soma de quadrados do modelo est associada a m + 1 graus de liberdade e a soma de quadrados do resduo a n m 1 graus de liberdade. O
que fazemos definir sub-modelos a partir do modelo completo com m + 1
Ferreira, D.F.

Uso de Recursos Computacionais

3.1 Mtodo dos Quadrados Mnimos

39

parmetros. Desta forma podemos definir dois tipos bsicos de soma de quadrados: a seqencial (tipo I) e a parcial (tipo II). Na seqencial tomamos o
modelo completo e o reduzimos eliminando a varivel m. Obtemos a soma
de quadrado do modelo completo, que representamos por R(0 , 1 , , m ),
e a do modelo reduzido, representada por R(0 , 1 , , m1 ). A notao R indica uma reduo particular do modelo que estamos abordando.
Se tomarmos a diferena da soma de quadrados dos dois modelos teremos
R(m /0 , 1 , , m1 ) = R(0 , , m )-R(0 , , m1 ). Se do modelo
com m 1 variveis eliminarmos a ltima e repetirmos este procedimento,
teremos a soma de quadrado da (m 1)-sima varivel ajustada para todas
as outras que a precedem. Se fizermos isso repetidas vezes at reduzirmos
o modelo ao termo constante apenas, teremos as somas de quadrados de
cada varivel ajustada para todas as outras que a precedem, ignorando as
variveis que a sucedem. Esta a soma de quadrados tipo I ou seqencial.
Para obtermos as somas de quadrados parciais ou do tipo II, devemos
a partir do modelo completo formar um novo modelo eliminando uma das
variveis. A soma de quadrados do modelo reduzido comparada com a
soma de quadrado do modelo completo e a sua diferena a soma de quadrados do tipo II. Assim, teremos o ajuste de cada varivel para todas as
outras do modelo. Podemos perceber que as somas de quadrados tipo I e
tipo II da m-sima varivel so iguais. Via de regra as somas de quadrados
tipo I e tipo II no sero iguais para as demais variveis, a menos de ortogonalidade. Podemos resumir o dois tipos de somas de quadrados conforme
esquema apresentado na Tabela 3.1.
Tabela 3.1: Tipos de somas de quadrados de um modelo de regresso contendo m variveis.
FV

SQ Tipo I

SQ Tipo II

X1

R(1 /0 )

R(1 /0 , 2 , , m )

X2
..
.

R(2 /0 , 1 )
..
.

R(2 /0 , 1 , , m )
..
.

Xm

R(m /0 , 1 , , m1 )

R(m /0 , 1 , , m1 )

Uma forma alternativa bastante til para podermos obter as somas de


Uso de Recursos Computacionais

Ferreira, D.F.

40

Regresso Linear

quadrados tipo II baseada no mtodo da inversa de parte da inversa de


Searle (1971, 1987)[12, 13]. Por este mtodo podemos obter as somas de
quadrados tipo II de uma forma mais direta do que por reduo de modelos.
Vamos apresentar o mtodo no contexto de regresso linear na seqncia.
Seja a matriz (X 0 X)1 definida por:

(X 0 X)1

x0m

x10 x11

= .
..
..
..
.
.

xm0 xm1

x1m
..
.

x00

x01

(3.7)

xmm

Assim, para obtermos a soma de quadrados do tipo II para a varivel


Xh podemos simplesmente calcular:

R(h /0 , , h1 , h+1 , , m ) =

3.2

h2
xhh

(3.8)

Um Exemplo de Regresso Pelo Proc IML

Vamos mostrar um exemplo de um ajuste de um modelo de regresso


utilizando o proc iml. O objetivo mostrar todos os clculos utilizando as
frmulas anteriormente apresentadas por meio de um programa matricial.
Seja para isso um exemplo em que a varivel X representa o nmero de horas
de exposio solar de uma planta e a varivel resposta Y o crescimento da
planta. Os dados deste exemplo esto apresentados na Tabela 3.2.
Vamos ajustar um modelo linear quadrtico do tipo:

Yi = 0 + 1 Xi + 2 Xi2 + i

(3.9)

em que 0 , 1 e 2 so os parmetros que desejamos estimar.


Para este modelo vamos estimar os parmetros e obter as somas de
quadrados dos tipos I e II utilizando o proc iml. A matriz X do modelo
dada por:
Ferreira, D.F.

Uso de Recursos Computacionais

3.2 Um Exemplo de Regresso Pelo Proc IML

41

Tabela 3.2: Crescimento de uma planta Y aps ser submetida a um tempo


X de exposio solar em horas.
X

0,1

0,88

0,2

0,90

0,3

0,99

0,5

1,12

0,8

1,40

1,0

1,62

1,5

2,20

2,0

3,10

X=

1 0, 1 0, 01

1 0, 2 0, 04

1 0, 3 0, 09

1 0, 5 0, 25

1 0, 8 0, 64

1 1, 0 1, 00

1 1, 5 2, 25

1 2, 0 4, 00

O vetor de parmetros dado por:

=
1
2

O vetor de observaes dado por:


Uso de Recursos Computacionais

Ferreira, D.F.

42

Regresso Linear

Y =

0, 88

0, 90

0, 99

1, 12

1, 40

1, 62

2, 20

3, 10

Desta forma podemos formular o programa IML para ajustar este modelo e obter as somas de quadrados e testes de hipteses relativo aos parmetros. Vamos apenas ilustrar uma parte de todos os clculos, pois felizmente
podemos utilizar o proc reg do SAS que nos fornece todas as estimativas
e testes de hipteses que desejarmos, com comando mais simples. O nosso
objetivo possibilitar ao leitor obter um maior conhecimento de todo o
processo de regresso linear. O programa resultante desta anlise :

/*Exemplo de programa IML para realizar regresso linear.*/


proc iml;
x={ 1 0.1 0.01,
1 0.2 0.04,
1 0.3 0.09,
1 0.5 0.25,
1 0.8 0.64,
1 1.0 1.00,
1 1.5 2.25,
1 2.0 4.00};
y={ 0.88,
0.90,
0.99,
1.12,
1.40,
1.62,
2.20,
3.10};
/*modelo completo y = b0 + b1x + b2x2 */

Ferreira, D.F.

Uso de Recursos Computacionais

3.2 Um Exemplo de Regresso Pelo Proc IML

43

n=nrow(y);
xlx=t(x)*x;
xly=t(x)*y;
print xlx xly;
ixlx=inv(xlx);
print ixlx;
betam1=ixlx*xly;
print betam1;
/*somas de quadrados*/
glm1=3;
sqb0b1b2=t(betam1)*xly;
sqtotal=t(y)*y;
sqresm1=sqtotal-sqb0b1b2;
glrm1=n-glm1;
print sqb0b1b2 sqtotal sqresm1;
/*Soma de quadrados do tipo II*/
sqb1=betam1[2]**2/(ixlx[2,2]);
sqb2=betam1[3]**2/(ixlx[3,3]);
print sqb1 sqb2;
/*teste t H0 bi=0*/
b0=betam1[1];
tcb0=(b0-0)/(ixlx[1,1]*sqresm1/glrm1)**0.5;
prtcb0=2*(1-probt(abs(tcb0),glrm1));
print b0 tcb0 prtcb0;
b1=betam1[2];
tcb1=(b1-0)/(ixlx[2,2]*sqresm1/glrm1)**0.5;
prtcb1=2*(1-probt(abs(tcb1),glrm1));
print b1 tcb1 prtcb1;
b2=betam1[3];
tcb2=(b2-0)/(ixlx[3,3]*sqresm1/glrm1)**0.5;
prtcb2=2*(1-probt(abs(tcb2),glrm1));
print b2 tcb2 prtcb2;
quit;

Os principais resultados obtidos neste procedimento so apresentados


na seqncia. Iniciamos pelas matrizes X 0 X e X 0 Y , dadas por:

Uso de Recursos Computacionais

Ferreira, D.F.

44

Regresso Linear

6, 4

8, 28

X 0X =
8, 28 13, 048
6, 4

8, 28 13, 048 22, 5444


e

12, 21

X 0Y =
13, 365

20, 2799
A matriz inversa (X 0 X)1 dada por:

0, 7096 1, 5667

0, 6461

(X 0 X)1 =
4, 8322 2, 2213
1, 5667

0, 6461 2, 2213
1, 0927
Finalmente, o vetor estimado por:

0, 8289504

=
0,
4048794

0, 3607692
Portanto, o modelo de regresso ajustado Yi = 0, 8289504 + 0, 4048794
Xi + 0, 3607692Xi2 . O grfico desta funo quadrtica est apresentado na
Figura (3.1)
As somas de quadrados para modelo (0 , 1 , 2 ), total no corrigido e
resduo foram iguais a 22, 84906, 22, 8533 e 0, 0042399, respectivamente.
O R2 , proporo da variao total corrigida explicada pelo modelo de regresso, dado por: R2 = 1 sqresduo/sqtotal corrigida = 99, 90%. Um
excelente ajuste foi encontrado, mas necessrio que se faa a anlise de
resduo para termos uma confirmao disto, o que no ser feito neste instante. A soma de quadrado total corrigida foi obtida por SQtotal nc =
n
X
sqtotal c G2 /n, em que G =
Yi = 12, 21.
i=1

Ferreira, D.F.

Uso de Recursos Computacionais

3.2 Um Exemplo de Regresso Pelo Proc IML

45

1
0

0,5

1,5

2,5

3,5

Figura 3.1: Equao quadrtica resultante do ajuste de quadrados mnimos


do exemplo tratado.

No passo seguinte obtivemos as somas de quadrados do tipo II para X


e X 2 por 0, 40487942 /4, 8322 = 0, 03392 e 0, 36076922 /1, 0927 = 0, 1191,
respectivamente. Podemos efetuar um teste F para a hiptese H0 : i = 0
se desejarmos, dividindo o quadrado mdio do tipo II de cada varivel pelo
quadrado mdio do erro e calcularmos o valor-p utilizando a distribuio
F de Snedecor. O quadrado mdio do tipo II para cada parmetro igual
a soma de quadrados, pois est associado a 1 grau de liberdade. Finalmente podemos utilizar o teste t de Student para obtermos um teste de
hiptese equivalente ao realizado pelo teste F , baseado em somas de quadrados parciais ou somas de quadrados do tipo II. Este teste est descrito
formalmente nas equaes (3.13) a (3.16). Os resultados destes testes de
hiptese bilateral esto apresentados na Tabela 3.3.
Podemos fazer muitas outras anlises no proc iml. Isso no ser necessrio, pois o SAS possui alguns procedimentos apropriados para lidarmos
com ajustes de modelos lineares. Entre estes procedimentos destacamos o
Uso de Recursos Computacionais

Ferreira, D.F.

46

Regresso Linear

Tabela 3.3: Testes de hiptese do tipo H0 : i = 0, com i = 0, 1, 2 utilizando


a distribuio t de Student com = 5 graus de liberdade.
Estimativa

tc

P r(t > |tc |)

0,82895

33,793

4, 267 107

0,40488

6,325

0, 0014562

0,36077

11,852

0, 0000753

Parmetro

proc reg, para o qual, anteriormente, j apontamos suas principais caractersticas, ou seja, as anlises com que capaz de lidar. Como o IML um
procedimento poderoso, mas que requer conhecimentos especiais de estatstica e de lgebra matricial, no abordaremos mais o proc iml, neste captulo.
Faremos todas as anlises de modelos lineares de regresso utilizando o proc
reg.

3.3

O Proc Reg

Vamos apresentar o proc reg para realizarmos o ajuste do modelo anterior e em seguida apresentaremos um exemplo de regresso mltipla, onde
aparentemente ocorre um resultado paradoxal na inferncia realizada. Utilizamos este exemplo para elucidar aspectos de testes de hipteses que so
muitas vezes ignorados. Inicialmente vamos apresentar os comandos necessrios para ajustarmos o modelo (3.9). O proc reg no permite a criao
de variveis no prprio modelo como faz um outro procedimento do SAS
chamado glm. Neste caso, devemos criar o arquivo de dados e aps o input
criar a varivel X2 = X 2 . Assim, criamos nosso arquivo com as variveis
necessrias e o programa simplificado para o ajuste dado por:

/*Exemplo do proc reg para realizar regresso linear.*/


data rlq;
input x y;
x2=x**2;
cards;
0.1 0.88

Ferreira, D.F.

Uso de Recursos Computacionais

3.3 O Proc Reg

47

0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20
2.0 3.10
;
proc reg data=rlq;
model y=x x2/ss1 ss2;
run;quit;

A linha de comando do proc reg dada por <model y=x x2/ss1 ss2;>,
nos permite fazer o ajuste do modelo (3.9). As opes ss1 e ss2 solicitam o
clculo das somas de quadrados dos tipos I e II. No necessitamos especificar
nada mais, pois por default o SAS apresenta as estimativas dos parmetros
do modelo com seus erros padres e testes de hipteses associados, a anlise
de varincia, o R2 , mdia geral e algumas outras estimativas de parmetros
especficos. O teste F da anlise de varincia est relacionado a seguinte
hiptese:

H0 : 1 = 2 = 3 = = m = 0
H1 : i 6= 0

Para algum i = 1, 2, , m

(3.10)

Neste exemplo observamos que o F observado foi igual a 2484, 4 e o valor associado P r(F > Fc ) < 0, 0001. Assim a hiptese nula global de que
nenhuma varivel explica significativamente a variao na varivel resposta
Yi foi rejeitada. O SAS realiza o teste t para as hipteses do tipo H0 : i = 0,
i = 1, 2, , m. Neste exemplo os valores da estatstica t e as respectivas
significncias esto apresentadas na Tabela 3.3. Conclumos que ambas
as variveis tem efeito significativamente diferente de zero na variao de
Y . O teste t de Student equivalente ao teste F parcial. Embora este
teste tenha sido aplicado por ser padro no SAS, conveniente utilizar
para este exemplo um teste seqencial. Isto porque esta anlise refere-se
ao ajuste de um modelo polinomial e usualmente nestes casos utilizamos
Uso de Recursos Computacionais

Ferreira, D.F.

48

Regresso Linear

testes que envolvem somas de quadrados tipo I. Este tipo de procedimento


comumente encontrado nos livros de estatstica experimental.
Vamos apresentar um segundo exemplo, como dissemos anteriormente,
para elucidarmos alguns pontos interessantes da anlise de regresso linear.
Nosso exemplo, refere-se a uma amostra de n = 10 rvores, na qual foram
mensurados o volume (Y ), em m3 .acre1 , sendo que 1 acre igual a 4.064
m2 , a rea basal (X1 ) em dm2 , a rea basal tomada em % em relao rea
de outra espcie (X2 ) e a altura em ps (X3 ) (1 p = 30, 48 cm). Na Tabela
3.4 temos os dados amostrados na populao de Araucaria angustifolia.
Tabela 3.4: Dados de uma amostra de n = 10 rvores de araucria (Araucaria angustifolia) mensuradas em relao ao volume Y , rea basal X1 , rea
basal relativa X2 e altura em ps X3 .
Y

X1

X2

X3

65

41

79

35

78

71

48

53

82

90

80

64

86

80

81

59

87

93

61

66

90

90

70

64

93

87

96

62

96

95

84

67

104

100

78

70

113

101

96

71

Vamos inicialmente ajustar um modelo linear simples para cada varivel


utilizando o modelo linear dado por:

Yi = 0 + 1 Xhi + i ,

Para

h = 1, 2 ou 3,

i = 1, 2, , n

(3.11)

O programa para realizarmos estes ajustes, para cada uma das variveis
regressoras, mas de forma simultnea simultnea, dado por:

Ferreira, D.F.

Uso de Recursos Computacionais

3.3 O Proc Reg

49

/*Exemplo do proc reg para realizar regresso linear.*/


data arvores;
input y x1 x2 x3;
datalines;
65
41

79

35

78

71

48

53

82

90

80

64

86

80

81

59

87

93

61

66

90

90

70

64

93

87

96

62

96

95

84

67

104

100

78

70

113

101

96

71

;
proc reg data=arvores;
model y=x1;
model y=x2;
model y=x3;
run;quit;

Na Tabela 3.5 apresentamos os resultados mais importantes destes ajustes, que iremos mencionar futuramente. Selecionamos o F calculado e sua
significncia e o R2 do modelo.
Tabela 3.5: Resultados mais importantes do ajuste dos modelos lineares
simples para os dados dos volumes das n = 10 rvores de araucria Araucaria angustifolia.
Fc

P r(F > Fc )

R2

1: E(Yi ) = 0 + 1 X1i

24,17

0,0012

0,7513

2: E(Yi ) = 0 + 1 X2i

2,43

0,1579

0,2328

3: E(Yi ) = 0 + 1 X3i

24,73

0,0011

0,7556

Modelo

Observamos que o modelo 2 no se ajustou aos dados, embora isso fosse


esperado, uma vez que a varivel X2 resultante de uma medida relativa
entre uma varivel mensurada diretamente na espcie e outra medida em
outra espcie. Portanto, o resultado perfeitamente justificvel, pois a
Uso de Recursos Computacionais

Ferreira, D.F.

50

Regresso Linear

covariao existente entre X2 e Y pode ser atribuda meramente fatores de


acaso. As demais variveis apresentam explicaes significativas (P < 0, 05)
da variao que ocorre na varivel resposta, com R2 igual a 75, 13% para
X1 e 75, 56% para X3 . Agora vamos ajustar o modelo linear mltiplo dado
por:

Yi = 0 + 1 X1i + 2 X2i + 3 X3i + i

(3.12)

O programa SAS, que faz uso do proc reg para ajustar o modelo 3.12,
dado por:

/*Exemplo do proc reg para realizar regresso linear mltipla.*/


data arvores;
input y x1 x2 x3;
datalines;
65
41

79

35

78

71

48

53

82

90

80

64

86

80

81

59

87

93

61

66

90

90

70

64

93

87

96

62

96

95

84

67

104

100

78

70

113

101

96

71

;
proc reg data=arvores;
model y=x1 x2 x3;
run;quit;

Os principais resultados obtidos do ajuste do modelo 3.12 so apresentados e discutidos na seqncia. A princpio, vamos apresentar (Tabela 3.6)
o resumo da anlise de varincia.
Podemos concluir que pelo menos uma varivel explica significativamente a variao que ocorre na varivel resposta Y , ou seja, a hiptese
nula (3.10) deve ser rejeitada se for considerado o nvel nominal de 5%.
Ferreira, D.F.

Uso de Recursos Computacionais

3.3 O Proc Reg

51

Tabela 3.6: Resumo da anlise de varincia do ajuste de regresso mltipla


aos dados do volume das rvores de araucria.
GL

QM

Fc

P r(F > Fc )

Regresso

455, 85296

10, 65

0, 0081

Erro

42, 80685

Total Corrigido

FV

Na Tabela 3.7 apresentamos os testes t de Student para a hiptese nula


H0 : h = 0, em que h = 1, 2, 3. Devemos neste instante apresentar a expresso geral para realizarmos os testes de hipteses sobre componentes do
vetor de parmetros. A varincia do estimador do vetor de parmetros
dada por:
 
V = (X 0 X)1 2

(3.13)

O estimador desta varincia obtido substituindo a varincia paramtrica pelo estimador da varincia (S 2 = QM E). Assim, temos o estimador
da varincia do estimador dos parmetros dada por:

 
= (X 0 X)1 S 2

(3.14)

Desta forma, o erro padro de i dado por:

S(i ) =

xii S 2

(3.15)

em que xii o elemento correspondente a i-sima diagonal da matriz inversa


(X 0 X)1 .
Logo, o teste t de Student para a hiptese H0 : i = 0 , em que 0 uma
constante real de interesse pode ser aplicado, pois sob H0 a distribuio da
estatstica do teste dada por

tc =

Uso de Recursos Computacionais

i 0
S(i )

(3.16)

Ferreira, D.F.

52

Regresso Linear

t de Student com = n m 1 graus de liberdade.


O SAS testa a hiptese nula, assumindo que a constante 0 igual a
zero. Os resultados para este caso esto apresentados na Tabela 3.7.
Tabela 3.7: Estimativas dos parmetros e teste t de Student para a nulidade
das estimativas.
Estimativas

S(i )

tc

P r(t > |tc |)

-33,82268

75,35853

-0,45

0,6693

-2,22672

4,02805

-0,55

0,6004

0,26976

0,15332

1,76

0,1290

4,76590

6,78649

0,70

0,5088

Parmetros

Quando observamos os resultados dos testes de hipteses na Tabela 3.7,


verificamos que nenhuma varivel explicou significativamente a variao da
varivel resposta Y . Este resultado aparentemente contraditrio ao resultado do teste da hiptese global do modelo de regresso, hiptese esta
que foi significativamente rejeitada. Este suposto paradoxo na verdade
um problema de interpretao do que est sendo realmente testado pelos
testes t individuais. O que ocorre que o teste t equivalente ao teste F ,
obtido a partir das somas de quadrados parciais ou do tipo II. Assim, o que
o t realmente testa a contribuio de uma varivel, eliminando a explicao das demais variveis no modelo. Ento, se a explicao da varivel
para a variao de Y for expressiva, aps ser eliminada a redundncia da
informao com as outras variveis do modelo, a estatstica do teste tender
a pertencer a regio crtica. Essa redundncia dependente da estrutura
de correlao existente entre a varivel que est sendo testada e as demais
variveis do modelo.
O que acontece neste exemplo que temos uma forte estrutura de correlao entre as trs variveis do modelo e, portanto, na presena das outras,
a varivel que est sendo testada no contribui com uma explicao significativa da variao total. Podemos perceber que duas das variveis que apresentaram resultados no significativos para o teste t, so individualmente
importantes para a variao do volume, pois apresentaram significncias
menores que 5% nos testes individuais. Portanto, no tem nada de paradoFerreira, D.F.

Uso de Recursos Computacionais

3.3 O Proc Reg

53

xal nos resultados encontrados. O que temos so variveis correlacionadas


que no necessitariam estar todas no modelo e parte delas nem precisaria
ser mensurada, onerando menos os experimentos de campo.
Um outro parmetro que estimado pelo proc reg o R2 , o qual mede
a proporo da variao do total dos dados que explicada pelo modelo de
regresso. Um outro importante parmetro o coeficiente de determinao
2 ). Este ajuste, feito para o nmero de parmetros no modelo,
ajustado (RAj.

fornece uma medida mais adequada para comparar modelos com diferentes
quantidades de parmetros. O R2 ajustado dado por:

2
RAj.
=1


ni
1 R2
np

(3.17)

em que n o tamanho da amostra, p o nmero de parmetros (incluindo o


intercepto) e i igual a 1, se o modelo inclui o intercepto ou 0, se o modelo
no inclui 0 .
Duas opes interessantes para calcularmos as somas de quadrados tipos
I e II so dadas por SS1 e SS2. Estas opes devem aparecer aps o modelo.
Para isso, ao terminarmos de especificar o modelo, colocamos uma barra /
e em seguida as opes SS1 e SS2. O programa simplificado ilustrando o
uso das opes SS1 e SS2 dado por:

/*Exemplo do proc reg para realizar regresso linear mltipla utilizando SS1 e SS2.*/
proc reg data=arvores;
model y=x1 x2 x3/ss1 ss2;
run;quit;

Juntamente com as estimativas dos parmetros podemos observar as


somas de quadrados tipo I e II resultantes das opes de modelo utilizadas.
Outros comandos que so importantes no proc reg so: p, clm e cli. Estas
opes nos possibilitam predizer os valores de Yi , estimar por intervalo de
confiana o valor mdio da resposta (clm) ou intervalo de confiana para
uma predio estocstica ou predio futura (cli). Para apresentarmos estes
conceitos, sejam Yi a observao da varivel resposta na i-sima unidade
Uso de Recursos Computacionais

Ferreira, D.F.

54

Regresso Linear

amostral e o vetor zi = [1 X1i

X2i

Xmi ]0 o vetor de variveis

regressoras, incluindo a indicadora do intercepto, ento o valor predito Yi


dado por:

Yi = z 0 = 0 + 1 X1i + + 1 Xmi

(3.18)

Este vetor z no necessita necessariamente ser observado entre o coni

junto de observaes. O estimador do erro padro desta predio para o


intervalo da mdia (clm) dado por:

S(Yi ) =

z 0 (X 0 X)1 z S 2

(3.19)

O intervalo de confiana clm dado por:

Yi t/2, S(Yi )

(3.20)

Se diferenciarmos a predio futura da predio mdia simplesmente


utilizando a notao Yi , mas mantivermos a mesma combinao linear determinada pelo vetor z , teremos o intervalo de confiana cli dado por:

Yi t/2, S(Yi )

(3.21)

Este intervalo distingue-se do anterior somente pelo estimador do erro


padro do valor da predio futura, o qual envolve uma varincia residual a
mais em relao ao erro padro da predio do valor mdio. Este estimador
do erro padro da predio futura dado por:

S(Yi ) =

rh

i
1 + z 0 (X 0 X)1 z S 2

(3.22)

O programa SAS simplificado para ilustrarmos o uso destas opes est


apresentado na seqncia. Podemos especificar o valor de com a opo
alpha=0.05. Claro que se o valor de 5% for mantido, que o padro, esta
opo no precisa ser utilizada.
Ferreira, D.F.

Uso de Recursos Computacionais

3.3 O Proc Reg

55

/*Exemplo do proc reg para realizar regresso linear mltipla utilizando p clm e cli.*/
proc reg data=arvores;
model y=x1 x2 x3/alpha=0.05 p clm cli;
run;quit;

Podemos utilizar ainda algumas outras opes do modelo de regresso. Particularmente interessante so os coeficientes de determinaes semiparciais dos tipos I e II. Os comandos para obtermos estas correlaes semiparciais quadrticas so scorr1 e scorr2. Os coeficientes de determinao
semi-parciais so estimados por:
R(h /0 , , h1 )
SQtotal corrigida

(3.23)

R(h /0 , , h1 , h+1 , , m )
SQtotal corrigida

(3.24)

2
Rsp1
=

2
Rsp2
=

2
2
em que Rsp1
e Rsp2
so os coeficientes de determinao semi-parciais dos

tipos I e II, respectivamente, para a h-sima varivel.


Tambm so teis os coeficientes de determinao parciais dos tipos I
e II. As opes que devemos utilizar so, respectivamente, pcorr1 e pcorr2.
Os estimadores correspondentes so dados por:

2
Rp1
=

R(h /0 , , h1 )
R(h /0 , , h1 ) + SQE

(3.25)

em que SQE a soma de quadrados do erro resultante do ajuste de um


modelo contendo as variveis X1 , X2 , , Xh e

2
Rp2
=

R(h /0 , , h1 , h+1 , , m )
R(h /0 , , h1 , h+1 , , m ) + SQE

(3.26)

em que SQE a soma de quadrados do erro resultante do ajuste do modelo


completo.
Uso de Recursos Computacionais

Ferreira, D.F.

56

Regresso Linear

/*Exemplo do proc reg para realizar regresso linear mltipla e ilustrar a obteno dos
coeficientes de determinao parciais e semi-parciais.*/
proc reg data=arvores;
model y=x1 x2 x3/ss1 ss2 scorr1 scorr2 pcorr1 pcorr2;
run;quit;

3.4

Seleo de Modelos

A seleo de modelos bastante interessante na pesquisa cientfica, pois


muitas vezes temos variveis correlacionadas que no contribuem para a
variao da varivel resposta de forma significativa, na presena das outras.
Dizemos que existe uma redundncia da informao. Assim, procedimentos
para selecionarmos modelos de regresso linear so importantes no sentido
de evitarmos a incluso em um modelo de variveis que so correlacionadas
com outras variveis candidatas. Evitamos com isso mensuraes desnecessrias e onerosas. O SAS nos permite utilizar diferentes mtodos de seleo
de modelos, quais sejam, forward, backward, stepwise, maxr, minr, rsquare,
adjrsq, cp ou none (usar o modelo completo). Cada um destes mtodos
tem uma caracterstica especial. Enfocaremos nesta seo apenas os trs
primeiros: forward, backward e stepwise.
Vamos apresentar algumas caractersticas de cada um destes trs mtodos escolhidos. Vamos iniciar pelo forward. Neste mtodo as m variveis
regressoras so submetidas a um ajuste individual (modelo linear simples).
Cada modelo deste ajustado e entre aqueles modelos em que as variveis regressoras apresentaram teste F parcial significativo para a hiptese
H0 : h = 0, fixado o valor de , devemos escolher aquela varivel que apresentou maior valor desta estatstica ou equivalentemente, aquela que apresentou maior R2 parcial. A varivel escolhida fixada no modelo e todas as
outras so introduzidas um a uma neste modelo, formando m1 modelos de
duas variveis. Estes modelos so formados pela varivel escolhida no passo
1 com a outra escolhida entre as variveis candidatas a entrar neste modelo.
Novamente entre aquelas variveis que apresentaram F parcial significativo
Ferreira, D.F.

Uso de Recursos Computacionais

3.4 Seleo de Modelos

57

na presena da varivel selecionada no primeiro passo, escolhemos aquela


de maior F parcial ou R2 parcial. Se nenhuma varivel apresentou significncia para entrar, encerramos o processo e ficamos com um modelo com a
varivel que entrou no primeiro passo. Se uma das candidatas foi escolhida,
formamos um modelo com esta varivel e aquela escolhida no passo 1. As
variveis candidatas so testadas uma por vez na presena destas duas variveis e todo o processo repetido. Devemos parar quando nenhuma das
candidatas atingiu o nvel de significncia estabelecido a priori para entrar
no modelo ou quando no temos mais variveis candidatas para entrar.
O procedimento stepwise muito parecido com o forward, exceto pelo
fato de que em cada passo, aps a entrada de uma das variveis candidatas,
devemos testar as variveis que estavam no modelo. Se uma ou mais delas
apresentarem F parcial no significativo, aquela que tiver menor valor de
F parcial deve sair do modelo. Esta sada de apenas uma varivel por
vez, at no ter mais variveis no modelo que apresentem F parcial no
significativos. As variveis que saram do modelo, no so mais candidatas
a entrar. As variveis remanescentes, candidatas a entrar no modelo, so
colocadas um por vez no modelo final e o processo continua com entradas
e sadas at no termos mais candidatas para entrarem ou as candidatas
no atingirem o nvel mnimo de significncia para entrarem no modelo e
as variveis do modelo forem todas significativas.
O procedimento de backward testa todas as variveis candidatas simultaneamente. Entre aquelas que apresentarem F parciais no significativos, a que tiver menor valor observado deve sair do modelo. Se todas as
variveis no modelo apresentarem F parciais significativos, em um nvel
pr-estabelecido de significncia para a permanncia no modelo, ento
encerramos o processo. Neste caso o modelo resultante ser o completo. Se
por outro lado, for eliminada um varivel, o procedimento repetido para
as m 1 variveis remanescentes. Paramos o processo se todas as variveis
de um passo apresentarem F parcial significativo ou se modelo resultar em
um modelo nulo, somente com o intercepto.
Devemos especificar para o SAS o nvel de significncia de permanncia
ou de entrada das variveis do modelo. No forward devemos especificar
somente o nvel de significncia de entrada, no backward, o nvel de signiUso de Recursos Computacionais

Ferreira, D.F.

58

Regresso Linear

ficncia de permanncia e no stepwise, os dois nveis de significncia, de


permanncia e de entrada. Os comandos que devemos usar so slstay para
nvel de significncia de permanncia e slentry para entrada.
O comando que utilizamos para indicarmos que utilizaremos um mtodo de seleo de modelos o selection=method. O programa SAS para
realizarmos a escolha de modelos de regresso, para os dados das rvores,
dado por:

/*Exemplo do proc reg para realizar seleo de modelos de regresso linear mltipla.*/
proc reg data=arvores;
model y=x1 x2 x3/selection=backward slstay=0.05;
model y=x1 x2 x3/selection=forward slentry=0.05;
model y=x1 x2 x3/selection=stepwise slentry=0.05 slstay=0.05;
run;quit;

Nos trs mtodos obtivemos o mesmo modelo ajustado, da varivel resposta Y em funo da varivel X3 . Algumas vezes os procedimentos podem
resultar em concluses conflitantes quanto ao modelo e o pesquisador deve
escolher o que melhor lhe convier. Esta escolha, entre outras coisas, pode
ser embasada na anlise de resduos e na qualidade da predio da varivel
aleatria Y .

3.5

Diagnstico em Regresso Linear

Seja o modelo de regresso linear dado por


Y = X + 

em que Y o vetor de observaes de dimenses n 1; X a matriz do

modelo de dimenses n (m + 1) das derivadas parciais de Yi em relao


aos parmetros; o vetor de parmetros [(m + 1) 1]; e  o vetor de

 
 
resduos (n 1) no observveis e com E  = 0 e V  = I 2 .

Ferreira, D.F.

Uso de Recursos Computacionais

3.5 Diagnstico em Regresso Linear

59

Na metodologia clssica de modelos lineares, onde se encontram os modelos de regresso linear, pressupomos que exista uma linearidade nos parmetros do preditor e aditividade dos erros e, ainda, que os erros so independentes, tm mdia zero, varincia constante e que sua distribuio seja
iid

normal, ou seja, i N (0, 2 ). Alm disso outras condies so importantes, como por exemplo, supomos que algumas poucas observaes no devam
ter influncia demasiada sobre as estimativas dos parmetros do modelo e
de suas varincias. Assim, diagnsticos numricos so funes dos dados cujos valores permitem detectar respostas que so anormalmente grandes ou
pequenas (outliers ou valores discrepantes) ou que esto afastadas do grupo
majoritrio dos dados, influenciando em demasia o ajustamento. Assim,
temos interesse particular nas anlises denominadas de influncia, onde utilizamos um conjunto de tcnicas destinadas a deteco de pontos influentes
e/ou discrepantes que podem afetar o ajustamento.
Muitas causas podem ser atribudas a alguns problemas normalmente
encontrados na anlise de regresso. Algumas destas possibilidades so,
entre outras, devidas medidas erradas ou erro no registro da realizao da
varivel resposta, ou ainda, erros de transcrio; observaes tomadas em
condies distintas das demais; modelo mal especificado; e distribuio no
normal dos resduos, apesar de o modelo e a escala estarem corretos.
A forma utilizada normalmente para verificar a influncia de uma observao retir-la do modelo e verificar como as estimativas dos parmetros,
predies e varincias so afetadas. Assim, se retirarmos a i-sima observao e reestimarmos as quantidades mais importantes do modelo, poderemos
avaliar a influncia da observao retirada na estimao destes parmetros
de interesse. Podemos, no entanto, evitar que todos os clculos sejam refeitos, utilizando algumas relaes e propriedades apresentadas por Velleman
e Welsch, (1981)[16]. Vrios mtodos de avaliar a influncia de observaes
no ajuste de um modelo de regresso linear so apresentados por Chatterjee
e Hadi (1986)[2].

3.5.1

Anlise de resduos

O preditor dos resduos dado por:


Uso de Recursos Computacionais

Ferreira, D.F.

60

Regresso Linear

e = Y X

(3.27)

Podemos reescrever o erro como uma combinao linear de Y por:

e = Y X(X 0 X)1 X 0 Y = [I X(X 0 X)1 X 0 ]Y

A matriz X(X 0 X)1 X 0 denominada projetor e representada por P ,


pois projeta o vetor de observaes Y , n-dimensional, no sub-espao (m+1)

dimensional. Aplicando esta matriz ao vetor de observaes, obtemos o


vetor de valores preditos Y , ou seja, Y = P Y . Na anlise de regresso linear

simples, a matriz P denominada de matriz Hat e representada por H.


Vamos representar a i-sima observao pelo vetor composto por [Yi
sendo que zi = [1 X1i

X2i

zi 0 ]0 ,

Xmi ]0 o vetor dos elementos da i-

sima linha da matriz X do modelo. O elemento da diagonal correspondente


na matriz H denominado simplesmente por hi . Assim,

e = (I H)Y

(3.28)

o preditor do vetor de erros, que equivalente a equao (3.27).


A esperana de e dada por:

 
h
i
 
E e =E (I H)Y = (I H)E Y

=[I X(X X)

X ]X = X X(X 0 X)1 X 0 X

=X X = 0

Assim, a covarincia do vetor de resduos preditos :

 
 
e =(I H)V Y (I H) = (I H)I 2 (I H)0

=(I H)(I H 0 ) 2 = (I H) (I H)H 0


=(I H H 0 + HH 0 ) 2 = (I H H + H) 2
=(I H) 2
Ferreira, D.F.

Uso de Recursos Computacionais

3.5 Diagnstico em Regresso Linear

61

Para a i-sima observao temos que a varincia V (ei ) dada por:

V (ei ) = (1 hi ) 2

(3.29)

em que ei o i-simo elemento do vetor de resduos preditos, ou seja, o


erro predito para a i-sima observao. Neste contexto denominado de
resduo ordinrio.
O problema bsico destes resduos que eles no so comparveis entre si, por possurem varincias distintas. Devemos buscar alguma forma
de padronizao para termos a mesma disperso em todos os n resduos
preditos. Temos basicamente trs formas de padronizaes que podemos
efetuar e que discutiremos na seqncia. Podemos ter os resduos padronizados, resduos estudentizados internamente e resduos estudentizados externamente, tambm conhecidos por resduos de jackknife (Chatterjee e
Hadi, 1986[2]). Em todos os casos vamos substituir a varincia 2 pelo seu
estimador S 2 = QM E.
A primeira opo, no computada pelo SAS, obtida pela diviso dos

resduos ordinrios pelo desvio padro S = QM E. Este artifcio reduz a


variabilidade a uma faixa especfica, mas no elimina o problema de varincias distintas. Este resduo padronizado dado por:

zi =

ei
S

(3.30)

Pela razo anteriormente apontada, os resduos estudentizados foram


propostos na literatura especializada. Os resduos estudentizados internamente so obtidos por meio da razo entre o resduo ordinrio e o seu
estimador do erro padro especfico, ou seja, por
ei
ri = p
(1 hi )S 2

(3.31)

Este tipo de resduo mais interessante que o anterior, devido ao fato


de considerar a varincia individual de cada resduo ordinrio. Entretanto,
se a i-sima observao for um outlier pode ocorrer que a estimativa da
varincia estar afetada por este valor.
Uso de Recursos Computacionais

Ferreira, D.F.

62

Regresso Linear
A ltima proposta de padronizao foi feita para contornar este pro-

blema e tem ainda algumas propriedades mais interessantes do que as demais formas de padronizao. Esta ltima padronizao resulta nos resduos
estudentizados externamente, tambm denominados de resduos de jackknife. A idia eliminar a i-sima observao e obtermos uma estimador
2 . O subscrito i apresentado entre parnteses foi
da varincia, digamos, S(i)

utilizado para indicar que se trata de um estimador aplicado a todos as


n 1 observaes resultante da eliminao da i-sima observao da amostra completa. Felizmente, no precisamos reajustar o modelo eliminando
a i-sima observao para obtermos uma estimativa desta varincia (Chatterjee e Hadi, 1986[2]). Um estimador obtido a partir da anlise original
(Beckman e Trussell, 1974[1]) dado por:

2
S(i)
=

e2i
(n m 1)S 2

nm2
(n m 2)(1 hi )

(3.32)

O resduo estudentizado externamente definido por:


ei
ti = q
2
(1 hi )S(i)

(3.33)

Este resduo denominado por RSTUDENT na literatura especializada


de regresso. Observaes que apresentarem este tipo de resduo superior
em mdulo a 2, devem receber ateno especial. Existe uma preferncia por
este tipo de resduo na literatura e as razes para isso podem ser apontadas
(Chatterjee e Hadi, 1986[2]) por:
Os resduos estudentizados externamente ti sob a hiptese de normalidade seguem a distribuio t de Student com = n m 2 graus
de liberdade, enquanto ri2 /(n m 1) segue a distribuio beta;
podemos mostrar facilmente que:
s
ti = r i

nm2
n m 1 ri2

de onde se observa que ti uma transformao monotnica de ri e


que ti medida que ri (n m 1). Assim, ti reflete um
resduo fora de faixa de forma mais acentuada do que faz ri ; e
Ferreira, D.F.

Uso de Recursos Computacionais

3.5 Diagnstico em Regresso Linear

63

2 robusto grandes e grosseiros erros da i-sima


o estimador S(i)

observao, ou seja, se esta observao for discrepante.

importante ressaltarmos que a deteco de valores discrepantes no


deve implicar em descarte automtico de observaes. possvel, por exemplo, que o valor discrepante se deva a erro de transcrio, situao em que
esse valor pode ser facilmente corrigido ou ento pode ser um indicativo de
modelo inadequado, possibilitando que modelos melhores sejam adotados e
ajustados.

3.5.2

Influncia no Espao das Variveis Preditoras

Alm dos resduos podemos verificar a influncia das observaes em


uma srie de quantidades importantes da anlise de regresso. Uma interessante medida de diagnstico o prprio elemento hi da matriz de projeo H. Esta estatstica denominada de influncia (leverage). O critrio
utilizado baseado em algumas propriedades (Velleman e Welsch, 1981[16])
n
X
de hi , dadas por: 0 hi 1 e
hi = (m + 1). Assim, o valor mdio da
i=1

influncia (m + 1)/n. Como hi = Yi /Yi , uma estimativa igual a zero


indicativo de que no h influncia no ajuste do modelo e uma estimativa
igual a 1, indicativo que um grau de liberdade foi efetivamente atribudo
ao ajuste daquela observao. O problema determinar quais observaes
amostrais tm alta influncia no ajuste e, portanto, receber ateno especial. Se m > 14 e (n m) > 31 podemos utilizar o critrio de que a i-sima
observao merece ateno se hi > 2(m + 1)/n. Se estas condies envolvendo m e n no forem verificadas, podemos utilizar hi > 3(m + 1)/n como
um melhor critrio.
Devemos chamar a ateno de que a influncia medida pelo hi refere-se
ao papel das variveis regressoras (fatores). Assim, medimos a influncia,
com hi , no espao dos fatores e, com a anlise de resduos, no espao da
varivel resposta. Assim, a influncia pode ocorrer no espao dos fatores,
no espao das respostas ou em ambos os casos.
Uso de Recursos Computacionais

Ferreira, D.F.

64

Regresso Linear

3.5.3

Influncia no Vetor de Estimativas dos Parmetros

A idia de medir a influncia da i-sima observao na estimativa do


vetor de parmetros pode ser desenvolvida a partir da eliminao desta observao. Aps esta eliminao, estimamos novamente os parmetros do
modelo e aplicamos uma medida de distncia entre as estimativas. Esta
distncia pode ser dada pela diferena entre as estimativas obtidas com
e sem a eliminao da i-sima observao. Em geral isso que fazemos,
tomando-se o cuidado apenas de padronizar os resultados. Seja ij , o estimador do j-simo parmetro aps eliminarmos a i-sima observao, para
i = 1, 2, , n e j = 0, 1, , m. A estatstica que utilizaremos para isso
conhecida por DF BET Aij , em que DF so as iniciais de Deviation of
Fit. Por meio dela podemos determinar a influncia de cada observao na
estimativa de cada parmetro do modelo. Esta estatstica dada por:

DF BET Aij =

j ij
 
V j

(3.34)

A dificuldade obter as estimativas do vetor de parmetros para cada


um dos n casos, em que um das variveis eliminada. Felizmente, no
precisamos estimar n vezes o vetor de parmetros para calcularmos os
DF BET AS. Existe uma relao interessante (Chatterjee e Hadi, 1986[2])
para a diferena entre os vetor de estimativas com e sem a i-sima observao que dada por:

(i) =

1
(X 0 X)1 Zi ei
1 hi

(3.35)

em que (i) o estimador do vetor de parmetros aps a eliminao da

i-sima observao.
Tambm sabemos que o vetor de estimadores dos parmetros dado
por:

= (X 0 X)1 X 0 Y = CY

Ferreira, D.F.

(3.36)

Uso de Recursos Computacionais

3.5 Diagnstico em Regresso Linear

65

Assim, o DF BET A no padronizado dado por:

DF BET Aij = cji

ei
1 hi

(3.37)

em que cji o elemento da j-sima linha e i-sima coluna da matriz C =


(X 0 X)1 X 0 .
Se a expresso (3.37) for dividida pelo erro padro do vetor de par 

metros V j , obteremos uma expresso equivalente (3.34). A expresso


resultante utilizada para obtermos os DF BET AS, sendo dada por:

cji ti

DF BET Aij = r

(3.38)

(1 hi )Cj 0 Cj

em que Cj vetor obtido a partir da j-sima linha da matriz C.

Estas estatsticas so muito dependentes do nmero de observaes,


sendo que tanto menor ser o efeito da observao sobre os valores de
DF BET AS, quanto maior for o nmero de observaes. Para estabelecer um valor limite para essa estatstica, podemos tomar como base o valor
limite para os resduos, que igual a 2. Assim, teremos que observaes

cujos |DF BET Aij | > 2/ n devem ter ateno especial, pois o vetor de
estimativas pode ter sofrido alteraes significativas.

3.5.4

Influncia no Vetor de Valores Preditos

O impacto da i-sima observao no i-simo valor predito pode ser medido pela padronizao da mudana no valor predito na presena e ausncia
desta observao. A estatstica utilizada para fazer tal mensurao denominada de DF F IT S e dada por:





Yi Yi(i)
r

hi

DF F IT Si = q
= |ti |
2
1 hi
(1 hi )S(i)

(3.39)

Podemos verificar que quanto maior a influncia da i-sima observao,


mais hi se aproxima de 1 e, conseqentemente, maior ser o coeficiente |ti |.
Uso de Recursos Computacionais

Ferreira, D.F.

66

Regresso Linear

Como vimos anteriormente hi /(1hi ) est relacionada a uma medida da distncia entre as linhas de X. Assim, a grandeza do valor de DF F IT S pode
ser atribuda discrepncia do valor da resposta, do conjunto de valores das
variveis preditoras ou de ambos. Um ponto geral para a determinao de
observaes influentes considerado o valor 2. Um ponto de corte ajustado
p
para determinar a influncia 2 (m + 1)/n.
A distncia de Cook outra estatstica utilizada para medir a influncia
de uma observao na predio dos valores da varivel resposta Y . Esta
estatstica pode ser vista como a distncia Euclidiana entre os valores preditos com e sem a i-sima observao. O estimador da distncia de Cook
dado por:

Di =

hi
1
r2
(m + 1) (1 hi ) i

(3.40)

Apesar de que a distncia de Cook no deva ser usada como teste de


significncia, sugere-se o uso dos quantis da distribuio F central com
m + 1 e n m 1 graus de liberdade para servir de referncia para o valor
Di . Outros autores sugerem que se Di > 1, a i-sima observao deve ser
considerada influente.
A distncia de Cook utiliza ri2 , sendo que implicitamente est utilizando
S 2 para padronizar a varincia. Existe uma sugesto de que esta estatstica
2 no lugar
possa ter melhores propriedades se for utilizado o estimador S(i)

de S 2 . Assim, a distncia modificada de Cook utiliza esta substituio e faz


um ajuste para o nmero de observaes e toma ainda a raiz quadrada da
distncia transformada. A distncia modificada de Cook dada por:
s
Di

= |ti |

hi (n m 1)
= DF F IT S
(1 hi )(m + 1)

nm1
m+1

(3.41)

Com essa modificao, temos que: a nova estatstica enfatiza mais os


pontos extremos; o grfico de probabilidade normal pode ser utilizado para
checagem; nos casos perfeitamente balanceados [hi = (m + 1)/n] para qualquer i, a distncia modificada tem comportamento idntico ao DF F IT S;
a distncia modificada com sinal pode ser plotada contra variveis exploratrias do modelo.
Ferreira, D.F.

Uso de Recursos Computacionais

3.5 Diagnstico em Regresso Linear

67

Dado o limite mximo estabelecido para DF F IT S, um valor da distncia modificada de Cook maior que 2 pode ser considerado um indicativo de
observao influente.

3.5.5

Influncia na Matriz de Covarincias

 
Uma medida da influncia da i-sima observao na V obtida

comparando a razo de varincias generalizadas (determinantes) da estimativa da covarincia com e sem a i-sima observao. Esta estatstica dada
por:



1 
2
0 X
det S(i)
X(i)
(i)
h
i
COV RAT IOi =
det S 2 (X 0 X)1

n m 1 ri2
nm2
=
(1 hi )


m+1
(3.42)

em que X(i) a matriz do modelo obtida aps a eliminao da i-sima


observao amostral.
Um valor no muito preciso para determinar pontos influentes dado
por |COV RAT IOi 1| > 3(m + 1)/n.

3.5.6

Comandos SAS

Felizmente todas estes mtodos de diagnstico em regresso linear podem ser obtidas utilizando duas opes simples do comandos model: r e
influence. Apresentamos na seqncia um exemplo do programa SAS utilizado para obter o diagnstico de regresso para o exemplo do volume de
madeira das rvores.

/*Exemplo do proc reg para realizar anlise de diagnose em modelos de regresso linear
mltipla.*/
proc reg data=arvores;

Uso de Recursos Computacionais

Ferreira, D.F.

68

Regresso Linear
model y=x1 x2 x3/r influence;

run;quit;

3.6

Exerccios

1. Utilize os dados do exemplo da amostra de n = 10 rvores e ajuste o


seguinte modelo:
Yi = 0 + 1 X1i + 2 X2i + 3 X3i + 4 X1i X2i + 5

1
+ i
X3i

2. Existe alguma varivel redundante? Se houver utilize os mtodos de


seleo de modelos apresentados neste captulo e determine qual o
melhor modelo.
3. Os mtodos de seleo de modelo chegaram a um mesmo modelo?
4. Para o modelo final utilizar as opes apresentadas e verificar a qualidade da predio, fazer o grfico dos valores preditos e do intervalos
de confiana (clm e cli) e plotar os resduos em relao aos valores
preditos na abscissa.
5. Utilize variveis candidatas diferentes das apresentadas no exerccio
(1) e aplique os mtodos de seleo de modelos. Voc chegou a um modelo melhor do que o anteriormente obtido? Justifique devidamente
suas concluses.
6. Utilizando os dados da amostra de n = 10 rvores ajuste o modelo:
Yi = 0 + 1 X1i + 2 X2i + 3 X3i + 4 X1i X2i + 5

1
+ i
X3i

Faa a anlise de diagnose e verifique se existe alguma observao


influente. Justifique devidamente suas concluses.

Ferreira, D.F.

Uso de Recursos Computacionais

Captulo 4

Regresso No-Linear
Outro assunto extremamente importante para os pesquisadores em geral
o ajuste de regresses no-lineares em suas pesquisas aplicadas. Temos o
objetivo de apresentar neste captulo as principais idias sobre os processos
de estimao de parmetros de modelos no-lineares e os comandos do proc
nlin para realizar esta tarefa. O que devemos considerar que os modelos
no-lineares nos parmetros tm uma maior plasticidade e portanto so
considerados mais apropriados para modelarem fenmenos biolgicos.
Neste captulo vamos discutir um pouco sobre mtodos de estimao de
parmetros de modelos no-lineares e sobre a sintaxe do proc nlin. Vamos
apresentar programas de modelos de Response Plateau linear e no-linear.
Ambos so no-lineares nos parmetros, mas descrevem curvas lineares e
quadrticas, respectivamente, alm do plateau no ponto de juno dos segmentos, que uma linha reta paralela abscissa.
Os procedimentos de estimao no-linear so em geral iterativos. O
processo deve iniciar para um valor especfico inicial de seus parmetros
e a soma de quadrado do resduo avaliada. Ento uma nova estimativa
dos parmetros obtida, buscando-se minimizar a soma de quadrados do
resduo. Este processo repetido at que este mnimo seja alcanado. Vrios algoritmos e mtodos existem para realizar este processo de estimao.
No faremos uma descrio detalhada destes mtodos, que aceleram a convergncia e so eficientes para estimarmos os parmetros que conduzem ao
mnimo global para a soma de quadrados de resduos, por causa de as diUso de Recursos Computacionais

Ferreira, D.F.

70

Regresso No-Linear

ficuldades tericas do assunto ultrapassarem o limite estipulado para este


material.

4.1

Introduo aos Modelos No-Lineares

Um modelo considerado no-linear nos parmetros e esta classificao


no influenciada pela funo matemtica descrita (hiprbole, parbola,
etc.). Como j dissemos no captulo 3, se as derivadas parciais forem funes dos prprios parmetros, teremos um modelo no-linear. Podemos ter
mltiplos parmetros neste modelo ou apenas um e da mesma forma, podemos ter apenas uma varivel regressora ou mais de uma. Assim, Y = Z
um modelo no-linear com dois parmetros e e Y = + Z 2 um
modelo linear, independentemente de a funo descrever uma parbola, pois
este modelo linear nos parmetros e .
Os detalhes computacionais envolvidos nos procedimentos no-lineares
so muito complexos. Vamos simplificar o mximo que pudermos, sem
no entanto deixarmos de ter o rigor necessrio. Seja o modelo no-linear F
definido de forma geral para o vetor de parmetros = [1

m ]0

e para o vetor de variveis regressoras da j-sima unidade amostral Z 0 =


j

[Z1j

Z2j

Zpj ] por


Yj = Fj


, Z

+ j .

(4.1)

Podemos expressar este modelo em notao matricial por:

Y =F

 
+ .

(4.2)

em que podemos expressar o vetor do modelo F

 
, simplesmente por F .

Para ficar claro a notao que estamos utilizando, consideremos o modelo Yj = Zj + j . Neste caso temos um vetor de parmetros dado por
0 = [ ] e uma nica varivel regressora Z. O vetor do modelo dado

por:
Ferreira, D.F.

Uso de Recursos Computacionais

4.1 Introduo aos Modelos No-Lineares

Z1

Z2

F = .

..

Zn

71

O vetor de observaes dado por:

Y1

Y =

Y2
..
.

Yn
Finalmente, o vetor de resduos dado por:

1

 =

2
..
.

n
O modelo pode ser escrito por:

Y1


Z2

= .
..

Yn
Zn

Z1

Y2
..
.

1

2
..
.

n

Um dos mtodos utilizados


baseia-se na minimizao da soma de qua 
drados dos resduos L =  0  . Substituindo  = Y F e derivando

com respeito a , obtivemos:

 

0 

L =0 = Y F
Y F = Y 0 Y 2Y 0 F + F 0 F

0
F
F 0 F
L 2Y

=
+

Mas,
Uso de Recursos Computacionais

Ferreira, D.F.

72

Regresso No-Linear

2Y 0 F

2Y 0 F

= 2Y 0 X

em que X = F / a matriz de derivadas parciais, em que cada coluna

formada pela derivada da funo linear em relao aos parmetros.


Tambm podemos simplificar F 0 F / por:

F 0 F

F 0 F

= 2F 0 X

Logo,
L
= 2Y 0 X + 2F 0 X

Igualando a zero a primeira derivada, temos as equaes normais para


os modelos no-lineares:

X 0F = X 0Y

(4.3)

Como F e X so funes de , ento uma forma fechada para a soluo,

em geral, no existe. Ento devemos utilizar um processo iterativo. Para


isso precisamos de um valor inicial para o vetor de parmetros, que deve
ser melhorado continuamente at que a soma de quadrados de resduos  0 

seja minimizada.
Se considerarmos o modelo Yj = Zj +j , que utilizamos anteriormente
para ilustrar alguns aspectos do modelo, podemos construir a matriz X das
derivadas parciais facilmente. Sejam as derivadas parciais Yj / = Zj e
Yj / = Zj (Zj 1)

Ferreira, D.F.

Z1

Z1 (Z1 1)

Z2

X= .
..

Zn

Z2 (Z2 1)
..
.

Zn (Zn 1)

Uso de Recursos Computacionais

4.1 Introduo aos Modelos No-Lineares

73

As equaes normais para este exemplo so:

"

Z1

Zn

Z1 (Z1 1)

"
=

Z1

Zn (Zn 1)

Zn

Z1 (Z1 1)

Zn (Zn 1)

Z1

#
Z2

.
..

Zn

Y1

#
Y2

.
..

Yn

Devemos iniciar o processo iterativo para um determinado valor inicial


0 . Para o valor corrente (k-simo passo do processo iterativo) do vetor

de parmetros, devemos
  calcular a matriz X e estimar o vetor de resduos
por e = Y F k . No ponto inicial (k = 0), avaliamos X e o vetor

de resduos, considerando o valor


do vetor de parmetros espe arbitrrio

cificado. Neste caso, se SQE k = e 0 e for a soma de quadrados dos

resduos avaliada na k-sima iterao, ento X e Y so usados para calcular

um vetor de tal forma que

SQE k +

< SQE k

para uma constante qualquer.


Existem quatro mtodos implementados no SAS. Estes quatro mtodos
diferem na forma como calculado para propiciar as trocas no vetor de

parmetros. De uma forma geral os critrios bsicos so:

Gradiente:

Gauss-Newton:

= X0 e

Newton:

Marquardt:

= G X 0 e

= (X 0 X) X 0 e

(4.4)

= [X 0 X + diag(X 0 X)] X 0 e

Uso de Recursos Computacionais

Ferreira, D.F.

74

Regresso No-Linear

em que (X 0 X) uma inversa generalizada. Pode ser uma inversa reflexiva


(g2 ), mas o ideal que seja uma inversa de Moore-Penrose (g4 ).
Os mtodos Gauss-Newton e Marquardt realizam a regresso dos resduos em relao as primeiras derivadas do modelo no-linear em relao
aos parmetros, at que haja a convergncia. O mtodo de Newton faz a
regresso destes resduos em relao a uma funo das segundas derivadas
do modelo no-linear com relao aos parmetros (G ).

4.1.1

Mtodo do Gradiente

Este mtodo baseado no gradiente ou grau de variao de  0  . Seja


k a estimativa do vetor de parmetros na k-sima iterao do processo.

Assim, este gradiente definido por:

1
2

 
L k

= X 0 Y + X 0 F = X 0 e

pois X e F so avaliados no ponto k .

A quantidade X 0 e o gradiente para o qual  0  cresce. Sendo as

sim, = X 0 e o grau de variao para o mtodo de gradiente. Para

utilizarmos o mtodo do gradiente devemos inicialmente estipular um valor


arbitrrio para o vetor de parmetros, digamos 0 . Calculamos e e . As

sim, podemos obter o valor do parmetro no (k+1)-simo passo, tomando


a estimativa do k-simo passo anterior por:

k+1 = k +

(4.5)

em que o escalar escolhido no k-simo passo para que




SQE k +

< SQE k .

(4.6)

O mtodo do gradiente possui convergncia muito lenta e, em geral, no


utilizado para estimar parmetros dos modelos no-lineares. Quando, no
entanto, as estimativas iniciais so pobres, este mtodo se torna particularmente til.
Ferreira, D.F.

Uso de Recursos Computacionais

4.1 Introduo aos Modelos No-Lineares

4.1.2

75

Mtodo de Newton

O mtodo de Newton utiliza a segunda derivada do erro em relao aos


parmetros e obtm o vetor por:

= G X 0 e

(4.7)

em que

G = (X X) +

n
X

Hj k ej

(4.8)

j=1

sendo que a matriz Hj , de dimenso r r, avaliada para o vetor de parmetros k no k-simo passo para a j-sima observao amostral, a matriz

Hessiana do vetor de erros  . O elemento (`, k) desta matriz, [Hj ]`k , dado

por:
2 j
=
` k


[Hj ]`k


(4.9)
`k

Estimado o vetor , devemos aplicar as equaes (4.5) e (4.6) para

obtermos uma nova equao e recalcularmos o vetor de parmetros.


Para o exemplo anterior, considerando o modelo Yj = Zj +j , a matriz
de segundas derivadas para a j-sima observao :

"
Hj =

4.1.3

Zj (Zj 1)

Zj (Zj 1) Zj (Zj 1)(Zj 2)

Mtodo de Gauss-Newton

O mtodo de Gauss-Newton usa a expanso em srie de Taylor do vetor


de funes
 
 


F = F 0 + X 0 +

em que a matriz de primeiras derivadas X avaliada no ponto 0 .

Se substituirmos os dois termos desta expanso nas equaes normais


obtemos
Uso de Recursos Computacionais

Ferreira, D.F.

76

Regresso No-Linear

 
X F =X 0 Y




  
=X 0 Y
X 0 F 0 + X 0

 


0
0
0
X X 0 =X Y X F 0
0

X 0 X =X 0 e

e portanto,
=(X 0 X) X 0 e

(4.10)

Estimado o valor de para o vetor 0 , aplicam-se as equaes (4.5) e

(4.6) para se obter o vetor de estimativas do passo 1. O processo repetido


um determinado nmero de vezes at que o vetor de estimativas no se
altere mais dentro de uma preciso pr-estipulada.

4.1.4

Mtodo de Marquardt

O mtodo de Marquardt mantm um compromisso entre o mtodo de


Gauss-Newton e o mtodo do gradiente. A frmula de atualizao do vetor
de parmetros dada por:



= (X 0 X) + diag(X 0 X) X 0 e

(4.11)

Se 0, h uma aproximao ao mtodo de Gauss-Newton e se ,


h uma aproximao ao mtodo do gradiente.
Porpadro o 
procnlin co
mea com valor de = 107 . Se SQE 0 + < SQE 0 , ento

= /10 na prximaiterao; 
se por
 outro lado ocorrer o contrrio, ou
seja, se SQE 0 + > SQE 0 , ento = 10. Assim, se a soma de

quadrados do resduo decresce a cada iterao, estaremos utilizando essencialmente o mtodo de Gauss-Newton; se ocorrer o contrrio o valor de
aumentado em cada iterao, sendo que passaremos a utilizar o mtodo de
gradiente.
Ferreira, D.F.

Uso de Recursos Computacionais

4.2 O Proc Nlin

4.1.5

77

Tamanho do passo da iterao

Devemos estipularo tamanho


 do passo
 que
 daremos em cada iterao. Assim, se SQE k + > SQE k , comeando com = 1,



devemos reduzir o valor pela metade em cada passo SQE k + 0, 5 ,



SQE k + 0, 25 , e assim por diante at que um quadrado mdio do re

sduo menor seja encontrado. Podemos muitas vezes encontrar dificuldades


em obter avanos na reduo da soma de quadrados dos resduos. Quando
isso acontece, o SAS interrompe o processo e comunica ao usurio da no
ocorrncia de ganhos na reduo do SQE com no passo atual da iterao.
As possveis causas podem ser: derivadas mal especificadas e valores iniciais
inadequados.

4.2

O Proc Nlin

O proc nlin o procedimento SAS apropriado para ajustarmos modelos


no-lineares. Este procedimento possui alm dos mtodos descritos anteriormente uma quinta opo, o mtodo de DUD. Este mtodo livre de
derivadas, ou seja, no utiliza a matriz Jacobiana X. Assim, o usurio no
precisa especificar as derivadas parciais. Isso no uma grande vantagem,
pois nas novas verses, o SAS faz o clculo numrico das derivadas parciais
necessrias, se elas no forem especificadas.
Vamos ilustrar nesta seo os comandos bsicos para ajustarmos um
modelo de regresso no-linear utilizando o proc nlin. Vamos especificar a
forma de entrar com o modelo e com as derivadas parciais e, tambm, como
escolher os mtodos de estimao a ser utilizado. Antes de fazermos isso,
devemos fazer algumas consideraes a respeito de como atribuir valores
iniciais para os parmetros. Podemos utilizar, entre outras possibilidades,
estimativas publicadas na literatura especializada, que utilizam modelos e
conjuntos de dados similares aos de nossa pesquisa. Se o modelo pode
ser linearizado, ignorando o fato de ter resduos aditivos, podemos aplicar
uma transformao para lineariz-lo e ento, ajustar, o modelo linear resultante. As estimativas de quadrados mnimos, devidamente transformadas
Uso de Recursos Computacionais

Ferreira, D.F.

78

Regresso No-Linear

para a escala original, quando for o caso, so utilizadas como valores iniciais. Algumas vezes, antes da linearizao, podemos efetuar algum tipo de
reparametrizao e proceder da mesma forma. Os processos iterativos possuem convergncia bem mais rpida, quando os valores iniciais esto mais
prximos das estimativas de mnimos quadrados.
Para apresentarmos os comandos bsicos do proc nlin, vamos utilizar os
dados da Tabela 3.2 e o seguinte modelo no-linear nos parmetros:

yi = xi + i

(4.12)

Neste caso temos n = 8 rvores e as seguintes derivadas parciais em


relao aos parmetros e : yi / = xi e yi / = xi (xi 1) . Como
estas derivadas parciais so funes dos parmetros e , temos um modelo
no-linear nos parmetros caracterizado. Vamos atribuir valores iniciais
arbitrrios iguais a 0, 5 e 1, 8 para e , respectivamente. Poderamos ter
linearizado este modelo facilmente aplicando a funo logaritmo, ignorando
claro o fato de o erro ser aditivo. Este seria um artifcio para obtermos
valores iniciais mais acurados. O modelo linearizado dado por ln(yi ) =
ln() + ln(xi ) + i , que poderia ser rescrito por zi = A + wi + i . Neste
caso a estimativa do parmetro A do modelo linear dever ser transformada
A estimativa de no precisa
para a escala original por
= exp (A).
ser modificada, pois o parmetro no foi alterado pela transformao
efetuada. Isto deixado a cargo do leitor na forma de exerccio. O programa
SAS resultante :

Data regnlm1;
input X Y;
Cards;
0.1 0.88
0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20

Ferreira, D.F.

Uso de Recursos Computacionais

4.2 O Proc Nlin

79

2.0 3.10
;
Proc nlin Method=Gauss;
Parms a=0.5 b=1.8;
Model y=a*(b**x);
Der.a=b**x;
Der.b=a*x*(b**(x-1));
run;quit;

Neste programa a e b representam os parmetros e , respectivamente;


os comandos <der.a=b**x;> e <der.b=a*x*(b**(x-1));> indicam as derivadas parciais da varivel resposta em relao aos parmetros e , respectivamente; o modelo especificado com o comando <model y=a*(b**x);>.
O SAS utilizou 4 iteraes e apresentou uma mensagem que o ajuste do
modelo atingiu convergncia. O modelo ajustado foi yi = 0, 81171, 9542xi .
Ambos os parmetros foram significativamente diferentes de zero, pois os
intervalos assintticos de 95% de confiana no abrangeram o valor 0. O intervalo assinttico de 95% confiana para o parmetro foi [0, 7903; 0, 8330]
e para o parmetro , [1, 9206; 1, 9877]. O R2 do modelo pode ser estimado por R2 = 1 SQRes/SQT otal.

Para este exemplo, o R2 =

1 0, 00276/4, 2178 = 0, 9993, indicando que 99, 93% da variao do crescimento das plantas foi explicado pelo modelo de regresso.
Vamos ilustrar o proc nlin com o ajuste de mais um modelo aos dados
da Tabela 3.2 dado por:

yi = xi + i

(4.13)

As derivadas parciais em relao a cada parmetro so dadas pelas funes yi / = xi e yi / = xi ln (xi ). O programa correspondente a
este exemplo dado por:

Data regnlm2;
input X Y;
Cards;

Uso de Recursos Computacionais

Ferreira, D.F.

80

Regresso No-Linear

0.1 0.88
0.2 0.90
0.3 0.99
0.5 1.12
0.8 1.40
1.0 1.62
1.5 2.20
2.0 3.10
;
Proc nlin Method=Gauss maxiter=500;
Parms a=0.5 b=1.8;
Model y=a*(x**b);
Der.a=x**b;
Der.b=a*x**b*log(x);
run;quit;

Especificamos um nmero mximo de iteraes igual a 500. O padro


do SAS, se nada for especificado, 100. Neste caso ocorreu a convergncia
com apenas 8 iteraes. Este comando (maxiter=nit) se torna til apenas
quando o valor inicial precrio, requerendo um nmero grande de iteraes, principalmente se houver correlaes elevadas entre os estimadores
dos parmetros. Neste exemplo, o modelo ajustado foi yi = 1, 8548x0,575
,
i
sendo que este ajuste foi um pouco inferior ao ajuste do modelo anterior.
Isto pode ser constatado observando o valor do coeficiente de determinao R2 = 89, 61% deste modelo e comparando com o valor anteriormente
obtido. Os dois modelos ajustados esto apresentados na Figura 4.1. Devemos procurar sempre, alm de um bom ajuste, modelos que possam ter
uma relao com o fenmeno que estamos estudando. Apesar dos bons
ajustes alcanados, podemos para este exemplo escolher, do ponto de vista
biolgico, melhores modelos no-lineares.

4.3

Modelos Segmentados

Dentre os modelos segmentados existe o modelo de response plateau


que muito utilizado na pesquisa em diversas reas. Esse modelo possui
dois segmentos, sendo que o primeiro descreve uma curva crescente ou deFerreira, D.F.

Uso de Recursos Computacionais

4.3 Modelos Segmentados

81

2.5

1.5

0.5

0
0

0.5

1.5

Figura 4.1: Modelos no lineares ajustados - modelo yi = 1, 8548xi0,575


iniciando pela origem e modelo yi = 0, 8117 1, 9542xi iniciando pelo ponto
0, 8117.
crescente at uma determinada altura da ordenada (P ) que o plat. A
partir desse ponto o valor Y assume um valor constante P . O ponto correspondente ao valor P na abscissa o ponto X0 , que tambm um parmetro
a ser estimado. Vrios modelos podem ser utilizados para modelar o comportamento da curva entre a origem e o ponto onde se encontra o plat.
Nesta seo apresentamos o exemplo do manual do SAS (proc nlin) com
um modelo quadrtico anterior ao plat. Na Figura 4.2 apresentado um
exemplo de um modelo de response plateau, destacando-se os pontos X0 e
P.
Para ilustrarmos o ajuste de um modelo bi-segmentado desta natureza
considerado o exemplo apresentado no manual do SAS, relativo ao proc
nlin. Seja para isso o seguinte modelo quadrtico de response plat:

Yi =

0 + 1 Xi + 2 X 2 se Xi < X0
i

(4.14)

P se X X
i
0

Para valores de X < X0 , os de Y so explicados por um modelo quadrtico (parbola) e para valores de X X0 , a equao explicativa constante
Uso de Recursos Computacionais

Ferreira, D.F.

82

Regresso No-Linear

Y
P

X
0

Figura 4.2: Modelo segmentado considerando um plateau no ponto X = X0


com valor de Y = P e um modelo crescente para X < X0 .
e paralela a abscissa. O ponto X0 considerado desconhecido e deve ser
estimado juntamente com os demais parmetros do modelo. Este ponto
representa a juno do segmento quadrtico com o segmento de plat. As
curvas devem ser contnuas (os dois segmentos devem se encontrar em X0 )
e suavizada, ou seja, as primeiras derivadas com relao a X nos dois segmentos devem ser a mesma no ponto X0 . Essas condies implicam em
algumas conseqncias descritas a seguir.
A primeira derivada de Y em relao a X no modelo quadrtico dada
por:

dYi
= 1 + 22 Xi
dXi
Se igualarmos esta deriva a zero, resolvermos a equao resultante em
X e substituirmos o valor de X por X0 , ponto em que a curva deve ser
contnua e suavizada, obtemos:
Ferreira, D.F.

Uso de Recursos Computacionais

4.3 Modelos Segmentados

83

X0 =

1
22

Substituindo esse valor na equao (4.14) obtemos o mximo, que corresponde ao plat almejado. Assim, este plat dado por:

Y = P = 0 + 1 X0 + 2 X02 = 0

2 2
12
2
+ 1 2 = 0 1
22
42
42

Neste caso temos apenas trs parmetros efetivos, pois tanto X0 , quanto
P so determinados a partir de 0 , 1 e 2 . Este um modelo no linear
nos parmetros, pois as derivadas parciais de Y so funes dos parmetros
em alguns casos, justificando o uso do proc nlin. O programa final apresentado na seqncia. Podemos destacar que ele dividido em duas partes:
a primeira com a parte quadrtica polinomial e a segunda, com a parte
do plat. Em cada ciclo do processo iterativo imprimimos nos resultados,
juntamente com os demais parmetros, as estimativas de X0 e de P . Utilizamos o proc plot para produzir um grfico de baixa qualidade dos valores
ajustados. Neste modelo, a representa 0 , b representa 1 e c representa 2 .

/* Ajuste do modelo segmentado usando o NLIN */


/* y= a + b*x + c*x*x e y=P se x>x0 */
/* restrio de continuidade: P= a +b*x0+c*x0*x0 */
/* restrio de suavizao: 0=b+2*c*x0, ento, x0=-b/(2*c) */
title Modelo quadrtico com plat;
data reg;
input x y @@;
cards;
1 0.46 2 0.47 3 0.57 4 0.61 5 0.62 6 0.68 7 0.69
8 0.78 9 0.70 10 0.74 11 0.77 12 0.78 13 0.74 13 0.80
15 0.80 16 0.78
;
proc nlin data=reg;
parms a=0.45 b=0.05 c=-0.0025;
file print;
x0=-0.5*b/c; /*estimao do ponto comum */
db=-0.5/c; /* derivada de xo em relao a b */

Uso de Recursos Computacionais

Ferreira, D.F.

84

Regresso No-Linear
dc=0.5*b/c**2; /* derivada de xo em relao a c */
if x<x0 then /* parte quadrtica do modelo */
do;
model y=a+b*x+c*x**2;
der.a=1;
der.b=x;
der.c=x**2;
end;
else /* parte do modelo relativo ao plat de resposta*/
do;
model y=a+b*x0+c*x0**2;
der.a=1;
der.b=x0+b*db+2*c*x0*db;
der.c=b*dc+x0*x0+2*c*x0*dc;
end;
if _obs_=1 then
do;
plateau=a+b*x0+c*x0**2;
put x0= plateau=;
end;
output out=reg1 predicted=yp;

run;quit;
proc plot data=reg1;
plot y*x yp*x="*"/overlay vpos=35;
run;quit;

O modelo ajustado foi Yi = 0, 3921 + 0, 0605Xi 0, 00237Xi2 se Xi <


12, 7477 e Yi = 0, 7775, caso contrrio. As estimativas de 0 e 1 foram
significativamente (P < 0, 05) superiores a zero e a de 2 , significativamente
inferior a zero. Estes resultados foram obtidos analisando os intervalos de
confiana assintticos. O R2 do modelo foi igual a 1 0, 0101/0, 1869 =
0, 9460.
Outro modelo que aparece freqentemente na literatura o linear response plateau ou LRP. Este modelo possui um segmento de reta antes do
ponto de juno (X0 ) com o plat e dado por:
Ferreira, D.F.

Uso de Recursos Computacionais

4.3 Modelos Segmentados

Yi =

0 + 1 Xi + i se Xi X0

85

(4.15)

P +  se X > X
i
i
0
comum utilizarmos uma varivel binria (Dummy) para representarmos o modelo. Neste caso utilizaremos a varivel Zi , que receber o
valor 1 se Xi X0 , ou 0 se Xi > X0 . Este modelo poder ser reescrito por
Yi = (0 + 1 Xi ) Zi +P (1Zi ). Para termos continuidade em X0 , devemos
igualar 0 + 1 X0 = P , ou seja, X0 = (P 0 )/1 .
Neste caso temos um modelo com trs parmetros (0 , 1 e P ). Diferentemente do modelo anterior, P no pde ser expresso em funo dos
demais parmetros. Apesar de as variveis parciais no dependerem dos
parmetros, este um modelo no-linear uma vez que a matriz Jacobiana
depende de X0 para ser construda, sendo que X0 funo de 0 , 1 e de P .
Assim, as derivadas parciais, dadas por Yi /0 = Zi , Yi /1 = Xi Zi e
Yi /P = 1 Zi , dependem dos parmetros por meio de X0 . A cada passo
do processo iterativo, o parmetro X0 estimado e a matriz do modelo
composta, pois os Zi s ficam completamente definidos.
Utilizamos os recursos do proc nlin para estimar os parmetros deste
modelo segmentado do tipo LRP. O resultado final est apresentado na
seqncia para um conjunto simulado de dados. Neste conjunto de dados
os parmetros so 0 = 2, 1 = 2 e P = 10.

/* Ajuste do modelo segmentado usando o NLIN */


/* y= a + b*x se x<x0 e y=P se x>=x0 */
/* restrio de continuidade: P= a +b*x0 */
title Modelo Linear com plat;
data LRP;
input x y;
cards;
1.0

4.10

2.0

5.90

2.5

7.10

3.0

7.80

4.0

9.90

Uso de Recursos Computacionais

Ferreira, D.F.

86

Regresso No-Linear

5.0

10.10

6.0

10.20

7.0

9.80

8.0

9.78

;
proc nlin data=LRP;
parms a=1 b=2 p=2.0;
X0=(p-a)/b;
if x<=x0 then /* Parte no-plateau do modelo */
do;
model y=a+b*x;
der.a=1;
der.b=X;
end;
else /* Parte plateau do modelo */
do;
model y=p;
der.a=0;
der.b=0;
der.p=1;
end;
if _obs_=1 then /*Para imprimir a sada se for a 1a observao*/
do;
put x0=;
end;
output out=saida predicted=yp Residual=Res parms=a b p ess=sqe;
run;quit;

O modelo ajustado foi Yi = 2, 135 + 1, 93Xi se Xi 4, 06 e Yi = 9, 97


se Xi > 4, 06. O coeficiente de determinao do modelo foi igual a R2 =
99, 53%. Todos os valores paramtricos esto dentro do intervalo de confiana assinttico construdo.
Apresentamos na seqncia um outro exemplo, tambm simulado, em
que temos os parmetros iguais a 0 = 5, 1 = 2, 4, P = 29 e 2 = 1.

/* Ajuste do modelo segmentado usando o NLIN */


/* y= a + b*x se x<x0 e y=P se x>=x0 */
/* restrio de continuidade: P= a +b*x0 */

Ferreira, D.F.

Uso de Recursos Computacionais

4.3 Modelos Segmentados

87

title Modelo Linear com plat;


data LRP;
input x y;
cards;
1 8.6264841
2 8.9408731
3 11.909886
4 13.936262
5 17.945067
6 18.732450
7 21.847226
8 23.769043
9 27.671300
10 28.441954
11 27.811677
12 30.827451
13 28.817408
14 30.665168
15 28.813364
16 29.127870
17 28.218656
18 28.309338
19 28.651342
20 29.230743
;
proc nlin data=LRP;
parms a=1 b=2 p=2.0;
X0=(p-a)/b;
if x<=x0 then /* Parte no-plateau do modelo */
do;
model y=a+b*x;
der.a=1;
der.b=X;
end;
else /* Parte plateau do modelo */
do;
model y=p;
der.a=0;
der.b=0;
der.p=1;
end;
if _obs_=1 then /*Para imprimir a sada se for a 1a observao*/

Uso de Recursos Computacionais

Ferreira, D.F.

88

Regresso No-Linear
do;
put x0=;
end;
output out=saida predicted=yp Residual=Res parms=a b p ess=sqe;

run;quit;

O modelo ajustado para este exemplo foi Yi = 5, 0731 + 2, 3834Xi se


Xi 10, 06 e Yi = 29, 05 se Xi > 10, 06. O coeficiente de determinao
do modelo foi igual a R2 = 98, 64%. Tambm neste caso, todos os valores
paramtricos esto dentro do intervalo de confiana assinttico construdo.

4.4

Exerccios

1. Utilize os dados da Tabela 3.2 e o proc nlin do SAS para ajustar o


seguinte modelo:
Yi =

+ i
0 + i Xi

2. Este modelo se ajustou melhor do que aqueles da seo 4.2? Justifique


sua resposta.
3. Tente ajustar um modelo LRP aos dados da Tabela 3.2. Qual foi o
modelo encontrado? Este modelo um modelo LRP? Justifique sua
resposta. Plote os dados e verifique se existe uma disperso dos pontos
que justifique a representao por meio de um modelo LRP.
4. Utilize os resduos gerados no exemplo apresentado em aula do ajuste
do modelo LRP e realize a anlise grfica dos resduos.
5. Busque em sua rea de atuao dados que poderiam se enquadrar
dentro do modelo segmentado quadrtico. Descreva as situaes e os
possveis benefcios de ajustar um modelo deste tipo. Se os dados
estiverem disponveis, utilize o programa apresentado em aula para
ajustar o modelo de plat de resposta quadrtico.

Ferreira, D.F.

Uso de Recursos Computacionais

Captulo 5

Anlise de Varincia para


Dados Balanceados
Para realizarmos inferncias sobre a hiptese de igualdade entre vrias
mdias dos nveis de algum fator de interesse, utilizamos o teste F da anlise
de varincia (Anava). Esta hiptese pode ser formalizada por:

H0 : 1 = 2 = = ` =

(5.1)

H : pelo menos uma mdia difere das demais


1
em que ` o nmero de nveis deste fator de interesse e i a mdia do
i-simo nvel, i = 1, 2, , `.
Um valor de F observado superior a um valor crtico da distribuio
F para um nvel de significncia indica que devemos rejeitar a hiptese
nula H0 ; caso contrrio, no existiro evidncias significativas para rejeitar
a hiptese nula. Podemos ter mais de um fator. Neste caso teremos uma
hiptese nula para cada fator separadamente. Alm disso, estes fatores podem interagir. Se houver algum tipo de interao entre eles, um teste F
especfico para a hiptese de haver interao ir apresentar efeito significativo da estatstica. Tambm podemos ter efeitos hierarquizados, onde os
nveis de um fator A, por exemplo, dentro de um determinado nvel de outro
fator, digamos B, so diferentes dos nveis de A em outro nvel de B. Isto
ocorre, por exemplo, quando temos diferentes procedncias de eucalipto e
dentro de cada procedncia, temos diferentes prognies.
Uso de Recursos Computacionais

Ferreira, D.F.

90

Anlise de Varincia para Dados Balanceados


Neste captulo estaremos interessados nestes diferentes modelos estats-

ticos, contendo um ou mais fatores, cujos efeitos podem ser cruzados ou


hierarquizados, porm em uma estrutura experimental balanceada. Entenderemos por estrutura balanceada, aquele conjunto de dados cujo nmero
de observaes em cada combinao dos nveis dos fatores o mesmo. Cada
nvel de um fator, ou cada nvel resultante da combinao dos nveis de dois
ou mais fatores, denominado de casela. Se houver diferenas neste nmero
de observaes por casela, teremos dados no balanceados. O procedimento
do SAS apropriado para lidar com estas estruturas o proc anova. Se a
estrutura no-balanceada devemos utilizar o proc glm.

5.1

O Proc Anova

O proc anova o procedimento apropriado para realizarmos anlises de


varincia envolvendo dados balanceados. Podemos utilizar muitas opes
especficas entre os comandos deste procedimento. Vamos apresentar na
seqncia alguns dos comandos bsicos e especficos para ilustrar a sintaxe
do proc anova.

proc anova data=conjdados options;


class variables;
model dependents=effects / options;
means effects / options;
test H=effects E=effect;
manova H= effects E=effect / options;
by variables;
run; quit;

So comandos obrigatrios <class variables;> e <model dependents =


effects /options;>. No primeiro caso, especificamos as variveis classificatrias aps o comando class, separadas por espaos em branco. Estas variveis
classificatrias so os fatores da anlise. No devemos especificar as interaes entre estes fatores e nem os efeitos aninhados, mas somente os efeitos
Ferreira, D.F.

Uso de Recursos Computacionais

5.1 O Proc Anova

91

principais. Obviamente devemos usar os mesmos nomes especificados no


comando input. No comando model devemos colocar do lado esquerdo da
igualdade, as variveis respostas e do lado direito, as fontes de variao
do modelo adotado (effects). Ainda podemos especificar algumas opes
associadas ao modelo. Estas opes aparecem aps a barra (/). Duas opes esto disponveis no proc anova: nouni e intercept. A opo nouni
suprime as anlises univariadas da sada do programa. Em geral utilizada
de forma associada com o comando manova, para realizarmos anlises de
varincia multivariadas. A opo intercept ou simplesmente int utilizada
quando pretendemos testar hipteses relativas ao intercepto como um efeito
do modelo.
Os demais comandos so opcionais, ou seja, devemos utiliz-los conforme
nosso interesse particular em algum tipo de anlise. O comando <means effects /options;> utilizado para estimarmos as mdias de um determinado
fator na anlise de varincia, podendo ser inclusive um efeito de interao
ou hierrquico. Podemos utilizar vrios comandos means, desde que eles
apaream aps o comando model. As opes deste comando permitem que
faamos testes de comparaes mltiplas. Entre as opes podemos destacar: alpha=p para determinar o valor da significncia p (0,05 o padro),
cldiff para obter os intervalos de confiana de um determinado teste em
relao a todas as diferenas entre mdias, clm para obter os intervalos de
confiana dos nveis dos fatores para um determinado teste, E=effect para
determinar o efeito que ir ser utilizado como erro nos testes de comparaes mltiplas, Bon para o teste de Bonferroni, Duncan para o teste de
Duncan, Dunnett(Controle) para realizar o teste de Dunnett de um tratamento com o controle especificado entre aspas e entre parnteses aps a
opo. As opes GABRIEL, LSD ou T, Scheffe, SNK, Tukey, Waller so
utilizadas para solicitar os testes de Gabriel, t de Student, Scheff, StudentNewman-Keuls, Tukey e Waller-Duncan, respectivamente. A opo nosort
utilizada para solicitar que as mdias no sejam ordenadas; a opo lines,
para listar as mdias ordenadas com o indicativo das mdias consecutivas
no significativamente diferentes por uma linha.
Finalmente, a opo HovTest=teste possibilita que seja aplicado o teste
de homogeneidade de varincias para os grupos de tratamentos, no modelo
Uso de Recursos Computacionais

Ferreira, D.F.

92

Anlise de Varincia para Dados Balanceados

inteiramente casualizado. Se outros modelos forem especificados, a opo


ignorada. Os testes escolhidos podem ser: Bartlett, Levene(type=abs|
square), BF, OBrien. O teste BF o de Brown e Forsythe, que uma variao do teste de Levene que utiliza desvios da mediana; o teste OBrien
tambm uma variao do teste Levene atribuda a OBrien. Ferreira
(2005)[3] descreve com detalhes estes testes.
O comando <test H=effects E=effect;> bastante til em modelos com
mais de um erro ou em modelos mistos, para realizarmos testes de hipteses de alguns efeitos da anlise de varincia (opo H=effects) com um erro
particular de interesse (opo E=effect). Os riscos de utilizao inadequada
so relegados aos usurios. O comando <manova H= effects E=effect / options;> possibilita a realizao de testes de hipteses multivariados para os
fatores especificados em H=effects, utilizando como erro o efeito especificado em E=effect. As opes que podemos utilizar so canonical, printe
e printh entre outras. A opo printe particularmente interessante por
proporcionar a estimao das correlaes parciais entre as variveis dependentes, dadas as variveis independentes (fatores). Finalmente o comando
<by variables;> permite a obteno das anlises de varincias para cada
grupo das variveis especificadas aps o comando by. Esta opo exige que
as variveis, utilizadas no comando by, estejam em ordem crescente. Caso
isso no seja verdade, necessrio utilizar o proc sort antes de chamar o
proc anova.
Vamos ilustrar algumas formas que podemos utilizar para especificar o
modelo de anlise de varincia. Suponhamos que A, B e C sejam fatores de
interesse e Y a varivel resposta. Podemos especificar diferentes modelos
utilizando os seguintes comandos:
a) Exemplos de modelos com efeitos simples: <model Y=A;> ou <model
Y=A B;> ou <model Y=A B C;>.
b) Exemplos de efeitos cruzados: model Y=A B A*B; ou simplesmente
<model Y=A | B;>. Neste ltimo caso a | uma notao geral para
a estrutura de efeitos. No exemplo particular significa que o modelo
ajustado funo dos efeitos principais e da interao, ou seja, igual
ao primeiro modelo deste item.
Ferreira, D.F.

Uso de Recursos Computacionais

5.2 Delineamento Inteiramente Casualizado

93

c) Exemplos de efeitos hierrquicos: <model Y=B A(B);>, indicando que


temos um modelo com o fator principal B e com o fator A hierarquizado,
dentro dos nveis de B. Isto significa que os nveis de A no so os
mesmos quando consideramos dois diferentes nveis de B. Um outro
exemplo onde temos os nveis de A dentro da combinao dos nveis de
B e C dado por: <model Y=B C A(B C);>. A sintaxe para este
caso no proc glm seria: <model Y=B C A(B*C);>. Assim, os dois
procedimentos diferem pela utilizao ou no do asterisco, nos fatores
que esto dentro dos parnteses.
d) Exemplos de modelos com efeitos cruzados e hierrquicos: <model Y=A
B(A) C(A) B*C(A);>

5.2

Delineamento Inteiramente Casualizado

Os delineamentos inteiramente casualizados, com um fator, sero utilizados para ilustrarmos inicialmente os comandos bsicos do proc anova.
Para isso, utilizaremos os dados apresentados por Gomes (2000)[5], onde os
efeitos no ganho de peso de animais em kg de 4 raes foram comparados.
Os dados esto apresentados na Tabela 5.1.
Tabela 5.1: Ganho de peso (gp), em kg, de animais que foram submetidos
a uma dieta com determinadas raes. Um delineamento inteiramente casualizado com cinco repeties (animais) e 4 raes foi utilizado (Gomes,
2000)[5].
1

35

40

39

27

19

35

27

12

31

46

20

13

15

41

29

28

30

33

45

30

O modelo de anlise de varincia adotado dado por:


Uso de Recursos Computacionais

Ferreira, D.F.

94

Anlise de Varincia para Dados Balanceados

Yij = + i + ij

(5.2)

em que Yij o ganho de peso observado no j-simo animal para a i-sima


rao, a constante geral, i o efeito da i-sima rao e ij o efeito
do erro experimental suposto normal e independentemente distribudo com
mdia 0 e varincia comum 2 .
O programa SAS para obteno da anlise de varincia do modelo 5.2
dado por:

/* Exemplo da utilizao do Proc Anova*/


data dic;
input racoes gp;
cards;
1 35
1 19
1 31
1 15
1 30
2 40
2 35
2 46
2 41
2 33
3 39
3 27
3 20
3 29
3 45
4 27
4 12
4 13
4 28
4 30
;
proc anova;
class racoes;
model gp=racoes;

Ferreira, D.F.

Uso de Recursos Computacionais

5.2 Delineamento Inteiramente Casualizado

95

means racoes / snk alpha=0.05 lines;


run; quit; /* fim do programa */

Os principais resultados do SAS esto apresentados na seqncia. Neste


programa, modelamos o ganho de peso em funo do fator raes. No
precisamos especificar nem o erro do modelo e nem a constante geral. Solicitamos as mdias de tratamentos e a aplicao do teste SNK para realizao das comparaes mltiplas. Os resultados da anlise de varincia esto
apresentados nas Tabelas 5.2 e 5.3.
Tabela 5.2: Anlise de varincia para o delineamento inteiramente casualizado com um fator (raes) com quatro nveis e cinco repeties.
FV

G.L.

SQ

QM

823,7500

274,5833

Erro

16

1100,0000

68,7500

total corrigido

19

1923,7500

Modelo

R2

0,4282

CV

27,8708

Mdia

29,7500

Pr > F

3,99

0,0267

Tabela 5.3: Anlise da variao contendo as fontes de variao do modelo


para o delineamento inteiramente casualizado das raes.
FV
Raes

G.L.

SQ

QM

823,7500

274,5833

Pr > F

3,99

0,0267

O resultado do teste F da anlise de varincia indica que devemos rejeitar a hiptese nula de igualdade de efeitos das raes. Assim, pelo menos
uma delas difere das demais. Devemos utilizar um teste de comparaes
mltiplas para identificar estas diferenas. Neste exemplo foi utilizado o
teste SNK para identificar quais raes diferiram entre si. Na Tabela 5.4
apresentamos o resultado do teste SNK e as respectivas diferenas mnimas significativas (dms). As mdias que possuem a mesma letra no so
Uso de Recursos Computacionais

Ferreira, D.F.

96

Anlise de Varincia para Dados Balanceados

consideradas significativamente diferentes pelo teste SNK no nvel nominal


de significncia de 5%. Neste caso, as raes 2, 3 e 1 no so estatisticamente diferentes em mdia, como ocorre tambm com as raes 3, 1 e 4.
No entanto, as raes 2 e 4 so significativamente diferentes (P < 0, 05).
Tabela 5.4: Teste de SNK e mdias para a fonte de variao raes juntamente com as diferenas mnimas significativas dms.
Grupo

Mdia

ri

Raes

39,000

AB

32,000

AB

26,000

22,000

dms3 =13,53137,

dms2 =15,003329.

dms4 =11,116861,

Um aspecto importante deste teste apresentado juntamente com os


resultados. Esta caracterstica refere-se ao fato de que este teste controla o
erro tipo I por experimento sob H0 completa, mas no sob a hiptese nula
parcial.
Podemos realizar inferncias de interesse sobre parmetros decorrentes
de uma combinao linear das mdias por meio dos testes hipteses e construindo intervalos de confiana. A realizao de inferncias sobre combinaes lineares (usualmente contrastes) de mdias, em geral, o passo seguinte
rejeio da hiptese global da equao (5.1), s vezes denominada hiptese
nula completa.
Como o teste F , que testa a hiptese global, no informa quais so as
mdias que diferem entre si, passamos, ento, a realizar uma seqncia de
testes de hipteses sobre um conjunto de combinaes lineares de mdias
utilizando os mesmos dados observados. A estes testes esto associados
erros de deciso. Se a hiptese nula global for verdadeira e se uma destas
hipteses for rejeitada, estaremos cometendo o erro tipo I. O controle do
erro tipo I, no caso de comparaes mltiplas, envolve alguns conceitos
diferentes. Se por outro lado no rejeitamos uma hiptese que deveria ser
rejeitada, estaremos cometendo o erro tipo II. Acontece, tambm, que as
taxas de erro dos tipos I e II, decorrentes da aplicao de um nico teste,
Ferreira, D.F.

Uso de Recursos Computacionais

5.2 Delineamento Inteiramente Casualizado

97

tm comportamentos diferentes daquelas associadas aplicao de uma


seqncia de testes.
Um grande nmero de estratgias existem para garantir uma taxa de
erro global para todas as comparaes. Procedimentos de inferncia que
asseguram uma probabilidade conjunta 1 contra o erro do tipo I so
denominados procedimentos de inferncia simultnea ou conjunta e procedimentos que asseguram proteo apenas para a comparao que est
sendo realizada so denominados procedimentos de inferncia individual.
Nos procedimentos de inferncia individual no feito nenhum ajuste na
probabilidade por causa da multiplicidade dos testes.
Algumas definies conduzem a uma taxa de erro que so dependentes
da nulidade da hiptese global. Outras conduzem a uma taxa de erro dependente do nmero de inferncias erradas em relao ao nmero total de
inferncias feitas. Assim, ONeill e Wetherill (1971)[9] definem duas maneiras bsicas para calcularmos a taxa de erro do tipo I. Uma delas diz
respeito probabilidade de a famlia de testes conter pelo menos uma inferncia errada e a outra, ao nmero esperado de inferncias erradas na
famlia.
De acordo ONeill e Wetherill (1971)[9] as possibilidades para as taxas
de erro observadas so:
i. Taxa de erro por comparao (comparisonwise error rate):
Nmero de inferncias erradas
Nmero total de inferncias
ii. Taxa de erro por experimento (experimentwise error rate):
Nmero de experimentos com pelo menos uma inferncia errada
Nmero total de experimentos
Os vrios procedimentos de comparaes mltiplas possuem diferentes
controle do erro tipo I por experimento. O teste Tukey por exemplo, controla a taxa de erro por experimento sob H0 nula e parcial, mas na medida
em que o nmero de nveis do fator aumenta, o teste se torna mais conservador. Assim, este teste possui elevadas taxas de erro tipo II, ou seja, baixo
poder quando temos muitos nveis do fator. O teste Duncan e t de Student
Uso de Recursos Computacionais

Ferreira, D.F.

98

Anlise de Varincia para Dados Balanceados

so muito liberais e apresentam elevadas taxas de erro tipo I por experimento, com baixas taxas de erro tipo II ou com elevado poder. Por causa de
no haver controle do erro tipo I por experimento os elevados poderes no
so vantajosos. O teste SNK, como j afirmamos, controla o erro tipo I sob
a hiptese de nulidade completa, mas no sob a nulidade parcial. O teste
t com proteo de Bonferroni na maioria das vezes mais conservador do
que o teste de Tukey, da mesma forma que ocorre com teste Scheff quando
utilizado no contexto de comparaes mltiplas.
Uma importante pressuposio na anlise de varincia a homogeneidade de varincias. Podemos testar hipteses de igualdade de varincias
facilmente no SAS. Como j mencionamos em outra oportunidade, devemos utilizar a opo hovtest do comando means. A hiptese de interesse
neste caso dada por:

H0 : 2 = 2 = = 2 = 2
1
2
k

(5.3)

H : pelo menos uma varincia difere das demais


1
em que k o nmero de nveis do fator de interesse e i2 a varincia do
i-simo nvel, i = 1, 2, , k.
Existem vrios testes para esta hiptese na literatura. O SAS apresenta a implementao para alguns deles. Vamos descrever estes testes de
forma bastante simplificada. Maiores detalhes podem ser vistos em Ferreira
(2005)[3]. O teste de Bartlett um teste de razo de verossimilhanas.
Para apresentarmos a estatstica deste teste, devemos considerar que Si2 o
estimador da varincia do i-simo nvel do fator estudado em ni repeties;
Pk
2
Sp2 =
i=1 (ni 1)Si /(n k) o estimador da varincia comum das k
P
populaes (ou dos k nveis do fator); e n = ki=1 ni total de parcelas
experimentais. Assim, a estatstica

(n
2c

Ferreira, D.F.

k) ln(Sp2 )

k
X



(ni 1) ln(Si2 )
i=1

=
1
1+
3(k 1)

"

k 
X
i=1

1
ni 1

nk

(5.4)

Uso de Recursos Computacionais

5.2 Delineamento Inteiramente Casualizado

99

sob H0 possui distribuio assintoticamente de qui-quadrado com = k 1


graus de liberdade. Assim, se o valor calculado da estatstica superar o
quantil superior 100% (2; ) da distribuio de qui-quadrado com graus
de liberdade, a hiptese nula (5.3) deve ser rejeitada.
Os demais testes que veremos na seqncia so os de Levene e Brown e
Forsythe (Ferreira (2005)[3]). Estes testes so baseados em uma anlise de
varincia, onde os valores originais da varivel resposta so substitudos por
outra varivel Zij . O teste F aplicado e a sua estatstica obtida entre
a razo da variao entre grupos e dentro de grupos. A diferena bsica
entre os procedimentos determinada pela forma como os valores desta
nova varivel so obtidos. Para o teste de Levene, duas opes existem.
A primeira baseada nos desvios da i-sima mdia, tomados em mdulo.
Assim, os valores para a varivel Zij = |Yij Yi. | so obtidos e o teste F
aplicado. Para a segunda opo, devemos obter os valores da varivel
Zij = (Yij Yi. )2 , a qual refere-se aos desvios da mdia do i-simo nvel do
fator tomados ao quadrado. Para realizarmos o teste de Brown e Forsythe
devemos obter esta varivel por: Zij = |Yij Yi |, sendo Yi a mediana do
i-simo nvel do fator.
Obtidos os valores desta varivel para as n observaes amostrais, devemos utilizar a estatstica do teste:

(n k)
Fc =
(k 1)

k
X

ni Zi. Z..

i=1
ni
k X
X

2
(5.5)

Zij Zi.

2

i=1 j=1

em que:
ni
X

Zi. =

ni
k X
X

Zij

j=1

ni

Z.. =

Zij

i=1 j=1

para testarmos a hiptese nula (5.3), utilizando a distribuio F com 1 =


k 1 e 2 = n k graus de liberdade. Devemos rejeitar a hiptese nula se
Fc de (5.5) for superior ao quantil superior 100% (F,1 ,2 ) da distribuio
F.
Uso de Recursos Computacionais

Ferreira, D.F.

100

Anlise de Varincia para Dados Balanceados

Todos estes testes podem ser obtidos com a opo hovtest=teste do


comando means. Onde no lugar de teste, podemos utilizar levene(type =
square), levene(type=abs), BF, Bartlett e o teste no apresentado OBrien.
O programa SAS na seqncia ilustra a aplicao do teste de Levene com
desvios absolutos da mdia. Obtivemos um valor-p para a estatstica Fc de
19, 5% e tomamos a deciso de no rejeitar a hiptese de homogeneidade
de varincias.

/* Exemplo da utilizao do Proc Anova para realizar testes de homogeneidade de varincias*/


data dic;
input racoes gp @@;
cards;
1 35

1 19

1 31

1 15

1 30

2 40

2 35

2 46

2 41

2 33

3 39

3 27

3 20

3 29

3 45

4 27

4 12

4 13

4 28

4 30

;
proc anova;
class racoes;
model gp=racoes;
means racoes / hovtest=levene(type=abs);
run; quit; /* fim do programa */

5.3

Estrutura Cruzada de Tratamentos

Em muitas situaes experimentais temos delineamentos mais complexos que o inteiramente casualizado, ou mesmo para este delineamento, podemos ter mais de um fator em estruturas mais intrincadas. Entre estes delineamentos mais complexos, encontram-se os blocos casualizados, os
quadrados latinos e os ltices. Alm da estrutura experimental ser mais
Ferreira, D.F.

Uso de Recursos Computacionais

5.3 Estrutura Cruzada de Tratamentos

101

complexa, a estrutura de tratamentos tambm pode no ser a de um simples fator. Uma estrutura muito comum a cruzada, onde os fatores so
combinados fatorialmente. Como a modelagem no SAS bastante simples,
independentemente das estruturas experimental e de tratamentos, vamos
ilustrar o seu uso com um caso onde temos um delineamento em blocos casualizados com dois fatores quantitativos (adubo mineral e torta de filtro).
Foram utilizados os nveis 0 e 20 kg/ha de adubo mineral e 10% e 20%
de torta de filtro. Cada combinao fatorial dos tratamentos foi repetida 4
vezes e a produtividade das plantas foi mensurada. O programa SAS para a
anlise de varincia deste modelo est apresentado na seqncia. O modelo
estatstico da anlise de variao dado por:

Yijk = + i + j + k + jk + ijk

(5.6)

em que a constante geral do modelo, i o efeito do i-simo bloco,


j o efeito do j-simo adubo mineral, k o efeito da k-sima torta de
filtro, jk o efeito da interao entre a j-sima dose do adubo mineral e a
k-sima dose da torta de filtro e ijk o erro experimental suposto normal
e independentemente distribudo com mdia 0 e varincia 2 .

/* Exemplo da utilizao do Proc Anova para uma estrutura fatorial em um DBC*/


data Fat;
input A T bloco prod;
cards;
0 10 1 18.0
20 10 1 20.6
0 20 1 19.6
20 20 1 19.2
0 10 2 8.6
20 10 2 21.0
0 20 2 15.0
20 20 2 19.6
0 10 3 9.4
20 10 3 18.6
0 20 3 14.6
20 20 3 18.4

Uso de Recursos Computacionais

Ferreira, D.F.

102

Anlise de Varincia para Dados Balanceados

0 10 4 11.4
20 10 4 20.6
0 20 4 15.8
20 20 4 20.2
;
proc anova data=fat;
class A T bloco;
model prod = bloco A T A*T;
run; quit;

O resultado da anlise de variao foi reapresentado na Tabela 5.5 em


uma forma que encontramos mais comumente nos livros textos.
Tabela 5.5: Anlise da variao para o modelo fatorial (2 fatores) em um
delineamento de blocos casualizados.
G.L.

SQ

QM

Bloco

37,83

12,6100

3,01

0,09

131,10

131,1000

31,30

0,00

12,60

12,6000

3,01

0,12

A*T

27,55

27,5500

6,58

0,03

Erro

37,70

4,1889

Total

15

246,80

FV

Pr > F

Podemos observar efeitos significativos (P < 0, 05) para adubo mineral e


interao. Poderamos pensar inicialmente em desdobrar a interao adubo
mineral e torta de filtro A T , estudando o efeito do adubo mineral em
cada nvel de torta. Uma abordagem um pouco mais interessante consiste
em utilizar um modelo de regresso contendo efeitos de ambos os fatores
simultaneamente. Este tipo de modelo conhecido como superfcie de resposta. Vamos utilizar um modelo com trs parmetros, sem considerar o
intercepto. O modelo de anlise de varincia para as fontes de variao
adubo mineral, torta de filtro e interao adubo mineral e torta de filtro
(A T ) possui 3 graus de liberdade associados. O modelo escolhido deveria
conter apenas 2 parmetros, para que o grau de liberdade remanescente
Ferreira, D.F.

Uso de Recursos Computacionais

5.3 Estrutura Cruzada de Tratamentos

103

fosse utilizado para testar a falta de ajuste do modelo. Neste exemplo no


poderemos aplicar tal teste, por termos esgotados os trs graus de liberdade
disponveis. O R2 ser igual unidade, mostrando que podemos obrigar a
superfcie a passar exatamente sobre os pontos observados. Utilizaremos
esta superfcie apenas para ilustrar como recalcular determinadas quantidades como R2 , erros padres e testes F e t para as hipteses de interesse.
O modelo que ajustaremos dado por:

Y.jk = 0 + 1 Aj + 2 Tk + 3 ATjk + jk

(5.7)

em que Y.jk a resposta mdia para os nveis j e k do adubo mineral e da


torta de filtro, ` so os parmetros da regresso, Aj o nvel j do adubo
mineral, Tk o k-simo nvel da torta de filtro, ATjk o produto dos nveis
j e k do adubo mineral e da torta de filtro e jk o erro mdio associado
com varincia 2 /r, sendo r = 4.
Para ajustar o modelo da equao (5.7) foi utilizado o proc reg com
todas as observaes experimentais. Poderamos ter utilizado somente as
mdias da interao para realizarmos este ajuste. Neste caso as somas de
quadrados deveriam ser recalculadas para a escala original e optamos por
no faz-lo e utilizarmos todos os dados. Assim, criamos a varivel AT dada
pelo produto dos nveis de A pelos de T. O programa resultante dado por:

/* Exemplo da utilizao do Proc Anova para uma estrutura fatorial em um DBC*/


data Fat;
input A T bloco prod;
AT=A*T;
cards;
0 10 1 18.0
20 10 1 20.6
0 20 1 19.6
20 20 1 19.2
0 10 2 8.6
20 10 2 21.0
0 20 2 15.0
20 20 2 19.6

Uso de Recursos Computacionais

Ferreira, D.F.

104

Anlise de Varincia para Dados Balanceados

0 10 3 9.4
20 10 3 18.6
0 20 3 14.6
20 20 3 18.4
0 10 4 11.4
20 10 4 20.6
0 20 4 15.8
20 20 4 20.2
;
proc reg data=fat;
model prod= A T AT/ss1;
Run;Quit;

Como fizemos as anlises utilizando os dados originais, a soma de quadrados de modelo de regresso (171, 2675), apresentada na Tabela 5.6, representa a soma das somas de quadrados de A, T e A T (131,10, 12,60 e
27,55) obtidas na anlise de varincia (Tabela 5.5). A soma de quadrados do
resduo (75, 53) desta anlise contempla a soma de quadrados do erro puro
(37, 70) e a soma de quadrados de blocos (37, 83). Tambm conteria a soma
de quadrados do desvio do modelo ajustado, se no tivssemos utilizado um
modelo completo. Como neste exemplo esgotamos os graus de liberdade do
modelo, no houve desvios. Devemos sempre isolar todos estes componentes
manualmente, pois o SAS no tem uma opo que nos possibilita ajustar
o modelo dentro do contexto da anlise de varincia. Devemos utilizar o
proc reg e os resultados obtidos devem ser corrigidos posteriormente pelo
usurio.
Tabela 5.6: Anlise da variao para o modelo de regresso para o exemplo
fatorial da adubao com 2 fatores.
FV

G.L.

SQ

QM

171,27

57,0900

Erro

12

75,53

6,2942

Total

15

246,80

Modelo

Pr > F

9,070

0,002

No precisamos ajustar nenhum coeficiente de regresso, mas devemos


ajustar os erros padres e os testes associados, o R2 do modelo e outros
Ferreira, D.F.

Uso de Recursos Computacionais

5.3 Estrutura Cruzada de Tratamentos

105

testes e estimativas. O R2 = 0, 6940 utilizou a soma de quadrados de totais


corrigido como denominador, mas deveria utilizar a soma de quadrados
de tratamentos SQA + SQT + SQAT = 171, 27. Assim, o real valor do
coeficiente de determinao R2 = 1. As estimativas dos parmetros do
modelo e os seus erros padro esto apresentados na Tabela 5.7. Estes
resultados referem-se as estimativas originais do programa SAS, as quais
devemos ajustar.
Tabela 5.7: Estimativas dos parmetros do modelo com seus erros padres
e teste da hiptese para i = 0 fornecidas originalmente pelo SAS.
tc para
Parmetro

H0 : i = 0

P r > |t|

GL

Estimativas

Erro padro

7,4500

2,8049

2,66

0,021

0,6800

0,1983

3,43

0,005

0,4400

0,1774

2,48

0,029

-0,0263

0,0125

-2,09

0,058

O erro padro de uma determinada estimativa obtido pela expres


so (3.15), ou seja, por xii S 2 , em que S 2 o estimador da varincia
residual e xii a diagonal de (X 0 X)1 . Como S 2 utilizada foi a varincia
contendo outros efeitos do modelo, como o efeito de blocos, de outros fatores do modelo, do desvio de regresso e do erro puro, ento devemos
obter o quadrado do erro padro, multiplicar pela estimativa da varincia do erro do modelo de regresso do proc reg e assim obter xii . O novo
erro padro estimado multiplicando xii pelo QM E da anlise de varincia (Tabela 5.5) e extraindo a raiz quadrada. Para ilustrarmos, vamos
considerar o erro padro da estimativa de 0 . Este erro padro foi igual
a 2, 8049. Devemos elev-lo ao quadrado e dividi-lo por 6, 2942, obtendo
2, 80492 /6, 2942 = 1, 25. Este valor deve ser multiplicado pelo quadrado
mdio do erro puro (4, 1889) e em seguida extrair sua raiz quadrada. O va
lor obtido 1, 25 4, 1889 = 2, 2883. Repetindo este processo para todos
os demais parmetros, encontramos os resultados apresentados na Tabela
5.8, aps recalcular os valores-p da ltima coluna. Conclumos que todos
os efeitos foram significativamente importantes na presena dos demais, o
Uso de Recursos Computacionais

Ferreira, D.F.

106

Anlise de Varincia para Dados Balanceados

que no havia acontecido para A T ou 3 , quando consideramos a anlise


original do proc reg.
Tabela 5.8: Estimativas dos parmetros do modelo com seus erros padres
e teste da hiptese para i = 0 devidamente corrigidas.
tc para
Parmetro

H0 : i = 0

P r > |t|

GL

Estimativas

Erro padro

7,4500

2,2882

3,26

0,010

0,6800

0,1618

4,20

0,002

0,4400

0,1447

3,04

0,014

-0,0263

0,0102

-2,58

0,030

A anlise de varincia para o modelo de regresso devidamente corrigida


foi apresentada na Tabela 5.9. No temos neste caso graus de liberdade para
o desvio de regresso, que nos possibilitaria aplicar o conhecido teste da falta
de ajuste, um dos mais importantes testes na anlise de regresso. O ideal
ajustarmos modelos que no esgotem os graus de liberdade de tratamentos,
permitindo que haja pelo menos um grau de liberdade para realizarmos o
teste da falta de ajuste.
Tabela 5.9: Anlise da variao devidamente corrigida para o modelo de
regresso do exemplo fatorial da adubao com 2 fatores.
FV

G.L.

SQ

QM

Modelo

171,27

57,0900

Desvios

Erro

37,70

4,1889

Tratamento

171,27

Pr > F

13,62

0,001

Muitos pesquisadores no se atentam para estas correes da anlise de


regresso quando submetida ao proc reg, sendo os dados oriundos de uma
anlise de varincia. Assim, muitas inferncias podem estar comprometidas
e at mesmo incorretas.
O modelo ajustado dado por:
Ferreira, D.F.

Uso de Recursos Computacionais

5.3 Estrutura Cruzada de Tratamentos

107

Y.jk = 7, 45 + 0, 68Aj + 0, 44Tk 0, 0263ATjk


Na Figura 5.1 apresentamos a superfcie de resposta ajustada para os
valores mdios dos nveis dos fatores A e T em relao a produo. Observamos que as respostas mximas foram obtidas quando se utilizou a dose
20 kg/ha de adubo mineral com a dose mnima de torta de filtro (10%).

20

18

16

14

12
20

18

16

14

0
12

15
10 A

20

10

Figura 5.1: Modelo ajustado de superfcie de resposta para os dados de


produo em funo da adubao mineral (A) e da adubao orgnica com
torta de filtro (T ).
Podemos observar que haver uma queda acentuada da produtividade
se no for utilizado adubo qumico. Nesta mesma condio se passarmos
do nvel de 10% de torta para 20%, observamos um incremento na produtividade. No entanto, se estamos utilizando a dose de 20 kg/ha de adubo
qumico, este aumento de 10% para 20% na torta de filtro provoca uma reduo da produtividade mdia. Assim, devemos recomendar as doses de 20
Uso de Recursos Computacionais

Ferreira, D.F.

108

Anlise de Varincia para Dados Balanceados

kg/ha de adubo mineral e 10% de torta de filtro para obtermos a mxima


resposta.

5.4

Modelos Lineares Com Mais de Um Erro

Em algumas situaes reais nos deparamos com modelos que contm


mais de um erro experimental. Isso acontece em delineamentos experimentais como o de parcelas subdivididas, sub-subdivididas ou em faixas. Um
outro caso que ocorre normalmente o de parcela subdividida no tempo.
Neste caso o delineamento em geral simples, como o inteiramente casualizado ou o de blocos casualizados e cada parcela ou unidade experimental
avaliada ao longo do tempo. Se pudermos supor que existe uma varincia constante entre as observaes ao longo do tempo e que a estrutura de
correlao entre diferentes tempos a mesma, ento podemos fazer uma
abordagem biomtrica bastante simples, tratando este modelo com um modelo de parcelas subdividas no tempo. Assim, mais de um erro ir aparecer
no modelo e este caso pode ser encaixado dentro desta seo. Esta estrutura
de correlao denominada de simetria composta.
Vamos ilustrar este tipo de modelo, contendo mais de um erro, com um
exemplo de parcela subdividida no tempo. Um adubo mineral foi utilizado
como fator principal, onde desejvamos comparar seus trs nveis 0, 10 e 20
kg/ha. Estas trs dosagens foram submetidas a um delineamento em blocos
completos casualizados com 2 repeties. O interesse era o crescimento das
plantas ao longo do tempo. Assim, foram avaliadas as alturas das plantas
durante 3 meses consecutivos. O modelo estatstico para este experimento
dado por:

Yijk = + i + j + ij + k + jk + ik + ijk

(5.8)

em que Yijk a observao da altura das plantas em metros, a constante


geral do modelo, i o efeito do i-simo nvel da adubao qumica, j
o efeito do j-simo bloco, ij o efeito do erro experimental entre a i-sima
dose e o j-simo bloco, k o efeito do k-simo ms, jk efeito do erro
experimental do j-simo bloco com o k-simo ms, ik o efeito da interao
Ferreira, D.F.

Uso de Recursos Computacionais

5.4 Modelos Lineares Com Mais de Um Erro

109

entre a i-sima dose de adubo qumico com o k-simo ms e ijk o erro


experimental entre a i-sima dose, j-simo bloco e k-simo ms.
O programa SAS contendo os dados experimentais e a sintaxe para especificar os erros do modelo e determinar os testes corretos apresentado na
seqncia. Como os erros intermedirios do modelo no so prontamente reconhecidos pelo SAS, estes devem ser indicados para que possamos realizar
os testes de hipteses corretamente. Se esta indicao dos erros intermedirios no for feita, os resultados dos testes de hipteses sero incorretos.

/* Programa para realizar anlise de varincia de um modelo contendo mltiplos erros.


O modelo escolhido foi o de parcela subdividida no tempo.*/
data sub;
input bloco trat mes alt;
cards;
1 0 1 1.00
1 10 1 1.05
1 20 1 1.08
2 0 1 1.02
2 10 1 1.06
2 20 1 1.09
1 0 2 1.10
1 10 2 1.12
1 20 2 1.14
2 0 2 1.08
2 10 2 1.15
2 20 2 1.18
1 0 3 1.14
1 10 3 1.20
1 20 3 1.22
2 0 3 1.15
2 10 3 1.21
2 20 3 1.23
;
proc anova data=sub;
class bloco trat mes;
model alt = bloco trat bloco*trat mes bloco*mes mes*trat;
test h=bloco trat e=bloco*trat;
test h=mes e=bloco*mes;

Uso de Recursos Computacionais

Ferreira, D.F.

110

Anlise de Varincia para Dados Balanceados

means mes/ Tukey e=bloco*mes;


run; quit;

Se os nveis dos tratamentos fossem qualitativos, o que no o caso


deste exemplo, o comando <means trat / tukey e=bloco*trat;>, poderia
ser utilizado. Com este comando, so requisitados o clculo das mdias de
tratamento e a aplicao do teste de Tukey usando como erro o efeito de
bloco*trat. Se for utilizado apenas o comando <means trat / tukey;>, o
proc anova ir aplicar o teste de Tukey com o erro inadequado, ou seja, com
o erro geral do modelo. Os testes de hipteses sobre os efeitos dos fatores
so aplicados corretamente se for especificado o comando test, indicando ao
SAS qual deve ser o procedimento adequado. Neste comando as hipteses a
serem testadas so determinadas no comando h=efeito e o erro apropriado
para test-las, no comando e=efeito. Os resultados incorretos do SAS, que
utiliza o erro do modelo para testar estas hipteses, devem ser ignorados. A
opo test no checada pelo proc anova e de inteira responsabilidade do
usurio a correta aplicao do teste F . Os resultados da anlise de varincia
devidamente reorganizada est apresentada na Tabela 5.10.
Tabela 5.10: Anlise da variao devidamente apresentada para o modelo
de parcela subdividida no tempo.
G.L.

SQ

QM

Pr > F

0,00080000

0,00080000

6,86

0,1201

(2)

(0,01750000)

0,00875000

75,00

0,0132

RL

0,01687000

0,01687000

144,60

0,0068

Desvio

0,00062500

0,00062500

5,35

0,1468

Erro a

0,00023333

0,00011667

Ms

0,06043333

0,03021667

1.813,00

0,0006

Erro b

0,00003333

0,00001667

Trat*Ms

0,00016667

0,00004167

0,20

0,9259

Erro

0,00083333

0,00020833

Total

17

0,08000000

FV
Bloco
Trat

Ferreira, D.F.

Uso de Recursos Computacionais

5.5 Modelos lineares multivariados

111

Ajustamos um modelo linear simples da varivel resposta altura em


funo da adubao qumica utilizando o proc reg e obtivemos o seguinte
modelo: Yi.. = 1, 08583 + 0, 00375Ai , em que Ai o i-simo nvel do adubo
qumico. O coeficiente de determinao deve ser reestimado por R2 =
0, 01687/0, 0175 = 0, 964. A anlise de varincia do modelo de regresso,
apresentando o teste de falta de ajuste foi incorporado na Tabela 5.10. Neste
caso, obtivemos um teste de falta de ajuste no significativo, um R2 alto e o
modelo de regresso com teste F significativo, ou seja, obtivemos resultados
considerados ideais.
Consideramos ainda que os nveis de ms sejam qualitativos e no quantitativos e aplicamos o teste Tukey. Todas as mdias diferiram entre si pelo
teste de Tukey. Deve-se observar que foi utilizado o erro apropriado para
realizarmos o teste de comparaes mltiplas de Tukey. As maiores mdias
para a altura em relao ao ms, como era esperado, estavam associadas ao
3, seguidas pelo 2 e finalmente pelo 1.

5.5

Modelos lineares multivariados

Na pesquisa agropecuria e de outras reas comum as situaes em que


vrias variveis so mensuradas simultaneamente. Os fenmenos estudados
respondem aos tratamentos no apenas com relao a uma varivel, mas sim
em relao ao conjunto total de variveis associadas aquele fenmeno. Nestes casos, duas aproximaes podem ser feitas: a primeira utilizando uma
anlise para cada varivel separadamente, produzindo uma grande quantidade de informaes, alm de no levar em considerao a estrutura de
covarincia entre as variveis; a segunda utilizando a anlise multivariada,
que considera esta estrutura de covarincia entre as variveis sob estudo.
Para ilustrar como so realizados os ajustes dos modelos e obtidas as
somas de quadrados e de produtos, vamos utilizar um modelo linear multivariado com m parmetros associados a cada uma das p variveis respostas.
Diferentemente dos casos univariados, onde so calculadas apenas somas de
quadrados, nos modelos lineares multivariados so obtidas somas de produtos entre as variveis. Isto deve ser feito para cada fonte de variao (ou
efeito) do modelo. As somas de quadrados e produtos so apresentadas em
Uso de Recursos Computacionais

Ferreira, D.F.

112

Anlise de Varincia para Dados Balanceados

uma matriz p p e os testes de hipteses envolvem estatsticas que so relacionadas com razes de determinantes ou de funes dos autovalores das
matrizes de somas de quadrados e produtos associadas hiptese e ao erro.
Os modelos lineares multivariados podem ser escritos matricialmente
por:

Y = X + 

(5.9)

em que Y matriz das variveis respostas com n linhas (observaes) e


p colunas (variveis), X a matriz de modelo com n linhas e m colunas
(parmetros do modelo), a matriz de parmetros com m linhas e p
colunas e  a matriz de erros n p supostos normal multivariados e
independentemente distribudos com mdia 0 e covarincia comum .

A soluo de mnimos quadrados obtida por:

= (X 0 X)g X 0 Y

(5.10)

A matriz de somas de quadrados e produtos do modelo determinado por


5.9 dada por:

H = R() = 0 X 0 Y

(5.11)

A matriz de soma de quadrados e produtos do resduo E obtida por


E = Y 0 Y 0 X 0 Y . Mediante redues de modelos hierrquicos, aplicamos as expresses 5.10 e 5.11 para estimarmos as matrizes de somas de
quadrados e produtos dos efeitos de um modelo ajustados para os efeitos de
outros, da mesma forma como feito para regresso e para modelos univariados. A diferena neste caso o resultado matricial obtido. No daremos
nenhum outro resultado adicional neste material, devido s dificuldades
tericas deste assunto.
Vamos ilustrar a utilizao do proc anova para realizarmos uma anlise
de varincia multivariada, com os respectivos testes de hipteses. O exemplo
que vamos utilizar refere-se a trs mtodos de ensino diferentes aplicados a
uma determinada srie do ensino bsico. As notas de duas disciplinas em
Ferreira, D.F.

Uso de Recursos Computacionais

5.5 Modelos lineares multivariados

113

cada mtodo de ensino foram anotadas em amostras de diferentes tamanhos.


O programa SAS com os trs mtodos de ensino (A, B e C) juntamente
com os comandos da opo Manova so apresentados na seqncia.

/* Programa ilustrativo da Manova */


data multi;
input met $ n1 n2;
cards;
A 69 75
A 69 70
A 71 73
A 78 82
A 79 81
A 73 75
B 69 70
B 68 74
B 75 80
B 78 85
B 68 68
B 63 68
B 72 74
B 63 66
B 71 76
B 72 78
B 71 73
B 70 73
B 56 59
B 77 83
C 72 79
C 64 65
C 74 74
C 72 75
C 82 84
C 69 68
C 76 76
C 68 65
C 78 79
C 70 71
C 60 61
;

Uso de Recursos Computacionais

Ferreira, D.F.

114

Anlise de Varincia para Dados Balanceados

proc anova;
class met;
model n1 n2 = met;
manova h = met / printe printh;
run;quit;

Os principais resultados desta anlise foram sumariados na seqncia.


Inicialmente foram obtidas as anlises de varincias para cada uma das
notas das matrias. Os resultados para a varivel 1 esto apresentados na
Tabela 5.11. Observamos que no foram detectadas diferenas significativas
entre os mtodos.
Tabela 5.11: Anlise da variao para nota da disciplina 1 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino.
FV

G.L.

SQ

QM

60,6051

30,3025

Erro

28

932,8788

33,3171

Tratamento

30

993,4839

Mtodos

Pr > F

0,91

0,4143

Os resultados para a varivel 2 esto apresentados na Tabela 5.12. Da


mesma forma que ocorreu para a varivel 1, observamos que no foram
detectadas diferenas significativas entre os mtodos.
Tabela 5.12: Anlise da variao para nota da disciplina 2 para testar a
hiptese de igualdade dos efeitos dos mtodos de ensino.
FV

G.L.

SQ

QM

49,7359

24,8679

Erro

28

1243,9416

44,4265

Tratamento

30

1293,6774

Mtodos

Pr > F

0,56

0,5776

Os comandos printe e printh geram sadas com as matrizes de somas


de quadrados e produtos do resduo e de mtodos. Alm disso, o primeiro
comando permite que se obtenha as estimativas das correlaes parciais
Ferreira, D.F.

Uso de Recursos Computacionais

5.5 Modelos lineares multivariados

115

entre as variveis ajustadas paras as fontes de variao do modelo. As


matrizes de soma de quadrados e produtos so:

"
E=

932, 8788

1018, 6818

1018, 6818 1243, 9416

"
e

H=

60, 6051 31, 5117


31, 5117 49, 7359

A matriz de correlaes parciais acompanhada das probabilidade para


os testes de hipteses H0 : = 0 dada por:

1, 0000

0, 94564

< 0, 0001

R=

0, 945640 1, 0000

< 0, 0001
Conclumos que as duas variveis so altamente correlacionadas, eliminando-se o efeito dos mtodos. Os testes de hipteses multivariados sobre a
igualdade do vetor de mdias so feitos basicamente por 4 critrios distintos.
O critrio de Wilks um deles e um teste via razo de verossimilhanas.
Muitos pesquisadores preferem tomar a deciso de rejeitar a hiptese nula
quando pelo menos 3 dos 4 critrios apresentarem estimativas significativas
das estatsticas dos testes. Outros preferem utilizar o critrio de Wilks
para tomar esta deciso. Para testarmos a hiptese nula, qualquer que
seja a opo escolhida, os valores destas estatsticas so convertidos para
F, que a distribuio utilizada para aproximar as exatas. Em alguns
casos dependendo do nmero de tratamentos e de variveis a estatstica F
resultante possui distribuio F exata. Na verso 9, o SAS j apresenta uma
opo para solicitar que os testes exatos sejam computados. Os resultados
do teste de hiptese de igualdade dos vetores de mdias dos trs mtodos
foram apresentados na Tabela 5.13. Todos os critrios apresentaram valores
correspondentes de F significativos.
Uma outra observao que pode ser feita neste exemplo, refere-se ao
fato de os nveis de significncia multivariados terem sido muito menores
que os univariados, indicando os casos clssicos em que os testes univariados
Uso de Recursos Computacionais

Ferreira, D.F.

116

Anlise de Varincia para Dados Balanceados

Tabela 5.13: Testes de hipteses multivariados para a igualdade dos efeitos


dos mtodos de ensino.
GL

GL

Estatstica

Estimativa

num.

den.

Pr > F

Wilks Lambda

0,67310116

2,95

54

0,0279

Pillais Trace

0,33798387

2,85

56

0,0322

Hotelling-Lawley Trace

0,46919220

3,13

31,389

0,0281

Roys Greatest Root

0,43098027

6,03

28

0,0066

falham em detectar alguma diferena entre os tratamentos, mas os multivariados no. Este fato provavelmente pode ser em parte explicado pela alta
correlao parcial entre as variveis respostas.

5.6

Exerccios

1. Utilizar dados balanceados resultantes de pesquisas desenvolvidas em


sua rea e realizar anlises de varincias utilizando o proc anova. Aplicar os testes de mdias, se os nveis forem qualitativos, ou ajustar modelos de superfcie de resposta ou de regresso, se os nveis dos fatores
forem quantitativos.
2. Em sua opinio, qual foi a vantagem de se utilizar uma modelagem
multivariada para o exemplo deste captulo que comparava trs mtodos de ensino em relao a anlise de varincia univariada. Voc
utilizaria anlises multivariadas de varincia em sua rea profissional?

Ferreira, D.F.

Uso de Recursos Computacionais

Captulo 6

Anlise de Varincia para


Dados No-Balanceados
Muitas vezes precisamos realizar inferncia sobre a igualdade de mdias de um determinado fator. Se o conjunto de dados for no-balanceado,
apresentando perdas de parcelas ou at mesmo de caselas devemos utilizar
a anlise de varincia para isso. A anlise de varincia neste caso deve
ser realizada por meio de mtodos matriciais para lidarmos com o nobalanceamento dos dados. A partio da variao entre as observaes em
partes associadas a certos fatores, que so definidos pelo esquema de classificao dos dados experimentais, pode ser realizada de diferentes formas.
Assim, diferentes hipteses podem ser testadas a partir de um mesmo conjunto de dados.
O proc anova apropriado para conjuntos de dados que sejam balanceados. O proc glm nos permite analisar conjuntos de dados no-balanceados,
incluindo casos extremos de desconexo. Neste captulo aplicaremos o proc
glm a conjuntos de dados no-balanceados. Estudaremos trs dos quatro
tipos de somas de quadrados que podem ser estimados por este procedimento. No caso de delineamentos balanceados, estas somas de quadrados,
so todas iguais, no havendo diferenas nas hipteses que so testadas,
exceto se para a soma de quadrados tipo I for utilizada uma ordem em que
um efeito de interao aparece antes dos efeitos principais ou de interaes
de menor ordem destes efeitos principais que compem esta interao.
Uso de Recursos Computacionais

Ferreira, D.F.

118

Anlise de Varincia para Dados No-Balanceados

A soma de quadrados tipo I refere-se soma de quadrados seqencial.


Esta soma de quadrado obtida com a reduo no modelo de um fator por
vez, na ordem inversa de entrada dos fatores no modelo. Para ilustrarmos,
vamos considerar um modelo com dois fatores (, ) e interao () dado
por:

Yijk = + i + j + ij + ijk

(6.1)

em que Yijk o valor observado da varivel resposta, a constante geral,


i o efeito do i-simo nvel do fator , j o efeito do j-simo nvel do
fator , ij o efeito da interao entre o i-simo nvel do fator com o
j-simo nvel do fator e ijk o efeito do erro experimental suposto normal
e independentemente distribudo com mdia 0 e varincia comum 2 .
A soma de quadrados tipo I, II e III para os efeitos do modelo da equao
(6.1) est apresentada na Tabela 6.1.
Tabela 6.1: Tipos de somas de quadrados de um modelo de anlise de
varincia contendo dois fatores e e interao .
FV

SQ Tipo I

SQ Tipo II

SQ Tipo III

R(/)

R(/, )

R( / , , )

R(/, )

R(/, )

R( / , , )

R(/, , )

R(/, , )

R( / , , )

indica parmetros obtidos sob o uso de restrio paramtrica.


A soma de quadrado tipo II para um dado fator obtida ajustando

esta fonte de variao para todas as outras que no contenha o efeito em


questo. Assim, a soma de quadrados para , no pode ser ajustada para a
fonte de variao , uma vez que esta ltima contm o efeito de , por ser
a interao deste fator com . A soma de quadrados tipo III, ou parcial,
refere-se ao ajuste de cada fator para todos os demais efeitos do modelo sob
restrio paramtrica do tipo soma de efeitos igual a zero.
As somas de quadrados do tipo I so dependentes da ordem de entrada
dos fatores no modelo. As somas de quadrados do tipo II e III no dependem
desta ordem de entrada. Como dissemos, elas so iguais quando os dados
Ferreira, D.F.

Uso de Recursos Computacionais

6.1 Delineamento Inteiramente Casualizado

119

so balanceados, tomando-se o cuidado de entrar com uma ordem dos efeitos


no modelo, em que os fatores principais vm antes das interaes de que
participam.
O proc glm um dos procedimentos do SAS utilizados para lidar com estes casos no-balanceados. As sintaxes deste procedimento e do proc anova
so praticamente idnticas. As principais diferenas so, entre outras, a
possibilidade de estimar efeitos e testar contrastes, de realizar anlise de
covarincia e de estimar componentes de varincia.
Vamos utilizar alguns dos conjuntos de dados anteriores, provocando
artificialmente algum tipo de no balanceamento em algumas ocasies e
em outras utilizando os dados balanceados, para ilustrarmos as principais
peculiaridades do proc glm.

6.1

Delineamento Inteiramente Casualizado

No modelo inteiramente casualizado com um fator (equao 5.2), vamos


considerar o mesmo conjunto de dados apresentados na Tabela 5.1, para
ilustrarmos o uso de contrastes no proc glm. A varivel resposta o ganho de
peso dos animais submetidos a quatro raes diferentes. Um delineamento
inteiramente casualizado com 5 repeties foi utilizado. Vamos imaginar
que houvesse uma estrutura dos nveis dos tratamentos, estabelecida por
diferentes firmas produtoras das raes e diferentes fontes de protenas.
Assim, a rao 1 proveniente da firma A e as raes 2, 3 e 4 da firma B.
A rao 2 possui fonte de protena animal e as raes 3 e 4 tm protena
de origem vegetal. As raes 3 e 4 diferem quanto ao nvel de energia que
possuem.
Devido aos tratamentos serem estruturados natural que faamos contrastes sugeridos por esta estrutura. Um conjunto de contrastes ortogonais
que poderamos desejar testar seria: 1 vs 2, 3, e 4, contrastando firma A contra firma B, 2 vs 3 e 4, contrastando protena animal contra protena vegetal
e finalmente 3 vs 4, contrastando os nveis de energia. Como temos 3 graus
de liberdade e 3 contrastes ortogonais, ento, teramos feito uma decomposio ortogonal das somas de quadrados de tratamento. Para estimarmos
os efeitos dos contrastes, aplicamos o comando estimate e para testarmos o
Uso de Recursos Computacionais

Ferreira, D.F.

120

Anlise de Varincia para Dados No-Balanceados

contraste, o comando contrast. O programa resultante, para estimarmos e


testarmos os efeitos dos contrastes, apresentado na seqncia.

/* Exemplo da utilizao do Proc GLM para testarmos contrastes em um DIC balanceado*/


data dic;
input racoes gp @@;
cards;
1 35

1 19

1 31

1 15

1 30

2 40

2 35

2 46

2 41

2 33

3 39

3 27

3 20

3 29

3 45

4 27

4 12

4 13

4 28

4 30

;
proc glm;
class racoes;
model gp=racoes;
means racoes / tukey alpha = 0.05 lines;
lsmeans racoes / pdiff adjust = tukey;
lsmeans racoes / pdiff = control(1) adjust = dunnett;
contrast 1 vs 2, 3 e 4 racoes 3 -1 -1 -1;
contrast 2 vs 3 e 4 racoes 0 2 -1 -1;
contrast 3 vs 4 racoes 0 0 1 -1;
estimate 1 vs 2, 3 e 4 racoes 3 -1 -1 -1/divisor=3;
estimate 2 vs 3 e 4 racoes 0 2 -1 -1/divisor=2;
estimate 3 vs 4 racoes 0 0 1 -1;
run; quit; /* fim do programa */

Utilizamos os comandos means e lsmeans, neste exemplo, simplesmente


para ilustrarmos as sintaxes, pois como os tratamentos so qualitativos estruturados, devemos utilizar contrastes para otimizarmos as comparaes
realizadas. Ilustramos o uso de um teste de comparaes mltiplas sobre
mdias no ajustadas e ajustadas e o teste de Dunnett bilateral, utilizando
a rao 1 como controle. O objetivo foi de apresentar a sintaxe dos comandos para podermos obter mdias ajustadas e para aplicarmos os testes
de comparaes mltiplas e de Dunnett. Todos estes resultados devem ser
Ferreira, D.F.

Uso de Recursos Computacionais

6.1 Delineamento Inteiramente Casualizado

121

ignorados neste exemplo e somente os resultados dos contrastes e das estimativas devem ser considerados. Somente o contraste entre os tipos de
origem das protenas na formulao das raes da firma B foi significativo
(P < 0, 0177). Como a estimativa positiva, podemos afirmar que em
mdia teremos um ganho superior em 12 kg/animal/perodo, se utilizarmos rao com protena animal em vez de protena de origem vegetal. No
solicitamos somas de quadrados de nenhum tipo, mas o padro do glm
apresentar tanto a soma de quadrados do tipo I, quanto do tipo III. Nos
modelos lineares para os quais temos apenas um efeito, alm do intercepto
e do erro, no faz sentido diferenciar as somas de quadrados, pois todas elas
so idnticas. Neste caso, a soma de quadrados do tipo I para raes foi de
823, 75, sendo o mesmo resultado obtido para as somas de quadrados dos
tipos II e III.

Uma outra vantagem do proc glm obter predies para os valores da


varivel resposta, que neste caso, so as mdias de caselas. Adicionalmente
os valores residuais so preditos. Para isso basta substituir o comando
<model gp=racoes;> por <model gp=racoes/p;>. Este comando, alm destas estimativas e predies, fornece a estatstica de Durbin-Watson, para
realizarmos testes de autocorrelao. Outra estimativa, que utilizamos com
freqncia na anlise de dados no-balanceados, a da mdia ajustada. Em
vez de utilizarmos o comando <means racoes / tukey alpha=0.05 lines;>
podemos utilizar o comando <lsmeans racoes / pdiff adjust=tukey;>. Neste
caso, o SAS calcular os valores-p das comparaes entre as lsmeans utilizando o procedimento ajustado de Tukey. Para comparao com o controle
fazemos pdiff = control(trat) com o comando adjust = opo. A opo que
devemos utilizar a do teste de Dunnett, determinada por dunnett. Apesar
de o natural ser a escolha do comando adjust=dunnett, podemos escolher
outras formas de ajustes como Bon, Sidak, Scheffe, entre outras. claro
que para um delineamento inteiramente casualizado com um fator balanceado ou no-balanceado no existem diferenas entre as mdias ajustadas e
no-ajustadas. Mas, entre os testes utilizando as mdias ajustadas e as mdias no ajustadas existem diferenas nos casos no balanceados. Devemos
optar por utilizar as mdias ajustadas solicitando o teste apropriado.
Uso de Recursos Computacionais

Ferreira, D.F.

122

6.2

Anlise de Varincia para Dados No-Balanceados

Estrutura Cruzada de Tratamentos

Para ilustramos a anlise de modelos mais complexos, onde temos conjuntos de dados no-balanceados, vamos retornar ao exemplo apresentado
na seo 5.3, simulando algumas perdas de parcelas. Com este exemplo,
vamos mostrar as dificuldades existentes para realizar uma anlise de dados
no-balanceados e as diferenas entre os trs tipos de somas de quadrados que estamos considerando. Posteriormente consideraremos, ainda, uma
anlise de covarincia. Os dados apresentados na seo 5.3 com algumas
perdas de unidades experimentais simuladas e o modelo da equao (5.6)
foram utilizados. Temos um delineamento em blocos casualizados com 4
repeties e 2 fatores (adubo mineral e torta de filtro) com 2 nveis cada.
O programa ilustrando a anlise de varincia e os principais resultados
alcanados esto apresentados na seqncia. Vamos destacar o uso da opo slice do comando lsmeans neste programa, a qual possibilita que seja
realizado o desdobramento de interaes entre efeitos do modelo.

/* Exemplo da utilizao do proc GLM para uma estrutura fatorial de tratamentos em


um DBC e no-balanceada*/
data Fat;
input A T bloco prod;
cards;
0 10 1 18.0
20 10 1 20.6
0 20 1 19.6
20 20 1 19.2
0 10 2 8.6
0 20 2 15.0
20 20 2 19.6
0 10 3 9.4
20 10 3 18.6
0 20 3 14.6
20 20 3 18.4
0 10 4 11.4
0 20 4 15.8
20 20 4 20.2
;

Ferreira, D.F.

Uso de Recursos Computacionais

6.2 Estrutura Cruzada de Tratamentos

123

proc glm data=fat;


class A T bloco;
model prod = bloco A T A*T/ss1 ss2 ss3;
means A T/Tukey;
lsmeans A T/pdiff adjust=Tukey;
lsmeans A*T/slice=A slice=T;
run; quit;

Inicialmente, observamos que uma anlise de variao contendo as fontes


de variao de modelo e de resduos foi obtida. Estes resultados esto
apresentados na Tabela 6.2. Na Tabela 6.3 apresentamos os trs tipos de
somas de quadrados solicitadas (I, II e III). Podemos observar um efeito
significativo de A e de T para os trs tipos de somas de quadrados, exceto
para o efeito da torta de filtro com a soma de quadrado do tipo III. Em
todos os casos (I, II e III) tivemos um efeito no significativo da interao,
sendo as somas de quadrados tipo I, II e III para este efeito iguais.
Tabela 6.2: Anlise da variao para o modelo fatorial (2 fatores) em um
delineamento de blocos casualizados, destacando-se as fontes de variao de
modelo e erro.
G.L.

SQ

QM

Pr > F

Modelo

180,89

30,15

6,75

0,0120

Erro

31,29

4,47

Total

13

212,17

FV

CV = 12,92%

Y... = 16, 36

Houve uma diferena muito grande entre algumas das somas de quadrados, sendo que no efeito da adubao mineral, isto foi mais pronunciado.
Era esperado, por exemplo, que as somas de quadrados do tipo I e do tipo
II para efeito da torta de filtro fossem iguais, considerando a ordem que os
fatores entraram no modelo. Dessa forma, podemos observar a importncia
de saber exatamente o que testamos, para interpretar adequadamente as
sadas do proc glm. Detalhes tcnicos a respeito das hipteses associadas a
estas somas de quadrados podem ser obtidos em publicaes especializadas.
Uso de Recursos Computacionais

Ferreira, D.F.

124

Anlise de Varincia para Dados No-Balanceados

Tabela 6.3: Resumo da anlise da variao para o modelo fatorial (2 fatores) em um delineamento de blocos casualizados, destacando as somas de
quadrados tipo I, II e III e as significncias correspondentes.
FV

G.L.

SQ I

SQ II

Bloco

53,1543ns

42,7233ns

42,7233ns

88,7520

66,9780

77,0133

27,3780

27,3780

17,7633ns

A*T

11,6033ns

11,6033ns

11,6033ns

SQ III

e ns: significativo a 5, 1% e no significativo, respectivamente.

Se observarmos as sadas do SAS, podemos verificar que existem diferenas entre as mdias ajustadas e no-ajustadas, destacando-se a importncia
de utilizar o comando adequado para o caso balanceado. Neste exemplo
observamos que tanto para torta de filtro, como para a adubao mineral,
obtivemos diferenas significativas para as mdias. No entanto, quando utilizamos o teste com correo de Tukey sobre as mdias ajustadas, somente
detectamos diferenas significativas para adubo mineral, mas no para torta
de filtro.
Finalmente o comando slice nos possibilita obter a anlise do desdobramento da interao A T . Solicitamos os dois tipos de desdobramento: o
de A dentro dos nveis de T e o de T fixados os nveis de A. Nenhum destes
dois casos sero apresentados, pois a interao foi no significativa. Assim, recomendamos utilizar a maior dose de adubo mineral (teste marginal
significativo) e a menor porcentagem de torta de filtro (teste marginal no
significativo).
Reiteramos que as somas de quadrados do tipo I so afetadas pela ordem dos efeitos na especificao do modelo. Podemos ver claramente que
se alterarmos esta ordem, teremos diferentes somas de quadrados do tipo
I, mas as mesmas somas de quadrados dos tipos II e III obtidas anteriormente. O caso mais crtico desta alterao ocorre quando colocamos o efeito
da interao dos fatores antes dos efeitos principais. Como o espao paramtrico da interao contm os espaos paramtricos dos efeitos principais,
teremos resultados nulos para os graus de liberdade e somas de quadrados
Ferreira, D.F.

Uso de Recursos Computacionais

6.2 Estrutura Cruzada de Tratamentos

125

associados. O leitor conclamado a verificar este resultado para o modelo


em questo.
Alguns outros aspectos interessantes da anlise merecem destaques. Como todos os procedimentos so realizados por meio de lgebra matricial e
vetorial, podemos solicitar a matriz inversa, a matriz X 0 X, valores preditos,
soluo mnimos de quadrados, entre outras opes. Para isso bastaria
substituir o comando <model prod = bloco A T A*T/ss1 ss2 ss3;> por
<model prod = bloco A T A*T/ss1 ss2 ss3 p solution XPX I;>.
Outra grande vantagem do proc glm a possibilidade de realizarmos
anlises de regresso. Um fator omitido do comando class ser considerado
varivel regressora e no varivel classificatria. Assim, temos a possibilidade de realizar anlises de covarincia. A anlise de covarincia ocorre
quando temos variveis classificatrias (fatores qualitativos) e variveis regressoras (fatores quantitativos) no mesmo modelo. Em geral estas covariveis devem ser mensuradas em todas as unidades experimentais e no devem
ser influenciadas pelo tratamento. Por exemplo, se estamos testando diferentes cultivares, utilizar o estande final como covarivel, pode no ser uma
boa estratgia. Isso porque pode existir um efeito de cultivares no estande
final, ou seja, o efeito de estande influenciado pelo efeito de cultivares.
Assim, uma anlise como essa vai produzir um ajuste do efeito de cultivar
pelo efeito de estande. Como os dois efeitos podem estar relacionados, como
acabamos de discutir, teremos o efeito de cultivar ajustado, de forma indireta, para o prprio efeito de cultivar. Assim, devemos utilizar covariveis
que no sejam influenciadas pelos tratamentos. Neste caso, poderamos,
por exemplo, ter tomado medidas da fertilidade do solo em cada parcela
experimental, antes de as cultivares terem sido semeadas. Estas variveis
de fertilidade poderiam ser utilizadas como covariveis.
Neste exemplo fatorial foi simulada a avaliao de uma covarivel em
cada parcela, para podermos ilustrar uma anlise de covarincia. Assim, em
cada parcela experimental foi avaliado o teor de nitrognio. Uma amostra
de cada unidade foi coletada e os nveis de nitrognio do solo foram mensurados, antes da implantao dos tratamentos, correspondentes ao adubo
mineral e a torta de filtro. Um aspecto da anlise de covarincia que empiricamente podemos mencionar, refere-se ao fato de que ao utilizarmos
Uso de Recursos Computacionais

Ferreira, D.F.

126

Anlise de Varincia para Dados No-Balanceados

uma covarivel e ajustarmos o efeito de tratamentos para essa covarivel,


estaramos fazendo algo semelhante a ter um experimento cujas condies
iniciais seriam homogneas para os nveis desta covarivel. Assim, como
se indiretamente estivssemos utilizando um controle local.
No exemplo que se segue apresentamos a anlise de covarincia utilizando como covarivel os nveis de nitrognio nas unidades experimentais
mensurados anteriormente a implantao do experimento. A especificao
de uma covarivel no modelo feita de maneira bastante simples. Para isso
omitimos no comando class a covarivel, mas a introduzimos no comando
model. O proc glm ir reconhecer a varivel omitida como uma varivel
regressora e o comando lsmeans ir ajustar as mdias dos fatores para a
covarivel ou covariveis presentes no modelo. O programa SAS, ilustrativo
deste caso, dado por:

/* Exemplo da utilizao do proc GLM para uma estrutura fatorial dos tratamentos com
covarivel em um DBC no-balanceado*/
data Fat;
input A T bloco prod N;
cards;
0 10 1 18.0 3
20 10 1 20.6 4
0 20 1 19.6 5
0 10 2 8.6 3
0 20 2 15.0 4
20 20 2 19.6 4
0 10 3 9.4 6
20 10 3 18.6 5
0 20 3 14.6 2
20 20 3 18.4 7
0 10 4 11.4 4
0 20 4 15.8 3
20 20 4 20.2 3
;
proc glm data=fat;
class A T bloco;
model prod = bloco A T A*T N/solution ss1 ss2 ss3;
means A T/Tukey;
lsmeans A T/pdiff adjust=Tukey;

Ferreira, D.F.

Uso de Recursos Computacionais

6.3 Modelos Com Mais de Um Erro

127

lsmeans A*T/slice=A slice=T;


run; quit;

Se realizarmos uma anlise de varincia com e sem a covarivel podemos observar que os resultados para este exemplo apresentam uma ligeira
diferena nas somas de quadrados dos dois modelos. claro que a soma de
quadrados do tipo I no foi afetada, pois a covarivel apareceu aps todos os
demais efeitos do modelo. A opo solution permitiu que fosse apresentada
a soluo de mnimos quadrados. A covarivel foi nico efeito do modelo
cuja estimativa era no viesada. As demais concluses so similares s j
apresentadas anteriormente para este modelo de anlise de variao.

6.3

Modelos Com Mais de Um Erro

Para analisarmos experimentos mais complexos, contendo mais de um


erro e em estruturas no balanceadas, devemos definir quais tipos de somas
de quadrados desejamos utilizar, tanto para o tratamento quanto para o
resduo. Alm disso, temos que especificar quais so os testadores das fontes de variao do modelo e tambm qual tipo de soma de quadrados deve
ser utilizada para realizar o teste de interesse. Vamos ilustrar este tipo de
anlise considerando modelos que contenham mais de um erro, a partir do
mesmo exemplo de parcela subdividida no tempo, apresentado na seo 5.4.
Vamos provocar artificialmente um desbalanceamento no conjunto original
de dados para ilustrarmos a anlise almejada. Um adubo mineral foi utilizado como fator principal, onde desejvamos comparar seus trs nveis 0,
10 e 20 kg/ha. Estas trs dosagens foram submetidas a um delineamento
em blocos completos casualizados com 2 repeties. O interesse focava o
crescimento das plantas ao longo do tempo. Assim, foram avaliadas as alturas das plantas durante 3 meses consecutivos. O modelo estatstico para
este experimento dado por:

Yijk = + i + j + ij + k + jk + ik + ijk


Uso de Recursos Computacionais

(6.2)
Ferreira, D.F.

128

Anlise de Varincia para Dados No-Balanceados

em que Yijk a observao da altura das plantas em metros, a constante


geral do modelo, i o efeito do i-simo nvel da adubao qumica, j
o efeito do j-simo bloco, ij o efeito do erro experimental entre a i-sima
dose e o j-simo bloco, k o efeito do k-simo ms, jk efeito do erro
experimental do j-simo bloco com o k-simo ms, ik o efeito da interao
entre a i-sima dose de adubo qumico com o k-simo ms e ijk o erro
experimental entre a i-sima dose, j-simo bloco e k-simo ms.
O programa SAS contendo os dados experimentais modificados artificialmente para se tornarem no balanceado e a sintaxe para especificar os
erros do modelo e determinar os testes corretos com o tipo de soma de
quadrados pretendida apresentado na seqncia. O comando test deve
ser utilizado e em suas opes devemos nos preocupar em indicar o tipo de
soma de quadrados que utilizaremos. O programa resultante dado por:

/* Programa para realizar anlise de varincia de um modelo contendo mltiplos erros.


O modelo escolhido foi o de parcela subdividida no tempo com dados no-balanceados.*/
data sub;
input bloco trat mes alt;
cards;
1 0 1 1.00
1 10 1 1.05
1 20 1 1.08
2 10 1 1.06
2 20 1 1.09
1 0 2 1.10
1 10 2 1.12
1 20 2 1.14
2 0 2 1.08
2 10 2 1.15
2 20 2 1.18
1 0 3 1.14
1 10 3 1.20
1 20 3 1.22
2 10 3 1.21
2 20 3 1.23
;
proc glm data=sub;
class bloco trat mes;

Ferreira, D.F.

Uso de Recursos Computacionais

6.3 Modelos Com Mais de Um Erro

129

model alt = bloco trat bloco*trat mes bloco*mes mes*trat/ss1 ss2 ss3;
test h=bloco trat e=bloco*trat / htype = 3 etype = 3;
test h=mes e=bloco*mes /htype = 3 etype = 3;
lsmeans trat/e=bloco*trat etype = 3 stderr;
lsmeans mes/e=bloco*mes etype = 3 pdiff stderr adjust=Tukey;
lsmeans trat*mes/ etype = 3 stderr slice = trat slice = mes;
run; quit;

Nesta anlise podemos destacar que os testes so inicialmente realizados


utilizando o erro do modelo (erro C) como testador. Somente com o uso
do comando test que este problema foi corrigido. Assim, o teste para
bloco e para tratamento foi realizado com o erro A (bloco*trat) e o efeito
de ms foi testado com erro B (bloco*mes). No comando <test h=bloco trat
e=bloco*trat / htype = 3 etype = 3;> especificamos que iramos utilizar as
somas de quadrados do tipo III para tratamento e bloco e tambm para o
resduo. Comando similar utilizado para o teste do efeito relativo a ms.
Os comandos solicitando as mdias ajustadas de tratamento e de ms
so acrescidos das opes para que sejam estipulados o erro e o tipo de somas de quadrados que sero utilizados. Tambm possibilitam obtermos os
erros padres dos efeitos e no caso de efeitos qualitativos, permitem realizarmos testes de comparaes mltiplas com ajuste das probabilidade pelo
mtodo de Tukey-Kramer. No caso de efeitos de interao, permitem que
sejam realizados desdobramentos com o comando slice. O problema do comando <lsmeans trat*mes/ etype = 3 stderr slice = trat slice = mes;> no
possibilitar que em alguns desdobramentos pudssemos utilizar varincias
complexas, como o caso destes dois tipos de desdobramento realizados.
O SAS no permite que especifiquemos erros que so combinaes de quadrados mdios distintos. Ento, apesar de as somas de quadrados estarem
corretamente calculadas, os testes de hipteses desta opo devem ser refeitos manualmente. Um outro problema a impossibilidade de aplicar um
teste de mdias para algum desdobramento que tenha apresentado teste de
hiptese significativo, utilizando o prprio programa.
Uso de Recursos Computacionais

Ferreira, D.F.

130

6.4

Anlise de Varincia para Dados No-Balanceados

Componentes de Varincia

Podemos utilizar o proc glm para obtermos componentes de varincia.


Componentes de varincia surgem quando alguns dos fatores que estamos
estudando so aleatrios. Estes fatores so considerados aleatrios quando
temos interesse na populao de origem. Os nveis destes fatores so amostras aleatrias destas populaes. Assim, temos interesse na mdia geral
daquele efeito e principalmente na varincia. Em geral, no temos nenhum
interesse particular de comparar os nveis de fator aleatrio.
A idia de um dos mtodos para estimarmos os componentes da varincia dos efeitos aleatrios do modelo consiste em igualarmos as estimativas
dos quadrados mdios s suas esperanas E(QM ) e resolvermos as equaes
resultantes. Este mtodo conhecido como mtodo dos momentos. O proc
glm permite que obtenhamos as esperanas dos quadrados mdios por meio
do comando random. Um modelo pode ser classificado como fixo, quando
todos os seus efeitos, excetuando a mdia geral e o erro, so fixos. Se todos
os efeitos forem aleatrios, temos um modelo aleatrio. Se por outro lado,
tivermos efeitos fixos e efeitos aleatrios, teremos um modelo misto.
Quando temos efeitos aleatrios no modelo, os testes de hipteses em
muitas situaes podem no ser feitos utilizando o quadrado mdio do resduo na obteno da estatstica. A deciso de qual deve ser o denominador
da estatstica do teste F , depende das esperanas dos quadrados mdios.
Nem sempre a especificao deste denominador trivial, pois pode haver a
necessidade de composio de quadrados mdios. A opo test do comando
random permite que testes F adequados sejam feitos nos modelos mistos
ou aleatrios. Este comando (random) essencialmente til quando temos
dados no balanceados.
Vamos ilustrar o uso do proc glm com um delineamento em blocos casualizados com 2 repeties. Uma amostra aleatria de 5 cultivares foi
obtida pelo pesquisador e constituiu o fator de interesse da anlise. Adicionalmente, este experimento foi implantado em 2 locais. Assim, este
um exemplo em que aplicaremos uma anlise conjunta. Ocorreu, no experimento do local 1, uma perda de parcela. A repetio 1 da cultivar 5 foi
perdida.
Ferreira, D.F.

Uso de Recursos Computacionais

6.4 Componentes de Varincia

131

O interesse reside no componente de varincia para cultivar, que foi considerada de efeito aleatrio. O efeito de bloco, em geral, considerado como
aleatrio na literatura. Pelo fato de o efeito de cultivar ter sido considerado
aleatrio e o de local fixo, a interao considerada aleatria. Os comandos
SAS, necessrios para estimarmos os componentes de varincia dos efeitos
aleatrios, so dados por:

/* Programa para realizar anlise de varincia conjunta de um modelo misto.*/


data rand;
input cult bl local prod;
cards;
1 1 1 8.4
1 2 1 8.6
2 1 1 5.7
2 2 1 5.8
3 1 1 4.5
3 2 1 6.7
4 1 1 5.9
4 2 1 7.8
5 2 1 8.9
1 1 2 6.2
1 2 2 7.6
2 1 2 8.3
2 2 2 9.5
3 1 2 3.5
3 2 2 4.9
4 1 2 7.4
4 2 2 8.8
5 1 2 8.9
5 2 2 9.0
;
proc glm data=rand;
class cult bl local;
model prod = bl(local) cult local cult*local / e3 ss3;
random bl(local) cult cult*local / test;
run; quit;

Uso de Recursos Computacionais

Ferreira, D.F.

132

Anlise de Varincia para Dados No-Balanceados

Merecem destaques alguns comandos e especificaes de modelo utilizados. O comando <model prod = bl(local) cult local cult*local / e3 ss3;>
possui o efeito de bloco hierarquizado em local. No podemos especificar
apenas o efeito de bloco, pois estaramos ignorando o fato de que os blocos
dos diferentes locais no so os mesmos. Assim, o bloco 1 do local 1 diferente do bloco 1 do local 2. As opes e3 e ss3 indicam que as esperanas
dos quadrados mdios, utilizando somas de quadrados do tipo III, devem
ser utilizadas. No comando <random bl(local) cult cult*local / test;>, que
aparece aps o comando model, indicamos ao proc glm quais so os efeitos
aleatrios do modelo. Neste exemplo foram os efeitos de bloco dentro de
local, de cultivar e da interao cultivar local.
Inicialmente o SAS apresenta o resultado da anlise de varincia do tipo
III, cujo resumo apresentamos na Tabela 6.4. Se o modelo possui efeitos
aleatrios, os testes de significncia (teste F ) apresentados nesta anlise
provavelmente podem estar incorretos. Neste exemplo, como apenas o efeito
de local considerado fixo, sendo todos os demais aleatrios, a maioria dos
testes F est incorreta. O correto utilizar as esperanas dos quadrados
mdios para especificar os testes de hipteses adequados e tambm para
estimar os componentes de varincia.
Tabela 6.4: Anlise da variao para o modelo de anlise conjunta (2 locais)
em um delineamento de blocos casualizados.
FV

G.L.

SQ III

QM

Pr > F

Modelo

(11)

(52,9816)

4,8165

13,65

0,0011

bl(local)

5,4450

2,7225

7,72

0,0170

cult

27,4770

6,8693

19,47

0,0007

local

0,7111

0,7111

2,02

0,1987

cult*local

15,5483

3,8871

11,02

0,0038

Erro

2,4700

0,3529

Total

18

55,4516

CV = 8,27%

Y... = 7, 1789

Um segundo resultado apresentado pelo SAS, associado a anlise de


variao, refere-se as esperanas dos quadrados mdios. Estes resultados
Ferreira, D.F.

Uso de Recursos Computacionais

6.4 Componentes de Varincia

133

esto sumariados na Tabela 6.5. Uma anlise das esperanas dos quadrados
mdios mostra que o testador para bloco(local) e para a interao cultivar
local o erro experimental. O testador para cultivar a interao cultivar
local e o testador para local tem de ser obtido por uma combinao de
quadrados mdios. A opo test do comando random nos permite obter as
estatsticas destes testes automaticamente.
Tabela 6.5: Esperana dos quadrados mdios e resumo da anlise da variao para o modelo de anlise conjunta (2 locais) em um delineamento de
blocos casualizados.
FV

G.L.

QM

E(QM)

bl(local)

2,7225

2
2 + 4, 5b(L)

cult

6,8693

2 + 3, 6667 2
2 + 1, 8333CL
C

local

0,7111

2 + 4, 4444 2
2 + 1, 7778CL
b(L) + QL

cult*local

3,8871

2
2 + 1, 8333CL

Erro

0,3529

QL a forma quadrtica associada a local


A estimativa do componente de varincia de cultivar pode ser obtida por:

C = (QM Cult QM Cult Local)/3, 6667 = 0, 8133. Os demais componentes de varincia podem ser obtidos de maneira similar. Muitas vezes temos dificuldades em determinar qual o quadrado mdio que devemos subtrair do quadrado mdio correspondente ao fator aleatrio para o qual desejamos estimar o componente. Para a interao, isso foi obtido de uma maneira bastante simples por
CL = (QM Cult Local QM Erro)/1, 8333 =
1, 9278. Quando precisamos combinar quadrados mdios, o melhor indicativo para determinarmos esta combinao fornecida pelo comando test.
Por exemplo, se desejssemos testar a hiptese de que o efeito quadrtico
QL devido a local, que fixo, seja nulo, poderamos utilizar a seguinte combinao de quadrados mdios como denominador da expresso da estatstica
do teste F :
0,9877QMbl(local) + 0,9697QMcult local - 0,9574QMErro,
cujos graus de liberdade associados seriam obtidos pelo processo de SatUso de Recursos Computacionais

Ferreira, D.F.

134

Anlise de Varincia para Dados No-Balanceados

terthwaite (1946)[11].
Utilizando os testes adequados apenas os efeitos de bloco(local) e da
interao cultivar local foram significantes, indicando que os componentes de varincia associados so diferentes de zero. Para cultivar no foi
detectada significncia estatstica, sendo considerado nulo o componente de
varincia associado. Outras tipos de somas de quadrados podem ser utilizadas para estimarmos componentes de varincia e para realizarmos os testes
F . Para selecionarmos, por exemplo, as somas de quadrados do tipo II,
bastaria trocar o comando <model prod = bl(local) cult local cult*local / e3
ss3;> por <model prod = bl(local) cult local cult*local / e2 ss2;>. Quando
aplicamos esta mudana, os resultados dos testes so praticamente idnticos
aos obtidos com as somas de quadrados do tipo III.
O SAS possui outros procedimentos para estimarmos componentes de
varincia. Podemos destacar o proc mixed e o proc proc varcomp. Estes procedimentos so muitas vezes mais adequados para estimarmos componentes
de varincia, alm de oferecerem mais alternativas de mtodos. Discutiremos o varcomp posteriormente neste material. Os modelos mistos so uma
generalizao dos modelos lineares utilizados no proc glm.

6.5

Exerccios

1. Utilizar dados no balanceados resultantes de pesquisas desenvolvidas


em sua rea e realizar anlises de varincias utilizando o proc glm.
Aplicar os testes de mdias, se os nveis forem qualitativos, ou ajustar
modelos de superfcie de resposta ou de regresso, se os nveis dos
fatores forem quantitativos.
2. Dar sua opinio sobre o fato de muitos autores ainda recomendarem
estimao de parcelas, em conjuntos de dados onde foram perdidas
uma ou mais delas. Como voc lidaria com conjuntos de dados no
balanceados? Estimaria os valores perdidos?

Ferreira, D.F.

Uso de Recursos Computacionais

Captulo 7

Componentes de Varincia
O varcomp foi designado para lidar com modelos lineares que possuam
efeitos aleatrios. Efeitos aleatrios so fatores cujos nveis so amostras
aleatrias de uma populao de possveis infinitos nveis. O proc varcomp
estima a contribuio de cada fator aleatrio para a varincia da varivel
resposta. Vrios mtodos existem para a estimao dos componentes de varincia. O proc varcomp possui implementado os mtodos type 1 (baseado
no cmputo da soma de quadrados do tipo I para cada efeito do modelo),
MIVQUE0, mxima verossimilhana (ML) e mxima verossimilhana restrita (REML).
Componentes de varincia so, por definio, positivos. No entanto,
estimativas negativas podem ocorrer. Algumas razes potenciais para que
estimativas negativas de componentes de varincia ocorram podem ser destacadas por:
Variabilidade muito grande dos dados, produzindo estimativas negativas, apesar do valor verdadeiro do componente ser positivo;
Presena de outliers nos dados experimentais;
Especificao incorreta do modelo estatstico.
Alguns mtodos especficos para lidarmos com cada uma destas situaes existem. No caso de outliers, anlises exploratrias de dados podem
ser aplicadas facilmente para identificao e eliminao destas observaes
Uso de Recursos Computacionais

Ferreira, D.F.

136

Componentes de Varincia

discrepantes. A especificao incorreta do modelo est diretamente sob o


controle do pesquisador que ao identificar o problema pode prontamente
corrig-lo.

7.1

Mtodos de Estimao de Componentes de Varincia

O mtodo denominado por Type 1 um mtodo dos momentos. As


esperanas dos quadrados mdios so determinadas e igualadas aos quadrados mdios de uma anlise de varincia seqencial (somas de quadrados do
tipo I). O mtodo Mivque0 baseado no mtodo de Hartley, Rao e LaMotte
(1978)[7], o qual produz estimativas que so invariantes em relao aos efeitos fixos do modelo e so localmente os melhores estimadores quadrticos
no viciados. Possui estimao semelhante a do mtodo Type 1, exceto pelo
fato de que os efeitos aleatrios so ajustados somente para os efeitos fixos.
Os estimadores de Mxima Verossimilhana (ML) para os componentes
de varincia usam a transformao W, desenvolvida por Hemmerle e Hartley (1973)[8] e Goodnigth e Hemmerle (1978)[6] e o algoritmo de NewtonRaphson, aplicado iterativamente at que o logaritmo da funo de verossimilhana seja maximizado. O mtodo da mxima verossimilhana restrita
(REML) semelhante ao ML, s que h uma separao da funo de verossimilhana em duas partes. A primeira com os efeitos fixos e a segunda
com os aleatrios (Patterson e Thompson, 1971[10]).

7.2

O Proc Varcomp

Para apresentarmos os comandos do proc varcomp, ilustrando a forma


de especificar tanto os mtodos, quanto os efeitos fixos, vamos utilizar o
delineamento em blocos casualizados com 2 repeties, apresentado no captulo 6. Uma amostra aleatria de 5 cultivares foi obtida. Adicionalmente,
este experimento foi conduzido em 2 locais. Ocorreu, no local 1, a perda da
parcela correspondente repetio 1 da cultivar 5. Todos os efeitos do modelo foram considerados aleatrios, exceto a mdia geral (por razes bvias)
e o efeito de local. O programa SAS resultante dado por:
Ferreira, D.F.

Uso de Recursos Computacionais

7.2 O Proc Varcomp

137

/* Programa para estimar componentes de varincia em um modelo misto.*/


data rand;
input cult bl local prod;
cards;
1 1 1 8.4
1 2 1 8.6
2 1 1 5.7
2 2 1 5.8
3 1 1 4.5
3 2 1 6.7
4 1 1 5.9
4 2 1 7.8
5 2 1 8.9
1 1 2 6.2
1 2 2 7.6
2 1 2 8.3
2 2 2 9.5
3 1 2 3.5
3 2 2 4.9
4 1 2 7.4
4 2 2 8.8
5 1 2 8.9
5 2 2 9.0
;
proc varcomp data=rand maxiter=500 method=type1;
class cult bl local;
model prod = local bl(local) cult cult*local /fixed = 1;
run; quit;

Na linha de comando <proc varcomp data = rand maxiter = 500 method


= type1;> declaramos o nmero mximo de iteraes para o processo iterativo, por meio da opo maxiter=500, e o mtodo que desejamos utilizar,
com a opo method=type1. Neste caso, limitamos em no mximo 500
iteraes e utilizamos o mtodo type 1. Podemos alterar o mtodo, substituindo type1 por mivque0, ML ou RML. Diferentemente do proc glm, onde
com o comando random especificamos os efeitos aleatrios, no proc varcomp devemos mencionar o nmero de efeitos fixos do modelo. Assim, com
Uso de Recursos Computacionais

Ferreira, D.F.

138

Componentes de Varincia

o comando <model prod = local bl(local) cult cult*local /fixed = 1;>, informamos ao programa que temos um efeito fixo (fixed=1 ) e que o efeito
de local este efeito fixo. O programa ao ser informado do nmero de
efeitos fixos, comea a reconhec-los a partir da igualdade (primeiro efeito
do modelo) entre a parte dependente e independente do modelo. Devemos,
portanto, posicionar os efeitos fixos antes dos efeitos aleatrios no modelo
especificado, quando utilizamos o proc varcomp.
O SAS apresenta entre os seus resultados a anlise de varincia e as
esperanas dos quadrados mdios para o mtodo Type 1. Para os demais
mtodos, alguns outros resultados particulares so apresentados. Em todos os casos temos as estimativas dos componentes de varincia dos efeitos
aleatrios. Alteramos a opo method = type1, considerando as demais possibilidades, para estimarmos os componentes de varincia utilizando todos
os mtodos (mivque0, ml ou reml ) e apresentamos os resultados na Tabela
7.1.
Tabela 7.1: Estimativas dos componentes de varincia para o modelo de
anlise conjunta (2 locais) em um delineamento de blocos casualizados utilizando os 4 mtodos de estimao do proc varcomp.
Mtodo
G.L.

Type 1

Mivque0

ML

REML

bl(local)

0,69760

0,71978

0,38173(0,37)

0,54146(0,62)

cult

0,83428

0,89047

0,78798(1,18)

0,96363(1,55)

cult*local

1,92776

2,03984

1,51873(1,10)

1,79084(1,39)

Erro

0,35286

0,19096

0,35252(0,20)

0,34854(0,17)

FV

Erro padro das estimativas entre parnteses.


O SAS apresenta a matriz de covarincia dos estimadores dos compo-

nentes de varincia dos efeitos aleatrios do modelo para os mtodos da


mxima verossimilhana e da mxima verossimilhana restrita. A raiz quadrada dos elementos da diagonal so os erros padres das estimativas destes componentes de varincias, que foram apresentados na Tabela 7.1. Em
geral, os erros padres das estimativas associadas ao mtodo da mxima
verossimilhana restrita foram maiores do que os do mtodo da mxima
Ferreira, D.F.

Uso de Recursos Computacionais

7.2 O Proc Varcomp

139

verossimilhana.
Um segundo exemplo, para ilustrar a estimao de componentes de varincia negativos, apresentado na seqncia. Para isso um delineamento em
blocos casualizados com 5 cultivares e 2 repeties foi considerado. Duas
repeties dentro de cada bloco foram obtidas. Uma das repeties dentro
do bloco 1, para a cultivar 5, foi perdida. O modelo foi considerado aleatrio
e dado por:

Yijk = + i + j + ij + k(ij)

(7.1)

em que Yijk o valor observado da varivel resposta, a constante geral,


i o efeito aleatrio do i-simo nvel das cultivares, j o efeito aleatrio
do j-simo nvel dos blocos, ij o efeito aleatrio do erro experimental
suposto normal e independentemente distribudo com mdia 0 e varincia
comum e2 e kij o efeito do erro amostral aleatrio suposto normal e
independentemente distribudo com mdia 0 e varincia comum 2 .
O programa SAS para estimarmos os componentes de varincia dado
por:

/* Programa para estimar componentes de varincia em um modelo aleatrio.*/


data vc2;
input cult bl rep prod;
cards;
1 1 1 8.4
1 2 1 7.6
2 1 1 5.7
2 2 1 5.8
3 1 1 4.5
3 2 1 6.7
4 1 1 8.9
4 2 1 7.8
5 2 1 8.9
1 1 2 6.2
1 2 2 7.6
2 1 2 8.3
2 2 2 2.5

Uso de Recursos Computacionais

Ferreira, D.F.

140

Componentes de Varincia

3 1 2 3.5
3 2 2 4.9
4 1 2 7.4
4 2 2 8.8
5 1 2 8.9
5 2 2 9.0
;
proc varcomp data=vc2 maxiter=500 method=type1;
class cult bl;
model prod = cult bl bl*cult;
run; quit;

O erro amostral dado pelo efeito de repetio dentro de cada combinao


de cultivar bloco foi obtido por diferena e o erro experimental dado
pela interao bloco cultivar. Alterando a opo <method=type1> para
os demais mtodos, obtivemos as estimativas dos componentes de varincia
apresentados na Tabela 7.2.
Tabela 7.2: Estimativas dos componentes de varincia para o modelo de
blocos casualizados com repetio dentro de cada bloco em um ensaio de
cultivares, utilizando os 4 mtodos de estimao do proc varcomp.
Mtodo
FV

G.L.

Type 1

Mivque0

ML

REML

cult

2,11787

1,96139

1,70757(1,54)

2,30153(2,12)

bl

-0,30145

-0,34551

0,00000(0,00)

0,00000(0,00)

Erro

0,63854

0,80142

0,40027(0,85)

0,39980(0,85)

Erro amostral

1,66611

1,66676

1,62392(0,75)

1,62262(0,75)

Erro padro das estimativas entre parnteses.


Grandes diferenas podem ser observadas nas estimativas dos compo-

nentes de varincia. Uma delas so as estimativas negativas dos componentes de varincia nos mtodos Type 1 e Mivque0. uma prtica comum
tratar as estimativas negativas como se elas fossem nulas. Nos mtodos ML
e REML este procedimento j feito automaticamente durante o processo
de estimao e componentes de varincia negativos so evitados.
Ferreira, D.F.

Uso de Recursos Computacionais

7.3 Exerccios

7.3

141

Exerccios

1. Exemplificar situaes em sua rea em que componentes de varincia


poderiam ser estimados.
2. Podemos utilizar intervalos de confiana normais para componentes
de varincia se considerarmos a propriedade de normalidade assinttica dos estimadores de mxima verossimilhana. Assim, construir
intervalos de confiana normais para os componentes de varincia de
2 nos dois exemplos, utilizando a seguinte expresso:
cultivares C
2
2
2
IC1 (C
):
C
Z/2 EP (
C
)

em que Z/2 o quantil superior 100/2% da distribuio normal


2 ) o erro padro do estimador do componente de
padro e EP (
C

varincia de cultivar.

Uso de Recursos Computacionais

Ferreira, D.F.

142

Ferreira, D.F.

Componentes de Varincia

Uso de Recursos Computacionais

Captulo 8

Pressuposies da Anlise de
Varincia
A validade da anlise de varincia depende que algumas condies pressupostas sejam atendidas. Quando um estatstico formula um modelo e
estima seus parmetros e prope algum mtodo de estimao ou teste, h a
necessidade de que algumas condies sejam ratificadas. A validade desta
inferncia depende de algumas restries impostas aos efeitos deste modelo,
como por exemplo, a suposio de normalidade dos erros. Se o pesquisador
obtiver um conjunto de dados amostrais, em que essas condies no foram
obedecidas, ento a validade das inferncias realizadas no mnimo questionvel. Especificamente no caso dos modelos lineares, fazemos suposies
de distribuio normal dos erros, aditividade dos efeitos do modelo e homogeneidade das varincias dos erros associados aos nveis de um determinado
efeito ou fator. Estas pressuposies muitas vezes no so checadas, o que
pode comprometer a validade dos resultados dos testes e da estimao realizados. Desta forma, o pesquisador pode eventualmente tomar decises
errneas.
Uma das razes de se ignorar a checagem das pressuposies para validade da anlise de varincia a dificuldade de se encontrar recursos computacionais para realizar esta tarefa. A maioria dos softwares no checa estas
pressuposies, ou no possui rotinas para realizao destes testes.
O programa SAS, pela sua flexibilidade e facilidade de programao,
Uso de Recursos Computacionais

Ferreira, D.F.

144

Pressuposies da Anlise de Varincia

permite que muitos mtodos, existentes para esta finalidade, sejam implementados. No entanto, os testes existentes na literatura, para checarmos
se as pressuposies foram atendidas, so especficos para alguns modelos,
o que dificulta a sua aplicao em casos mais gerais. Um outro fator limitante diz respeito ao fato de que estes procedimentos ficariam limitados a
pesquisadores que tivessem uma maior familiaridade com a linguagem SAS.
Desta forma, a busca de procedimentos mais gerais e mais fceis de utilizar, facilitaria a verificao das pressuposies feitas aos efeitos do modelo.
Para isso, Gill (1978)[4] apresenta alguns mtodos mais abrangentes, que
so tratados nas prximas sees. Vamos apresentar os testes para verificar
a normalidade dos resduos e a aditividade dos efeitos do modelo.

8.1

Normalidade dos Resduos

A pressuposio de normalidade, exigida na anlise de varincia, na


maioria das vezes mal interpretada e checada de forma incorreta. A exigncia que se faz, a respeito da distribuio normal, para a distribuio
dos resduos de um determinado modelo linear e no para os dados observados nas unidades experimentais. Muitos pesquisadores desavisados, ou por
desconhecimento, realizam o teste de normalidade nos dados experimentais observados, o que uma prtica incorreta. Este procedimento s seria
vlido se estivssemos avaliando uma amostra aleatria de uma nica populao, cujos dados pudessem ser explicados pelo modelo linear simples dado
por Yi = + i . Em modelos onde temos um ou mais fatores, os valores da
varivel Yi so explicados por diferentes constantes ao longo da amostra aleatria de tamanho n. Assim, por exemplo, para o modelo Yij = + i + ij
temos diferentes constantes + i , que so funes do i-simo nvel do efeito
i . Ento a distribuio da varivel Y na verdade uma mistura de normais com diferentes mdias. Quanto maior a complexidade do modelo, mais
complexa fica esta mistura de distribuies normais.
Como a suposio de normalidade que fazemos para o erro deste modelo, que uma varivel aleatria no observvel, temos de estim-lo e ento
aplicar os testes de normalidade. Podemos utilizar os recursos do SAS para
realizar esta tarefa. O SAS permite que estimemos e salvemos os erros dos
Ferreira, D.F.

Uso de Recursos Computacionais

8.1 Normalidade dos Resduos

145

modelos em um SAS data set em cada procedimento. Se utilizarmos o teste


de normalidade de Shapiro-Wilk do proc univariate, poderemos avaliar se
a pressuposio de normalidade foi atendida. Vamos utilizar um exemplo
de um experimento realizado em blocos casualizados com 4 repeties e 3
tratamentos de um nico fator. O modelo estatstico dado por:

Yij = + i + j + ij

(8.1)

em que Yij o valor observado da varivel resposta produo, a constante


geral, i o efeito do i-simo nvel dos tratamentos, j o efeito do j-simo
nvel dos blocos e ij o efeito do erro experimental suposto normal e
independentemente distribudo com mdia 0 e varincia comum 2 .
Os valores preditos da varivel resposta so dados por Yij =
+ i + j ,
, em que Y o
que de forma matricial podem ser obtidos por Y = X

o vetor de solues de
vetor de observaes, X matriz do modelo e

mnimos quadrados. Assim, os resduos so estimados por ij = Yij Yij ou


simultaneamente por  = Y Y . Aps estimarmos os resduos do modelo,

aplicamos o teste de Shapiro-Wilk utilizando o proc univariate. O programa


SAS para realizarmos o teste de normalidade dos resduos do exemplo que
estamos considerando dado por:

/* Programa para testar a pressuposio de erros normais em um modelo linear em blocos


casualizados.*/
data press1;
input bl trat prod;
cards;
1 1 12.34
1 2 13.45
1 3 14.56
2 1 12.34
2 2 16.78
2 3 17.89
3 1 10.32
3 2 15.67
3 3 16.01

Uso de Recursos Computacionais

Ferreira, D.F.

146

Pressuposies da Anlise de Varincia

4 1 13.45
4 2 16.78
4 3 17.89
;
proc glm data=press1;
class bl trat;
model prod = bl trat;
output out=norm P=pred R=res;
run;quit;
proc univariate data=norm normal;
var res;
run;quit;

Realizamos a anlise de varincia para estimarmos os resduos, utilizando o proc glm para isso. Armazenamos os resduos e os valores preditos em um SAS data set utilizando o comando <output out=norm P=pred
R=res;>. Definimos que a varivel correspondente aos valores preditos seria
denominada de pred e a dos resduos de res. Utilizamos o proc univariate na
seqncia para aplicar o teste de normalidade a varivel res do SAS data set
norm. O resultado que nos interessa o do teste de Shapiro-Wilk. O valor
observado da estatstica foi W = 0, 946844 e o valor-p associado foi igual
a 0, 5914. Assim, no devemos rejeitar a hiptese nula de normalidade dos
resduos, se considerarmos um nvel nominal de significncia de = 0, 05.

8.2

Aditividade

Em um modelo linear, assumimos que os efeitos so aditivos e no multiplicativos (Tukey, 1949[14]). O mtodo de Tukey decompe a soma de
quadrado do erro em duas partes. Uma delas com apenas 1 grau de liberdade e a outra com os graus de liberdade remanescentes. Um teste
F aplicado e denominado de teste da no-aditividade de Tukey. Este
teste da no-aditividade de Tukey pode ser generalizado para possibilitar
sua aplicao em diversos modelos lineares. Esta generalizao consiste em
obtermos os valores preditos e em seguida introduzirmos o seu quadrado
como covarivel no modelo de anlise de varincia. Esta anlise se prestar
Ferreira, D.F.

Uso de Recursos Computacionais

8.2 Aditividade

147

unicamente para testarmos a hiptese de aditividade dos efeitos. Se houver efeito significativo da covarivel, deveremos rejeitar a hiptese nula de
efeitos aditivos.
Utilizando o exemplo da seo 8.1 e definindo os valores preditos por

Yij , devemos ajustar o seguinte modelo linear:

Yij = + i + j + Yij2 + ij

(8.2)

em que o coeficiente de regresso associado covarivel determinada


pelos valores preditos ao quadrado; os demais efeitos tm os mesmos significados do modelo 8.1.
A hiptese de interesse H0 : = 0 equivalente hiptese nula de que o
modelo aditivo. Devemos realizar uma anlise de covarincia e realizar o
teste de interesse sobre o efeito da covarivel, que como j dissemos, equivalente ao teste de aditividade dos efeitos. Infelizmente este procedimento
no pode ser utilizado em experimentos inteiramente casualizados com um
fator, por razes bvias, ou com dois fatores e interao, pois haver um
confundimento da interao com o efeito da covarivel. O programa SAS
utilizado para aplicarmos este teste aos dados do exemplo da seo 8.1
dado por:

/* Programa para testar a pressuposio de efeitos aditivos em um modelo linear em


blocos casualizados.*/
data press2;
input bl trat prod;
cards;
1 1 12.34
1 2 13.45
1 3 14.56
2 1 12.34
2 2 16.78
2 3 17.89
3 1 10.32
3 2 15.67
3 3 16.01
4 1 13.45

Uso de Recursos Computacionais

Ferreira, D.F.

148

Pressuposies da Anlise de Varincia

4 2 16.78
4 3 17.89
;
proc glm data=press2;
class bl trat;
model prod = bl trat;
output out=norm P=pred R=res;
run;quit;
data norm; set norm;
pred2=pred*pred;
run;quit;
proc glm data=norm;
class bl trat;
model prod= bl trat pred2;
run;quit;

Observamos um valor da estatstica F para o teste de Fc = 1, 02 com


1 = 1 e 2 = 5 graus de liberdade. O valor-p associado foi de 0, 3581,
portanto no devemos rejeitar a hiptese nula, indicando que no existem
evidncias significativas (5%) para afirmarmos que haja no-aditividade
dos efeitos do modelo. Para o caso de rejeitarmos a hiptese nula, Tukey (1949)[14] recomenda algum tipo de transformao dados para corrigir
o problema. A justificativa para tentar eliminar o problema baseada no
fato de que o teste F na presena da no-aditividade considerado bastante
conservador.

8.3

Homogeneidade de Varincias

A suposio de que os erros ij de um modelo tm distribuio normal e


varincia comum, indica que as varincias dos diferentes nveis dos fatores
presentes no modelo devem ser homogneas. Para o modelo inteiramente
casualizado com um fator, apresentamos o teste de homogeneidade de varincias na seo 5.2 de acordo com os procedimentos descritos por Ferreira
(2005)[3]. O proc anova do SAS, no caso de um fator nico no modelo, nos
possibilita testar a homogeneidade de varincias entre os nveis do fator.
Em casos mais gerais Gill (1978)[4] recomenda utilizar como covarivel
Ferreira, D.F.

Uso de Recursos Computacionais

8.4 Exerccios

149

os valores preditos do resduo ao quadrado. Por no termos avaliado este


procedimento e no conhecermos na literatura nenhum indicativo cientfico
de sua validade, optamos por no apresentar maiores detalhes deste mtodo.

8.4

Exerccios

1. Aplicar testes de normalidade para alguns modelos de regresso apresentados no capitulo 3.


2. Em sua opinio qual dos trs pressupostos causaria mais impacto sobre
a validade das inferncias?

Uso de Recursos Computacionais

Ferreira, D.F.

150

Ferreira, D.F.

Pressuposies da Anlise de Varincia

Uso de Recursos Computacionais

Referncias Bibliogrficas
[1] BECKMAN, R. J.; TRUSSELL, H. J. The distribution of an arbitrary
studentized residual and the effects of updating in multiple regression.
Journal of the American Statistical Association, 69:179201, 1974. 62
[2] CHATTERJEE, S.; HADI, A. S. Influential observations, high leverage
points, and outliers in linear regression. Statistical Science, 1(3):379
393, 1986. 59, 61, 62, 64
[3] FERREIRA, D. F. Estatstica bsica. Editora UFLA, Lavras, 2005.
676p. 12, 15, 92, 98, 99, 148
[4] GILL, J. W. Design and analysis of experiments in the animal and
medical sciences., volume 2. Iowa State University, Ames, 1978. 301p.
144, 148
[5] GOMES, F. P. Curso de estatstica experimental. Esalq/Usp, Piracicaba, 14 edition, 2000. 476p. vii, 93
[6] GOODNIGTH, J. H.; HEMMERLE, W. J. A simplified algorithm for
the W-transformation in variance component estimation. Technometrics, 21:265268, 1978. 136
[7] HARTLEY, H. O.; RAO, J. N. K.; LaMOTTE, L. A simple synthesisbased method of variance component estimation. Biometrics, 34:233
244, 1978. 136
[8] HEMMERLY, W. J.; HARTLEY, H. O. Computing maximum likelihood estimates for mixed AOV model using the W-transformation.
Technometrics, 15:819831, 1973. 136
Uso de Recursos Computacionais

Ferreira, D.F.

152

REFERNCIAS BIBLIOGRFICAS

[9] ONEILL, R.; WETHERILL, G. B. The present state of multiple comparison methods. Journal of the Royal Statistical Society, 33(2):218
250, 1971. 97
[10] PATTERSON, H. D.; THOMPSON, R. Recovery of inter-block information when block sizes are unequal. Biometrika, 58:545554, 1971.
136
[11] SATTERTHWAITE, F. E. An approximate distribution of estimates
of variance components. Biometrics Bulletin, 2(6):110114, 1946. 21,
30, 32, 134
[12] SEARLE, S. R. Linear models. John Wiley, New York, 1971. 532p. 40
[13] SEARLE, S. R. Linear models for unbalanced models. John Wiley, New
York, 1987. 536p. 40
[14] TUKEY, J. W. One degree of freedom for non-additivity. Biometrics,
5(3):232242, 1949. 146, 148
[15] VANGEL, M. G. Confidence intervals for a normal coefficient of variation. The American Statistician, 15(1):2126, 1996. 19
[16] VELLEMAN, P. F.; WELSCH, R. E. Efficient computing of regression
diagnostics. The American Statistician, 35(4):234242, 1981. 59, 63

Ferreira, D.F.

Uso de Recursos Computacionais

ndice Remissivo
ajuste

critrio

da distribuio

de Wilks, 115

normal, 13
das probabilidades

derivadas
parciais, 35

Cochran e Cox, 31
dos valores-p

desconexo
estatstica, 117

Tukey, 121
anlise

desdobramento
da interao, 122

de covarincia, 125
assist, 2

desvio padro
estimao

backward, 56

intervalar, 17
dfbeta, 64, 65

caselas, 117

dffits, 65

coeficiente

distncia

de assimetria, 12

de Cook, 66

de confiana, 16

modificada, 66

de curtose, 12
de determinao

efeitos

ajustado, 53

aditivos, 143

coeficientes

aleatrios, 130, 135

de determinao

fixos, 131

parciais, 55
semi-parciais, 55

hierrquizados, 89
equaes

contrastes, 120

normais, 37

correlao
parcial, 116
covratio, 67
Uso de Recursos Computacionais

modelos no-lineares, 72
erro
tipo I, 96
Ferreira, D.F.

154

NDICE REMISSIVO
tipo II, 96

erro padro
coeficiente
regresso, 51
do valor predito, 54

hiptese
nula, 25
histograma, 13
homogeneidade
de varincias, 98, 143

valor predito
futuro, 54

inferncia
individual, 97

erros
normais, 143
estatstica
do teste
sinal, 26
estatsticas
descritivas, 11, 13, 15
estimador
beta, 12
do coeficiente
de assimetria, 12
de curtose, 12

simultnea, 97
influncia, 63
influence, 67
interao
de efeitos, 89
intervalo
de confiana
assinttico, 86
intervalo de confiana, 11
aproximado
diferena de mdias, 21

gama, 12

para CV, 19

Kernel

para p, 18

de densidade, 13
estimativas
negativas
componentes de varincia, 135
componentes de varincia, 140
estrutura
de dados
balanceada, 90
no balanceada, 117
forward, 56

exato
diferena de mdias, 20
para p, 18
mdias
dados emparelhados, 24, 30
valor predito
futuro, 54
mdio, 54
inversa
nica, 38
de Moore-Penrose, 74

graus
de liberdade, 38
Ferreira, D.F.

de parte
da inversa, 40
Uso de Recursos Computacionais

NDICE REMISSIVO
generalizada, 74

155
no-linear, 35

reflexiva, 74

nos parmetros, 70
modelos

jackknife, 61

mistos, 92, 134

janela
de erros, 1
de programas, 1

normalidade
dos resduos, 34

de sada, 1
parmetros
de disperso, 12

mdia
ajustada, 121
amostral, 12
apresentao da, 14

de locao, 12
parcela
subdividida

estimao
intervalar, 16
mtodo

no tempo, 108
pp-plots, 13
pressuposio

de DUD, 77

de homocedasticidade, 34

dos momentos

de independncia, 34

componentes de varincia, 130 proc


dos quadrados mnimos, 37
no-lineares, 71
manuais
do SAS, 2
matriz
de covarincia
das estimativas, 138
de derivadas parciais, 38
Jaobiana, 77
misturas
de distribuies
normais, 34
modelo
de regresso
linear, 35, 36
linear, 34
Uso de Recursos Computacionais

iml, 18, 19
nlin, 69
summary, 11
ttest, 11, 31
univariate, 11
procedimentos
de comparaes
mltiplas, 97
processo
iterativo, 83
programa
R, 1
SAS, 1
propores
estimao
intervalar, 17
Ferreira, D.F.

156

NDICE REMISSIVO

proteo
de Bonferroni, 98
qq-plots, 13
resduos, 37
estudentizados
externamente, 62
internamente, 61
response
plateau, 69, 80
linear, 84
quadrtico, 81

teste
aproximado
diferenas de mdias, 31
da falta
de ajuste, 111
da no-aditividade
de Tukey, 146
de Bartlett, 98
de Browb e Forsythe, 99
de hiptese
mdias normais, 25
de homogeneidade
de varincias, 21, 31

Satterthwaite, 21
simulao
de dados, 85
soluo
do sistema
de EN, 38
soma
de quadrados
do resduo, 38
modelo, 38
parcial, 39
seqencial, 39
tipo I, 39
tipo II, 39, 40
stepwise, 56
superfcie
de resposta, 102

de Levene, 99
de normalidade
de Shapiro-Wilk, 145
de Wilcoxon, 26, 27
dados emparelhados, 28
do sinal, 26
dados emparelhados, 28
dos postos
com sinais, 26
Duncan, 97
Dunnett, 121
exato
diferenas de mdias, 31
F, 89
conservador, 148
OBrien, 100
Scheff, 98
Shapiro-Wilk, 33

taxa
de erro
por comparao, 97
por experimento, 97
Ferreira, D.F.

SNK, 98
t de Student
na regresso, 51
Uso de Recursos Computacionais

NDICE REMISSIVO

157

Tukey, 97
testes
de autocorrelao, 121
de comparaes
mltiplas, 91
de homogeneidade
de varincias, 91, 98
tipos
somas de quadrados, 39, 47, 117,
118
transformao
de dados, 148
valores
perdidos, 2
preditos, 38, 54
varivel
binria, 85
dummy, 85
varincia
amostral, 13
dados emparelhados, 23
combinada, 21
estimao
intervalar, 17
varincias
complexas, 129
homogneas, 20

Uso de Recursos Computacionais

Ferreira, D.F.

Você também pode gostar