Você está na página 1de 147

MINISTRIO DE EDUCAO E DESPORTOS

UNIVERSIDADE FEDERAL DE SANTA MARIA


CENTRO DE CINCIAS NATURAIS E EXATAS
DEPARTAMENTO DE ESTATSTICA
LABORATRIO - S.A.S.













TREINAMENTO SISTEMA - S.A.S.




Prof. Dr. Luis Felipe Lopes













SANTA MARIA RS

2 0 0 6

Treinamento Sistema SAS Prof. Luis Felipe Lopes

i
SUMRIO

1 INTRODUO 1

2 LIMITAES 1

3 O QUE O SISTEMA SAS? 1
3.1 O SAS/BASE 2
3.2 Tpicos gerais 3

4 ARQUIVOS SAS 3

5 COMANDOS DE PROGRAMAO 3
5.1 Comandos de controle de arquivos 4
5.2 Comandos que lem e gravam arquivos de dados 6
5.3 Comandos que lem e gravam arquivos SAS 10
5.4 Comandos que atuam sobre valores de dados 13
5.5 Comandos de informao 15
5.6 Comandos que controlam o fluxo lgico de programao 17

6 PRINCIPAIS PROCEDURES PROCs 20
6.1 PROC SORT 20
6.2 PROC PRINT 21
6.3 PROC FORMAT 22
6.4 PROC FREQ 23
6.5 PROC MEANS 24

7 ESTATSTICAS DESCRITIVAS E TESTE PARA NORMALIDADE 27
7.1 Introduo 27
7.2 Testes de Normalidade (PROC UNIVARIATE) 27

8 ANLISE DE CORRELAO E REGRESSO 32
8.1 Introduo 32
8.2 Correlao de Pearson (PROC CORR) 33
8.3 Regresso (PROC REG) 39
8.4 Inferncia na regresso 41
8.5 Resduos 41

9 INFERNCIA ESTATSTICA 55
9.1 Testes para igualdade de duas medias (PROC TTEST) 54
9.2 Teste para dados pareados 59

10 MTODOS NO PARAMTRICOS 64
10.1 Testes para igualdade de duas medias (PROC NPAR1WAY) 64
Treinamento Sistema SAS Prof. Luis Felipe Lopes

ii
11 ANLISE DE VARINCIA 68
11.1 Dados balanceados (PROC ANOVA) 68
11.1.1 Experimento Completamente Casualizado 73
11.1.2 Experimento com Blocos Aleatorizados 75
11.1.3 Experimento com Quadrado Latino 77

12 EXERCCIOS RESOLVIDOS E COMENTADOS 79

13 EXEMPLO PRTICO 127
13.1 Banco de dados 127
13.2 Anlise dos dados 128


REFERNCIAS BIBLIOGRFICAS 139

ANEXOS 140

ANEXO 1 - ANLISE DE NORMALIDADE USANDO A TABELA DE
ASSIMENTRIA E CURTOSE - Skewness and Kurtosis 141


Treinamento Sistema SAS Prof. Luis Felipe Lopes

1
TREINAMENTO SISTEMA - S.A.S. Statistical Analisys System


1 INTRODUO


O Objetivo deste Curso ajudar o usurio a conhecer os comandos
bsicos do Sistema SAS de modo que possa obter as respostas a
problemas prticos de uma maneira rpida e objetiva.


2 LIMITAES


Este curso apenas uma introduo ao SAS, contendo uma pequena
frao de informao que voc encontrar no SAS USERS GUIDE: BASIC e SAS
USERS GUIDE STATISTICS.


3 O QUE O SISTEMA SAS ?


um sistema de aplicao integrada, que consiste em vrios produtos
que tem por funo: acesso, gerenciamento, anlise estatstica e apresentao de
dados, somada a uma linguagem poderosa de programao e gerao de
relatrios.














Acesso aos dados - o sistema SAS possui ferramentas para acessar os
bancos de dados mais populares, tratando as suas tabelas, como arquivo SAS.

Gerenciamento de dados - com o SAS possvel editar, selecionar,
ordenar, concatenar e margear os arquivos.

Acesso Gerenciamento





Apresentao Anlise

DADOS
Treinamento Sistema SAS Prof. Luis Felipe Lopes

2
Anlise de dados - o SAS possui rotinas estatsticas para anlises de
regresso, anlise de varincia, de componentes principais, discriminante,
modelos lineares, anlise fatorial, previses, controle de qualidade, clculos
matriciais, etc. .

Apresentao de informaes - a gerao de relatrios fcil e flexvel.
Eles podem ser listados, tabulados e grficos.

O SAS por ser um sistema integrado, ele composto por mdulos para
comercializao.

Principais mdulos:

SAS/BASE contm uma linguagem de Quarta gerao, com
procedimentos para estatstica bsica e grficos de baixa resoluo.

SAS/STAT este mdulo composto de procedimentos para estatstica
avanada, como anlise de varincia, anlise de regresso, multivariada, fatorial,
discriminante, outras.

SAS/GRAPH gera grficos de alta resoluo: barras verticais ou
horizontais, setoriais, cartesianos, mapas e superfcies tridimensionais.

SAS/ETS ferramenta de previso e anlise de sries temporais.

SAS/OR Procedimentos para Pesquisa Operacional, programao
linear, gerenciamento de projetos e apoio tomada de decises.

SAS/IML linguagem para operao com matrizes.

SAS/QC ferramenta para controle estatstico de qualidade e
delineamentos experimentais.

Existem outros mdulos, mas que no so de interesse para a estatstica.


3.1 O SAS/BASE

o instrumento principal do Sistema SAS. Ele permite ao usurios:

- Criar, montar e acessar qualquer tipo de dado;
- Produzir relatrios e grficos simples;
- Atualizar estatisticamente os dados;
- Utilizar a linguagem de programao SAS.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

3
3.2 Tpicos gerais

- Todo os comandos do SAS terminam em (;).
- Os comandos iniciam e terminam em qualquer posio.
- Vrios comandos poder estar numa mesma linha.
- Um comando poder ser escrito em vrias linhas.
- Palavras sero separadas por um mais espaos.
- O comando INPUT obrigatrio no interessando onde os dados esto
armazenados.
- Arquivos SAS so armazenados em tabelas retangulares.
- Referenciam-se arquivos e variveis pelos nomes.
- Nomes de arquivos ou variveis poder ter no mximo 8 caracteres,
iniciando obrigatoriamente por letras (A-Z), podendo ter associado nmero e/ou
caracteres especiais com ( - quebra).

4 ARQUIVO SAS

Um arquivo SAS uma coleo de valores de dados arrumados em uma
tabela retangular.

Ex.:

Variveis CULTURA ALTURA1 ALTURA2

OBSERVAES arroz 0.35 0.39
. feijo 0.25 0.30
. soja 0.15 0.17

As colunas da tabela so chamadas de VARIVEIS

- Variveis corresponde a campos de dados.
- Cada varivel tem um nome.
- H trs tipos de variveis: caracter, numrica e data.

As linhas so chamadas de OBSERVAES

- No h limite para o nmero de observaes.

5 COMANDOS DE PROGRAMAO

Os seguintes comandos so bsicos para a programao em SAS:

- Comandos de controle de arquivos.

- DATA - INFILE
- CARDS - FILE
Treinamento Sistema SAS Prof. Luis Felipe Lopes

4
- Comandos que lem e gravam arquivos de dados.

- INPUT
- PUT
- LIST

- Comandos que lem e gravam arquivos SAS.

- SET
- MERGE
- UPDATE
- OUTPUT

- Comandos que atuam sobre valores de dados.

- FUNES e EXPRESSES

- Comandos de informao.

- DROP
- RENAME
- LABEL
- FORMAT
- TITLE

- Comandos que controlam o fluxo lgico de programao.

- IF (THEN / ELSE)
- DELETE


5.1 Comando de controle de arquivos


- DATA

O primeiro comando em um programa SAS, geralmente um DATA. O
comando DATA diz ao SAS que se quer criar um arquivo SAS.

Voc poder escolher qualquer nome para esse arquivo, desde que tenha
at 8 caracteres ou menos e comece por uma letra (A-Z).


Ex.: DATA TESTE;
I NPUT . . .
.
.


Treinamento Sistema SAS Prof. Luis Felipe Lopes

5
A palavra TESTE o nome do arquivo SAS.
Se o nome for omitido pelo usurio, o SAS se encarrega de nome-lo.
Dando o nome de DATAn (n nmero de DATAS criados).

O comando DATA pode aparecer em outros lugares dentro do arquivo
SAS quando se quer fazer referncias a outros arquivos.

- CARDS

um comando dado logo aps o comando DATA. O comando CARDS
indica ao SAS que os registros de dados seguem imediatamente abaixo no texto
at o ponto e virgula ; do ltimo dado.


Ex.: DATA A1;
I NPUT I DADE 12 ALTURA 5- 8 1 PESO 1014 1;
CARDS;
21 180 75. 2
18 170 65. 3
25 175 80. 3
: : :
: : :
;

- INFILE

Tambm vem a ser um comando logo aps o comando DATA, s que os
valores de dados esto em disco (na forma de arquivo), logo deve-se incluir o
comando INFILE. Ele deve conter um nome com no mximo 8 caracteres e
dever ser lido com o cdigo ASCII.

Caractersticas do INFILE:

Aponta ao SAS para fazer a leitura num arquivo externo, onde os dados
esto armazenados.

Os dados esto armazenados em disco no arquivo chamado ARQUIVO.


Ex.: DATA A1;
I NFI LE ARQUI VO DADOS ;
I NPUT NOME $10. @30 NOTA1 30 32 1
NOTA2 33 35 1 MEDI A 37 39 1;
PROC PRI NT;


Treinamento Sistema SAS Prof. Luis Felipe Lopes

6

Obs.: Este dois comandos CARDS e INFILE especificam de onde sero lidos
os dados. O INFILE indica que sero lidos de um arquivo externo (banco de
dados ASCII) e o CARDS indica que os dados esto no programa logo
abaixo deste comando.


5.2 Comandos que lem e gravam arquivos de dados


- INPUT

A funo do comando INPUT descrever para o sistema SAS como so,
quais os nomes, e em que posio se encontra as VARIVEIS no arquivo de
dados.

O comando INPUT geralmente segue o comando DATA.


Ex.: DATA TESTE;
I NPUT A 1- 3 Y 5- 6;


Obs.: Lembre-se das regras para nomes (no mximo 8 caracteres).

a) Tipos de INPUT

a.1) INPUT COLUNADO

Especifica onde encontrar os valores pela posio da coluna.


Ex.: I NPUT NOME $ 18 SEXO $ 10 I DADE 12- 13
ALTURA 1519 PESO 2126;


Restries: As posies dos campos so fixas.
O $ usado para indicar varivel alfanumrica.

Caractersticas do INPUT COLUNADO:

Os campos (variveis) podem ser lidos em qualquer ordem.


Ex.: I NPUT SEXO $ 10 I DADE 1213 NOME $ 18
PESO 2126 ALTURA 1519;

Treinamento Sistema SAS Prof. Luis Felipe Lopes

7
Campos em brancos so considerados no informados.

(posies 9, 11, 14, 20).

Caracteres em branco s sero permitidos em variveis alfanumricas.

Ex.: J OSE CARLOS

Campos ou partes de campos podem ser relidos como uma nova
varivel;

Ex.: I NPUT NOME $ 1- 8 I NI NOME $ 1;

Valores numricos podem aparecer em qualquer posio do campo,
podendo ser especificado sinais decimais ou ponto decimais.

Ex.: I NPUT PESO $ 16;

C A M P O S
1 2 3 4 5 6
1 2 5
2 2 5 .
3 2 5
4 2 5 . 5
5 .

Obs.: 1 - No se usa , (virgula) para separar a parte decimal e sim
. (ponto). Ex.: linhas 2 e 4
2 - Um campo em branco dever ser representado por um .
ponto (missing). Ex.: linha 5

a.2) INPUT LISTADO

O SAS procura pelos campos brancos at encontrar um caracter, ento l
o campo at o prximo branco.

Forma geral INPUT lista de variveis;

Ex.: I NPUT SEXO $ I DADE NOME $ PESO ALTURA;

Restries: Todo o campo (var.) deve ser especificado em
ordem.
Campos devem ser separados por brancos.
No permitido campos em branco e sim . .

Treinamento Sistema SAS Prof. Luis Felipe Lopes

8
Ex.: DATA CLASSE;
I NPUT NOME $ SEXO $ I DADE ALTURA PESO;
CARDS;

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22
C A R L O S M 2 0 1 8 0 . 5 7 8 . 5
J O S E M 1 8 1 7 5 7 0 . 8
A N A F 1 7 1 6 5 . 6 6 2 . 5
P A U L A F 2 1 1 6 8 5 5

a.3) INPUT FORMATADO

Especifica a posio e o tamanho do campo.

Formato de Entrada:

W Largura do campo numrico
W.d Numrica com decimal

Controle de posio:

@n Vai para a coluna n.
+n Move a posio n posies.

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
J O S E M 2 0 1 8 0 . 5 7 8 . 5
J O S E L U I S M 1 8 1 7 5 7 0 . 8
A N A F 1 7 1 6 5 . 6 6 2 . 5
A N A P A U L A F 2 1 1 6 8 5 5


Ex.: I NFI LE BANCO DADOS ;
I NPUT NOME $ 9. @11 SEXO $ 1. +1 I DADE 2. +1
ALTURA 5. +1 PESO 4. ;


Caractersticas do INPUT FORMATADO:

Variveis e formatos de entrada podem ser agrupados separadamente
com parnteses.


Ex.: I NPUT ( J AN FEV MAR ABR MAI ) ( 3. 3. 3. 3. 3. ) ;
ou
I NPUT ( J AN FEV MAR ABR MAI ) ( 3. ) ;


Variveis numeradas podem ser usadas para abreviar diversas variveis
relacionadas.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

9

Ex.: I NPUT ( MES1 MES2 MES3 MES4 MES5) ( 3. ) ;
ou
I NPUT ( MES1- MES5) ( 3. ) ;


a.4) MISTURANDO TIPOS DE INPUT

Os trs tipos de INPUT vistos podem ser combinados (LISTADO,
COLUNADO e FORMATADO) em um nico comando INPUT.


Ex.: DATA CLASSE;
I NPUT NOME $ @11 SEXO $ 1. I DADE 13- 14
ALTURA 1619 @21 PESO 5. ;


a.5) OUTROS CONTROLADORES DE POSIO

/ e #

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15
1 J O S E M 2 0
1 8 0 . 5 7 8 . 5
2 J O S E L U I S M 1 8
1 7 5 7 0 . 8
3 A N A F 1 7
1 6 5 . 6 6 2 . 5
4 A N A P A U L A F 2 1
1 6 8 5 5


Ex.: DATA CLASSE;
I NPUT NOME $ 19 SEXO $ 11 @13 I DADE 2. /
ALTURA 5. PESO 7- 10;
ou
DATA CLASSE;
I NPUT NOME $ 19 SEXO $ 11 @13 I DADE 2.
#2 ALTURA 1- 5. PESO 7- 10;


Obs.: 1 - Os campos podem ser lidos em qualquer ordem. A indicao #
sempre preceder o nome da varivel, logo dispensa-se informar
a prxima linha, ou seja, a partir da varivel altura as demais
variveis o SAS entende que pertencem ao segundo carto do
registro.
2 - Quando estivermos nos referindo a uma data devemos aps a
varivel colocar sua formatao (DT_NASC DDMMYY8. ).
Treinamento Sistema SAS Prof. Luis Felipe Lopes

10
5.3 Comandos que lem e gravam arquivos SAS


- SET

O comando SET usado para transferir dados de um arquivo SAS
existente para um novo arquivo SAS.

Todas as variveis do arquivo SAS so passadas automaticamente para o
novo arquivo SAS (a no ser que sejam direcionadas de outra maneira com
comandos de programao).

Novas variveis que se queira criar devem ser adicionadas com
comandos de atribuio.


Ex.: DATA NOVACLAS;
SET CLASSES;
ANO_NASC=91- I DADE;
PROC PRI NT DATA=NOVACLAS;

Obs.: No arquivo criado pelo comando SET possui uma varivel nova
ANO_NASC.

Como criamos uma varivel nova ao gerar o arquivo NOVACLAS,
podemos tambm excluir variveis, com o comando DROP associado ao
comando SET;


Ex.: DATA NOVACLAS;
SET CLASSES;
DROP NOME SEXO;
PROC PRI NT DATA=NOVACLAS;


O campo (varivel) NOME atravs dessa varivel referenciada com o
BY que far a juno dos dois arquivos num s. Obviamente que os
dois arquivos devero estar em ordem por NOME.


Ex.: DATA AMBOS;
SET HOMENS MULHERES;
BY NOME;
PROC PRI NT;
TI TLE RESULTADO DA CONCATENACAO;

Treinamento Sistema SAS Prof. Luis Felipe Lopes

11

HOMENS MULHERES

OBS DEPT NOME SEXO OBS DEPT NOME SEXO
1 213 Al var o m 1 914 El i ane f
2 917 Ot t o m 2 918 Lor ena f
3 916 Ri car do m 3 917 Soni a f
4 914 Vi t or m

Resultado da Concatenao (SET)

HOMENS+MULHERES

OBS DEPT NOME SEXO
1 213 Al var o m
2 914 El i ane f
3 918 Lor ena f
4 917 Ot t o m
5 916 Ri car do m
6 917 Soni a f
7 914 Vi t or m

Outra observao que se faz necessria para usar este comando com
a finalidade de juntar (concatenando) dois ou mais arquivos, que a
estrutura dos arquivos sejam idnticas, ou seja, com mesmas variveis.

Podemos tambm selecionar observaes na criao de um novo
arquivo com o comando IF

- MERGE

O comando MERGE usado para juntar observaes de dois ou mais
arquivos, colocando os mesmos um ao lado do outro.

Algumas consideraes:

- At 50 arquivos pode ser mergeados em um procedimento.

- Os arquivos de entrada devem estar ordenados pela varivel(eis) chaves
se um comando BY utilizado.

- O arquivo resultante (sada) conter todas as variveis presentes nos
arquivos de entrada a menos que o comando DROP ou qualquer outro
de seleo tenha sido utilizado.
-
Treinamento Sistema SAS Prof. Luis Felipe Lopes

12

Ex.: DATA J UNTA;
MERGE GERAL SALARI O;
PROC PRI NT;
TI TLE ARQUI VO MERGEADO;


GERAL SALRI O

OBS DEPT NOME SEXO OBS NOME SAL_LI Q SAL_BRU
1 917 Soni a f 1 Soni a 169. 10 279. 10
2 918 Al var o m 2 Al var o 223. 00 310. 05
3 917 Ot t o m 3 Ot t o 329. 05 410. 75
4 914 El i ane f 4 El i ane 650. 70 715. 12
5 916 Lor ena f 5 Lor ena 380. 95 470. 30


MERGEADO

OBS DEPT NOME SEXO SAL_LI Q SAL_BRU
1 917 Soni a f 169. 10 279. 10
2 918 Al var o m 223. 00 310. 05
3 917 Ot t o m 329. 05 410. 75
4 914 El i ane f 650. 70 715. 12
5 916 Lor ena f 380. 95 470. 30

Obs.: O comando BY no foi necessrio ao mergear os arquivos porque
a chave principal NOME nos dois arquivos esto na mesma ordem.
Se no estivessem o comando BY seria necessrio, assim como
teramos que classificar os arquivos atravs do comando SORT.

- OUTPUT

O comando OUTPUT pode ser usado para:

Criar duas ou mais observaes para cada linha de entrada.

Combinar diversas observaes a partir de uma nica observao.

Criar um arquivo SAS sem nenhum dado de entrada.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

13

Ex.: Criando quatro observaes SAS de cada linha de entrada


DATA RECEI TA;
I NPUT ANO TRI M1 TRI M2 TRI M3 TRI M4;
TRI MESTRE=1; VENDAS=TRI M1; OUTPUT;
TRI MESTRE=2; VENDAS=TRI M2; OUTPUT;
TRI MESTRE=3; VENDAS=TRI M3; OUTPUT;
TRI MESTRE=4; VENDAS=TRI M4; OUTPUT;
CARDS;
1996 1. 2 0. 9 1. 1 1. 5
1997 1. 7 1. 9 2. 4 2. 5;
PROC PRI NT;
TI TLE RESULTADO DA EXECUCAO DO ARQUI VO RECEI TA;
RUN;


SADA

ANO TRI M1 TRI M2 TRI M3 TRI M4 TRI MESTRE VENDAS
1996 1. 2 0. 9 1. 1 1. 5 1 1. 2
1996 1. 2 0. 9 1. 1 1. 5 2 0. 9
1996 1. 2 0. 9 1. 1 1. 5 3 1. 1
1996 1. 2 0. 9 1. 1 1. 5 4 1. 5
1997 1. 7 1. 9 2. 4 2. 5 1 1. 7
1997 1. 7 1. 9 2. 4 2. 5 2 1. 9
1997 1. 7 1. 9 2. 4 2. 5 3 2. 4
1997 1. 7 1. 9 2. 4 2. 5 4 2. 5


5.4 Comandos que atuam sobre valores de dados


- Criando variveis

Quando se cria nova varivel, se est adicionando um novo grupo de
valores de dados ao arquivo.

Por exemplo, supondo que temos um arquivo com as seguintes variveis:

ALUNO NOTA1 NOTA2 NOTA3

se quisermos criar uma nova varivel chamada MEDIA devemos:

MEDIA =(NOTA1 +NOTA2 +NOTA3)/3;

Este comando informa para o SAS:

O sinal = significa atribua ao valor da esquerda o que se refere esquerda.
Para cada observao (linha) do arquivo, some as trs notas (variveis)
e divida por 3;
Treinamento Sistema SAS Prof. Luis Felipe Lopes

14

De o nome ao resultado obtido de MEDIA (nova varivel).

Obs.: As demais variveis continuam disponveis para posteriores
clculos.

- Funes e expresses

Operaes aritmticas mais conhecidas:

SMBOLO OPERAO EXEMPLO NO SAS
] ] exponenciao Y =X
2
Y =X ** 2
] multiplicao A =B x C A =B * C
/ diviso A =H / I A =H / I
+ adio R =S +T R =S +T
- subtrao X =Z - W X =Z - W

Outras funes numricas:

FUNO O que faz
ABS Valor absoluto
SQRT Raiz quadrada
COS Cosseno
SIN Seno
ARCOS Arcosseno
LOG Logaritmo neperiano (base e)
LOG10 Logaritmo base 10
SUM Soma
MEAN Mdia aritmtica
VAR Varincia
MIN Valor mnimo
MAX Valor mximo
STD Desvio padro
ROUD Valor arredondado


Ex.: X = 326. 25;
Y = ROUND ( X) ; RESULTADO Y = 327
( no est nas nor mas br asi l ei r as)
Z = MI N ( Y) ;
Z = MI N ( of L Y) ;
W= SQRT ( A + B/ C) ;
K = MEAN ( I DADE) ;
K = MEAN ( of V1 V7) ;
SOMA= SUM ( of V1 V10) ;

5.5 Comandos de Informao

Treinamento Sistema SAS Prof. Luis Felipe Lopes

15

- DROP

O comando DROP exclui a varivel ou variveis indicadas, da anlise em
questo;

O comando DROP vlido no DATA e nas PROCs. No um comando
executvel, fornece a informao ao SAS quando o comando compilado.

O comando DROP poder ser escrito em qualquer posio.

Ex.: DROP IDADE SEXO;

O comando DROP retira a varivel, portanto, todos os valores de
IDADE e SEXO so desconsiderados (coluna).

- TITLE

O comando TITLE define cabealhos a serem impressos no topo das
pginas de sada. At dez ttulos podero ser especificados.

Forma Geral TI TLEn t i t u l o;

n =nmero da linhas do ttulo.

Ex.: TI TLE1 Levant ament o Sci o- econmi co;
TI TLE2 da;
TI TLE3 Popul acao Per i f er i ca de Sant a Mar i a;

- FOOTNOTE

Define o texto a ser impresso no rodap das pginas de sada. A sintaxe
a mesma do comando TITLE.

Ex.: FOOTNOTE Depar t ament o de Est at st i ca - UFSM;

- LABEL

O comando LABEL usado para atribuir rtulos (nomes) descritivos de
at 40 caracteres.

Rtulos podem ser atribudos temporariamente para a durao de apenas
um processamento, ou permanente definido no primeiro DATA.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

16

Ex1.: DATA CLASSES;
I NPUT NOME $ 8. SEXO $ 11 I DADE 13- 14
ALT 13- 19 PESO 21- 25;
CARDS;
Li nha de Dados;
PROC MEANS;
VAR ALT PESO;
LABEL ALT= ALTURA EM POLEGADAS
PESO= PESO EM LI BRAS ;
TI TLE ESTATI STI CAS DAS ALTURAS E DOS PESOS ;
RUN;




Ex2.: DATA CLASSES;
I NPUT V1 V3;
LABEL V1= NMERO DE ALUNOS
V2= CURSO
V3= SEXO ;
CARDS;


- COMMENT

O comando COMMENT serve para documentar. Pode ser usado em
qualquer parte do programa.

Incio (/*) Fim (*/)


Ex.: DATA EMPREGO;
I NPUT NOME $ 1- 8 DEPTO 10- 12 SAL 19- 23 VENDA 25- 29;
/ * CALCULO DO I NSS */
I NPS = SAL * . 12;
I F DEPTO=201 THEN
DO;
DEPTO=VENDA;
COM=VENDA*. 10;
/ * CALCULO DO SALARI O BRUTO*/
SAL_BRUTO=COM+SAL;
/ * CALCULO DO DESCONTO */
DESC=I NPS + SEG;
/ * CALCULO DO SALARI O LI QUI DO */
SAL_LI Q=SAL_BRUTO - DESC;
END;
CARDS;

Obs.: Este comando tambm poder cancelar uma determinada operao
temporariamente;
Treinamento Sistema SAS Prof. Luis Felipe Lopes

17

- FORMAT

O comando FORMAT usado para especificar os formatos para valores
dos dados.

Os formatos podem ser definidos apenas para a apurao de uma
procedure PROC.


Ex.: DATA CLASSE;
I NPUT NOME $ 8. SEXO 11 I DADE 13- 14 ALTURA PESO;
CARDS;
. . .
. . .
;
PROC FORMAT;
VALUE SEX 1 = MASCULI NO ;
2 = FEMI NI NO ;
PROC PRI NT;
FORMAT SEXO SEX. ;
TI TLE USANDO O COMANDO FORMAT ;
RUN;


5.6 Comandos que controlam o fluxo lgico de programao


- IF (THEN / ELSE)

Algumas vezes necessita-se trabalhar com parte dos dados, no todos.
Por exemplo suponhamos que se queira analisar somente o sexo masculino. O
comando IF pode ser usado para esta seleo.


Ex.: DATA A1;
I NPUT NOME $ 1- 8 SEXO $ 9 I DADE ALTURA PESO;
I F SEXO=M;
CARDS;
Li nha de Dados;


O SAS l cada observao e verifica se o SEXO M (masculino), caso
contrrio nova observao ser lida.

A condio IF poder ser Verdadeira (THEN) ou Falsa (ELSE).

A condio IF tambm pode ser uma simples comparao de uma
varivel ou valor.

Treinamento Sistema SAS Prof. Luis Felipe Lopes

18

Ex.: IF ALTURA < 172 THEN DELETE;

IF PRETEST < TESTE THEN RESULT=SI M;
ELSE RESULT=NO;


Principais operadores de comparao:

Smbolo Abreviatura Comparao
< LT Menor que
LE Menor que ou igual a
> GT Maior que
GE Maior que ou igual a
= EQ Igual
NE Diferente

Principais operadores lgicos:

Smbolo Comparao
OR Um ou outro
AND E, ambos
NOT No, negao

A condio IF pode envolver comparaes de ANDs e de ORs.



Ex.: IF ESTADO=RS AND CI DADE=SANTA_MARI A
THEN REGI AO=SUL;

IF I DADE LT 13 AND ALTURA GT 162 OR PESO LE 50
THEN LI ST;

IF RESULT=68 THEN RESP=CERTO;
ELSE RESP=ERRADO;


Usando o comando IF com melhor aproveitamento:

IF CODI GO=1 THEN RESPOSTA=BOM;
ELSE
I F CODI GO=2 THEN RESPOSTA=REGULAR;
ELSE
IF CODI GO=3 THEN RESPOSTA=RUI M;


Uso do comando DO e END associado ao comando IF:
Treinamento Sistema SAS Prof. Luis Felipe Lopes

19

O comando DO especifica que todos os comandos entre ele e o comando
END devem ser executados;


Ex.: DATA EMPREGO;
I NPUT NOME $ 1- 8 DEPTO 10- 12 SAL 19- 23
VENDA 25- 29;
I NPS = SAL * . 12;
I F DEPTO=201 THEN
DO;
DEPTO=VENDA;
COM=VENDA*. 10;
SAL_BRUTO=COM+SAL;
SEG=SAL_BRUTO*. 001;
DESC=I NPS + SEG;
SAL_LI Q=SAL_BRUTO - DESC;
END;
ELSE DO;
DPTO=ADMI N;
SAL_LI Q=SAL - I NPS;
CARDS;
Li nha de Dados;


- DELETE

Quando se quer descartar uma observao., por ela conter um valor no
vlido para a anlise que se esta tratando usa-se o comando DELETE;

Quando este comando carregado o SAS para de trabalhar na
observao corrente, no adicionando ao arquivo SAS que esta sendo criado, e
comea imediatamente na observao seguinte.

O comando DELETE normalmente aparece com parte de um comando IF.

Ex.: IF SEXO=F THEN DELETE;

IF SEXO=F THEN I DADE LE 14 THEN DELETE;


O comando DELETE retira toda a observao do arquivo, logo
aconselha-se coloc-lo dentro de uma rotina DATA SET;

Ex.: DATA A1; SET A;
Treinamento Sistema SAS Prof. Luis Felipe Lopes

20
6 PRINCIPAIS PROCEDURES - PROCs


6.1 PROC SORT


Funo: Quando se precisa ordenar os dados.

A ordem das observaes no importa muito para o processamento
estatstico, por exemplo para calcular a mdia da ALTURA dos alunos por SEXO,
a ordem como esto as observaes no importa. Porm necessita-se LISTAR as
observaes por SEXO, ou mesmo para juntar dois arquivos por MERGE ou por
SET, as observaes tero que estar ordenadas (SORT). Por exemplo se
quisermos combinar as informaes do estudo de ALTURA e PESO deste ano
com as dos anos anteriores ambos os arquivos devero ser ordenados.

A ordenao a arrumao das observaes de um arquivo em ordem
determinada pelos valores de uma ou mais variveis indicados no
comando BY (POR).

Para ordenar-se um arquivo usa-se a procedure PROC SORT seguida
do comando BY que indicar a varivel pela qual o arquivo ser
ordenado.


Ex.: PROC SORT DATA=TESTE;
BY NOME;


Suponha que temos um arquivo chamado PESQUISA e que queremos
orden-lo por ESTADO, depois por CIDADE dentro de cada estado e finalmente
por NOME de cada cidade.


Ex.: PROC SORT; BY PESQUI SA;
BY ESTADO CI DADE NOME;


Obs.: A ordenao vista at aqui foi feita em cima do prprio arquivo
(PESQUISA). Se no desejar que isso acontea use o comando
OUT.


Ex.: PROC SORT; BY PESQUI SA;
OUT = NOVO;
BY ESTADO CI DADE NOME;

Treinamento Sistema SAS Prof. Luis Felipe Lopes

21
Os registros aps a ordenao estaro gravados no arquivo chamado
NOVO e no arquivo PESQUISA continuam desordenados.

Obs.: Existem outros tipos de rotinas de programao usando o PROC
SORT, onde poderemos incluir outras PROCs dentro dela.


Ex.: PROC SORT; BY SEXO;
PROC FREQ;
TABLES V1 V2 V3 / LI ST;
PROC UNI VARI ATE;
VAR V1 V2 V3;
PROC COR;
VAR V1;
WI TH V2 V3;



6.2 PROC PRINT


Este procedure serve para imprimir (listar) seus dados no relatrio.

Ex.: Listar ALTURA e PESO dos homens separado das mulheres

I NPUT SEXO $ ALTURA PESO;
CARDS;
Li nha de Dados;
PROC PRI NT; BY SEXO;


Obs.: 1 - Observar que ao usar o comando PROC PRINT, sem especificar
o DATA, a impresso ser do ltimo DATA referenciado.

2 - O PROC PRINT imprime todos os dados, se for seguido do
comando VAR imprimir somente as variveis selecionadas no
comando VAR.

Ex.: PROC PRI NT DATA=TESTE;
VAR NOME I DADE ALTURA;

3 O comando PROC PRINT poder listar em funo de um valor
de uma determinada varivel

Ex.: PROC PRI NT DATA=TESTE;
VAR NOME I DADE ALTURA;
WHERE SEXO=M;
Treinamento Sistema SAS Prof. Luis Felipe Lopes

22
6.3 PROC FORMAT


O procedimento FORMAT usado para criar formatos definidos pelos
usurios.

Comando usado no PROC FORMAT VALUE

VALUE NOME VALOR =DESCRIO;

O NOME obedece as mesmas regras usadas para variveis (8
caracteres), pois no deixa de ser uma nova varivel selecionada.

A DESCRIO ter tamanho mximo de 40 caracteres e dever ser
includa entre aspas ( ).


Ex.: PROC FORMAT;
VALUE FAI XAS LOW- 12 = CRI ANCA
13- 19 = J OVEM
20- HI GH = ADULTO;

VALUE $SEX F = FEMI NI NO
M = MASCULI NO ;



Obs.: LOW =Lowest (do menor valor)
HIGH =Highest (ao maior valor)


Ex.: DATA A1;
I NPUT NOME $ SEXO $ I DADE ALTURA PESO;
CARDS;
Li st a de Dados;
. . .
. . .
PROC FORMAT;
VALUE FAI XAS LOW- 12 = CRI ANCA
13- 19 = J OVEM
20- HI GH = ADULTO;
VALUE $SEX F = FEMI NI NO
M = MASCULI NO ;
PROC PRI NT;
FORMAT I DADE FAI XAS. SEXO $SEX. ;
RUN;


Treinamento Sistema SAS Prof. Luis Felipe Lopes

23
6.4 PROC FREQ


O procedimento FREQ ser til para variveis discretas e qualitativas.
Para as variveis contnuas aconselha-se usar o PROC UNIVARIATE ou PROC
MEANS, pois este tipo de varivel possui muitos valores diferentes.

Outro benefcio que a tabela de freqncia ou tabulao cruzada oferece
poder sumarizar variveis caracteres, porque somente variveis numricas
podem ser sumarizadas por estatsticas como mdia e desvio padro.

- Tabelas de Freqncia Simples

Este tipo de tabela poder ajudar a sumarizao dos dados. Mostrar as
distribuio dos valores das variveis, podendo-se verificar quantas observaes
tem determinado valor. Por exemplo se queira saber quantos alunos tem idade 19
anos e assim por diante.

Para obter as Tabelas de Freqncias Simples das variveis que
interessam usa-se o comando TABLES com a relao das mesmas.


Ex.: PROC FREQ;
TABLES I DADE PESO ALTURA;
ou
PROC FREQ;
TABLES I DADE PESO ALTURA / LI ST;


Podemos utilizar o comando FORMAT:


Ex.: PROC FREQ;
TABLES I DADE / LI ST;
FORMAT I DADE FAI XAS. ;
TABLES SEXO / LI ST;
FORMAT SEXO SEXOV. ;


Com o uso do comando FORMAT na tabela de freqncia para as
variveis IDADE e SEXO teremos no relatrio a DESCRIO para cada valor.

- Tabelas de Freqncia Cruzada

A tabela de freqncia cruzada mostra a unio da distribuio de valores
de duas ou mais variveis. Por exemplo, queremos saber quantas mulheres com
19 anos temos no arquivo estudado.

Treinamento Sistema SAS Prof. Luis Felipe Lopes

24
Para obter-mos a resposta devemos cruzar as duas variveis: IDADE e
SEXO.


Ex.: PROC FREQ;
TABLES I DADE*SEXO / LI ST;
ou
PROC FREQ;
TABLES I DADE*SEXO / LI ST;
FORMAT I DADE FAI XAS. SEXO SEXOV. ;


Aconselha-se usar o comando /LIST para facilitar a visualizao da tabela
cruzada. Este comando tambm ser aconselhado quando quisermos cruzar mais
de duas variveis.


Ex.: PROC FREQ;
TABLES SEXO*I DADE*PESO / LI ST;

Ex. : DATA A1;
I NPUT NOME $ SEXO $ I DADE ALTURA PESO;
CARDS;
Li st a de Dados;
. . .
PROC FREQ;
TABLES SEXO*( I DADE- - PESO) / LI ST / *( I at P) */
TABLES SEXO*( I DADE PESO) / LI ST / * ( I e P) */
RUN;


6.5 PROC MEANS


Suponhamos que no arquivo que se est estudando possua valores para
a varivel PESO. Pode-se obter um quadro completo desses pesos pela simples
listagem dos mesmos (PROC FREQ). Mas isso significa que teramos que olhar e
analisar todos os valores.

O PROC MEANS sumariza todos os valores para computar a mdia.
Ento teremos como resultado um nico valor representativo para todo o grupo.

O PROC MEANS fornece outras estatsticas como:

- Nmero de Observaes - Erro padro
- Mdia - Varincia
- Desvio Padro - Coeficiente de variao
- Valor Mnimo e Mximo
Treinamento Sistema SAS Prof. Luis Felipe Lopes

25

Ex.: DATA A1;
I NPUT NOME $ SEXO $ I DADE ALTURA PESO;
CARDS;
Li st a de Dados;
PROC MEANS;
VAR I DADE ALTURA PESO;
RUN;


Usando o comando BY

Podemos obter estatsticas sumarizadas por grupos de dados associados
ao comando BY. Por exemplo queremos calcular as estatsticas para as mesmas
variveis do exemplo acima s que por SEXO.

Obs.: Antes de usar o comando BY para qualquer procedure SAS, o arquivo
dever ser ordenado pelas variveis a serem usadas pelo comando BY.


Ex.: DATA A1;
I NPUT NOME $ SEXO $ I DADE ALTURA PESO;
CARDS;
Li st a de Dados;
PROC SORT; BY SEXO;
PROC MEANS; BY SEXO;
VAR I DADE ALTURA PESO;
RUN;


Obs.: Valores no informados (representados por um ponto . ) no sero
includos no clculo da PROC MEANS.


Treinamento Sistema SAS Prof. Luis Felipe Lopes

26
SAS/STAT

Pr requisito: Ter conhecimento de Estatstica Bsica.

Ter conhecimento do SAS/BASIC;

Objetivo:

Este curso tem por objetivo expor alguns conceitos estatsticos e
interpret-los atravs da utilizao de procedimentos do Sistema SAS. Os
exemplos apresentados ilustram caractersticas da release 6.08 do SAS/STAT e
orientam o usurio na sua programao quando seu interesse for:

Obter estatsticas descritivas elementares;

Desempenhar testes estatsticos de significncia para verificar a
normalidade da distribuio de seus dados;

Testar a igualdade de mdias entre grupos de observaes;

Encontrar um modelo que explique o comportamento de seus dados e,
atravs deste modelo, fazer previses e calcular intervalos de
confiana para parmetros da populao em estudo.

Analisar a variabilidade de uma srie de dados atravs do Mtodo de
Anlise de Varincia (ANOVA), critrio de tomada de decises
estatisticamente formulado para detectar qualquer diferena no
desempenho mdio de um ensaio experimental.

Os conceitos bsicos sero abordados a medida que os procedimentos
forem sendo utilizados, assim como a interpretao das principais sadas.

Treinamento Sistema SAS Prof. Luis Felipe Lopes

27
7 ESTATSTICA DESCRITIVA E TESTE DE NORMALIDADE

7.1 Introduo

Depois que o usurio cria seu arquivo de dados ele pode desejar
sumarizar estes dados atravs de medidas que descrevam seu comportamento.
Estas medidas incluem parmetros de posio como mdias, modas, medianas,
quartis e percentis, parmetros de disperso, como varincias, desvios padres,
amplitude (range), e parmetros que auxiliam na descrio da forma dos dados,
como assimetria e curtose (ver anexo 2).

Nos problemas que envolvem a Estatstica Indutiva, os conjuntos de
dados analisados so representados por amostras retiradas das populaes de
interesse. Sendo as amostras aleatrias, todos os seus elementos fornecero
valores aleatrios da varivel em anlise. Para caracterizar a distribuio dos
diversos valores assumidos por uma varivel aleatria, o conceito de distribuio
de probabilidades deve ser utilizado e estendido s populaes, ou seja, cada
valor da amostra deve ser considerado como valor de uma varivel aleatria cuja
distribuio de probabilidade a mesma da populao no instante da retirada
desse elemento da amostra. Os valores calculados em funo dos elementos da
amostra, denominam-se estatsticas. Se estas estatsticas forem utilizadas para
inferir informaes a respeito de uma populao, elas so consideradas como
variveis aleatrias, e tero, portanto uma distribuio de probabilidades, com
uma mdia, uma varincia, etc. Muitos mtodos da anlise estatstica assumem
que os dados da amostra provm de uma populao com distribuio normal. A
distribuio normal tem uma definio matemtica precisa, com as seguintes
caractersticas:

- ser completamente definida por sua mdia e seu desvio padro.

- ser uma distribuio simtrica, ou seja, sua mdia coincide com sua moda, que
por sua vez coincide com sua mediana.

- ser uma distribuio regular. Do seu ponto central mais alto at suas
extremidades no existe padres irregulares.

- ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuio).

7.2 Teste de normalidade

Nos testes de normalidade estabelecida a idia de que uma amostra
provm de uma distribuio normal. Atravs da amostra uma estatstica
calculada e testada para checar essa idia. Uma comparao feita entre a
forma da distribuio da amostra, com a forma de uma distribuio normal. Se
no for encontrada nenhuma evidncia para rejeitar a hiptese de normalidade,
prossegue-se as anlises baseando-se na suposio de que os dados da amostra
so normalmente distribudos (anlise paramtrica). Quando os dados no so
gerados por uma distribuio normal, a anlise deve ser baseada em mtodos
Treinamento Sistema SAS Prof. Luis Felipe Lopes

28
no paramtricos. A distribuio normal simtrica, com os valores distribudos
em forma de sino.

Ao desempenhar um teste de hiptese tem-se sempre uma hiptese
nula que descreve uma idia sobre a populao, e uma hiptese alternativa, que
descreve uma idia alternativa sobre a populao.

Nos testes para a normalidade, a hiptese nula que os dados da
amostra so gerados por uma distribuio normal. A hiptese alternativa que
eles so gerados por uma distribuio no normal. O mtodo utilizado para testar
hipteses consiste num contedo de deciso onde a probabilidade de rejeitar a
hiptese nula, sendo ela verdadeira (erro do tipo I), no excede um valor pr-
fixado chamado de nvel de significncia do teste. Ao menor nvel de
significncia para o qual a hiptese nula rejeitada denominamos probabilidade
de significncia (p-valor). Se p-valor > h evidncias de que a hiptese nula
verdadeira.

A PROC UNIVARIATE utilizada para a obteno de estatsticas
descritivas. Ela difere de outros procedimentos SAS por fornecer maiores
detalhes das variveis, tais como plots das distribuies, tabelas de freqncia e
testes estatsticos para a normalidade.

FORMA GERAL:

PROC UNIVARIATE DATA = arquivo de dados opes;
VAR variveis;
BY variveis;
FREQ varivel;
ID variveis;
OUTPUT OUT = arquivo de dados palavra-chave =nomes;

OPES DISPONVEIS:

FREQ gera uma tabela de freqncia com valores de freqncia,
percentagens e percentagens acumuladas.

NOPRINT suprime toda a informao do OUTPUT. Esta opo utilizada
geralmente na criao de um arquivo de dados de sada.

NORMAL desempenha um teste para a hiptese nula de que os dados provm
de uma distribuio normal. Dependendo do tamanho da amostra, o
teste utilizado ser baseado na estatstica de Shapiro-Wilk (N<2000)
ou na estatstica de Kolmogorovs D. (N>2000).
Treinamento Sistema SAS Prof. Luis Felipe Lopes

29
PLOT produz plotes de probabilidade da distribuio normal e plotes em
box que auxiliam na determinao da forma da distribuio dos
dados investigados.

COMANDOS SELECIONADOS:

VAR lista as variveis a serem sumarizadas no arquivo de dados.

BY especifica subgrupos onde as estatsticas devem ser obtidas. Para
usar este comando o arquivo j dever estar ordenado pela varivel
de subgrupo .

FREQ especifica variveis de freqncia.

ID especifica as variveis que iro identificar os valores extremos.

OUTPUT OUT cria arquivo de sada que ir gravar as estatsticas geradas.


Estatsticas reservadas utilizadas na criao de um arquivo de sada:

N NMISS Prob T
MEAN VAR KURTOSIS
STDMEAN CV MEDIAN
SUM RANGE
STD SKEWNESS

Ex1.: Resultados obtidos de uma distribuio aproximadamente Normal.

Para ilustrar, suponha que estejamos analisando uma amostra. No
programa SAS abaixo, a idade de cada pessoa est sendo representada pela
varivel IDADE, e sua identificao pela varivel IDENT.

OPTI ONS FORMDLI M=' *' LS=80;
DATA NORM A; / * EXEMPL01 SAS */
I NPUT I DENT I DADE @@;
CARDS;
1 72 2 69 3 75 4 71 5 71 6 73
7 70 8 67 9 71 10 72 11 73 12 68
13 69 14 70 15 70 16 71 17 74 18 72
;
PROC UNI VARI ATE NORMAL PLOT FREQ;
VAR I DADE;
I D I DENT;
RUN;

Treinamento Sistema SAS Prof. Luis Felipe Lopes

30
ANLISE DOS RESULTADOS:

Uni var i at e Pr ocedur e

Var i abl e=I DADE

Moment s

N 18 SumWgt s 18
Mean 71 Sum 1278
St d Dev 2. 057983 Var i ance 4. 235294
Skewness 0 Kur t osi s - 0. 13576
USS 90810 CSS 72
CV 2. 898568 St d Mean 0. 485071
T: Mean=0 146. 3702 Pr >| T| 0. 0001
Num^= 0 18 Num> 0 18
M( Si gn) 9 Pr >=| M| 0. 0001
Sgn Rank 85. 5 Pr >=| S| 0. 0001
W: Nor mal 0. 98356 Pr <W 0. 9666

A tabela acima fornece estatsticas descritivas da varivel IDADE, alm do teste
para normalidade. O valor zero de assimetria traduz a forma simtrica da
distribuio. A estatstica de curtose de -0.13576 significa que a distribuio de
valores relativamente achatada. O alto p-valor associado ao teste de
normalidade, dado por Pr <W, mostra que existe 9666 chances em 10000 que se
obtenha este mesmo resultado se os dados fossem oriundos de uma populao
Normal. Por esta razo so poucas as chances de rejeitar a hiptese nula. Em
geral, rejeita-se a hiptese nula de normalidade dos dados somente quando o p-
valor for menor que 0.05 .

Os quartis, percentis, a moda da distribuio, e os valores extremos esto
relacionados a seguir:

Quant i l es( Def =5)

100%Max 75 99% 75
75% Q3 72 95% 75
50% Med 71 90% 74
25% Q1 70 10% 68
0% Mi n 67 5% 67
1% 67
Range 8
Q3- Q1 2
Mode 71

Ext r emes

Lowest I D Hi ghest I D
67( 8) 72( 18)
68( 12) 73( 6)
69( 13) 73( 11)
69( 2) 74( 17)
70( 15) 75( 3)

O plote stem leaf (tronco e folhas) mostra a distribuio dos valores observados.
Entre estes plotes e o boxplot, h uma coluna que fornece a freqncia de
observaes em cada barra. O box plote indica o 25
o
e 75
o
percentil. A linha
Treinamento Sistema SAS Prof. Luis Felipe Lopes

31
central indica a mediana (50
o
percentil). O sinal de (+) indica a mdia da
distribuio, que est coincidindo com a mediana.


St emLeaf # Boxpl ot
75 0 1 |
74 0 1 |
73 00 2 |
72 000 3 +- - - - - +
71 0000 4 *- - +- - *
70 000 3 +- - - - - +
69 00 2 |
68 0 1 |
67 0 1 |
- - - - +- - - - +- - - - +- - - - +

O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+)
formam uma linha reta. Os (*) representam os valores amostrais. Se a amostra
gerada por uma distribuio normal, os asteriscos devem formar uma linha reta e
cobrir a maioria dos sinais positivos. A distribuio amostral aproxima-se da
normalidade.

Uni var i at e Pr ocedur e

Var i abl e=I DADE

Nor mal Pr obabi l i t y Pl ot
75. 5+ * +++++
| * +++++
| * +*+++
| **+*++
71. 5+ **+**++
| * **+++
| * +*+++
| +*+++
67. 5+ +*+++
+- - - - +- - - - +- - - - +- - - - +- - - - +- - - - +- - - - +- - - - +- - - - +- - - - +
- 2 - 1 0 +1 +2

f ( +) = 71 + 2. 05 I DADE

A opo FREQ da PROC UNIVARIATE permite a obteno de uma tabela de
distribuio de freqncia onde o nmero de ocorrncias de cada valor da varivel
IDADE contabilizado juntamente com os percentuais e percentuais acumulados
de ocorrncia em cada categoria.

Fr equency Tabl e

Per cent s Per cent s
Val ue Count Cel l Cum Val ue Count Cel l Cum
67 1 5. 6 5. 6 72 3 16. 7 77. 8
68 1 5. 6 11. 1 73 2 11. 1 88. 9
69 2 11. 1 22. 2 74 1 5. 6 94. 4
70 3 16. 7 38. 9 75 1 5. 6 100. 0
71 4 22. 2 61. 1
Treinamento Sistema SAS Prof. Luis Felipe Lopes

32
8 - ANLISE DE CORRELAO E REGRESSO


8.1 Introduo


Existem numerosos procedimentos estatsticos para investigar
relacionamentos bivariados (entre somente duas variveis). Estes procedimentos
podem fornecer um teste estatstico de significncia, uma medida de associao,
ou ambos. O teste estatstico objetiva testar hipteses sobre o grau de
relacionamento entre variveis na populao. Por exemplo, o coeficiente de
correlao de Pearson. Num estudo para se testar a hiptese nula de que a
correlao entre duas variveis zero na populao, uma amostra de 200
observaes determinou um coeficiente de correlao entre duas variveis de
0.35. Com base nesta amostra, o resultado do teste forneceu uma probabilidade
de significncia de 0.001. Este p-valor sugere que existe menos que uma chance
em 1000 de se obter um valor igual ou superior 0.35, para correlao amostral,
se a hiptese nula fosse verdadeira. Rejeita-se portanto a hiptese nula,
concluindo-se que a correlao significativamente diferente de zero na
populao.

A escolha apropriada da estatstica a ser usada no estudo do
relacionamento entre duas varivel ir depender da natureza delas. Ateno
particular deve ser dada aos nveis de medidas usados para avaliar as duas
variveis. Uma breve discusso este respeito feita a seguir.

Uma varivel medida numa escala nominal representa classes que
indicam o grupo ao qual pertence uma determinada observao. Por exemplo,
SEXO uma varivel que est numa escala nominal. Uma observao pode ser
classificada como sendo da classe "masculino" ou da classe "feminino".

Uma varivel medida numa escala ordinal representa valores num rank
ordenado, ou seja, possui hierarquia. Por exemplo, se cada aluno de uma turma
fosse avaliado a respeito de sua habilidade verbal. O melhor aluno foi avaliado
com o valor 1, o segundo melhor com o valor 2, e assim por diante. Este rank de
valores so ditos ordinais. Escalas ordinais de valores porm possuem uma
limitao: iguais diferenas na escala de valores no tem necessariamente o
mesmo significado quantitativo. Isto quer dizer que a diferena de habilidade
verbal entre um aluno com grau 1 e um aluno com grau 2 no necessariamente
a mesma diferena existente entre as habilidades de um aluno com grau 2 e um
com grau 3.

Uma varivel medida numa escala de intervalo significa que iguais
diferenas entre valores da escala tem igual significado quantitativo. Um exemplo
a escala Fahrenheit de medio de temperatura. A diferena entre 70 e 75
graus igual a diferena entre 75 e 80 graus. As unidades de medidas so iguais
atravs de todo o range da escala. A limitao existente nesta escala que no
existe um ponto zero real, ou seja, o zero da distribuio de temperaturas no
indica que no haja nenhum calor presente no ambiente.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

33

Uma varivel medida numa escala de razo aquela que iguais
diferenas entre valores da escala tem igual significado quantitativo. Neste caso,
alm deste fato, possvel interpretar a razo entre os valores da escala. Um
valor para peso igual zero indica nenhum peso corporal. Com isto, possvel
estabelecer que o peso de uma criana com 20 Kg o dobro de peso de uma
criana com 10 kg .

A tabela a seguir identifica as estatsticas apropriadas para avaliar o
relacionamento de pares de variveis nos seus respectivos nveis de medida.

TABELA COM ESTATSTICAS APROPRIADAS


PREDITORA (INDEPENDENTE) Xi
Nominal Ordinal Intervalo Razo
R
E
Razo ANOVA Spearman Pearson ou
Spearman
Pearson ou
Spearman
S
P
Intervalo ANOVA Spearman Pearson ou
Spearman
--------
O
S
Ordinal Kruskal
Wallis
Spearman --------- --------
T
A
Nominal Chi-quadrado --------- --------- --------

8.2 Correlao de Pearson (PROC CORR)

O estudo de medidas de associao reflete o grau da intensidade da
relao entre variveis. Se X e Y representam duas variveis, ambas acessadas
na escala de intervalo ou de razo, o diagrama de disperso ir mostrar a
localizao dos pontos (x , y) em um sistema de coordenadas retangulares. Se os
pontos desse diagrama se distriburem nas proximidades de uma reta, como nas
figuras (A) e (B) a seguir, a correlao denominada linear. Se todos os pontos
se distriburem prximos de alguma curva, a correlao denominada no linear,
como pode ser visto na figura (C). Quando os pontos no apresentam nenhuma
forma definida, figura (D), diz-se que as variveis x e y so no correlacionadas.
Quando o coeficiente de Pearson utilizado para medir o grau de relacionamento
entre duas variveis com relacionamento no linear, ele normalmente subestima o
verdadeiro valor. Por esta razo sempre prudente avaliar primeiro o diagrama
de disperso para as variveis, usando para isso a PROC PLOT, que tem a
seguinte forma geral:

PROC PLOT DATA= ARQSAS;
PLOT Y*X;
RUN;

Treinamento Sistema SAS Prof. Luis Felipe Lopes

34




Para o tratamento quantitativo do problema da disperso dos dados
amostrais necessrio estabelecer medidas de correlao. O coeficiente de
correlao de Pearson, simbolizado por r, ser utilizado para medir o
relacionamento entre duas variveis que estejam na escala de intervalo ou de
razo. Outra considerao a ser feita ao usar esta medida de associao, que
ambas as amostras tenham sido retiradas de uma populao Normal. Caso
contrrio, uma medida de associao no paramtrica dever ser usada, tal como
o coeficiente de correlao de Spearman.

O range de r varia de -1 a 1. Se r for um valor prximo de 1 significa
que as duas variveis so correlacionadas positivamente, se for prximo de -1,
significa que as variveis so correlacionadas negativamente. Valores de r
prximos de zero correspondem a uma disperso de pontos que no mostra nem
uma tendncia crescente, nem decrescente, indicando uma baixa correlao
entre as variveis.

PROC CORR

A procedure CORR utilizada para gerar coeficientes de correlao.
Quando utilizada sozinha, ela obtm coeficientes de Pearson para todas as
variveis numricas do arquivo, alm de estatsticas bsicas como mdias e
desvios padres da distribuio de dados.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

35
Outros coeficientes de correlaco podem ser obtidos como opo da
PROC CORR. So eles: Kendall, Hoeffding e Spearman, que so medidas no
paramtricas de associao .

FORMA GERAL:

PROC CORR opes;
VAR variveis;
WITH variveis;
FREQ variveis;
BY variveis;
RUN;

OPES DISPONVEIS:

DATA= arquivo.sas arquivo com os dados a serem analisados.

OUTP= arquivo.sas arquivo de sada - Pearson

OUTS= arquivo.sas arquivo de sada - Sperman

OUTK= arquivo.sas arquivo de sada - Kendall

OUTH = arquivo.sas arquivo de sada - Hoeffding

NOSIMPLE suprime a impresso das estatsticas descritivas
bsicas.

COMANDOS DISPONVEIS:

VAR variveis especifica as variveis a serem correlacionadas

WITH variveis especifica as variveis que devem aparecer na lateral
da matriz de correlao.

FREQ varivel especifica variveis de freqncia

BY variveis especifica subgrupos onde a correlao deve ser
obtida. Para usar o comando BY, o arquivo j deve
estar ordenado pela varivel de subgrupo.

Ex2.: O tempo necessrio para um trem parar depois que percebe um perigo
composto de tempo de reao e tempo de freagem. A varivel DIST
representa a distncia de parada de um trem que est a uma velocidade
VELOC no instante que o perigo avistado. Analise o diagrama de
disperso e determine o coeficiente de correlao entre as duas variveis.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

36
OPTI ONS FORMDLI M=' *' LS=80;
DATA PERI GO A; / * EXEMPL02 SAS */
I NPUT VELOC DI ST @@;
CARDS;
20 54
30 90
40 138
50 206
60 292
70 396
;
PROC PLOT;
PLOT DI ST*VELOC;
PROC CORR;
VAR VELOC DI ST;
TI TLE ' CORRELAAO ENTRE VELOCI DADE E DI STANCI A DE PARADA' ;
RUN;

ANLISE DOS RESULTADOS:

Pl ot of DI ST*VELOC. Legend: A = 1 obs, B = 2 obs, et c.

DI ST |
|
400 + A
|
|
| A
|
|
200 + A
|
| A
| A
| A
|
0 +
- - +- - - - - - - - - - - - - +- - - - - - - - - - - - - +- - - - - - - - - - - - - +- - - - - - - - - - - - - +- - - - - - - -
20 30 40 50 60 70

VELOC

O diagrama de disperso ostra claramente uma tendncia crescente da
distribuio dos dados, ou seja, aumentando-se a velocidade do trem, aumenta-
se a distncia de parada.

CORRELACAO ENTRE VELOCI DADE E DI STANCI A DE PARADA

Cor r el at i on Anal ysi s

2 ' VAR' Var i abl es: VELOC DI ST


Si mpl e St at i st i cs

Var i abl e N Mean St d Dev Sum Mi ni mum Maxi mum

VELOC 6 45. 00000 18. 70829 270. 00000 20. 00000 70. 00000
DI ST 6 196. 00000 129. 67652 1176 54. 00000 396. 00000
Pear son Cor r el at i on Coef f i ci ent s / Pr ob > | R| under Ho: Rho=0 / N = 6

VELOC DI ST
Treinamento Sistema SAS Prof. Luis Felipe Lopes

37
VELOC 1. 00000 0. 98268
0. 0 0. 0004

DI ST 0. 98268 1. 00000
0. 0004 0. 0

O valor de 0.98268 mede o coeficiente de correlao entre as variveis VELOC e
DIST. Um p-valor de 0.0004 indica uma forte evidncia que a correlao no
nula. O p-valor a probabilidade de significncia para se testar a hiptese de que
a verdadeira correlao da populao em questo zero.

Ex3.: Determinar o coeficiente de correlao entre as alturas e os pesos de 300
homens nos EUA, constantes da seguinte tabela de freqncias:

Altura (metros)
1.5 a 1.58 1.6 a 1.68 1.7 a 1.78 1.8 a 1.88 1.9 a 1.98
45 a 54.5 2 1 0 0 0
P 55 a 64.5 7 8 4 2 0
E 65 a 74.5 5 15 22 7 1
S 75 a 84.5 2 12 63 19 5
O 85 a 94.5 0 7 28 32 12
(kg) 95 a 104.5 0 2 10 20 7
105 a 114.5 0 0 1 4 2

OPTI ONS FORMDLI M=' *' LS=80;
DATA AGRUPA A; / * EXEMPL03 SAS */
DO MEDPES = 49. 75 T0 109. 75 BY 10;
DO MEDALT = 1. 54 TO 1. 94 BY 0. 10;
I NPUT N_OBS @@;
OUTPUT;
END;
END;
CARDS;
2 1 0 0 0
7 8 4 2 0
5 15 22 7 1
2 12 63 19 5
0 7 28 32 12
0 2 10 20 7
0 0 1 4 2;
;
PROC PRI NT;
PROC CORR;
VAR MEDPES MEDALT;
FREQ N_OBS;
TI TLE ' CORRELACAO PARA DADOS AGRUPADOS' ;
RUN;

Treinamento Sistema SAS Prof. Luis Felipe Lopes

38
ANLISE DOS RESULTADOS:

OBS MEDPES MEDALT N_OBS

1 49. 75 1. 54 2
2 49. 75 1. 64 1
3 49. 75 1. 74 0
4 49. 75 1. 84 0
5 49. 75 1. 94 0
6 59. 75 1. 54 7
7 59. 75 1. 64 8
8 59. 75 1. 74 4
9 59. 75 1. 84 2
10 59. 75 1. 94 0
11 69. 75 1. 54 5
12 69. 75 1. 64 15
13 69. 75 1. 74 22
14 69. 75 1. 84 7
15 69. 75 1. 94 1
16 79. 75 1. 54 2
17 79. 75 1. 64 12
18 79. 75 1. 74 63
19 79. 75 1. 84 19
20 79. 75 1. 94 5
21 89. 75 1. 54 0
22 89. 75 1. 64 7
23 89. 75 1. 74 28
24 89. 75 1. 84 32
25 89. 75 1. 94 12
26 99. 75 1. 54 0
27 99. 75 1. 64 2
28 99. 75 1. 74 10
29 99. 75 1. 84 20
30 99. 75 1. 94 7
31 109. 75 1. 54 0
32 109. 75 1. 64 0
33 109. 75 1. 74 1
34 109. 75 1. 84 4
35 109. 75 1. 94 2

CORRELACAO PARA DADOS AGRUPADOS

Cor r el at i on Anal ysi s

2 ' VAR' Var i abl es: MEDPES MEDALT

Si mpl e St at i st i cs

Var i abl e N Mean St d Dev Sum Mi ni mum Maxi mum

MEDPES 300 82. 31667 12. 12031 24695 49. 75000 109. 75000
MEDALT 300 1. 76033 0. 09824 528. 10000 1. 54000 1. 94000

Pear son Cor r el at i on Coef f i ci ent s / Pr ob > | R| under Ho: Rho=0 / N = 300
/ FREQ Var = N_OBS

MEDPES MEDALT

MEDPES 1. 00000 0. 54023
0. 0 0. 0001

MEDALT 0. 54023 1. 00000
0. 0001 0. 0
Treinamento Sistema SAS Prof. Luis Felipe Lopes

39
O coeficiente de correlao de 0.54023. Um p-valor de 0.0001 reflete uma forte
evidncia de que a correlao entre altura e o peso difere de zero.


8.3 Regresso (PROC REG)


Os coeficientes de correlao indicam somente a existncia ou no de
algum tipo de relacionamento entre variveis. Para investigar a forma desse
relacionamento, o mtodo mais apropriado a anlise de regresso, onde a
relao pode ser expressa sob forma matemtica, por meio de uma equao que
interligue as variveis.

Atravs do diagrama de disperso possvel visualizar uma curva que se
aproxime dos dados. Essa curva denominada curva de ajustamento.

Para fins de referncia, a seguir encontram-se relacionados vrios tipos
comuns de curvas de ajustamento e suas equaes. As variveis independentes
esto representadas pela letra X e as variveis dependentes pela letra Y. As
demais letras representam constantes.

Funo Linear Y =a
0
+a
1
X

Funo Quadrtica Y =a
0
+a
1
X +a
2
X
2


Funo Cbica Y =a
0
+a
1
x +a
2
x
2
+a
3
x
3


Funo Exponencial Y =a b
x

log y =Ioga +(log b) x =a
0
+a
1
x

Para evitar o critrio individual na construo de funes que se adaptem
ao conjunto de dados, necessrio instituir uma definio da "melhor funo de
ajustamento". Uma medida da qualidade do ajustamento aos dados apresentados
(aderncia) proporcionada a partir da distncia dos pontos observados at a
equao de regresso. De todas as equaes que podem ser traadas atravs do
grupo de pontos no diagrama de disperso, a funo que melhor se ajusta
aquela com a menor soma dos quadrados das distncias (Mtodo dos Mnimos
Quadrados).

Estas distncias so designadas como desvios, erros ou resduos, e
podem ser positivas, negativas ou nulas, como apresentado na figura a seguir:
Treinamento Sistema SAS Prof. Luis Felipe Lopes

40


O modelo linear:

Y
j
=
0
+
1
X
j
+
j


Suas suposies:

- X
j
so fixos;

-
0
e
1
so parmetros fixos desconhecidos;

-
j
~N id (0 ,
2
) .

Considere a regresso como um particionamento da Soma Total dos
Quadrados:

( ) ( ) ( )
Y Y Y Y Y Y
j j j j
= +

2 2 2
$ $


SST =SSM +SSE

onde:

SST - a soma total dos quadrados.
SSM - a soma dos quadrados devido ao modelo (soma dos quadrados devido
regresso ).
SSE - a soma dos quadrados devido ao erro , ou resduo.

Num modelo de regresso preciso:

Estimar:

-
2
, ou seja, o erro mdio quadrtico;
-
0
e
1.

Treinamento Sistema SAS Prof. Luis Felipe Lopes

41
Testaras Hipteses :

H
0
:
1
=0

0
=0

Obter valores preditos e limites de predio.

Estimar a mdia da varivel resposta Y, dado um valor fixo X,
determinando tanto as estimativas por ponto como por intervalo.


8.4 Inferncia na regresso


Estatsticas usadas na Anlise de Regresso:

- valor estimado de
2
=MSE, Mdia quadrtica para o erro
=SSE/ df(erro)
=Soma dos Quadrados devido ao erro / df(erro)

- estimativas de mnimos quadrados de
0
e
1
, que minimize SSE.

( )
min Y Y
j

2


- teste de
0
=0 e
1
=0 com a estatstica t de Student ou teste de
0
no modelo /

1
=0 com a estatstica F.


8.5 Resduos


Os resduos representam o comportamento de Y (varivel resposta), do
qual as variveis independentes no fazem a estimativa. Se for suposto que o
modelo correto, que no se tenha omitido nenhuma varivel independente, e
tambm que os resduos so normais e independentemente distribudos, com
mdia zero e varincia constante, pode-se provar hipteses, assinalar limites de
confiana, predizer valores da varivel dependente a partir das variveis
independentes e computar probabilidades de significncia .

Um plote dos resduos sobres as variveis independentes ou sobre os
valores preditos pode ser gerado para avaliar a qualidade do ajuste. Se o modelo
necessitar de algum outro termo, o plote dos resduos sugere que tipo de termo
pode ser adicionado ao modelo. Alguns modelos so mostrados a seguir:

Treinamento Sistema SAS Prof. Luis Felipe Lopes

42




PROC REG

A procedure REG o procedimento SAS mais comum para anlise da
regresso. um procedimento interativo, ou seja, o usurio pode dispor de seus
comandos bsicos para ajustar uma funo, verificar a sada das estatsticas, e
posteriormente adicionar mais comandos dando continuidade suas anlises sem
necessidade de reinicializar o comando da PROC. Quando usado interativamente,
o comando RUN no finaliza o procedimento. Para finaliz-lo o usurio deve
estabelecer outro DATA STEP ou PROC STEP, ou usar o comando QUIT, que
nunca deve ser acessado quando o procedimento estiver em curso.

FORMA GERAL:

PROC REG DATA = arquivo SAS opes;
MODEL dependente =independente / opes;
VAR varivel;
ID varivel;
OUTPUT OUT =novo arquivo
P = nova varivel R = nova varivel
U95 = nova varivel L95 = nova varivel
U95M = nova varivel L95M = nova varivel;
PLOT varivel Y * varivel X ='smbolo';
PRINT opes;
RUN;
OPES DISPONVEIS NA PROC REG:
Treinamento Sistema SAS Prof. Luis Felipe Lopes

43

SIMPLE Lista estatsticas descritiva para cada varivel.

OUTEST Cria um data set contendo as estimativas dos parmetros do
modelo de regresso.

OPES DISPONVEIS NO COMANDO

CLI Fornece limites de confiana superior e inferior a 95% para um
valor particular predito da varivel dependente.

CLM Fornece limites de confiana superior e inferior a 95% para a
mdia da varivel dependente nos nveis da(s) varivel(is)
independentes para cada observao.

P Fornece valores preditos a partir do modelo estimado para cada
observao do arquivo a de entrada.

R Fornece valores residuais (REAL-PREDITO) para cada
observao e uma anlise dos resduos.

SELECTION = mtodo

Especifica o mtodo usado para seleo do modelo (Backward, Stepwise,
MAXR, ADJ RSQ, por exemplo). O default NONE (usa o modelo
completo).


ADJRSQ Fornece o R-Square ajustado para o grau de liberdade, para cada
modelo selecionado.

AIC Fornece o Critrio de Informao de Akaike's.

BIC Fornece o Critrio de Informao Bayesiano de Sawa .

MSE Fornece o erro mdio quadrtico para cada modelo.

COMANDOS DISPONVEIS:

MODEL especifica as variveis dependentes e independentes.

VAR lista a varivel (ou variveis) que possam vir a ser adicionadas no
modelo durante o processo de anlise. Este comando deve
aparecer antes do primeiro comando RUN.

ID especifica a varivel que identifica as observaes na sada do
relatrio, quando so solicitadas estimativas de valores individuais
de uma varivel independente ( valores preditos ), valores
residuais, etc.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

44

OUTPUT especifica o arquivo de sada e os nomes das variveis que iro
conter os valores previstos, residuais , etc.

PLOT gera plotes de disperso com a varivel y representando o eixo
vertical e a varivel x o eixo horizontal. Para plotar estatsticas
utiliza-se as palavras chave (nomes reservados) disponveis no
comando OUTPUT. (Ex: plot y.*p;)

PRINT Lista as opes disponveis.

Os seguintes nomes reservados so utilizados para especificar as
estatsticas desejadas. Eles devem ser seguidos por um nome de varivel:

P (ou PREDICTED) representa os valores preditos.

R (ou RESIDUAL) representa os valores residuais para cada observao.

U95, L95 representam, respectivamente, os limites superior e
inferior de predio para os valores observados.

U95M, L95M representam, respectivamente os limites superior e
inferior de confiana para a mdia da populao.

Ex4.: Os dados a seguir provem de um experimento para testar o desempenho de
uma mquina industrial. O experimento utilizou uma mistura de leo diesel e
gs, derivados de materiais destilados orgnicos. O valor da capacidade da
mquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas
em rotaes por minuto (rpm X 100). Analisar o diagrama de disperso e
encontrar um modelo de regresso que se ajuste aos dados.

OPTI ONS FORMDLI M=' *' LS=80;
DATA MAQUI NA1 A; / * EXEMPL04 SAS */
I NPUT VELOC CAPAC @@;
CARDS;
22. 0 64. 03 20. 0 62. 47 18. 0 54. 94 16. 0 48. 84 14. 0 43. 73
12. 0 37. 48 15. 0 46. 85 17. 0 51. 17 19. 0 58. 00 21. 0 63. 21
22. 0 64. 03 20. 0 62. 63 18. 0 52. 90 16. 0 48. 84 14. 0 42. 74
12. 0 36. 63 10. 5 32. 05 13. 0 39. 68 15. 0 45. 79 17. 0 51. 17
19. 0 56. 65 21. 0 62. 61 23. 0 65. 31 24. 0 63. 89
;
PROC PLOT;
PLOT CAPAC * VELOC = ' 0' ;
TI TLE ' DI AGRAMA DE DI SPERSAO' ;
RUN;
Treinamento Sistema SAS Prof. Luis Felipe Lopes

45
PROC REG;
MODEL CAPAC = VELOC;
OUTPUT OUT= RESI Dl P=PREVI STO R=RESI DUAL;
TI TLE ' AJ USTE DA FUNCAO LI NEAR' ;
RUN;
PROC GPLOT;
PLOT RESI DUAL* VELOC / VREF = 0;
TI TLE ' PLOT DE RESI DUOS P/ AJ USTE LI NEAR' ;
RUN;
PROC UNI VARI ATE DATA= RESI Dl NORMAL PLOT;
VAR RESI DUAL;
TI TLE ' TESTE DE NORMALI DADE DOS RESI DUOS' ;
RUN;


ANLISE DOS RESULTADOS:

DI AGRAMA DE DI SPERSAO

Pl ot of CAPAC*VELOC. Symbol used i s ' 0' .

CAPAC |
|
65 + 0
| 0 0
| 0
| 0 0
60 +
|
| 0
| 0
55 + 0
|
| 0
| 0
50 +
| 0
| 0
| 0
45 +
| 0
| 0
|
40 + 0
|
| 0
| 0
35 +
|
|
| 0
30 +
|
- - +- - - - - - - +- - - - - - - - +- - - - - - - - +- - - - - - - - - +- - - - - - - +- - - - - - - - +- - - - - - - - +-
10 12 14 16 18 20 22 24
VELOC

NOTE: 4 obs hi dden.

Treinamento Sistema SAS Prof. Luis Felipe Lopes

46
O diagrama de disperso mostra uma tendncia crescente da capacidade da
mquina em funo da velocidade utilizada. Os dados observados sero
ajustados inicialmente por uma funo linear. o relatrio de sada consta de duas
sees, Anlise da Varincia e Estimativas dos Parmetros, apresentadas a
seguir:

AJ USTE DA FUNCAO LI NEAR

Model : MODEL1
Dependent Var i abl e: CAPAC

Anal ysi s of Var i ance

Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr ob>F

Model 1 2294. 80982 2294. 80982 663. 532 0. 0001
Er r or 22 76. 08652 3. 45848
C Tot al 23 2370. 89633

Root MSE 1. 85970 R- squar e 0. 9679
Dep Mean 52. 31833 Adj R- sq 0. 9664
C. V. 3. 55458

Par amet er Est i mat es

Par amet er St andar d T f or H0:
Var i abl e DF Est i mat e Er r or Par amet er =0 Pr ob > | T|

I NTERCEP 1 6. 100234 1. 83396047 3. 326 0. 0031
VELOC 1 2. 650500 0. 10289565 25. 759 0. 0001

A seo de Anlise de Varincia contm informaes sobre a qualidade do
ajuste. So elas:

- DF

Identifica as fontes de variaes dos dados e os respectivos graus de liberdade.

- SOMA DOS QUADRADOS (SS):

Separam a variao dos dados em pores que podem ser tanto atribudas ao
modelo como ao erro. Parte da variao total da capacidade da mquina se deve
velocidade utilizada e outra parte se deve a erros aleatrios ou outros fatores
independentes da velocidade.

SS total = SS models + SS erro

Observando os valores da varivel Capacidade da Mquina quando o valor da
velocidade de 18 (rpm x 100), por exemplo, tem-se 54.94 HP e 52.90 HP. Esta
variao se deve ao erro do experimento ou a fatores outros que no a
velocidade.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

47
- MDIA QUADRTICA (MS): SS/DF

MS erro =3.45848 estima a varincia da populao dos valores da capacidade da
mquina para valores determinados da velocidade.

- F, PROB > F:

Fornece o valor da estatstica teste e o p-valor associado ao teste de hiptese de
que o modelo explica uma parte significante da variao dos dados.

- R_SQUARE : SS modelo / SS Total

R_Square a frao da variao total devida s variveis do modelo. Seu valor
varia dentro do intervalo [0,1], sendo que quanto mais prximo de 1, melhor o
modelo explica a variao dos dados. Neste caso o modelo proposto explica 96%
da variabilidade total. implicando um alto grau de aderncia dos valores
observados reta ajustada. Sobre a qualidade do ajuste, o valor de R_Square
no a explica sozinho. Recomenda-se tambm uma Anlise dos Resduos.

- Adj R_SQUARE

uma estatstica alternativa ao R-Square. utilizada em REGRESSO
MLTIPLA.

A seo Estimativas dos Parmetros prov coeficientes para a linha de
regresso e testes para determinar se estes coeficientes so significativamente
diferentes de zero. O modelo de ajuste, neste caso, representado por:

CAPAC = 6.10 + 2.65 VELOC

O valor de INTERCEP =6.10 no tem uma interpretao especfica no modelo.
Para VELOC =0, a capacidade predita pelo modelo de 6.10 HP. O coeficiente
2.65 pode ser interpretado como o acrscimo da capacidade esperada para cada
unidade adicional da velocidade.

Para verificar a suposio de que os coeficientes so no nulos, tem-se:

- DF

Fornece o grau de liberdade para os parmetros estimados. Para cada parmetro
estimado DF=1.

- Erro Padro:

Mede o quanto cada parmetro estimado poderia vaiar de um conjunto de dados
para outro. Eles so utilizados na construo de intervalos de confiana.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

48
- T para H0 : Parmetro = 0:

Estatstica para testar a hiptese que o parmetro igual a zero. Seu valor dado
por:

Valor Estimado do Parmetro / Erro Padro

- PROB > T:

Fornece o p-valor para a estatstica teste T. Para o parmetro VELOC, o p-valor
de 0.0001, evidenciando que o grau de inclinao da reta ajustada diferente de
zero. O intercepto tambm difere de zero.

A anlise dos resduos ei=Yi - Y

i =Yi - 6.10 - 2.65 VELOC importante para


avaliar se a escolha do modelo apropriada para o conjunto de dados
apresentado. Pelo comportamento da distribuio dos resduos (PROC GPLOT)
sugere-se a utilizao de um termo quadrtico.

A validade dos testes de significncia dependem da suposio de que os resduos
so normalmente distribudos. Para se verificar essa suposio basta utilizar a
PROC UNIVARIATE com as opes NORMAL e PLOT, o que gera as seguintes
sadas:


Treinamento Sistema SAS Prof. Luis Felipe Lopes

49
TESTE DE NORMALI DADE DOS RESI DUOS

Uni var i at e Pr ocedur e

Var i abl e=RESI DUAL Resi dual

Moment s

N 24 SumWgt s 24
Mean 0 Sum 0
St d Dev 1. 818821 Var i ance 3. 308109
Skewness - 0. 95935 Kur t osi s 4. 145739
USS 76. 08652 CSS 76. 08652
CV . St d Mean 0. 371265
T: Mean=0 0 Pr >| T| 1. 0000
Num^= 0 24 Num> 0 13
M( Si gn) 1 Pr >=| M| 0. 8388
Sgn Rank 4 Pr >=| S| 0. 9119
W: Nor mal 0. 896308 Pr <W 0. 0170

Quant i l es( Def =5)

100%Max 3. 51976 99% 3. 51976
75% Q3 0. 92076 95% 3. 35976
50% Med 0. 011261 90% 1. 54026
25% Q1 - 0. 67199 10% - 1. 75174
0% Mi n - 5. 82224 5% - 1. 88049
1% - 5. 82224
Range 9. 342001
Q3- Q1 1. 592748
Mode - 0. 38124

Ext r emes

Lowest Obs Hi ghest Obs
- 5. 82224( 24) 1. 13076( 3)
- 1. 88049( 17) 1. 449259( 10)
- 1. 75174( 23) 1. 54026( 9)
- 1. 27624( 16) 3. 35976( 2)
- 0. 90924( 13) 3. 51976( 12)

A estatstica W de Shapiro WIL indica que os dados no so normalmente
distribudos. O valor da assimetria de 0.9593, encontrando-se fora do intervalo
(-0.87 , 0.87), e o valor da curtoze de 4.1457, que est fora do intervalo(-
1.20,2.30). Estes so os intervalos a 95% de confiana para a assimetria e
curtoze, referentes a um tamanho de amostra n=24, retirada de uma populao
normalmente distribuda. (Ver ANEXO 2).

St emLeaf # Boxpl ot
3 45 2 0
2
1 0145 4 |
0 0023358 7 +- - +- - +
- 0 9954441 7 +- - - - - +
- 1 983 3 |
- 2
- 3
- 4
- 5 8 1 *
- - - - +- - - - +- - - - +- - - - +

TESTE DE NORMALI DADE DOS RESI DUOS
Treinamento Sistema SAS Prof. Luis Felipe Lopes

50

Uni var i at e Pr ocedur e

Var i abl e=RESI DUAL Resi dual

Nor mal Pr obabi l i t y Pl ot
3. 5+ * ++*++
| ++++++
| +++** *
0. 5+ *+***+***
| * ****+*+
| * * *++++
- 2. 5+ ++++++
| +++++
| ++++
- 5. 5+ *
+- - - - +- - - - +- - - - +- - - - +- - - - +- - - - +- - - - +- - - - +- - - - +- - - - +
- 2 - 1 0 +1 +2

Observa-se pelo histograma dos resduos que a distribuio assimtrica a
esquerda. Os asteriscos (*) no plote acima representam os resduos observados,
e os sinais de (+) so utilizados para prover uma linha de referncia baseada na
mdia e no desvio padro amostral, que so indicadores do intercepto e do grau
de inclinao da linha, respectivamente. Se os dados so normais, eles tendem a
acompanhar a disposio da linha de referncia indicada pelos sinais (+). Quando
isto acontece somente os asteriscos (*) so amostrados. No caso em questo, a
disposio dos resduos no se ajusta a linha de referncia, colocando em
cheque a suposio de normalidade dos resduos. Mais uma vez fica comprovada
a necessidade de uma nova tentativa de ajuste dos dados analisados.

FUNO QUADRTICA

Os comandos a seguir ajustam uma funo quadrtica aos dados do
arquivo MQUINA1. Alm de gerar um plote para os resduos do ajuste,
intervalos de confiana para a mdia da capacidade da populao e uma curva de
previso para os dados, com a opo r o programa tambm gera resduos
padronizados que permitem verificar se pontos fora do padro ('outliers') se
devem a causas aleatrias ou a causas especiais de variao. Um teste para a
normalidade dos resduos tambm efetuado para o ajuste quadrtico.

OPTI ONS FORMDLI M=' *' LS=80;
DATA MAQUI NA2 SAS; / * EXEMPL05 SAS */
I NPUT VELOC CAPAC @@;
VELOC2 = VELOC*VELOC;
CARDS;
22. 0 64. 03 20. 0 62. 47 18. 0 54. 94 16. 0 48. 84 14. 0 43. 73
12. 0 37. 48 15. 0 46. 85 17. 0 51. 17 19. 0 58. 00 21. 0 63. 21
22. 0 64. 03 20. 0 62. 63 18. 0 52. 90 16. 0 48. 84 14. 0 42. 74
12. 0 36. 63 10. 5 32. 05 13. 0 39. 68 15. 0 45. 79 17. 0 51. 17
19. 0 56. 65 21. 0 62. 61 23. 0 65. 31 24. 0 63. 89
;
PROC REG;
MODEL CAPAC=VELOC VELOC2 / CLM R;
I D VELOC;
OUTPUT OUT=RESl D2 P=PREVI STO R=RESI DUAL;
TI TLE ' AJ USTE DE FUNCAO QUADRATI CA' ;
PROC GPLOT;
Treinamento Sistema SAS Prof. Luis Felipe Lopes

51
PLOT RESI DUAL * VELOC / VREF=0;
TI TLE ' PLOT DE RESI DUOS P/ AJ USTE QUADRATI CO' ;
RUN;
PROC UNI VARI ATE NORMAL;
VAR RESI DUAL;
TI TLE ' TESTE PARA NORMALI DADE DOS RESI DUOS' ;
PROC GPLOT;
PLOT PREVI STO*VELOC;
TI TLE ' CURVA DE PREVI SAO' ;
RUN;

ANLISE DOS RESULTADOS:

AJ USTE DA FUNCAO QUADRATI CA

Model : MODEL1
Dependent Var i abl e: CAPAC

Anal ysi s of Var i ance

Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr ob>F

Model 2 2329. 52618 1164. 76309 591. 248 0. 0001
Er r or 21 41. 37016 1. 97001
C Tot al 23 2370. 89633

Root MSE 1. 40357 R- squar e 0. 9826
Dep Mean 52. 31833 Adj R- sq 0. 9809
C. V. 2. 68275

Par amet er Est i mat es

Par amet er St andar d T f or H0:
Var i abl e DF Est i mat e Er r or Par amet er =0 Pr ob > | T|

I NTERCEP 1 - 19. 184839 6. 18024426 - 3. 104 0. 0054
VELOC 1 5. 710855 0. 73314324 7. 790 0. 0001
VELOC2 1 - 0. 088391 0. 02105601 - 4. 198 0. 0004

O modelo do ajuste quadrtico dado por:

CAPAC = -19.18 + 5.71 VELOC - 0.08 VELOC2

O teste de significncia dos coeficientes indica que para o coeficiente -0.08 de
VELOC2 :

t = -0.08 /SE (VELOC2) = -0.08 / 0.021 = - 3.81

A probabilidade de significncia para esta estatstica 0.0004, ou seja, existe
somente quatro chances em dez mil de se encontrar uma estatstica t to grande
quanto a calculada acima. O desvio padro da estimativa do coeficiente de
VELOC2 to pequeno que pode-se afirmar que seu valor estatisticamente
diferente de zero. O modelo quadrtico, portanto, est representando melhor o
relacionamento entre a velocidade da mquina e sua capacidade de produo,
quando comparado ao modelo linear.

Treinamento Sistema SAS Prof. Luis Felipe Lopes

52
Os valores preditos e os limites de confiana para a mdia da populao obtidos
com o ajuste quadrtico esto relacionados a seguir:

AJ USTE DA FUNCAO QUADRATI CA

Dep Var Pr edi ct St d Er r Lower 95% Upper 95%
Obs VELOC CAPAC Val ue Pr edi ct Mean Mean Resi dual

1 22 64. 0300 63. 6726 0. 488 62. 6568 64. 6884 0. 3574
2 20 62. 4700 59. 6758 0. 374 58. 8981 60. 4534 2. 7942
3 18 54. 9400 54. 9718 0. 401 54. 1382 55. 8054 - 0. 0318
4 16 48. 8400 49. 5607 0. 397 48. 7356 50. 3858 - 0. 7207
5 14 43. 7300 43. 4425 0. 396 42. 6198 44. 2651 0. 2875
6 12 37. 4800 36. 6171 0. 596 35. 3785 37. 8556 0. 8629
7 15 46. 8500 46. 5900 0. 385 45. 7890 47. 3909 0. 2600
8 17 51. 1700 52. 3546 0. 405 51. 5114 53. 1978 - 1. 1846
9 19 58. 0000 57. 4122 0. 385 56. 6114 58. 2130 0. 5878
10 21 63. 2100 61. 7626 0. 398 60. 9343 62. 5909 1. 4474
11 22 64. 0300 63. 6726 0. 488 62. 6568 64. 6884 0. 3574
12 20 62. 6300 59. 6758 0. 374 58. 8981 60. 4534 2. 9542
13 18 52. 9000 54. 9718 0. 401 54. 1382 55. 8054 - 2. 0718
14 16 48. 8400 49. 5607 0. 397 48. 7356 50. 3858 - 0. 7207
15 14 42. 7400 43. 4425 0. 396 42. 6198 44. 2651 - 0. 7025
16 12 36. 6300 36. 6171 0. 596 35. 3785 37. 8556 0. 0129
17 10. 5 32. 0500 31. 0340 0. 921 29. 1185 32. 9495 1. 0160
18 13 39. 6800 40. 1182 0. 460 39. 1612 41. 0751 - 0. 4382
cont i nuao . . .

19 15 45. 7900 46. 5900 0. 385 45. 7890 47. 3909 - 0. 8000
20 17 51. 1700 52. 3546 0. 405 51. 5114 53. 1978 - 1. 1846
21 19 56. 6500 57. 4122 0. 385 56. 6114 58. 2130 - 0. 7622
22 21 62. 6100 61. 7626 0. 398 60. 9343 62. 5909 0. 8474
23 23 65. 3100 65. 4059 0. 651 64. 0513 66. 7605 - 0. 0959
24 24 63. 8900 66. 9623 0. 878 65. 1364 68. 7883 - 3. 0723

O plote dos resduos studentizados pode indicar a ocorrncia de pontos
discrepantes. Cada asterisco corresponde metade de uma unidade.
Observaes com quatro ou cinco asteriscos tem resduos studentizados entre
2.0 e 3.0, e esto num range suspeito. Observaes com seis ou mais asteriscos
provavelmente so outliers. No plote a seguir, as observaes 2 e 12
(VELOC=20), e a 24 esto num range suspeito. O grfico dos reduos mostrado
ao fim deste exemplo confirma estas suposies. O prximo passo seria reavaliar
a fonte de dados e identificar alguma razo peculiar para a ocorrncia destes
valores.

St d Er r St udent Cook' s
Obs VELOC Resi dual Resi dual - 2- 1- 0 1 2 D

1 22 1. 316 0. 272 | | | 0. 003
2 20 1. 353 2. 065 | | **** | 0. 109
3 18 1. 345 - 0. 024 | | | 0. 000
4 16 1. 346 - 0. 535 | *| | 0. 008
5 14 1. 347 0. 214 | | | 0. 001
6 12 1. 271 0. 679 | | * | 0. 034
7 15 1. 350 0. 193 | | | 0. 001
8 17 1. 344 - 0. 882 | *| | 0. 024
9 19 1. 350 0. 436 | | | 0. 005
10 21 1. 346 1. 075 | | ** | 0. 034
11 22 1. 316 0. 272 | | | 0. 003
12 20 1. 353 2. 184 | | **** | 0. 121
Treinamento Sistema SAS Prof. Luis Felipe Lopes

53
13 18 1. 345 - 1. 540 | ***| | 0. 070
14 16 1. 346 - 0. 535 | *| | 0. 008
15 14 1. 347 - 0. 522 | *| | 0. 008
16 12 1. 271 0. 010 | | | 0. 000
17 10. 5 1. 059 0. 959 | | * | 0. 232
18 13 1. 326 - 0. 330 | | | 0. 004
19 15 1. 350 - 0. 593 | *| | 0. 010
20 17 1. 344 - 0. 882 | *| | 0. 024
21 19 1. 350 - 0. 565 | *| | 0. 009
22 21 1. 346 0. 630 | | * | 0. 012
23 23 1. 243 - 0. 077 | | | 0. 001
24 24 1. 095 - 2. 806 | *****| | 1. 687

Sumof Resi dual s 0
Sumof Squar ed Resi dual s 41. 3702
Pr edi ct ed Resi d SS ( Pr ess) 65. 0917

Atravs do grfico dos resduos (PROC GPLOT) observa-se que nem toda as
observaes seguem a mesma forma geral. O ponto onde VELOC=24 encontra-
se abaixo dos demais, e os dois pontos prximos VELOC=20 esto acima dos
demais. Isto pode se dever causas especiais ou simplesmente ao acaso, e
precisa ser verificado. Os demais pontos esto bem distribudos ao longo do
grfico, podendo ser admitida a suposio de varincia da distribuio dos
resduos.


Treinamento Sistema SAS Prof. Luis Felipe Lopes

54
TESTE DE NORMALI DADE DOS RESI DUOS

Uni var i at e Pr ocedur e

Var i abl e=RESI DUAL Resi dual

Moment s

N 24 SumWgt s 24
Mean 0 Sum 0
St d Dev 1. 341157 Var i ance 1. 798702
Skewness 0. 194918 Kur t osi s 1. 047599
USS 41. 37016 CSS 41. 37016
CV . St d Mean 0. 273763
T: Mean=0 0 Pr >| T| 1. 0000
Num^= 0 24 Num> 0 12
M( Si gn) 0 Pr >=| M| 1. 0000
Sgn Rank - 5 Pr >=| S| 0. 8899
W: Nor mal 0. 961296 Pr <W 0. 4711


Quant i l es( Def =5)

100%Max 2. 954224 99% 2. 954224
75%Q3 0. 717615 95% 2. 794224
50%Med - 0. 00944 90% 1. 447409
25%Q1 - 0. 74144 10% - 1. 18464
0%Mi n - 3. 07234 5% - 2. 0718
1% - 3. 07234
Range 6. 026565
Q3- Q1 1. 45905
Mode - 1. 18464

Ext r emes

Lowest Obs Hi ghest Obs
- 3. 07234( 24) 0. 862912( 6)
- 2. 0718( 13) 1. 015991( 17)
- 1. 18464( 20) 1. 447409( 10)
- 1. 18464( 8) 2. 794224( 2)
- 0. 79996( 19) 2. 954224( 12)

O p-valor associado ao teste de normalidade dos resduos de 0.47. A hiptese
de normalidade dos resduos do Ajuste Quadrtico no pode ser rejeitada aos
nveis usuais de significncia. A curva de previso baseada no modelo ajustado
mostrado no (PLOT GPLOT).

Treinamento Sistema SAS Prof. Luis Felipe Lopes

55



9 INFERNCIA ESTATSTICA


9.1 Testes para igualdade de duas mdias (PROC TTEST)


Na prtica freqentemente nos vemos diante de situaes onde uma
deciso deva ser tomada acerca de populaes, baseadas nas informaes
obtidas a partir das amostras. Este captulo abordar testes de hipteses, para o
caso em que duas amostras so consideradas, em princpio de populaes
distintas, Com base nestas amostras, as mdias equivalentes s populaes
envolvidas so comparadas. O teste t apropriado quando a anlise envolve uma
nica varivel independente (preditora), medida na escala nominal e assumindo
somente dois valores, e uma nica varivel resposta, medida na escala de razo
ou de intervalo. O teste t usualmente conhecido como teste de diferenas de
grupos.

Dois casos tpicos sero considerados neste tipo de experimento. O
primeiro o teste para dados no pareados, ou seja, amostras independentes
(populaes no correlacionadas). O segundo, para dados pareados, (populaes
correlacionadas). O que diferencia os dois testes a forma do clculo da
estatstica t. Hipteses adicionais devem ser atendidas para a validao destes
testes.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

56
- AMOSTRAS INDEPENDENTES:

- Nvel de Medida: A varivel resposta deve ser acessada na escala de razo ou
de intervalo. A varivel independente deve estar na escala
nominal e assumir somente dois nveis.

- Observaes Independentes: Uma dada observao no pode depender de
qualquer outra entre os dois grupos.

- Amostras Aleatrias: Os valores da varivel resposta devem representar uma
amostra aleatria oriunda de uma populao normal. Se
cada amostra contiver cerca de 30 observaes, o teste
considerado robusto no que diz respeito
normalidade.

- Homogeneidade de Varincias: O teste t exato utilizado quando o teste F
para igualdade de varincias leva a no
rejeio da hiptese nula de igualdade de
varincias na populao.

PROC TTEST

A PROC TTEST desempenha um teste de hiptese para checar se a
mdia de duas populaes so iguais. Uma estatstica t para o teste calculada,
assumindo que as varincias so iguais para os dois grupos. Uma estatstica T
aproximada calculada, assumindo que as varincias so diferentes. Para testar
a igualdade das varincias calculada uma estatstica F. Para cada uma das
estatsticas T e F so associados os respectivos graus de liberdade e
probabilidades de significncia (p-valor). Se o p-valor menor que o nvel de
significncia associado ao teste, o resultado estatisticamente significante, e a
hiptese nula rejeitada, ou seja, as mdias para os dois grupos so
significativamente diferentes.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

57
Os testes paramtricos que envolvem observaes pareadas sero
abordados no item 9.2. Os testes no paramtricos sero assunto do prximo
captulo.

FORMA GERAL:

PROC TTEST DATA = arquivo de dados;
CLASS varivel;
VAR varivel;
RUN;

COMANDOS DISPONVEIS:

CLASS nomeia a varivel que forma os grupos. Estes grupos podem
assumir somente dois valores distintos, uma vez que o teste utilizado
para comparao de duas mdias.

VAR nomeia a varivel cuja mdia ser comparada. Se o comando
VAR for omitido, todas as variveis numricas contidas no
arquivo de entrada (exceto as que aparecem no comando
CLASS) sero includas na anlise.

Ex6.: Dados no pareados com varincias desconhecidas e supostamente iguais.
Sejam amostras obtidas de dois tipos de cabo de ao em relao carga de
ruptura. Ao nvel de significncia de 5% pode-se concluir que o cabo do tipo l
seja mais resistente que o do tipo 2 ?

Carga de Ruptura (Kgf)

Tipo 1 Tipo 2
760
755
758
761
755
758
748
757
753
755

OPTI ONS FORMDLI M=' *' LS=80;
DATA CABO A; / * EXEMPL06 SAS */
I NPUT TI PO $ CARGA @@;
CARDS;
Tl 760 T2 758 Tl 755 T2 748
Tl 758 T2 757 Tl 761 T2 753
Tl 755 T2 755
;
PROC TTEST;
CLASS TI PO;
VAR CARGA;
TI TLE ' TESTE PARA I GUALDADE DE MEDI AS' ;
RUN;
Treinamento Sistema SAS Prof. Luis Felipe Lopes

58
ANLISE DOS RESULTADOS:


TESTE PARA I GUALDADE DE MEDI AS

TTEST PROCEDURE

Var i abl e: CARGA

TI PO N Mean St d Dev St d Er r or Mi ni mum Maxi mum
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
T1 5 757. 8000000 2. 77488739 1. 24096736 755. 0000000 761. 0000000
T2 5 754. 2000000 3. 96232255 1. 77200451 748. 0000000 758. 0000000

Var i ances T DF Pr ob>| T|
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Unequal 1. 6641 7. 2 0. 1392
Equal 1. 6641 8. 0 0. 1347

For H0: Var i ances ar e equal , F' = 2. 04 DF = ( 4, 4) Pr ob>F' = 0. 5072

Para comparar dois grupos independentes observa-se primeiramente a linha que
testa a igualdade de varincias. O p-valor para este teste dado por
PROB>F'=0.5072 que maior que 0.10, indicando que as varincias no so
significantemente diferentes a um nvel de 10% de significncia.

Utiliza-se ento o t-test exato. Para o teste da igualdade de mdias, a linha
denominada UNEQUAL d o resultado de um t-test aproximado, que utilizado
quando no se pode assumir a igualdade das varincias os dois grupos de
observaes.

O p-valor para o t-test PROB > ITI = 0.1347 que maior que 0.05, indicando
que ambas as mdias para o cabo do tipo 1 e tipo 2 no so significativamente
diferentes ao nvel de 5% de significncia. Valores altos para estatstica T indicam
diferenas significativas entre as mdias. Para o teste exato, o grau de liberdade
DF calculado como a soma dos tamanhos das amostras dos dois grupos menos
dois (8 =5 +5 - 2).

Ex7.: Dados no pareados com varincias desconhecidas e supostamente
diferentes.

Deseja-se saber se duas mquinas de empacotar caf esto fornecendo o
mesmo peso mdio por pacote, tanto como uma das mquinas nova e a
outra velha, razovel supor-se que trabalhem com diferentes
variabilidades dos pesos colocados nos pacotes. As amostras disponveis
constam de seis pacotes produzidos pela mquina nova e nove produzidos
pela mquina velha. Os pesos em quilogramas desses pacotes so:

mquina nova 0,82 0,83 0,79 0,81 0,81 0,80
mquina velha 0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78

Qual a concluso, ao nvel de 5% de significncia ?
OPTI ONS FORMDLI M=' *' LS=80;
DATA CAF A; / * EXEMPL07 SAS */
Treinamento Sistema SAS Prof. Luis Felipe Lopes

59
I NPUT MAQUI NA $ PESO @@,
CARDS;
NOVA 0. 82 NOVA 0. 83
NOVA 0. 79 NOVA 0. 81
NOVA 0. 81 NOVA 0. 80
VELHA 0. 79 VELHA 0. 82
VELHA 0. 73 VELHA 0. 74
VELHA 0. 80 VELHA 0. 77
VELHA 0. 75 VELHA 0. 84
VELHA 0. 78
;
PROC TTEST DATA=CAFE,
CLASS MAQUI NA;
TI TLE ' TESTE PARA I GUALDADE DE MEDI AS DADOS NO PAREADOS' ;
RUN;

ANLISE DOS RESULTADOS:

TESTE PARA I GUALDADE DE MEDI AS - DADOS NAO PAREADOS

TTEST PROCEDURE

Var i abl e: PESO

MAQUI NA N Mean St d Dev St d Er r or Mi ni mum Maxi mum
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
NOVA 6 0. 81000000 0. 01414214 0. 00577350 0. 79000000 0. 83000000
VELHA 9 0. 78000000 0. 03674235 0. 01224745 0. 73000000 0. 84000000

Var i ances T DF Pr ob>| T|
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
Unequal 2. 2156 11. 1 0. 0486
Equal 1. 8893 13. 0 0. 0814

For H0: Var i ances ar e equal , F' = 6. 75 DF = ( 8, 5) Pr ob>F' = 0. 0501

O p-valor para o teste de igualdade de varincias dado por PROB >F'=0.0501
que menor que 0.10, indicando que as varincias so significativamente
diferentes a um nvel de 10% de significncia. Para o teste de igualdade de
mdias, a linha denominada UNEQUAL deve ser utilizada. A um nvel de 5% de
significncia h diferena significativa entre as mdias dos pesos dos pacotes,
pois PROB > ITI = 0.0486 < 0.05.


9.2 Testes para dados pareados


Os resultados de duas amostras constituem dados emparelhados (ou
pareados) quando esto relacionados dois a dois segundo algum critrio que
introduz uma influncia mercante entre os diversos pares. Esta influncia incide
igualmente sobre os valores de cada par.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

60
Assim, por exemplo, suponha que 10 cobaias sejam submetidas durante
uma semana a uma dieta com certo tipo de rao. Os pesos das cobaias so
medidos no incio e no fim do tratamento, e deseja-se tirar concluses sobre o
aumento mdio do peso verificado. Se os animais forem perfeitamente
identificados, teremos duas amostras de valores do tipo 'antes' e 'depois', e os
dados sero pareados, pois cada valor da palmeira amostra estar perfeitamente
associado ao respectivo valor da segunda amostra. O critrio que garante o
emparelhamento a identidade de cada cobaia. razovel esperar que a
identidade de cada animal tenha influncia nos valores observados de seu peso,
porm essa influncia deve exercer-se de forma aproximadamente igual dentro de
cada para de valores 'antes e depois', logo, ao se tomarem as diferenas entre
vrios pares de valores, a influncia individual de cada animal tende a
desaparecer, restando apenas os efeitos produzidos pela rao.

No mesmo exemplo, se os animais no fossem identificados, no haveria
como associar os valores das duas amostras, e os dados seriam no-
emparelhados.

Se os dados de duas amostras so emparelhados tem sentido calcular as
diferenas di correspondentes a cada par de valores, reduzindo assim os dados
a uma nica amostra de n diferenas. Testa-se ento a hiptese de que a
diferena entre as mdias das populaes emparelhadas seja igual a um certo
valor, reduzindo o problema ao teste de uma nica mdia. As hipteses a serem
atendidas para validao deste teste so listadas baixo:

- AMOSTRAS PAREADAS:

Nvel de medida: A varivel resposta deve estar na escala de intervalo ou de
razo. A varivel independente deve estar na escala nominal
e assumir somente duas categorias.

Observaes pareadas: Uma dada observao que aparece em uma condio
tem que estar de algum moda associada uma
observao correspondente na outra condio.

Observaes Independentes: Um valor de dado em uma condio no pode ser
afetado por qualquer outro valor de dado em
ambas condies.

Amostras Aleatrias: Os valores da varivel resposta devem representar uma
amostra aleatria oriunda de uma populao de interesse.

Distribuio Normal para a diferena de Scores:

As diferenas de scores entre os pares de valores devem ser
normalmente distribudas. No h necessidade que a varivel resposta seja
normalmente distribuda.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

61
Homogeneidade de Varincias: As populaes representadas pelas duas
condies devem ter iguais varincias .

PROC UNIVARIATE

Para observaes pareadas, o primeiro passo encontrar as diferenas
para cada observao na amostra. O segundo sumarizar estas diferenas. Para
calcular estas diferenas, pode-se criar uma nova varivel no DATA STEP, cuja
mdia ser sumarizada atravs da PROC UNIVARIATE. Outro caminho para
sumarizar os dados amostrais produzir grficos que mostrem a distribuio dos
valores.

Ex8.: Dez cobaias adultas foram submetidas ao tratamento com certa rao
durante uma semana. Os animais foram perfeitamente identificados, tendo
sido mantidos, para tanto, em gaiolas individuais. Os pesos, em gramas, no
princpio e no fim da semana, so designados respectivamente por peso 1
e peso 2. Ao nvel de 5% de significncia pode-se concluir que o uso da
rao contribuiu para o aumento do peso mdio dos animais? O programa
a seguir prov um teste de hiptese para checar se a diferena mdia de
pesos significativamente diferente de zero.

OPTI ONS FORMDLI M=' *' LS=80;
DATA TRAT A; / * EXEMPL08 SAS */
I NPUT COBAI A PESO1 PESO2 @@;
DI F= PESO2- PESO1;
CARDS;
1 635 640 2 704 712
3 662 681 4 560 558
5 603 610 6 745 740
7 698 707 8 575 585
9 633 635 10 669 682
;
PROC PRI NT;
TI TLE ' LI STA DAS DI FERENCAS PAREADAS' ;
RUN;
PROC UNI VARI ATE;
VAR DI F;
TI TLE ' TESTE PARA DI FERENCAS DE OBSERVACOES PAREADAS' ;
PROC CHART;
VBAR DI F;
TI TLE ' CARTA PARA DI FERENCAS PAREADAS' ;
RUN;

Treinamento Sistema SAS Prof. Luis Felipe Lopes

62
ANLISE DOS RESULTADOS:

LI STA DAS DI FERENCAS PAREADAS

OBS COBAI A PESO1 PESO2 DI F

1 1 635 640 5
2 2 704 712 8
3 3 662 681 19
4 4 560 558 - 2
5 5 603 610 7
6 6 745 740 - 5
7 7 698 707 9
8 8 575 585 10
9 9 633 635 2
10 10 669 682 13

TESTE PARA DI FERENCA DE OBSERVACOES PAREADAS

Uni var i at e Pr ocedur e

Var i abl e=DI F

Moment s

N 10 SumWgt s 10
Mean 6. 6 Sum 66
St d Dev 7. 042727 Var i ance 49. 6
Skewness - 0. 0293 Kur t osi s 0. 054015
USS 882 CSS 446. 4
CV 106. 708 St d Mean 2. 227106
T: Mean=0 2. 963487 Pr >| T| 0. 0159
Num^= 0 10 Num> 0 8
M( Si gn) 3 Pr >=| M| 0. 1094
Sgn Rank 22. 5 Pr >=| S| 0. 0215

Quant i l es( Def =5)

100%Max 19 99% 19
75%Q3 10 95% 19
50%Med 7. 5 90% 16
25%Q1 2 10% - 3. 5
0%Mi n - 5 5% - 5
1% - 5
Range 24
Q3- Q1 8
Mode - 5

Ext r emes

Lowest Obs Hi ghest Obs
- 5( 6) 8( 2)
- 2( 4) 9( 7)
2( 9) 10( 8)
5( 1) 13( 10)
7( 5) 19( 3)
Treinamento Sistema SAS Prof. Luis Felipe Lopes

63
O relatrio parcial da PROC UNIVARIATE mostra na linha denominada
T:MEAN=0 o valor da estatstica de teste T (T=2.9635) e o p-valor associado ao
teste PROB > |T| = 0,0159. O p-valor menor que 0.05, donde se conclui que a
diferena mdia dos pesos das cobaias com a utilizao da rao
significativamente diferente de zero. A um nvel de 5% de significncia o uso da
rao contribui para o aumento do peso mdio dos animais.

CARTA PARA DI FERENCAS PAREADAS

Fr equency

4 + *****
| *****
| *****
| *****
| *****
| *****
| *****
3 + ***** *****
| ***** *****
| ***** *****
| ***** *****
| ***** *****
| ***** *****
| ***** *****
2 + ***** ***** *****
| ***** ***** *****
| ***** ***** *****
| ***** ***** *****
| ***** ***** *****
| ***** ***** *****
| ***** ***** *****
1 + ***** ***** ***** *****
| ***** ***** ***** *****
| ***** ***** ***** *****
| ***** ***** ***** *****
| ***** ***** ***** *****
| ***** ***** ***** *****
| ***** ***** ***** *****
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- 4 4 12 20

DI F Mi dpoi nt

O grfico com a distribuio dos valores das diferenas obtido atravs da PROC
CHART. As barras verticais mostram que a mais alta freqncia ocorre para
valores entre 8 e 16, prximo a 12, indicando mais uma vez que a variao mdia
das diferenas estatisticamente significante.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

64
10 MTODOS NO PARAMTRICOS


10.1 Testes para igualdade de duas mdias (PROC NPAR1WAY)

Os testes no paramtricos utilizam-se de poucas suposies a respeito
da distribuio de habilidade dos dados. Ele indicado quando o tamanho das
amostras analisadas muito pequeno para validar a suposio de normalidade
dos dados.

PROC NPAR1WAY

A PROC NPARLWAY um procedimento no paramtrico para testar se
a distribuio de uma varivel tem o mesmo parmetro de locao sobre
diferentes grupos. Ela trabalha com grupos independentes, dados no pareados.
Para dados pareados, a PROC UNIVARIATE desempenha um teste de sinais e o
teste dos ranks de Wilcoxon.

FORMA GERAL:

PROC NPARLWAY DATA= arquivo de dados opes;
VAR variveis;
CLASS varivel;
BY variveis;

COMANDOS DISPONVEIS:

VAR nomeia variveis a serem analisadas para a comparao dos dois
grupos. (comando opcional). Uma vez omitido , as anlises so
feitas sobre todas as variveis numricas do arquivo de dados.

CLASS nomeia somente uma varivel de classificao de grupo. O
comando CLASS obrigatrio. A varivel que identifica os grupos
podem ser caracteres ou numricas.

BY separa a anlise em observaes definidas pelas variveis do
comando BY. Os dados precisam estar ordenados antes de se
utilizar este comando.

OPES DISPONVEIS:

WILCOXON desempenha o teste da Soma dos Ranks de Wilcoxon para uma
varivel de dois nveis. Ele se baseia na soma dos ranks dos
valores observados. Este rank ir indicar a posio de um
determinado valor no conjunto ordenado (crescente ou
decrescentemente), do primeiro ao ltimo elemento Valores iguais
so considerados com um rank mdio de modo a no afetar os
rank seguintes. Por exemplo, os valores 15, 12, 16, 19 e 16,
considerados numa ordem crescente, tero os seguintes ranks: 2,
Treinamento Sistema SAS Prof. Luis Felipe Lopes

65
1, 3.5 , 5 e 3.5. Wilcoxon considerou que sendo vlida a hiptese
nula de identicidade entre as populaes, a soma dos postos nas
amostras deveriam fornecer valores intermedirios compatveis
com cada amostra. Com base nessa idia, determina-se quais os
limites para a soma dos ranks nas amostras, alm dos quais
deve-se rejeitar a hiptese nula. Para uma varivel de
classificao que assuma mais que dois nveis, esta opo
corresponde ao Teste de Kruskal- Wallis.

MEDIAN requisita uma anlise dos escores das medianas. Se as
populaes so idnticas, a mediana do conjunto formado pelas
duas amostras fornece uma boa estimativa da mediana da
distribuio comum. A proporo de valores abaixo da mediana
geral deve tender a ser a mesma nas duas amostras. O escore da
mediana 1 para pontos abaixo da mediana geral, e 0 caso
contrrio. Para mais que duas amostras, esta opo produz o
Teste de Brown- Mood.

Ex9.: Clica um distrbio comum em cavalos e freqentemente fatal. Em
casos extremos uma cirurgia o nico recurso. Pesquisadores estudam
novas tcnicas de cirurgia para reduzir os perodos sob anestesia a que
so submetidos os animais. Nove cavalos que se submeteram cirurgia
foram aleatoriamente assinalados para uma dentre as duas tcnicas
utilizadas. A tcnica A envolve a suspenso da anestesia depois da sutura
da inciso, e a tcnica B envolve a suspenso da anestesia durante a
sutura. O tempo de recuperao da anestesia foi medido em minutos a
partir do final da cirurgia at o momento que o cavalo levanta. Determinar
se os tempos de recuperao diferem para as duas tcnicas cirrgicas
utilizadas.

OPTI ONS FORMDLI M=' *' LS=80;
DATA ANEST1 A; / * EXEMPL09 SAS */
I NPUT CAVALO TECN $ TEMREC @@;
CARDS;
l A 47 2 A 34
3 A 44 4 A 16
5 A 53 6 B 79
7 B 42 8 B 14
9 B 11
;
PROC NPAR1WAY WI LCOXON MEDI AN;
VAR TEMREC;
CLASS TECN;
TI TLE ' ANALI SE DOS TEMPOS DE RECUPERACAO DA ANESTESI A' ;
RUN;
Treinamento Sistema SAS Prof. Luis Felipe Lopes

66
ANLISE DOS RESULTADOS:

ANALI SE DOS TEMPOS DE RECUPERACAO DA ANESTESI A

N P A R 1 WA Y P R O C E D U R E


Wi l coxon Scor es ( Rank Sums) f or Var i abl e TEMREC
Cl assi f i ed by Var i abl e TECN

Sumof Expect ed St d Dev Mean
TECN N Scor es Under H0 Under H0 Scor e

A 5 28. 0 25. 0 4. 08248290 5. 60000000
B 4 17. 0 20. 0 4. 08248290 4. 25000000

Wi l coxon 2- Sampl e Test ( Nor mal Appr oxi mat i on)
( wi t h Cont i nui t y Cor r ect i on of . 5)

S= 17. 0000 Z= - . 612372 Pr ob > | Z| = 0. 5403

T- Test appr ox. Si gni f i cance = 0. 5573

Kr uskal - Wal l i s Test ( Chi - Squar e Appr oxi mat i on)
CHI SQ= 0. 54000 DF= 1 Pr ob > CHI SQ= 0. 4624

ANALI SE DOS TEMPOS DE RECUPERACAO DA ANESTESI A

N P A R 1 WA Y P R O C E D U R E

Medi an Scor es ( Number of Poi nt s above Medi an)
f or Var i abl e TEMREC
Cl assi f i ed by Var i abl e TECN

Sumof Expect ed St d Dev Mean
TECN N Scor es Under H0 Under H0 Scor e
A 5 3. 0 2. 22222222 0. 785674201 0. 600000000
B 4 1. 0 1. 77777778 0. 785674201 0. 250000000

Medi an 2- Sampl e Test ( Nor mal Appr oxi mat i on)

S= 1. 00000 Z= - . 989949 Pr ob > | Z| = 0. 3222

Medi an 1- Way Anal ysi s ( Chi - Squar e Appr oxi mat i on)

CHI SQ= 0. 98000 DF= 1 Pr ob > CHI SQ= 0. 3222

O p-valor para o teste de Wilcoxon dado por Prob > |Z|= 0.5403 que
superior a 0.05. Conclui-se, portanto, que as mdias dos tempos de recuperao
no so significativamente diferentes ao nvel de 5% de significncia.

O p-valor para o teste de medianas dado por Prob > |Z| = O.3222 que
maior que 0.05, ou seja, a um nvel de 5% de significncia no h diferena
significativa entre os tempos de recuperao referentes as duas tcnicas
utilizadas. O valor dado por Prob > CHISQ = 0.3222 resulta de uma aproximao
de Chi-quadrado.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

67
Ex10.: Se no exemplo anterior os cavalos fossem divididos em grupos por sexo,
Por exemplo feita no sentido de verificar a existncia de diferena entre os
tempos de recuperao dentro de cada grupo. O programa a seguir mostra
como desempenhar esta anlise.

OPTI ONS FORMDLI M=' *' LS=80;
DATA ANEST2 A; / * EXEMP10 SAS */
I NPUT CAVALO SEXO $ TECN $ TEMPREC;
CARDS;
l M A 47
2 M A 34
3 F A 44
4 F A 16
5 F A 53
6 M B 79
7 M B 42
8 M B 14
9 F B 11;
PROC SORT; BY SEXO;
PROC NPAR1WAY WI LCOXON;
VAR TEMPREC;
CLASS TECN;
BY SEXO;
RUN;

ANLISE DOS RESULTADOS:

ANALI SE DOS TEMPOS DE RECUPERACAO DA ANESTESI A
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - SEXO=F - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

N P A R 1 WA Y P R O C E D U R E

Wi l coxon Scor es ( Rank Sums) f or Var i abl e TEMREC
Cl assi f i ed by Var i abl e TECN

Sumof Expect ed St d Dev Mean
TECN N Scor es Under H0 Under H0 Scor e

A 3 9. 0 7. 50000000 1. 11803399 3. 0
B 1 1. 0 2. 50000000 1. 11803399 1. 0

Wi l coxon 2- Sampl e Test ( Nor mal Appr oxi mat i on)
( wi t h Cont i nui t y Cor r ect i on of . 5)

S= 1. 00000 Z= - . 894427 Pr ob > | Z| = 0. 3711

T- Test appr ox. Si gni f i cance = 0. 4370

Kr uskal - Wal l i s Test ( Chi - Squar e Appr oxi mat i on)
CHI SQ= 1. 8000 DF= 1 Pr ob > CHI SQ= 0. 1797

Treinamento Sistema SAS Prof. Luis Felipe Lopes

68
ANALI SE DOS TEMPOS DE RECUPERACAO DA ANESTESI A

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - SEXO=M - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

N P A R 1 WA Y P R O C E D U R E

Wi l coxon Scor es ( Rank Sums) f or Var i abl e TEMREC
Cl assi f i ed by Var i abl e TECN

Sumof Expect ed St d Dev Mean
TECN N Scor es Under H0 Under H0 Scor e

A 2 6. 0 6. 0 1. 73205081 3. 0
B 3 9. 0 9. 0 1. 73205081 3. 0

Wi l coxon 2- Sampl e Test ( Nor mal Appr oxi mat i on)
( wi t h Cont i nui t y Cor r ect i on of . 5)

S= 6. 00000 Z= 0 Pr ob > | Z| = 0. 9999

T- Test appr ox. Si gni f i cance = 0. 9999

Kr uskal - Wal l i s Test ( Chi - Squar e Appr oxi mat i on)
CHI SQ= 0 DF= 1 Pr ob > CHI SQ= 0. 9999

O p-valor de 0.3711 superior a 0.05, ou seja, para o grupo de fmeas no h
diferena significativa os tempos de recuperao referentes as duas tcnicas
utilizadas Prob > |Z| = 0.3711, um nvel de 5% de significncia. Para o grupo de
machos, PROB>|Z|=0.9999 tambm superior 0.05, donde se conclui que no
h diferena significativa entre os tempos de recuperao dentro deste subgrupo,
a um nvel de 5% de significncia.


11 ANLISE DE VARINCIA


11.1 Dados balanceados (PROC ANOVA)


Quando se deseja fazer inferncias sobre um conjunto de mais que duas
mdias, utiliza-se a Anlise de Varincia.

A Anlise da Varincia se resume na aplicao de um teste de hipteses
sobre um experimento projetado estatisticamente. Esta anlise permite saber se
h efeitos significativos de determinadas variveis agindo sobre os resultados
alm do erro experimental. Neste captulo, o termo ANOVA refere-se
especificamente a uma anlise paramtrica da varincia, que utilizada se
algumas suposies sobre os dados observados forem atendidas.

As suposies que envolvem uma anlise da varincia so:

- as observaes devem ser independentes: a medida para determinada
observao no afeta a medida de outra observao.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

69
- as observaes so geradas por uma distribuio normal. Se existe uma
diferena entre os grupos, talvez exista uma distribuio normal especfica para
cada grupo.

- as varincias dos grupos so iguais.

Quando o experimento consiste na anlise de uma nica varivel (ou
fator), com vrios nveis, a anlise dita ANOVA a fator nico. Para este tipo de
anlise, os procedimentos SAS no fazem distino quanto ao tipo de dados
utilizados: se balanceados ou no. Dados balanceados so aqueles cujos grupos
experimentais tem o mesmo tamanho de amostra. Dados no balanceados, o
tamanho da amostra difere para cada grupo. Ambos os procedimentos GLM e
ANOVA, tratam estes dados na devida situao.

PROC ANOVA

A PROC ANOVA para anlise da varincia a fator nico pode ser
utilizada, como visto anteriormente, para ambos dados balanceados e no
balanceados. Em geral, entretanto, no se utiliza a PROC ANOVA para dados
no alanceados. Ela utilizada para:

- Blocos aleatorizados

- Quadrados latinos

Projetos com Blocos Aleatorizados assumem que uma populao de
unidades experimentais pode ser dividida em um nmero relativamente
homogneo de subpopulaes ou blocos. Os tratamentos so aleatoriamente
atribudos s unidades experimentais dentro de cada bloco. Se todos os
tratamentos so atribudos em cada bloco, o projeto denominado Projeto com
Blocos Completamente Aleatorizados.

Para exemplificar, suponha um experimento que, em funo da durao
do mesmo, sejam efetuadas edies pela manh e outra tarde. Se a
temperatura influir na varivel resposta, a variabilidade do experimento cresce, e a
sensibilidade dos efeitos do fator em anlise ser prejudicada. Em outras
palavras, entre ma medida feita pela manh e a outra tarde, tem-se as
variabilidades devidas ao erro experimental da edio em si, ao efeito do fator (se
houver) e variao da temperatura. Como a temperatura no um fator de
interesse no experimento, pode-se dizer que ela aumentou o erro experimental.
Uma maneira de quantificar e isolar esta influncia consiste em efetuar um grupo
completo de medies, que inclua todos os nveis do fator pela manh e outro
tarde. Cada grupo ser homogneo em relao temperatura e recebe a
designao de bloco aleatorizado. Quando o projeto envolve a blocagem de mais
de um fator no experimento, ele denominado de quadrado latino, e
representado por uma forma quadrada (4 X 4) tendo o fator em estudo
representado por letras latinas.

Treinamento Sistema SAS Prof. Luis Felipe Lopes

70
Os aspectos acima descritos dizem respeito ao controle do erro
experimental. Outro aspecto a ser considerado na Anlise de Varincia seria a
estrutura de tratamento fatorial, que pode ser aplicada qualquer esquema de
aleatorizao. Um experimento fatorial balanceado consiste de todas as possveis
combinaes dos nveis de duas ou mais variveis. Estes nveis podem se referir
quantidades numricas das variveis, tais como graus de temperatura,
quantidade de fertilizantes, ou variveis que definam categorias qualitativas, tais
como tipos de fertilizantes, condies operacionais (Temperatura: baixa, mdia ou
alta). Um exemplo de experimento fatorial o estudo envolvendo o uso de
nitrognio, fsforo e potssio, cada um trs nveis. Este experimento possui 3
**3 =27 combinaes de tratamento. Experimentos fatoriais so utilizados para
investigar no somente todas as diferenas entre os nveis de cada fator (efeitos
principais), como tambm como os nveis de um fator afetam a varivel resposta,
em combinao com os nveis dos demais fatores (interaes).

A PROC ANOVA pode ser utilizada interativamente. Uma vez
especificado um modelo com o comando MODEL, que ser visto a seguir, e rodar
o procedimento com o comando RUN, outra variedade de comandos poder ser
executada sem que o procedimento recalcule as estatsticas do modelo geradas
inicialmente.

FORMA GERAL:

PROC ANOVA DATA = arquivo SAS;
CLASS variveis; /*tratamentos*/
MODEL dependente =efeitos / opes;
MANOVA H =varivel / opes;
MEANS efeitos / opes;
OUTPUT OUT =arquivo SAS
P=nova varivel R =nova varivel
L95 =nova varivel U95 =nova varivel
L95M =nova varivel U95M=nova varivel;
RUN;

COMANDOS DISPONVEIS:

CLASS nomeia as variveis de classificao utilizadas para identificar os
grupos para anlise. Este comando tem que aparecer antes do
comando MODEL.

MODEL nomeia as variveis dependentes e independentes do modelo.

MANOVA se o comando MODEL inclui mais que uma varivel dependente,
este comando fornece estatsticas multivariadas.

MEANS gera mdias para cada nvel das variveis independentes e para a
interao dos nveis, quando existir.

Treinamento Sistema SAS Prof. Luis Felipe Lopes

71
OUTPUT gera arquivo de sada com as variveis que iro conter os valores
previstos, residuais, intervalos de confiana para um valor
individual da varivel dependente, e intervalos de confiana para
o valor esperado ( mdia ) da varivel dependente.

OPES DISPONIVEIS NO COMANDO MODEL:

INT requisita teste associado ao intercepto como parmetro do
modelo. Por default, ele includo no modelo, mas o teste
associado no listado. Com esta opo o teste associado
listado.

NOINT requisita que o intercepto no seja usado no modelo.

NOUNI suprimi estatsticas univariadas.

OPES DISPONVEIS NO COMANDO MANOVA:

H especifica efeitos no modelo para usar como matriz de hipteses.

PRINTH lista a matriz de hipteses SSCP e a matriz de erro. A opo
PRINTE tambm lista uma matriz de coeficientes de correlao
parcial e derivada da matiz de erros SSCP. Esta matriz de
correlao representa a correlao das variveis dependentes
corrigidas para todos os fatores independentes definidos no
comando MODEL.

OPES DISPONVEIS NO COMANDO MEANS:

As opes especificam os testes utilizados para comparao mltipla e
so aplicadas somente para os termos de efeitos principais .

DUNCAN desempenha teste de mltiplos ranges para todas as mdias dos
efeitos principais especificados no comando MEANS.

TUKEY desempenha teste de ranges de Student para todas as mdias
dos efeitos principais especificados no comando MEANS.

ALPHA d os nveis de significncia para a comparao entre as mdias.
Por default Alpha=0.05. Para a opo DUNCAN, somente os
valores 0.01, 0.05 ou 0.1 so vlidos. Nas demais opes que
desempenham testes de comparao mltipla, valores entre
0.0001 e 0.9999 so vlidos.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

72
Teste de Duncan

O teste de Duncan usado na anlise de varincia para comparar todo
e qualquer contraste entre duas mdias de tratamentos. menos rigoroso que o
Teste de Tukey, pois detecta diferena significativa entre duas mdias quando o o
teste de Tukey no o faz. um teste bastante usado em trabalhos de
laboratrios, pode ser usado tanto para tratamentos com o mesmo nmero de
repeties, quanto tratamentos com parcelas perdidas.

Teste de Tukey

O teste de Tukey usado na anlise de varincia para comparar todo e
qualquer contraste entre duas mdias de tratamentos. o teste de comparao
de mdias mais usado em experimentao, por ser bastante rigoroso e de fcil
aplicao. Ele mais exato quando os nmeros de repeties das mdias dos
tratamentos forem iguais.

Quando o Teste Tukey no der diferena significativa e o teste F for
significativo, o mesmo poder ser substitudo pelo Teste de Duncan, por ser
menos rigoroso, ou trocar o nvel de significncia para 10%, ou simplesmente
aceitar a anlise encontrada.

Teste de Scheff

O teste de Schfe usado na anlise de varincia numa forma mais
abrangente que o Teste de Duncan e de Tukey, pois permite julgar qualquer
constraste, pode ser usado tanto para duas mdias (contraste simples) como para
mais de duas mdias (contraste mltiplo), na qual ele o mais indicado, por ser
mais rigoroso que o Teste de Tukey.

Anlise dos Trs Testes

Quando o teste F da anlise de varincia no for significativo os trs
testes acima no tero efeito de aplicao (s se o teste F estiver prximo da
significncia). Para melhor visualizar a anlise comparativa das mdias, as
mdias dos tratamentos so colocadas em ordem crescente e para cada conjunto
de mdias que no diferem estatisticamente atribuda uma mesma letra, ou
seja, para letras iguais mdias estatisticamente iguais, para letras diferentes
mdias estatisticamente diferentes. Para a anlise usa-se um nvel de
significncia de 5%.

Treinamento Sistema SAS Prof. Luis Felipe Lopes

73
ESTUDO DE CASO


11.1.1 Experimento Completamente Casualizado


Suponha que os pesquisadores de uma linha de produo automobilstica
queiram comparar o desgaste de 4 tipos de pneus.

Eles decidiram usar 4 pneus de cada tipo e posicionaram aleatoriamente
os 16 pneus em 4 carros diferentes, medindo a quantidade de desgaste em mm
aps 10.000 Km rodados pelos 4 carros em condies idnticas de direo.



Considere as seguintes questes:

1 - As unidades experimentais deste experimento so os pneus.

2 - As suposies para anlise consistem em tratamentos aleatoriamente
atribudos para as 16 posies nos 4 carros, com o desgaste por marca de
pneu sendo normalmente distribudo, com varincia comum.

3 - O modelo experimental representado por:

DESGASTE = CTE + efeito TIPO + erro

A hiptese a ser testada :

Ho: As mdias do desgaste para os 4 tipos de pneus so iguais

Leia os dados em um arquivo SAS e anlise com a PROC ANOVA a
hiptese testada.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

74
OPTI ONS FORMDLI M=' *' LS=80;
DATA PNEU1 A; / * EXEMP11 SAS */
I NPUT TI POS $ DESGASTE @@;
CARDS;
1 1. 83 2 2. 42 3 1. 98 4 1. 83
1 1. 88 2 2. 05 3 1, 86 4 1. 81
1 1. 86 2 2. 10 3 2. 30 4 1. 75
1 1. 77 2 2. 61 3 2. 31 4 1. 92
;
PROC ANOVA;
CLASS TI PO;
MODEL DESGASTE = TI PO;
TI TLE ' EXPERI MENTO COMPLETAMENTE CASUALI ZADO' ;
RUN;

ANLISE DOS RESULTADOS:

EXPERI MENTO COMPLETAMENTE CASUALI ZADO

Anal ysi s of Var i ance Pr ocedur e
Cl ass Level I nf or mat i on

Cl ass Level s Val ues

TI PO 4 1 2 3 4

Number of obser vat i ons i n dat a set = 16

EXPERI MENTO COMPLETAMENTE CASUALI ZADO

Anal ysi s of Var i ance Pr ocedur e

Dependent Var i abl e: DESGASTE

Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr > F

Model 3 0. 62175000 0. 20725000 6. 37 0. 0079

Er r or 12 0. 39015000 0. 03251250

Cor r ect ed Tot al 15 1. 01190000

R- Squar e C. V. Root MSE DESGASTE Mean

0. 614438 8. 937409 0. 1803122 2. 0175000

Sour ce DF Anova SS Mean Squar e F Val ue Pr > F

TI PO 3 0. 62175000 0. 20725000 6. 37 0. 0079

A estimativa da varincia do erro da populao dada por MSE (Error) = 0.032;

O R_Square descreve a quantidade de variao nos dados que se deve a
diferena existente entre os Grupos. Logo, 61% da variabilidade do modelo
explicada pela diferena entre os tipos dos pneus.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

75
O p-valor dado por Pr > F = 0.0079 inferior ao nvel de significncia de 0.10,
donde se conclui que a mdia do desgaste significativamente diferente para os
diferentes tipos de pneus.

A Soma dos Quadrados (SS) mede a quantidade de variao atribuda a uma
dada fonte. Note que Model SS e Error SS somam a variao total do modelo.

A mdia global do desgaste dos pneus dada por DESGASTE Mean.

O coeficiente de variao CV calculado multiplicando o desvio padro por 100 e
dividindo pela mdia, ou seja. 100 (std/mean).


11.1.2 Experimento com Blocos Aleatorizados


A fim de controlar a influncia do fator tipo de carro no desgaste dos
pneus, decidiu-se coletar medidas do desgaste de modo que cada tipo de pneu
aparecesse em cada carro, Logo, cada carro consiste num bloco de edies, o
que permite:

- O controle da variao que se deve aos diferentes tipos de carro.

- A eliminao da variao de cada carro em relao aos tipos de pneus
utilizados.

- A obteno de uma preciso maior do erro do experimento.

O modelo experimental em questo dado por:

DESGASTE = CTE + efeito TIPO + efeito CARRO + erro

Os efeitos dos blocos so aditivos, ou seja, no existe interao entre o
tipo de pneu e o tipo de carro. O novo experimento tem o seguinte layout:



Treinamento Sistema SAS Prof. Luis Felipe Lopes

76
OPTI ONS FORMDLI M=' *' LS=80;
DATA PNEU2 A; / * EXEMP12 SAS */
I NPUT TI PO $ CARRO DESGASTE @@;
CARDS;
A l 1. 51 A 2 1. 71 A 3 1. 78 A 4 1. 80
B l 2. 36 B 2 2. 45 B 3 2. 24 B 4 2. 41
C l 2. 20 C 2 2. 05 C 3 2. 01 C 4 2. 01
D l 1. 51 D 2 2. 22 D 3 1. 73 D 4 1. 80
;
PROC ANOVA;
CLASS TI PO CARRO;
MODEL DESGASTE = TI PO CARRO;
TI TLE ' EXPERI MENTO COM BLOCOS ALEATORI ZADOS' ;
RUN;

ANLISE DOS RESULTADOS:

EXPERI MENTO COM BLOCOS ALEATORI ZADOS

Anal ysi s of Var i ance Pr ocedur e
Cl ass Level I nf or mat i on

Cl ass Level s Val ues

TI PO 4 A B C D

CARRO 4 1 2 3 4

Number of obser vat i ons i n dat a set = 16

*************************************************************************

EXPERI MENTO COM BLOCOS ALEATORI ZADOS

Anal ysi s of Var i ance Pr ocedur e

Dependent Var i abl e: DESGASTE

Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr > F

Model 6 1. 14733750 0. 19122292 6. 51 0. 0068

Er r or 9 0. 26440625 0. 02937847

Cor r ect ed Tot al 15 1. 41174375

R- Squar e C. V. Root MSE DESGASTE Mean

0. 812709 8. 626687 0. 1714015 1. 9868750

Sour ce DF Anova SS Mean Squar e F Val ue Pr > F

TI PO 3 1. 04526875 0. 34842292 11. 86 0. 0018
CARRO 3 0. 10206875 0. 03402292 1. 16 0. 3780

Treinamento Sistema SAS Prof. Luis Felipe Lopes

77
Pode-se notar que estimativa da varincia do erro deste experimento inferior a
vista anteriormente. O fator de blocagem CARRO poderia ser retirado do
experimento, uma vez que ele no significativo.


11.1.3 Experimento com Quadrado Latino


A localizao do pneu no carro pode ter algum efeito sobre o resultado do
desgaste.

Se o interesse for controlar o efeito da localizao do pneu a fim de se
obter uma idia melhor do tipo de pneu no desgaste, os tipos de pneus devem ser
posicionados da seguinte maneira:


Nesse experimento cada tipo de pneu aparece em cada carro, todos os
tipos em diferentes posies.

O modelo experimental dado por:

DESGASTE = CTE + TIPO + CARRO + POS + ERRO



Os efeitos dos blocos (carro e posio do pneu) so aditivos. Analise a
varincia do experimento apresentado.

OPTI ONS FORMDLI M=' *' LS=80;
DATA PNEU3 A; / * EXEMP13 SAS */
I NPUT CARRO POS TI PO $ DESGASTE
CARDS;
1 l B 2. 23 2 l C 2. 31 3 l D 2. 07 4 1 A 1. 97
l 2 C 2. 04 2 2 D 1. 97 3 2 A 1. 69 4 2 B 2. 59
1 3 D 1. 78 2 3 A 1. 73 3 3 B 2. 20 4 3 C 2. 25
1 4 A 1. 64 2 4 B 2. 22 3 4 C 1. 80 4 4 D 1. 86
;
PROC ANOVA;
CLASS CARRO POS TI PO;
MODEL DESGASTE = CARRO POS TI PO;
TI TLE ' EXPERI MENTO COM QUADRADO LATI NO' ;
RUN;


ANLISE DOS RESULTADOS:
Treinamento Sistema SAS Prof. Luis Felipe Lopes

78

EXPERI MENTO COM QUADRADO LATI NO

Anal ysi s of Var i ance Pr ocedur e
Cl ass Level I nf or mat i on

Cl ass Level s Val ues

CARRO 4 1 2 3 4

POS 4 1 2 3 4

TI PO 4 A B C D

Number of obser vat i ons i n dat a set = 16

*************************************************************************

EXPERI MENTO COM QUADRADO LATI NO

Anal ysi s of Var i ance Pr ocedur e

Dependent Var i abl e: DESGASTE

Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr > F

Model 9 0. 98925625 0. 10991736 9. 99 0. 0055

Er r or 6 0. 06598750 0. 01099792

Cor r ect ed Tot al 15 1. 05524375

R- Squar e C. V. Root MSE DESGASTE Mean

0. 937467 5. 186817 0. 1048710 2. 0218750

Sour ce DF Anova SS Mean Squar e F Val ue Pr > F

CARRO 3 0. 15621875 0. 05207292 4. 73 0. 0505
POS 3 0. 15546875 0. 05182292 4. 71 0. 0510
TI PO 3 0. 67756875 0. 22585625 20. 54 0. 0015

Observa-se uma reduo na varincia do erro experimental MS(ERROR) = 0.010.
O modelo apresentado explica 93.75% da variabilidade do experimento. O tipo de
pneu um fator significativo para o modelo, pois Pr > F = 0.0055 inferior ao
nvel de significncia de 0.10.

Treinamento Sistema SAS Prof. Luis Felipe Lopes

79
12 EXERCCIOS RESOLVIDOS E COMENTADOS

1) Um analista de uma cadeia de lanchonetes quer investigar o relacionamento
entre o nmero de atendentes no balco self-service e as vendas de caf.
Quatorze lanchonetes foram escolhidas para teste por serem similares em
alguns aspectos tais como: volume total de negcios, tipo de clientela e
localizao. O nmero de atendentes que so colocados nas lanchonetes-teste
varia de zero a sete (o caf servido numa linha de atendimento), e
distribudo aleatoriamente em cada lanchonete, como mostra os dados abaixo:

N
o
de
Atendentes
Vendas
5 729,1
1 568,2
0 508,1
7 854,7
5 787,6
2 651,7
0 498,4
6 841,4
4 755,3
1 577,3
6 831,8
7 871,4
2 657,0
4 758,9

Crie um arquivo LANCHE.SAS para:

A) Criar uma tabela das vendas de caf X nmero de atendentes e plote o grfico.

B) Ajustar um modelo linear de regresso das vendas em funo do nmero de
atendentes. Verifique a existncia de pontos fora do padro, e, atravs da
PROC UNIVARIATE, verifique a qualidade do ajuste.

C) Idem para o modelo quadrtico.


D) Caso seja identificado algum outlier, elimine-o da anlise e verifique
novamente a qualidade dos resduos.

OPTIONS FORMDLIM='*' LS=80;
DATA LANCHES A;
INPUT NO_AT VENDAS @@;
NUM2=NO_AT*NO_AT;
CARDS;
5 729.1 1 568.2 0 508.1 7 854.7 5 787.6
2 651.7 0 498.4 6 841.4 4 755.3 1 577.3
6 831.8 7 871.4 2 657.0 4 758.9
;
/* #############( A )################## */
PROC FREQ;
TABLES NO_AT*VENDAS /LIST;
TITLE 'TABELA NO ATENDENTES * VENDAS';
Treinamento Sistema SAS Prof. Luis Felipe Lopes

80
RUN;
PROC PLOT;
PLOT VENDAS*NO_AT='*';
TITLE 'DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES';
RUN;
/* #############( B )################## */
PROC REG;
MODEL VENDAS=NO_AT /R;
PLOT R.*NO_AT='*';
OUTPUT OUT=RESIDUO1 R=RESID1;
TITLE 'REGRESSAO LINEAR DE VENDAS * NO ATENDENTES';
PROC UNIVARIATE DATA=RESIDUO1 NORMAL;
VAR RESID1;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR';
RUN;
/* #############( C )################## */
PROC REG;
MODEL VENDAS=NO_AT NUM2 /R;
PLOT R.*NO_AT='*';
OUTPUT OUT=RESIDUO2 R=RESID2;
TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES';
PROC UNIVARIATE DATA=RESIDUO2 NORMAL;
VAR RESID2;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO';
RUN;
/* #############( D )################## */
PROC REG;
MODEL VENDAS=NO_AT NUM2 /R;
WHERE NO_AT NE 5 OR VENDAS NE 729.1;
PLOT R.*NO_AT='*';
OUTPUT OUT=RESIDUO3 R=RESID3;
TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS';
PROC UNIVARIATE DATA=RESIDUO3 NORMAL;
VAR RESID3;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS';
RUN;

A)
TABELA NO ATENDENTES * VENDAS

Cumulative Cumulative
NO_AT VENDAS Frequency Percent Frequency Percent
----------------------------------------------------------
0 498.4 1 7.1 1 7.1
0 508.1 1 7.1 2 14.3
1 568.2 1 7.1 3 21.4
1 577.3 1 7.1 4 28.6
2 651.7 1 7.1 5 35.7
2 657.0 1 7.1 6 42.9
4 755.3 1 7.1 7 50.0
4 758.9 1 7.1 8 57.1
5 729.1 1 7.1 9 64.3
5 787.6 1 7.1 10 71.4
6 831.8 1 7.1 11 78.6
6 841.4 1 7.1 12 85.7
7 854.7 1 7.1 13 92.9
7 871.4 1 7.1 14 100.0

Treinamento Sistema SAS Prof. Luis Felipe Lopes

81
DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES

Plot of VENDAS*NO_AT. Symbol used is '*'.

900 +
|
| *
| *
850 +
| *
| *
|
800 +
V | *
E |
N | *
D750 +
A |
S |
| *
700 +
|
|
| *
650 + *
|
|
|
600 +
|
| *
| *
550 +
|
|
|*
500 +*
-+--------+--------+--------+--------+--------+--------+--------+-
0 1 2 3 4 5 6 7
NO_AT

NOTE: 1 obs hidden.

B)

REGRESSAO LI NEAR DE VENDAS * NO ATENDENTES

Model : MODEL1
Dependent Var i abl e: VENDAS

Anal ysi s of Var i ance

Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr ob>F

Model 1 211484. 38607 211484. 38607 328. 514 0. 0001
Er r or 12 7725. 12322 643. 76027
C Tot al 13 219209. 50929

Root MSE 25. 37243 R- squar e 0. 9648
Dep Mean 706. 49286 Adj R- sq 0. 9618
C. V. 3. 59132

Par amet er Est i mat es

Par amet er St andar d T f or H0:
Var i abl e DF Est i mat e Er r or Par amet er =0 Pr ob > | T|

I NTERCEP 1 526. 678767 12. 01686851 43. 828 0. 0001
NO_AT 1 50. 347945 2. 77782371 18. 125 0. 0001

REGRESSAO LI NEAR DE VENDAS * NO ATENDENTES

Treinamento Sistema SAS Prof. Luis Felipe Lopes

82
Dep Var Pr edi ct St d Er r St d Er r St udent
Obs VENDAS Val ue Pr edi ct Resi dual Resi dual Resi dual

1 729. 1 778. 4 7. 857 - 49. 3185 24. 125 - 2. 044
2 568. 2 577. 0 9. 849 - 8. 8267 23. 383 - 0. 377
3 508. 1 526. 7 12. 017 - 18. 5788 22. 346 - 0. 831
4 854. 7 879. 1 11. 691 - 24. 4144 22. 518 - 1. 084
5 787. 6 778. 4 7. 857 9. 1815 24. 125 0. 381
6 651. 7 627. 4 8. 065 24. 3253 24. 057 1. 011
7 498. 4 526. 7 12. 017 - 28. 2788 22. 346 - 1. 265
8 841. 4 828. 8 9. 565 12. 6336 23. 500 0. 538
9 755. 3 728. 1 6. 885 27. 2295 24. 420 1. 115
10 577. 3 577. 0 9. 849 0. 2733 23. 383 0. 012
11 831. 8 828. 8 9. 565 3. 0336 23. 500 0. 129
12 871. 4 879. 1 11. 691 - 7. 7144 22. 518 - 0. 343
13 657. 0 627. 4 8. 065 29. 6253 24. 057 1. 231
14 758. 9 728. 1 6. 885 30. 8295 24. 420 1. 262

Cook' s
Obs - 2- 1- 0 1 2 D

1 | ****| | 0. 222
2 | | | 0. 013
3 | *| | 0. 100
4 | **| | 0. 158
5 | | | 0. 008
6 | | ** | 0. 057
7 | **| | 0. 232
8 | | * | 0. 024
9 | | ** | 0. 049
10 | | | 0. 000
11 | | | 0. 001
12 | | | 0. 016
13 | | ** | 0. 085
14 | | ** | 0. 063

Sumof Resi dual s 0
Sumof Squar ed Resi dual s 7725. 1232
Pr edi ct ed Resi d SS ( Pr ess) 10165. 3789

Treinamento Sistema SAS Prof. Luis Felipe Lopes

83
REGRESSAO LI NEAR DE VENDAS * NO ATENDENTES

RESI DUAL
- - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - -
| |
40 + +
| * |
| * |
| * |
| * |
20 + +
| * |
| * |
| |
| * |
0 + * +
| * |
| * |
| |
| * |
- 20+ +
| * |
| |
| * |
| |
- 40+ +
| |
| |
| * |
| |
- 60+ +
- - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - -
0 1 2 3 4 5 6 7
NO_AT

TESTE DA NORMALI DADE DOS RESI DUOS - LI NEAR

Uni var i at e Pr ocedur e

Var i abl e=RESI D1 Resi dual

Moment s

N 14 SumWgt s 14
Mean 0 Sum 0
St d Dev 24. 37704 Var i ance 594. 2402
Skewness - 0. 44594 Kur t osi s - 0. 49803
USS 7725. 123 CSS 7725. 123
CV . St d Mean 6. 515039
T: Mean=0 0 Pr >| T| 1. 0000
Num^= 0 14 Num> 0 8
M( Si gn) 1 Pr >=| M| 0. 7905
Sgn Rank 4. 5 Pr >=| S| 0. 8077
W: Nor mal 0. 952408 Pr <W 0. 5667
Treinamento Sistema SAS Prof. Luis Felipe Lopes

84
Quantiles(Def=5)

100% Max 30.82945 99% 30.82945
75% Q3 24.32534 95% 30.82945
50% Med 1.653425 90% 29.62534
25% Q1 -18.5788 10% -28.2788
0% Min -49.3185 5% -49.3185
1% -49.3185
Range 80.14795
Q3-Q1 42.90411
Mode -49.3185

Extremes

Lowest Obs Highest Obs
-49.3185( 1) 12.63356( 8)
-28.2788( 7) 24.32534( 6)
-24.4144( 4) 27.22945( 9)
-18.5788( 3) 29.62534( 13)
-8.82671( 2) 30.82945( 14)

COMENTRIO:

O modelo de regresso linear explica 96.48% da variabilidade das vendas de
caf. Tanto o intercepto quanto o parmetro relativo ao nmero de atendentes so
significativos para o modelo (p-valor=0.0001).O plote dos resduos de Student
indica que a 1
a
observao do arquivo est num range suspeito. O plote dos
resduos sugere a necessidade de um termo quadrtico. No teste de normalidade
obtido com a PROC UNIVARIATE, h indicao de normalidade dos resduos. Um
termo quadrtico deve ser considerado nas anlises.

C)
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES

Model: MODEL1
Dependent Variable: VENDAS

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Prob>F

Model 2 214249.72406 107124.86203 237.586 0.0001
Error 11 4959.78522 450.88957
C Total 13 219209.50929

Root MSE 21.23416 R-square 0.9774
Dep Mean 706.49286 Adj R-sq 0.9733
C.V. 3.00557

Parameter Estimates

Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 507.641529 12.65833646 40.103 0.0001
NO_AT 1 72.191126 9.12139574 7.914 0.0001
NUM2 1 -3.151289 1.27247482 -2.477 0.0308
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES

Dep Var Predict Std Err Std Err Student

Treinamento Sistema SAS Prof. Luis Felipe Lopes

85
Obs VENDAS Value Predict Residual Residual Residual

1 729.1 789.8 8.026 -60.7149 19.659 -3.088
2 568.2 576.7 8.244 -8.4814 19.569 -0.433
3 508.1 507.6 12.658 0.4585 17.049 0.027
4 854.7 858.6 12.829 -3.8663 16.921 -0.228
5 787.6 789.8 8.026 -2.2149 19.659 -0.113
6 651.7 639.4 8.319 12.2814 19.537 0.629
7 498.4 507.6 12.658 -9.2415 17.049 -0.542
8 841.4 827.3 8.026 14.0581 19.659 0.715
9 755.3 746.0 9.248 9.3146 19.114 0.487
10 577.3 576.7 8.244 0.6186 19.569 0.032
11 831.8 827.3 8.026 4.4581 19.659 0.227
12 871.4 858.6 12.829 12.8337 16.921 0.758
13 657.0 639.4 8.319 17.5814 19.537 0.900
14 758.9 746.0 9.248 12.9146 19.114 0.676

Cook's
Obs -2-1-0 1 2 D

1 |******| | 0.530
2 | | | 0.011
3 | | | 0.000
4 | | | 0.010
5 | | | 0.001
6 | |* | 0.024
7 | *| | 0.054
8 | |* | 0.028
9 | | | 0.019
10 | | | 0.000
11 | | | 0.003
12 | |* | 0.110
13 | |* | 0.049
14 | |* | 0.036

Sum of Residuals 0
Sum of Squared Residuals 4959.7852
Predicted Resid SS (Press) 7100.0421

Treinamento Sistema SAS Prof. Luis Felipe Lopes

86
REGRESSAO QUADRATI CA DE VENDAS * NO ATENDENTES

RESI DUAL
- - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - -
20 + +
| * |
| * * * |
| * |
10 + * +
| |
| * |
| |
0 + * * +
| * |
| * |
| * |
- 10 + * +
| |
| |
| |
- 20 + +
| |
| |
| |
- 30 + +
| |
| |
| |
- 40 + +
| |
| |
| |
- 50 + +
| |
| |
| |
- 60 + * +
- - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - -
0 1 2 3 4 5 6 7
NO_AT

TESTE DA NORMALI DADE DOS RESI DUOS - QUADRATI CO

Uni var i at e Pr ocedur e

Var i abl e=RESI D2 Resi dual

Moment s

N 14 SumWgt s 14
Mean 0 Sum 0
St d Dev 19. 53259 Var i ance 381. 5219
Skewness - 2. 52959 Kur t osi s 7. 77964
USS 4959. 785 CSS 4959. 785
CV . St d Mean 5. 220303
T: Mean=0 0 Pr >| T| 1. 0000
Num^= 0 14 Num> 0 9
M( Si gn) 2 Pr >=| M| 0. 4240
Sgn Rank 18. 5 Pr >=| S| 0. 2676
W: Nor mal 0. 714683 Pr <W 0. 0004

Quant i l es( Def =5)

100%Max 17. 58138 99% 17. 58138
75%Q3 12. 83375 95% 17. 58138
50%Med 2. 538376 90% 14. 05812
25%Q1 - 3. 86625 10% - 9. 24153
0%Mi n - 60. 7149 5% - 60. 7149
1% - 60. 7149
Range 78. 29631
Q3- Q1 16. 7
Treinamento Sistema SAS Prof. Luis Felipe Lopes

87
Mode - 60. 7149

Ext r emes

Lowest Obs Hi ghest Obs
- 60. 7149( 1) 12. 28138( 6)
- 9. 24153( 7) 12. 83375( 12)
- 8. 48137( 2) 12. 91459( 14)
- 3. 86625( 4) 14. 05812( 8)
- 2. 21494( 5) 17. 58138( 13)

COMENTRIO:

No ajuste quadrtico observa-se que a soma dos quadrados devido ao erro da
regresso diminuiu relativamente regresso linear, e o R-square aumentou para
97.74%. Todos os parmetros relativos ao ajuste quadrtico so significativos
para o modelo ao nvel de 5%. Os resduos indicam aleatoriedade (alternncia
homognea de pontos positivos e negativos). Com o plote dos resduos de
Student, pode-se verificar a existncia de um ponto fora do padro. Para verificar
a qualidade do ajuste, indica-se o teste para a normalidade dos resduos. Ao nvel
de =5% de significncia, Prob<W=0.0004<, indicando a no normalidade dos
resduos. Considerando a 1
a
observao como um 'outlier', ela pode estar
influenciando nos resultados. O mesmo ajuste pode ser efetuado eliminando esta
observao.

D)
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS

Model: MODEL1
Dependent Variable: VENDAS

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Prob>F

Model 2 218000.01432 109000.00716 1653.775 0.0001
Error 10 659.09799 65.90980
C Total 12 218659.11231

Root MSE 8.11849 R-square 0.9970
Dep Mean 704.75385 Adj R-sq 0.9964
C.V. 1.15196

Treinamento Sistema SAS Prof. Luis Felipe Lopes

88
Par amet er Est i mat es

Par amet er St andar d T f or H0:
Var i abl e DF Est i mat e Er r or Par amet er =0 Pr ob > | T|

I NTERCEP 1 502. 811932 4. 87646962 103. 110 0. 0001
NO_AT 1 79. 780492 3. 61173750 22. 089 0. 0001
NUM2 1 - 4. 071212 0. 49965821 - 8. 148 0. 0001

REGRESSAO QUADRATI CA DE VENDAS * NO ATENDENTES S/ OUTLI ERS

Dep Var Pr edi ct St d Er r St d Er r St udent
Obs VENDAS Val ue Pr edi ct Resi dual Resi dual Resi dual

1 568. 2 578. 5 3. 160 - 10. 3212 7. 478 - 1. 380
2 508. 1 502. 8 4. 876 5. 2881 6. 491 0. 815
3 854. 7 861. 8 4. 921 - 7. 0860 6. 457 - 1. 097
4 787. 6 799. 9 3. 314 - 12. 3341 7. 411 - 1. 664
5 651. 7 646. 1 3. 286 5. 6119 7. 424 0. 756
6 498. 4 502. 8 4. 876 - 4. 4119 6. 491 - 0. 680
7 841. 4 834. 9 3. 209 6. 4688 7. 457 0. 867
8 755. 3 756. 8 3. 781 - 1. 4945 7. 184 - 0. 208
9 577. 3 578. 5 3. 160 - 1. 2212 7. 478 - 0. 163
10 831. 8 834. 9 3. 209 - 3. 1312 7. 457 - 0. 420
11 871. 4 861. 8 4. 921 9. 6140 6. 457 1. 489
12 657. 0 646. 1 3. 286 10. 9119 7. 424 1. 470
13 758. 9 756. 8 3. 781 2. 1055 7. 184 0. 293

Cook' s
Obs - 2- 1- 0 1 2 D

1 | **| | 0. 113
2 | | * | 0. 125
3 | **| | 0. 233
4 | ***| | 0. 185
5 | | * | 0. 037
6 | *| | 0. 087
7 | | * | 0. 046
8 | | | 0. 004
9 | | | 0. 002
10 | | | 0. 011
11 | | ** | 0. 429
12 | | ** | 0. 141
13 | | | 0. 008

Sumof Resi dual s 0
Sumof Squar ed Resi dual s 659. 0980
Pr edi ct ed Resi d SS ( Pr ess) 1140. 4168

Treinamento Sistema SAS Prof. Luis Felipe Lopes

89
REGRESSAO QUADRATI CA DE VENDAS * NO ATENDENTES S/ OUTLI ERS

RESI DUAL
- - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - -
| |
15 + +
| |
| |
| * |
10 + +
| * |
| * |
| * |
5 + * +
| |
| * |
| |
0 + +
| * * |
| * |
| * |
- 5 + +
| |
| * |
| |
- 10 + * +
| * |
| |
| |
- 15 + +
| |
- - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - - - +- - - - - -
0 1 2 3 4 5 6 7
NO_AT

TESTE DA NORMALI DADE DOS RESI DUOS - QUADRATI CO S/ OUTLI ERS

Uni var i at e Pr ocedur e

Var i abl e=RESI D3 Resi dual

Moment s

N 13 SumWgt s 13
Mean 0 Sum 0
St d Dev 7. 411129 Var i ance 54. 92483
Skewness - 0. 1599 Kur t osi s - 1. 01313
USS 659. 098 CSS 659. 098
CV . St d Mean 2. 055477
T: Mean=0 0 Pr >| T| 1. 0000
Num^= 0 13 Num> 0 6
M( Si gn) - 0. 5 Pr >=| M| 1. 0000
Sgn Rank 0. 5 Pr >=| S| 1. 0000
W: Nor mal 0. 965059 Pr <W 0. 7796

Treinamento Sistema SAS Prof. Luis Felipe Lopes

90
Quantiles(Def=5)

100% Max 10.91193 99% 10.91193
75% Q3 5.611932 95% 10.91193
50% Med -1.22121 90% 9.614015
25% Q1 -4.41193 10% -10.3212
0% Min -12.3341 5% -12.3341
1% -12.3341
Range 23.24602
Q3-Q1 10.02386
Mode -12.3341

Extremes

Lowest Obs Highest Obs
-12.3341( 4) 5.288068( 2)
-10.3212( 1) 5.611932( 5)
-7.08598( 3) 6.46875( 7)
-4.41193( 6) 9.614015( 11)
-3.13125( 10) 10.91193( 12)

COMENTRIO:

O coeficiente de determinao para este ajuste de 99,70%. A soma dos
quadrados devido ao erro da regresso caiu de 4959,78 para 659,09, e no teste
da normalidade de resduos o p-valor associado Pr<W=0.77>, indicando a
normalidade dos resduos.

2) Trs testes foram aplicados para a admisso de crianas em uma escola. So
eles: Inteligncia, Psicomotricidade e Motivao. Os coeficientes de rendimento
so guardados em uma varivel chamada CR. As notas e o CR obtidos por
cada criana so mostrados a seguir. Criar um arquivo TESTE.SAS para
resolver este problema.

QI PSICO MOTIVA CR
80 36 10 10
75 35 10 10
71 34 9 9
71 33 9 9
71 30 10 8
65 35 9 7
60 20 7 7
60 25 7 7
59 31 9 7
57 31 9 7
65 35 9 8

A) O pedagogo deseja verificar a validade destes testes, ou seja, eles tem
importncia significativa no processo de seleo da escola? Use a PROC
CORR para verificar o grau de associao de cada teste com o coeficiente de
rendimento dos alunos.

Treinamento Sistema SAS Prof. Luis Felipe Lopes

91
B) A varivel CR depende das notas obtidas pelas crianas nos trs
testes. Supondo que o CR vai linearmente de acordo com as notas, testar
pela anlise da varincia, a significncia da equao de regresso.
Primeiramente ajuste um modelo de regresso mltipla aos dados e,
passo a passo, identifique as variveis mais significativas para o modelo.

OPTIONS FORMDLIM='*' LS=80;
DATA TESTE A;
INPUT QI PSICO MOTIVA CR @@;
CARDS;
80 36 10 10 75 35 10 10
71 34 9 9 71 33 9 9
71 30 10 8 65 35 9 7
60 20 7 7 60 25 7 7
59 31 9 7 57 31 9 7
65 35 9 8
;
/* #############( A )################## */
PROC CORR;
VAR QI PSICO MOTIVA;
WITH CR;
TITLE 'ANALISE DE CORRELACAO';
RUN;
/* #############( B.1 )################ */
PROC REG;
MODEL CR = QI PSICO MOTIVA;
OUTPUT OUT=RESID1 R=RESIDUAL;
PLOT RESIDUAL.*PREDICTED.='*';
TITLE 'ANALISE DE REGRESSAO MULTIPLA';
RUN;
/* #############( B.2 )################ */
PROC REG;
MODEL CR = QI /NOINT;
OUTPUT OUT=RESID2 R=RESIDUAL;
PLOT RESIDUAL.*PREDICTED.='*';
TITLE 'ANALISE DE REGRESSAO MULTIPLA';
PROC UNIVARIATE NORMAL PLOT;
VAR RESIDUAL;
TITLE 'ANALISE DOS RESIDUOS';
RUN;

A)
ANALISE DE CORRELACAO

Correlation Analysis

1 'WITH' Variables: CR
3 'VAR' Variables: QI PSICO MOTIVA

Simple Statistics

Variable N Mean Std Dev Sum Minimum Maximum

CR 11 8.09091 1.22103 89.00000 7.00000 10.00000
QI 11 66.72727 7.41742 734.00000 57.00000 80.00000
PSICO 11 31.36364 4.92489 345.00000 20.00000 36.00000
MOTIVA 11 8.90909 1.04447 98.00000 7.00000 10.00000

Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 11

QI PSICO MOTIVA

CR 0.93048 0.59261 0.63442
0.0001 0.0547 0.0360


COMENTRIO:

Treinamento Sistema SAS Prof. Luis Felipe Lopes

92
QI um fator significativamente importante dentro do processo de seleo dos
alunos: Coef. Corr. Pearson (QI) =0.93 e p-valor =0.00001 <, para nveis de
1%, 5% e 10%. O p-valor associado ao teste de correlao nula para PSICO
supera os nveis usuais de significncia, evidenciando a hiptese nula, ou seja, a
correlao baixa entre a varivel PSICO e o CR do aluno. Ao nvel de 1% de
significncia h evidncia de H0. J aos nveis de 5% e 10% h indicaes que a
verdadeira correlao entre CR e MOTIVA difere de zero.

B.1)
ANALISE DE REGRESSAO MULTIPLA

Model: MODEL1
Dependent Variable: CR

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Prob>F

Model 3 12.97836 4.32612 15.685 0.0017
Error 7 1.93073 0.27582
C Total 10 14.90909

Root MSE 0.52518 R-square 0.8705
Dep Mean 8.09091 Adj R-sq 0.8150
C.V. 6.49104

Parameter Estimates

Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 -2.009199 1.61813951 -1.242 0.2543
QI 1 0.151679 0.03066149 4.947 0.0017
PSICO 1 0.030064 0.05964986 0.504 0.6297
MOTIVA 1 -0.108196 0.30874764 -0.350 0.7363

Treinamento Sistema SAS Prof. Luis Felipe Lopes

93
ANALISE DE REGRESSAO MULTIPLA

RESIDUAL
------+------+------+------+------+------+------+------+------+------
0.8 + +
| |
| * |
| |
0.6 + +
| |
| |
0.4 + * +
| |
| * |
0.2 + * +
| * |
| * * |
| |
0.0 + +
| * |
| * |
| |
-0.2+ +
| |
| |
| |
-0.4+ +
| |
| |
| * |
-0.6+ +
| |
| |
| |
-0.8+ +
| |
| * |
| |
-1.0+ +
------+------+------+------+------+------+------+------+------+------
6.5 7.0 7.5 8.0 8.5 9.0 9.5 10.0 10.5
Predicted Value of CR PRED

COMENTRIO:

O modelo obtido para CR, com a Regresso Mltipla dados por:

CR= -2.01 + 0.15 QI + 0.03 PSICO - 0.11 MOTIVA

Pode-se notar que o erro padro relativo estimativa do parmetro de QI bem
pequeno (Standard Error=0.03). Este modelo explica 87% da variao de CR.
Como Prob>F=0.0017 'fechado' em zero, h evidncias da hiptese nula, isto ,
ao menos 1 parmetro do modelo deve ser diferente de zero. O p-valor para o
intercepto, PSICO e MOTIVA so altos, havendo grandes chances dos
parmetros relativos estas variveis serem iguais a zero. J o parmetro relativo
varivel QI (pvalor =0.0015), existe forte evidncia que seja significativamente
diferente de zero. Podemos testar portanto, um novo modelo de regresso, porm
sem o intercepto e apenas com a varivel QI.


A rotina (B.2) desempenham esta tarefa.

ANALISE DE REGRESSAO MULTIPLA

Model: MODEL1
NOTE: No intercept in model. R-square is redefined.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

94
Dependent Variable: CR

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Prob>F

Model 1 732.44486 732.44486 2866.554 0.0001
Error 10 2.55514 0.25551
U Total 11 735.00000

Root MSE 0.50548 R-square 0.9965
Dep Mean 8.09091 Adj R-sq 0.9962
C.V. 6.24755

Parameter Estimates

Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|

QI 1 0.121608 0.00227134 53.540 0.0001

Treinamento Sistema SAS Prof. Luis Felipe Lopes

95
ANALISE DE REGRESSAO MULTIPLA

RESIDUAL
----+----+----+----+----+----+----+----+----+----+----+----+----+----
| |
1.0 + +
| |
| * |
0.8 + +
| |
| |
0.6 + +
| |
| |
0.4 + +
| * |
| * |
0.2 + +
| * |
| * |
0.0 + +
| |
| * |
-0.2+ +
| |
| * |
-0.4+ +
| |
| |
-0.6+ +
| * |
| |
-0.8+ +
| |
| * |
-1.0+ +
| |
----+----+----+----+----+----+----+----+----+----+----+----+----+----
6.75 7.00 7.25 7.50 7.75 8.00 8.25 8.50 8.75 9.00 9.25 9.50 9.75
Predicted Value of CR PRED

ANALISE DOS RESIDUOS

Univariate Procedure

Variable=RESIDUAL Residual

Moments

N 11 Sum Wgts 11
Mean 0 Sum 0
Std Dev 0.4394 Variance 0.193073
Skewness -0.89363 Kurtosis 1.147284
USS 1.930728 CSS 1.930728
CV . Std Mean 0.132484
T:Mean=0 0 Pr>|T| 1.0000
Num ^= 0 11 Num > 0 7
M(Sign) 1.5 Pr>=|M| 0.5488
Sgn Rank 5 Pr>=|S| 0.7002
W:Normal 0.925844 Pr<W 0.3534
Quantiles(Def=5)

100% Max 0.663001 99% 0.663001
75% Q3 0.221649 95% 0.663001
50% Med 0.071596 90% 0.405283
25% Q1 -0.12546 10% -0.57997
0% Min -0.9284 5% -0.9284
1% -0.9284
Range 1.591405
Q3-Q1 0.347107
Mode -0.9284

Extremes

Lowest Obs Highest Obs
-0.9284( 6) 0.101925( 9)
Treinamento Sistema SAS Prof. Luis Felipe Lopes

96
-0.57997( 5) 0.191585( 3)
-0.12546( 1) 0.221649( 4)
-0.08576( 8) 0.405283( 10)
0.064553( 7) 0.663001( 2)

Stem Leaf # Boxplot
6 6 1 |
4 1 1 |
2 2 1 +-----+
0 6709 4 *--+--*
-0 39 2 +-----+
-2 |
-4 8 1 |
-6
-8 3 1 0
----+----+----+----+
Multiply Stem.Leaf by 10**-1

ANALISE DOS RESIDUOS

Univariate Procedure

Variable=RESIDUAL Residual

Normal Probability Plot
0.7+ ++*++
| +*++
| ++*++
| * *+*++*
-0.1+ * *++++
| +++++
| ++*+
| +++++
-0.9+ ++++ *
+----+----+----+----+----+----+----+----+----+----+
-2 -1 0 +1 +2

COMENTRIO:

A regresso linear de CR em funo unicamente do QI da criana bem
significativa. O modelo proposto CR=0.12 QI explica 99.65% da variabilidade do
CR. O grfico do resduos apresenta uma alternncia de sinais positivos e
negativos, indicando aleatoriedade. Para verificar a qualidade deste ajuste:
A hiptese de normalidade no deve ser rejeitada, pois Prob<W=0.35 alto. O
valor para a assimetria Skewness =-0.894, encontra-se dentro do intervalo de [-
1.26, 1.26], confirmando a hiptese testada.

3) Um proprietrio est interessado em analisar o efeito de seu ar condicionado
na sua conta de luz. Para isto ele tem registrado o nmero de horas de
utilizao do ar nos ltimos 21 dias. Ele tem monitorado o relgio de
eletricidade para estes dias e computado a quantidade de eletricidade
consumida, Killowat/Hora. Finalmente ele registrou o nmero de vezes que
sua secadora foi usada a cada dia. Crie um arquivo SAS com os registros
abaixo, relativos ao consumo de eletricidade do proprietrio.

CONSUMO NO_HORA
S
USO_SEC
35 1,5 1
63 4,5 2
66 5,0 2
17 2,0 0
94 8,5 3
Treinamento Sistema SAS Prof. Luis Felipe Lopes

97
79 6,0 3
93 13,5 1
66 8,0 1
94 12,5 1
82 7,5 2
78 6,5 3
65 8,0 1
77 7,5 2
75 9,0 2
62 7,5 1
85 12,0 1
43 6,0 0
57 2,5 3
33 5,0 0
65 7,5 1
33 6,0 0

Pede-se:

A) Obter um plot do Consumo X Nmero de Horas ar para verificar o efeito que o
ar condicionado tem no consumo de eletricidade.

B) Use a PROC CORR para obter o coeficiente de correlao entre o consumo e
o tempo de utilizao do ar.

C) Para verificar a forma de relacionamento entre as duas variveis acima
descritas utilize a anlise de regresso fazendo o ajuste de uma reta atravs
dos pontos obtidos no plot do item A.

D) Suponha que o proprietrio queira predizer o consumo em um dia que o ar seja
usado por 8 horas. Com a reta ajustada calcule o valor predito para o consumo
quando o Nmero de Horas ar =8

Treinamento Sistema SAS Prof. Luis Felipe Lopes

98
E) O plot do item A mostra que o valor do consumo para um dia de 8 horas de
utilizao de ar varia num range de 45 a 85 KWH,
dependendo de outros fatores que possam afetar o consumo
naquele dia . O proprietrio pode colocar limites de confiana
para um determinado valor predito, como o encontrado no
Item D. Estes limites fornecem um range provvel para
ocorrncia do no. de KWH consumido em um determinado
dia. Com a PROC REG riste os valores preditos do consumo
e os respectivos limites de predio .

F) Para melhor visualizao grfica do ajuste, obter um plot que contenha os
valores do no. de horas de utilizao do ar, os valores preditos e os limites de
predio a 95% de confiana para o consumo. (Utilize a opo overlay com o
comando plot da PROC REG para que os plotes saiam no mesmo grfico).

G) O proprietrio tambm registrou o no. de vezes que sua secadora foi utilizada
a cada dia . Esta varivel pode ser utilizada em adio ao no. de horas de ar
para predizer o valor do consumo de eletricidade ? Use a PROC REG para
ajustar um modelo de regresso mltipla para os dados acima.

OPTIONS FORMDLIM='*' LS=80;
DATA ENERGIA A;
INPUT CONSUMO NO_HORAS USO_SEC @@;
CARDS;
35 1.5 1 63 4.5 2 66 5.0 2 17 2.0 0
94 8.5 3 79 6.0 3 93 13.5 1 66 8.0 1
94 12.5 1 82 7.5 2 78 6.5 3 65 8.0 1
77 7.5 2 75 8.0 2 62 7.5 1 85 12.0 1
43 6.0 0 57 2.5 3 33 5.0 0 65 7.5 1
33 6.0 0
;
/* #############( A )################## */
PROC PLOT;
PLOT CONSUMO*NO_HORAS;
TITLE 'DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS';
RUN;
/* #############( B )################## */
PROC CORR;
VAR CONSUMO;
WITH NO_HORAS;
TITLE 'ANALISE DE CORRELACAO CONSUMO E NO HORAS';
RUN;
/* #############( C-E )############### */
PROC REG;
MODEL CONSUMO=NO_HORAS;
ID NO_HORAS;
VAR USO_SEC;
PLOT RESIDUAL.*PREDICTED.='*';
TITLE 'REGRESSAO LINEAR DO CONSUMO EM FUNCAO DO NO HORAS';
PRINT CLI;
TITLE 'LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO';
RUN;
/* #############( F )################## */
PLOT CONSUMO*NO_HORAS='O' P.*NO_HORAS='_'
L95.*NO_HORAS='L' U95.*NO_HORAS='U' /OVERLAY;
TITLE 'LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA';
RUN;
Treinamento Sistema SAS Prof. Luis Felipe Lopes

99
/* #############( G )################## */
PROC REG;
MODEL CONSUMO=NO_HORAS USO_SEC;
TITLE 'REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA';
RUN;

A)
DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS

Plot of CONSUMO*NO_HORAS. Legend: A = 1 obs, B = 2 obs, etc.

CONSUMO
|
|
95 + A A
93 + A
91 +
89 +
87 +
85 + A
83 + A
81 +
79 + A A
77 + A
75 + A
73 +
71 +
69 +
67 + A A
65 + A A
63 + A A
61 +
59 +
57 + A
55 +
53 +
51 +
49 +
47 +
45 +
43 + A
41 +
39 +
37 +
35 + A
33 + A A
31 +
29 +
27 +
25 +
23 +
21 +
19 +
17 + A
|
-+--------+--------+--------+---------+---------+---------+---------+
0 2 4 6 8 10 12 14
NO_HORAS
Treinamento Sistema SAS Prof. Luis Felipe Lopes

100
COMENTRIO:

O plote mostra uma tendncia crescente entre as variveis.

B)
ANALI SE DE CORRELACAO CONSUMO E NO HORAS

Cor r el at i on Anal ysi s

1 ' WI TH' Var i abl es: NO_HORAS
1 ' VAR' Var i abl es: CONSUMO

Si mpl e St at i st i cs

Var i abl e N Mean St d Dev Sum Mi ni mum Maxi mum

NO_HORAS 21 6. 92857 3. 13562 145. 50000 1. 50000 13. 50000
CONSUMO 21 64. 85714 21. 88444 1362 17. 00000 94. 00000

Pear son Cor r el at i on Coef f i ci ent s / Pr ob > | R| under Ho: Rho=0 / N = 21

CONSUMO

NO_HORAS 0. 76528
0. 0001

COMENTRIO:

O valor do Coef. Corr. Pearson=0.765 reflete a tendncia crescente mostrada no
plote, ou seja, quando h um aumento do uso do ar, h aumento no consumo de
energia.

C)

LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO

Model: MODEL1
Dependent Variable: CONSUMO

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Prob>F

Model 1 5609.66260 5609.66260 26.855 0.0001
Error 19 3968.90883 208.88994
C Total 20 9578.57143

Root MSE 14.45303 R-square 0.5856
Dep Mean 64.85714 Adj R-sq 0.5638
C.V. 22.28440

Treinamento Sistema SAS Prof. Luis Felipe Lopes

101
Parameter Estimates

Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 27.851072 7.80653827 3.568 0.0021
NO_HORAS 1 5.341082 1.03067009 5.182 0.0001

LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO

RESIDUAL
-+----+----+----+----+----+----+----+----+----+----+----+----+----+--
| |
30 + +
| |
| |
| |
| * |
20 + +
| * |
| * * |
| * |
| * * |
10 + +
| * |
| |
| * |
| |
0 + * +
| * * |
| * |
| * * |
| * * |
-10 + +
| |
| |
| * |
-20 + +
| * * |
| |
| * |
-30 + +
| |
-+----+----+----+----+----+----+----+----+----+----+----+----+----+--
35 40 45 50 55 60 65 70 75 80 85 90 95 100
Predicted Value of CONSUMO PRED

COMENTRIO:

O modelo de regresso obtido dado por:

CONSUMO = 27.85 + 5.341 NO_HORAS

E pode ser interpretado como: Quando NO_HORAS =0, h um nvel de consumo
mnimo estimado de energia de 27,85. A cada hora de uso de ar, o aumento
estimado do consumo de 5.341 kwh.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

102
D)

Os dados do arquivo contm 3 observaes com N0_HORAS =8, cujos valores
correspondentes para CONSUMO so 66, 65 e 75. Isso mostra a existncia de
um faixa de possveis valores de CONSUMO para um dado valor de NO_HORAS.
No modelo de regresso estimado, para o valor de NO_HORAS =8:

CONSUMO = 27.85 - 5.34 * 8 = 70,57.

E)

LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO

Dep Var Predict Std Err Lower95% Upper95%
Obs NO_HORAS CONSUMO Value Predict Predict Predict Residual

1 1.5 35.0000 35.8627 6.423 2.7597 68.9657 -0.8627
2 4.5 63.0000 51.8859 4.026 20.4834 83.2884 11.1141
3 5 66.0000 54.5565 3.728 23.3158 85.7971 11.4435
4 2 17.0000 38.5332 5.979 5.7963 71.2702 -21.5332
5 8.5 94.0000 73.2503 3.545 42.1028 104.4 20.7497
6 6 79.0000 59.8976 3.296 28.8704 90.9247 19.1024
7 13.5 93.0000 99.9557 7.471 65.9024 134.0 -6.9557
8 8 66.0000 70.5797 3.342 39.5312 101.6 -4.5797
9 12.5 94.0000 94.6146 6.551 61.4013 127.8 -0.6146
10 7.5 82.0000 67.9092 3.208 36.9223 98.8961 14.0908
11 6.5 78.0000 62.5681 3.185 31.5919 93.5443 15.4319
12 8 65.0000 70.5797 3.342 39.5312 101.6 -5.5797
13 7.5 77.0000 67.9092 3.208 36.9223 98.8961 9.0908
14 8 75.0000 70.5797 3.342 39.5312 101.6 4.4203
15 7.5 62.0000 67.9092 3.208 36.9223 98.8961 -5.9092
16 12 85.0000 91.9441 6.105 59.1057 124.8 -6.9441
17 6 43.0000 59.8976 3.296 28.8704 90.9247 -16.8976
18 2.5 57.0000 41.2038 5.548 8.8010 73.6065 15.7962
19 5 33.0000 54.5565 3.728 23.3158 85.7971 -21.5565
20 7.5 65.0000 67.9092 3.208 36.9223 98.8961 -2.9092
21 6 33.0000 59.8976 3.296 28.8704 90.9247 -26.8976

Sum of Residuals 0
Sum of Squared Residuals 3968.9088
Predicted Resid SS (Press) 4728.5664

COMENTRIO:

O intervalo de confiana para os valores preditos de AC dado por:

IC NO_HORAS =[ NO_HORAS ( t
tab
* S) ]

Para =0.05 (/2 =0.025 ), o valor da estatstica t consultado na Tabela de uma
Distribuio T de Student :

t (1-/2, 19) =t (0.975, 19) =2.09
Treinamento Sistema SAS Prof. Luis Felipe Lopes

103
Logo:

IC NO_HORAS =[ NO_HORAS ( 2.09 * 1.03 ) ]

F)

LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA

CONSUMO
--+----+---+---+----+----+----+----+----+----+----+----+----+----+---
140 + +
| U |
| |
| U |
| U |
| |
20 + +
| |
| |
| |
| U |
| U |
100 + U _ +
| |
| U O ? O |
| U _ |
| |
| U O |
| U O |
80 + O +
| O O |
| U O _ |
| U _ |
| U _ |
| O O O L |
| O _ O |
60 + _ L L +
| O |
| _ |
| _ |
| |
| O L |
40 + _ L +
| _ _ L |
| O O O |
| L |
| L |
| |
| L |
20 + L +
| O |
| |
| L |
| L |
| L |
0 + +
--+----+---+---+----+----+----+----+----+----+----+----+----+----+---
1 2 3 4 5 6 7 8 9 10 11 12 13 14
NO_HORAS
COMENTRIO:

Pode-se observar que todos os pontos reais e previstos esto dentro dos limites
de predio.


G)
REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA

Model: MODEL1
Treinamento Sistema SAS Prof. Luis Felipe Lopes

104
Dependent Variable: CONSUMO

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Prob>F

Model 2 9299.80154 4649.90077 300.241 0.0001
Error 18 278.76989 15.48722
C Total 20 9578.57143

Root MSE 3.93538 R-square 0.9709
Dep Mean 64.85714 Adj R-sq 0.9677
C.V. 6.06777

Parameter Estimates

Parameter Standard T for H0:
Variable DF Estimate Error Parameter=0 Prob > |T|

INTERCEP 1 8.105385 2.48085116 3.267 0.0043
NO_HORAS 1 5.465903 0.28075519 19.469 0.0001
USO_SEC 1 13.216600 0.85621937 15.436 0.0001

COMENTRIO:

Observa-se que:

SS(Erro) mltipla =278.76 <SS (Erro) simples

O modelo:

CONSUMO = 8.10 + 5.466 NO_HORAS + 13.217 USO_SEC

representa 97% da variabilidade do consumo de energia. O valor de 8,10
representa o nmero de kwh consumido num dia onde nem o ar e nem a
secadora so utilizados. O valor de 5,466 a estimativa de energia consumida
para cada hora de uso do ar, e 13,217 representa a estimativa de energia
consumida a cada vez que a secadora ligada.

4) Uma droga que mistura estimulante e relaxante administrada em 15 animais.
taxa de pulsao medida antes e depois da administrao da droga. O
propsito do experimento determinar se existe uma mudana na taxa de
pulsao com o uso da droga. Os dados so apresentados abaixo:
Treinamento Sistema SAS Prof. Luis Felipe Lopes

105

ANTES DEPOIS
62 61
63 62
58 51
64 61
64 63
51 58
68 61
66 64
65 64
66 62
67 68
69 65
61 60
64 65
61 63
63 62

OPTIONS FORMDLIM='*' LS=80;
DATA APT A;
INPUT ANIMAL ANTES DEPOIS @@;
DIF=DEPOIS-ANTES;
CARDS;
1 62 61 2 63 62 3 58 51 4 64 61 5 51 58 6 68 61
7 66 64 8 65 64 9 66 62 10 67 68 11 69 65 12 61 60
13 64 65 14 61 63 15 63 62
;
PROC UNIVARIATE;
VAR DIF;
TITLE 'TESTE PARA DIFERENCAS DE OBS. PAREADA';
RUN;

TESTE PARA DIFERENCAS DE OBS. PAREADA

Univariate Procedure

Variable=DIF

Moments

N 15 Sum Wgts 15
Mean -1.4 Sum -21
Std Dev 3.521363 Variance 12.4
Skewness 0.508266 Kurtosis 1.407817
USS 203 CSS 173.6
CV -251.526 Std Mean 0.909212
T:Mean=0 -1.53979 Pr>|T| 0.1459
Num ^= 0 15 Num > 0 4
M(Sign) -3.5 Pr>=|M| 0.1185
Sgn Rank -29.5 Pr>=|S| 0.0984

Treinamento Sistema SAS Prof. Luis Felipe Lopes

106
Quantiles(Def=5)

100% Max 7 99% 7
75% Q3 1 95% 7
50% Med -1 90% 2
25% Q1 -4 10% -7
0% Min -7 5% -7
1% -7
Range 14
Q3-Q1 5
Mode -1
Extremes

Lowest Obs Highest Obs
-7( 6) -1( 15)
-7( 3) 1( 10)
-4( 11) 1( 13)
-4( 9) 2( 14)
-3( 4) 7( 5)

Como Prob>|T|=0.0285<0.05. ao nvel de 5% de significncia h evidncias que a
diferena mdia da taxa de pulsao com a utilizao de droga difere de zero.

5) Um aparelho utilizado para testar a durabilidade de lmpadas submetidas a
diversas tenses. O aparelho consta de oito soquetes ligados em paralelo e de
um reostato ligado em srie com um gerador e oito soquetes. Oito lmpadas da
marca A e oito da B foram ensaiadas nesse aparelho, sob as mesmas
condies , fornecendo as seguintes duraes, em horas:

SOQUETE 1 2 3 4 5 6 7 8
Marca A 35 26 40 35 31 49 38 24
Marca B 23 28 31 35 36 30 27 26

Pode-se concordar, a um nvel de significncia de 1%, com os fabricantes da
marca A, que suas lmpadas tem durabilidade diferente das apresentadas pela
marca B ?

OPTIONS FORMDLIM='*' LS=80;
DATA LAMP A;
INPUT MARCA $ TEMPO @@;
CARDS;
A 35 B 23 A 26 B 28 A 40 B 31 A 35 B 35
A 31 B 36 A 49 B 30 A 38 B 27 A 24 B 26
;
PROC TTEST;
CLASS MARCA;
VAR TEMPO;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS';
RUN;

Treinamento Sistema SAS Prof. Luis Felipe Lopes

107
TESTE PARA IGUALDADE DE MEDIAS

TTEST PROCEDURE

Variable: TEMPO

MARCA N Mean Std Dev Std Error Minimum Maximum
-------------------------------------------------------------------------
A 8 34.75000000 7.99553447 2.82684832 24.00000000 49.00000000
B 8 29.50000000 4.44007722 1.56980436 23.00000000 36.00000000

Variances T DF Prob>|T|
---------------------------------------
Unequal 1.6236 10.9 0.1329
Equal 1.6236 14.0 0.1267

For H0: Variances are equal, F' = 3.24 DF = (7,7) Prob>F' = 0.1434

COMENTRIO:

As varincias no so significativamente diferentes ao nvel de 10% de
significncia, pois Prob>F=0.1434>. No teste de igualdade de mdias, na linha
(Variances=Equal), ao nvel de 1%, como foi estipulado no enunciado, no h
diferena significativa entre as mdias, uma vez que Prob>|T|=0.1265>(=0.01).

6) Duas amostras de carros produzidos em anos diferentes, do mesmo modelo e
fabricante, foram testados em iguais condies, quanto ao consumo de
combustvel em km/l a 80 Km/h, conforme mostrado na tabela abaixo. Deseja-
se saber se os carros produzidos nos anos I e II tem o mesmo consumo ao
nvel de 10% de significncia.

Consumo (km/l)

Ano I 13.01 13.00 12.95 12.97 13.01 12.93 12.94 12.96 12.97 12.94
Ano II 12.99 13.06 12.98 13.14 13.14

OPTIONS FORMDLIM='*' LS=80;
DATA CONSUMO A;
INPUT ANO $ CONSUMO @@;
CARDS;
I 13.01 I 13.00 I 12.95 I 12.97 I 13.01 I 12.93 I 12.94 I 12.96
I 12.97 I 12.94 II 12.99 II 13.06 II 12.98 II 13.14 II 13.14
;
PROC TTEST;
CLASS ANO;
VAR CONSUMO;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS';
RUN;

Treinamento Sistema SAS Prof. Luis Felipe Lopes

108
TESTE PARA IGUALDADE DE MEDIAS

TTEST PROCEDURE

Variable: CONSUMO

ANO N Mean Std Dev Std Error Minimum Maximum
------------------------------------------------------------------------
I 10 12.96800000 0.02973961 0.00940449 12.93000000 13.01000000
II 5 13.06200000 0.07758866 0.03469870 12.98000000 13.14000000

Variances T DF Prob>|T|
---------------------------------------
Unequal -2.6147 4.6 0.0521
Equal -3.4569 13.0 0.0043

For H0: Variances are equal, F' = 6.81 DF = (4,9) Prob>F' = 0.0166

COMENTRIO:

As varincias diferem significativamente ao nvel de 10% de significncia, pois
Prob>F=0.0166<. No teste de igualdade de mdias, na linha
(Variances=Equal), h indicao que o nvel mdio de consumo dos carros
produzidos nos anos I e II so diferentes ao nvel de 10% de significncia,
Prob>|T|=0.052<(= 0.10).

7) Dez culturas de fungo foram estudadas quanto a susceptibilidade de
crescimento devido exposio de luz permanente. O crescimento em termos
de dimetro mdio da cultura foi medido antes e aps o perodo de exposio
permanente de luz, durante 15 dias. A tabela abaixo mostra os resultados
obtidos nas 10 culturas durante o perodo. Ao nvel de 2.5% pode-se afirmar
que a luz permanente contribui para o crescimento das culturas de fungo?
Obter um grfico da distribuio dos valores da varivel DIF=DEPOIS-
ANTES.

DIAMETRO MDIO (CM)

CULTURA ANTES DEPOIS
1 6,4 6.4
2 7.0 7.1
3 6.6 6.8
4 5.6 5.6
5 6.0 6.1
6 7.5 7.4
7 7.0 7.1
8 5.8 5.9
9 6.3 6.4
10 6.7 6.8

Treinamento Sistema SAS Prof. Luis Felipe Lopes

109
OPTI ONS FORMDLI M=' *' LS=80;
DATA FUNGO A;
I NPUT CULTURA ANTES DEPOI S @@;
DI F=DEPOI S- ANTES;
CARDS;
1 6. 4 6. 4 2 7. 0 7. 1 3 6. 6 6. 8 4 5. 6 5. 6 5 6. 0 6. 1
6 7. 5 7. 4 7 7. 0 7. 1 8 5. 8 5. 9 9 6. 3 6. 4 10 6. 7 6. 8
;
PROC UNI VARI ATE;
VAR DI F;
TI TLE ' TESTE PARA DI FERENCA DE OBS. PAREADAS' ;
RUN;
PROC CHART;
VBAR DI F;
TI TLE ' GRAFI CO DE BARRAS PARA DI FERENCAS PAREADAS' ;
RUN;

TESTE PARA DI FERENCA DE OBS. PAREADAS

Uni var i at e Pr ocedur e

Var i abl e=DI F

Moment s

N 10 SumWgt s 10
Mean 0. 07 Sum 0. 7
St d Dev 0. 082327 Var i ance 0. 006778
Skewness - 0. 80646 Kur t osi s 1. 236995
USS 0. 11 CSS 0. 061
CV 117. 6104 St d Mean 0. 026034
T: Mean=0 2. 688774 Pr >| T| 0. 0248
Num^= 0 8 Num> 0 7
M( Si gn) 3 Pr >=| M| 0. 0703
Sgn Rank 12 Pr >=| S| 0. 1094

Quant i l es( Def =5)

100%Max 0. 2 99% 0. 2
75%Q3 0. 1 95% 0. 2
50%Med 0. 1 90% 0. 15
25%Q1 0 10% - 0. 05
0%Mi n - 0. 1 5% - 0. 1
1% - 0. 1
Range 0. 3
Q3- Q1 0. 1
Mode 0. 1

Ext r emes

Lowest Obs Hi ghest Obs
- 0. 1( 6) 0. 1( 7)
0( 4) 0. 1( 10)
0( 1) 0. 1( 8)
0. 1( 10) 0. 1( 9)
0. 1( 7) 0. 2( 3)
Treinamento Sistema SAS Prof. Luis Felipe Lopes

110
GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS

Frequency

6 + *****
| *****
| *****
5 + *****
| *****
| *****
4 + *****
| *****
| *****
3 + *****
| *****
| *****
2 + ***** *****
| ***** *****
| ***** *****
| ***** *****
| ***** *****
1 + ***** ***** ***** *****
| ***** ***** ***** *****
| ***** ***** ***** *****
| ***** ***** ***** *****
| ***** ***** ***** *****
--------------------------------------------------------
-0.1 0.0 0.1 0.2

DIF Midpoint

COMANTRIO:

Como o p-valor=0.0248<0.05, h evidncias de que a diferena mdia do
dimetro da cultura com a exposio de luz significativamente diferente de zero,
ou seja, a luz contribui para o crescimento das culturas. No plote das diferenas,
observa-se que a mais alta freqncia ocorre para valores superiores a 0.05.

8)
INSTITUTO DE PESQUISAS E EXPERIMENTAO AGROPECURIAS DO SUL
-
MODELOS DE ANLISE ESTATSTICA DE EXPERIMENTOS -
EXPERIMENTOS EM QUADRADO LATINO

Produo de Gros Secos em Gramas por Parcela de 5m
3


C O L U N A
1 2 3 4 5
F 1 1400
(4)
1207
(3)
1125
(2)
1335
(1)
1350
(5)
I 2 1235
(2)
1515
(1)
1137
(5)
1163
(4)
1090
(3)
L 3 1545
(1)
1212
(5)
1100
(4)
885
(3)
1206
(2)
A 4 1305
(3)
1295
(2)
1065
(1)
1110
(5)
1000
(4)
5 1293
(5)
1322
(4)
1118
(3)
1012
(2)
1303
(1)
Faa uma anlise de varincia com os dados acima: (PROC ANOVA)

OPTIONS FORMDLIM='*' LS=80;
DATA GRAO A;
Treinamento Sistema SAS Prof. Luis Felipe Lopes

111
INPUT FILA COL VARIED PROD @@;
CARDS;
1 1 4 1400 1 2 3 1207 1 3 2 1125 1 4 1 1335 1 5 5 1350
2 1 2 1235 2 2 1 1515 2 3 5 1137 2 4 4 1163 2 5 3 1090
3 1 1 1545 3 2 5 1212 3 3 4 1100 3 4 3 885 3 5 2 1206
4 1 3 1305 4 2 2 1295 4 3 1 1065 4 4 5 1110 4 5 4 1000
5 1 5 1293 5 2 4 1322 5 3 3 1118 5 4 2 1012 5 5 1 1303
;
PROC ANOVA;
CLASS FILA COL VARIED;
MODEL PROD=FILA COL VARIED;
TITLE 'ANALISE DE VARIANCIA';
RUN;

ANALISE DE VARIANCIA

Analysis of Variance Procedure
Class Level Information

Class Levels Values

FILA 5 1 2 3 4 5

COL 5 1 2 3 4 5

VARIED 5 1 2 3 4 5

Number of observations in data set = 25

*************************************************************************

ANALISE DE VARIANCIA

Analysis of Variance Procedure

Dependent Variable: PROD
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 12 462611.92000 38550.99333 3.60 0.0175

Error 12 128386.72000 10698.89333

Corrected Total 24 590998.64000

R-Square C.V. Root MSE PROD Mean

0.782763 8.526399 103.43545 1213.1200

Source DF Anova SS Mean Square F Value Pr > F

FILA 4 45521.04000 11380.26000 1.06 0.4161
COL 4 268403.84000 67100.96000 6.27 0.0058
VARIED 4 148687.04000 37171.76000 3.47 0.0418

COMENTRIO:

Hiptese Testada: No h diferena significativa no nivel mdio de produo
devido aos fatores fila (FILA), coluna (COL) e variedade
(VARIED) do gro plantado


Pr>F (FILA) =0.4161 >(=0.05)
Pr>F (COL) =0.0058 <(=0.05)
Pr>F (VARIED) =0.0418 <(=0.05)

Ao nvel de 5% o efeito coluna (COL) e variedade (VARIED) do gro so
significativos no nvel mdio de produo.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

112

9) Deseja-se determinar se h diferena significativa no percurso por galo obtido
com quatro tipos de gasolina A, B, C, D. O expediente realizado com quatro
carros diferentes, quatro motoristas diferentes, e em quatro estradas diferentes.

M O T O R I S T A S
C 1 2 3 4
A 1 B3 19 A2 16 D4 16 C1 14
R 2 A4 15 B1 18 C3 11 D2 15
R 3 D1 14 C4 11 B2 21 A3 16
O 4 C2 16 D3 16 A1 15 B4 23
S

TIPOS DE ESTRADA =1 2 3 4
TIPOS DE GASOLINA =A B C
D

Faa uma anlise de varincia com os dados acima: (PROC ANOVA)

OPTIONS FORMDLIM='*' LS=80;
DATA GAS A;
INPUT MOTOR CARRO GAS $ ESTR PERC @@;
CARDS;
1 1 B 3 19 1 2 A 2 16 1 3 D 4 16 1 4 C 1 14
2 1 A 4 15 2 2 B 1 18 2 3 C 3 11 2 4 D 2 15
3 1 D 1 14 3 2 C 4 11 3 3 B 2 21 3 4 A 3 16
4 1 C 2 16 4 2 D 3 16 4 3 A 1 15 4 4 B 4 23
;
PROC ANOVA;
CLASS MOTOR CARRO GAS ESTR;
MODEL PERC=MOTOR CARRO GAS ESTR;
TITLE 'ANALISE DE VARIANCIA';
RUN;

Treinamento Sistema SAS Prof. Luis Felipe Lopes

113
ANALISE DE VARIANCIA

Analysis of Variance Procedure
Class Level Information

Class Levels Values

MOTOR 4 1 2 3 4

CARRO 4 1 2 3 4

GAS 4 A B C D

ESTR 4 1 2 3 4

Number of observations in data set = 16

*************************************************************************

ANALISE DE VARIANCIA

Analysis of Variance Procedure

Dependent Variable: PERC
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 12 142.00000000 11.83333333 5.92 0.0848

Error 3 6.00000000 2.00000000

Corrected Total 15 148.00000000

R-Square C.V. Root MSE PERC Mean

0.959459 8.838835 1.4142136 16.000000

Source DF Anova SS Mean Square F Value Pr > F

MOTOR 3 16.50000000 5.50000000 2.75 0.2141
CARRO 3 6.50000000 2.16666667 1.08 0.4745
GAS 3 111.50000000 37.16666667 18.58 0.0193
ESTR 3 7.50000000 2.50000000 1.25 0.4294

COMENTRIO:

Hiptese Testada: No h diferena significativa no percurso por galo devido
aos diferentes tipos de gasolina.

Pr>F (MOTOR) =0.2141 >(=0.05) Pr>F (GAS) =0.0193 <(=0.05)
Pr>F (CARRO) =0.4745 >(=0.05) Pr>F (ESTR) =0.4294 >(=0.05)
Treinamento Sistema SAS Prof. Luis Felipe Lopes

114
Ao nvel de 1% nenhum efeito significativo no percurso de gasolina por galo.
J ao nvel de 5% h diferena significativa no percurso mdio por galo devido
ao tipo de gasolina utilizada.

10) O exerccio a seguir consiste na avaliao de trs planos de vendas com
cupons publicados nos jornais. Foi planejado um experimento com 3
tratamentos e 4 blocos. Os blocos representam os tamanhos das lojas bloco 1
as maiores de todas, bloco 2 as maiores seguintes, e assim por adiante. Os
tratamentos so as vendas realizadas no dia imediato da publicao dos
cupons nos jornais da cidade. Os resultados esto abaixo:

T R A T A M E N T O S
Tamanho
Loja
Plano
Cupom 1
Plano
Cupom 2
Plano
Cupom 3

Total
1 20 17 14 51
2 18 14 10 42
3 15 13 7 35
4 11 8 5 24
Total 64 62 36 152

BLOCO =Tamanho da Loja
TRATAMENTO =Plano

Faa uma anlise de varincia com os dados acima: (PROC GLM)

OPTIONS FORMDLIM='*' LS=80;
DATA PLANO A;
INPUT LOJA $ PLANO $ N_VENDAS @@;
CARDS;
T1 P1 20 T1 P2 17 T1 P3 14
T2 P1 18 T2 P2 14 T2 P3 10
T3 P1 15 T3 P2 13 T3 P3 7
T4 P1 11 T4 P2 8 T4 P3 5
;
PROC GLM;
CLASS LOJA PLANO;
MODEL N_VENDAS=LOJA PLANO;
TITLE 'ANALISE DE VARIANCIA';
RUN;

ANALISE DE VARIANCIA

General Linear Models Procedure
Class Level Information

Class Levels Values

LOJA 4 T1 T2 T3 T4

PLANO 3 P1 P2 P3

Number of observations in data set = 12

Treinamento Sistema SAS Prof. Luis Felipe Lopes

115
*************************************************************************

ANALISE DE VARIANCIA

General Linear Models Procedure

Dependent Variable: N_VENDAS
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 5 228.66666667 45.73333333 68.60 0.0001

Error 6 4.00000000 0.66666667

Corrected Total 11 232.66666667

R-Square C.V. Root MSE N_VENDAS Mean

0.982808 6.446026 0.8164966 12.666667

Source DF Type I SS Mean Square F Value Pr > F

LOJA 3 130.00000000 43.33333333 65.00 0.0001
PLANO 2 98.66666667 49.33333333 74.00 0.0001

Source DF Type III SS Mean Square F Value Pr > F

LOJA 3 130.00000000 43.33333333 65.00 0.0001
PLANO 2 98.66666667 49.33333333 74.00 0.0001

COMENTRIO:

Hiptese Testada: No h diferena significativa no volume de vendas nos
diferentes tamanhos de loja.

Pr>F (LOJ A) =0.0001 <(=0.01) Pr>F (PLANO) =0.0001 <(=0.01)

O baixo valor de Pr>F indica baixa probabilidade da hiptese testada ser
verdadeira, ou seja, aos nveis usuais de significncia (=1%), tanto o fator
tamanho da loja como o plano de vendas apresentam efeitos ponderveis sobre o
volume das vendas.

( Exerccios 11 e 12 - Ref. F. Pimentel Gomes )

11) Experimento Completamente Casualizado.

Considere um experimento de competio de cultivares de cana-de-acar,
completamente casualizado, com n=4 cultivares (A, B, C, D) e r =6 repeties,
com os seguintes resultados, em t/ha.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

116
CULTIVARES

Repeties A B C D
1 54 60 59 45
2 40 55 47 33
3 51 66 44 34
4 36 61 49 48
5 50 54 62 42
6 48 61 60 44

Obtenha a tabela de Anlise da Varincia para estes dados e compare as mdias
dos tratamentos, duas duas, utilizando para isso o Teste de Tukev no comando
MEANS da PROC ANOVA.

OPTIONS FORMDLIM='*' LS=80;
DATA CANA A;
INPUT CULTIV $ ALTURA @@;
CARDS;
A 54 B 60 C 59 D 45
A 40 B 55 C 47 D 33
A 51 B 66 C 44 D 34
A 36 B 61 C 49 D 48
A 50 B 54 C 62 D 42
A 48 B 61 C 60 D 44
;
PROC ANOVA;
CLASS CULTIV;
MODEL ALTURA=CULTIV;
MEANS CULTIV /TUKEY;
TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO';
RUN;

EXPERIMENTO COMPLETAMENTE CASUALIZADO

Analysis of Variance Procedure
Class Level Information

Class Levels Values

CULTIV 4 A B C D

Number of observations in data set = 24

*************************************************************************

EXPERIMENTO COMPLETAMENTE CASUALIZADO

Analysis of Variance Procedure

Dependent Variable: ALTURA
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 3 1174.1250000 391.3750000 9.47 0.0004

Error 20 826.5000000 41.3250000

Corrected Total 23 2000.6250000

R-Square C.V. Root MSE ALTURA Mean

0.586879 12.82484 6.4284524 50.125000

Source DF Anova SS Mean Square F Value Pr > F

CULTIV 3 1174.1250000 391.3750000 9.47 0.0004

*************************************************************************
Treinamento Sistema SAS Prof. Luis Felipe Lopes

117

EXPERIMENTO COMPLETAMENTE CASUALIZADO

Analysis of Variance Procedure

Tukey's Studentized Range (HSD) Test for variable: ALTURA

NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.

Alpha= 0.05 df= 20 MSE= 41.325
Critical Value of Studentized Range= 3.958
Minimum Significant Difference= 10.388

Means with the same letter are not significantly different.

Tukey Grouping Mean N CULTIV

A 59.500 6 B
A
B A 53.500 6 C
B
B C 46.500 6 A
C
C 41.000 6 D

COMENTRIO:

Analisando o R-Square observa-se que 58.69% da variao do modelo
explicado pela diferena entre os cultivares.

O p-valor dado por Pr>F=0.0004 bem menor que o nvel de significncia de
10%, donde se conclui que a mdia das alturas significativamente diferente para
os diferentes tipos de cultivares. Esta anlise pode ser vista tambm pelo Teste
de Tukey.

A mdia global (ALTURA Mean) das alturas 50.125.

O coeficiente de variao (C V) das alturas 12.825

Treinamento Sistema SAS Prof. Luis Felipe Lopes

118
12) Experimento com blocos casualizados.

Num experimento de competio de n=7 cultivares de milho, em r=4 blocos
casualizados, as produes, em km/ha, foram as da tabela abaixo:

Cultivares Bloco 1 Bloco 2 Bloco 3 Bloco 4
1 1920 2340 2100 1920
2 3110 3700 3640 3570
3 3260 3990 3420 3510
4 2540 2190 2010 2230
5 2270 2800 2820 2710
6 3000 3110 3000 3800
7 3310 3420 3640 230

A) Os dados se encontram no arquivo MILHO.SAS. Obtenha a tabela de Anlise
de Varincia ao nvel de 5% para testar se so iguais as mdias dos 7
tratamentos. Compare estas mdias par a par.

B) Analise os dados considerando que tenha sido perdido o cultivar nmero 7

C) Analise os dados considerando apenas os 3 primeiros blocos

OPTIONS FORMDLIM='*' LS=80;
DATA MILHO A;
INPUT BLOCO CULTIV PROD @@;
CARDS;
1 1 1920 2 1 2340 3 1 2100 4 1 1920
1 2 3110 2 2 3700 3 2 3640 4 2 3570
1 3 3260 2 3 3990 3 3 3420 4 3 3510
1 4 2540 2 4 2190 3 4 2010 4 4 2230
1 5 2270 2 5 2800 3 5 2820 4 5 2710
1 6 3000 2 6 3110 3 6 3000 4 6 3800
1 7 3310 2 7 3420 3 7 3640 4 7 2630
;
/* ############( A )############### */;
PROC ANOVA;
CLASS CULTIV BLOCO;
MODEL PROD=CULTIV BLOCO;
MEANS CULTIV BLOCO /TUKEY;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO';
RUN;
/* ############( B )############### */;
PROC ANOVA;
WHERE CULTIV NE 7;
CLASS CULTIV BLOCO;
MODEL PROD=CULTIV BLOCO;
MEANS CULTIV BLOCO /TUKEY;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7';
RUN;
/* ############( C )############### */;
PROC ANOVA;
WHERE BLOCO NE 4;
CLASS CULTIV BLOCO;
MODEL PROD=CULTIV BLOCO;
MEANS CULTIV BLOCO /TUKEY;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4';
RUN;
A)
EXPERIMENTO COM BLOCOS CASUALIZADO

Analysis of Variance Procedure
Class Level Information

Treinamento Sistema SAS Prof. Luis Felipe Lopes

119
Class Levels Values

CULTIV 7 1 2 3 4 5 6 7

BLOCO 4 1 2 3 4

Number of observations in data set = 28

*************************************************************************

EXPERIMENTO COM BLOCOS CASUALIZADO

Analysis of Variance Procedure

Dependent Variable: PROD
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 9 9093421.4286 1010380.1587 10.97 0.0001

Error 18 1658350.0000 92130.5556

Corrected Total 27 10751771.4286

R-Square C.V. Root MSE PROD Mean

0.845760 10.36950 303.53016 2927.1429

Source DF Anova SS Mean Square F Value Pr > F

CULTIV 6 8761421.4286 1460236.9048 15.85 0.0001
BLOCO 3 332000.0000 110666.6667 1.20 0.3377

*************************************************************************

EXPERIMENTO COM BLOCOS CASUALIZADO

Analysis of Variance Procedure

Tukey's Studentized Range (HSD) Test for variable: PROD

NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.

Alpha= 0.05 df= 18 MSE= 92130.56
Critical Value of Studentized Range= 4.673
Minimum Significant Difference= 709.22
Treinamento Sistema SAS Prof. Luis Felipe Lopes

120
Means with the same letter are not significantly different.

Tukey Grouping Mean N CULTIV

A 3545.0 4 3
A
A 3505.0 4 2
A
B A 3250.0 4 7
B A
B A 3227.5 4 6
B
B C 2650.0 4 5
C
C 2242.5 4 4
C
C 2070.0 4 1

*************************************************************************

EXPERIMENTO COM BLOCOS CASUALIZADO

Analysis of Variance Procedure

Tukey's Studentized Range (HSD) Test for variable: PROD

NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.

Alpha= 0.05 df= 18 MSE= 92130.56
Critical Value of Studentized Range= 3.997
Minimum Significant Difference= 458.55

Means with the same letter are not significantly different.

Tukey Grouping Mean N BLOCO

A 3078.6 7 2
A
A 2947.1 7 3
A
A 2910.0 7 4
A
A 2772.9 7 1

COMENTRIO:

Analisando o R-Square observa-se que 84.58% da variao do modelo
explicado pela diferena entre os cultivares.

O p-valor para a varivel CULTIV (Pr>F=0.0001) bem menor que o nvel de
significncia de 10%, donde se conclui que a mdia da produo (PROD)
significativamente diferente para os diferentes tipos de cultivares. Esta anlise
pode ser vista tambm pelo Teste de Tukey. O p-valor para a varivel BLOCO
(Pr>F=0.3377) maior o nvel de significncia de 10%, donde se conclui que a
mdia da produo (PROD) no significativamente diferente para os diferentes
tipos de blocos. Esta anlise pode ser vista tambm pelo Teste de Tukey.
A mdia global (ALTURA Mean) da produo 2927.14.


O coeficiente de variao (C V) da produo 10.37%.


B)

EXPERI MENTO COM BLOCOS CASUALI ZADO - EXCLUI NDO CULTI VAR = 7
Treinamento Sistema SAS Prof. Luis Felipe Lopes

121

Anal ysi s of Var i ance Pr ocedur e
Cl ass Level I nf or mat i on

Cl ass Level s Val ues

CULTI V 6 1 2 3 4 5 6

BLOCO 4 1 2 3 4

Number of obser vat i ons i n dat a set = 24

*************************************************************************

EXPERI MENTO COM BLOCOS CASUALI ZADO - EXCLUI NDO CULTI VAR = 7

Anal ysi s of Var i ance Pr ocedur e

Dependent Var i abl e: PROD
Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr > F

Model 8 8675683. 3333 1084460. 4167 15. 94 0. 0001

Er r or 15 1020650. 0000 68043. 3333

Cor r ect ed Tot al 23 9696333. 3333

R- Squar e C. V. Root MSE PROD Mean

0. 894739 9. 078347 260. 85117 2873. 3333

Sour ce DF Anova SS Mean Squar e F Val ue Pr > F

CULTI V 5 8274983. 3333 1654996. 6667 24. 32 0. 0001
BLOCO 3 400700. 0000 133566. 6667 1. 96 0. 1629

*************************************************************************

EXPERI MENTO COM BLOCOS CASUALI ZADO - EXCLUI NDO CULTI VAR = 7

Anal ysi s of Var i ance Pr ocedur e

Tukey' s St udent i zed Range ( HSD) Test f or var i abl e: PROD

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e, but
gener al l y has a hi gher t ype I I er r or r at e t han REGWQ.

Al pha= 0. 05 df = 15 MSE= 68043. 33
Cr i t i cal Val ue of St udent i zed Range= 4. 595
Mi ni mumSi gni f i cant Di f f er ence= 599. 27

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Tukey Gr oupi ng Mean N CULTI V

A 3545. 0 4 3
A
A 3505. 0 4 2
A
B A 3227. 5 4 6
B
B C 2650. 0 4 5
C
C 2242. 5 4 4
C
C 2070. 0 4 1

*************************************************************************

EXPERI MENTO COM BLOCOS CASUALI ZADO - EXCLUI NDO CULTI VAR = 7
Treinamento Sistema SAS Prof. Luis Felipe Lopes

122

Anal ysi s of Var i ance Pr ocedur e

Tukey' s St udent i zed Range ( HSD) Test f or var i abl e: PROD

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e, but
gener al l y has a hi gher t ype I I er r or r at e t han REGWQ.

Al pha= 0. 05 df = 15 MSE= 68043. 33
Cr i t i cal Val ue of St udent i zed Range= 4. 076
Mi ni mumSi gni f i cant Di f f er ence= 434. 06

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Tukey Gr oupi ng Mean N BLOCO

A 3021. 7 6 2
A
A 2956. 7 6 4
A
A 2831. 7 6 3
A
A 2683. 3 6 1

COMENTRIO:

Comparando o item (A) e (B) observa-se que o R-Square aumentou de 84.58%
para 89.47%.

O p-valor para a varivel CULTIV (Pr>F=0.0001) continuou o mesmo e para a
varivel BLOCO (Pr>F=0.1629) diminuiu, mas no significativamente.

A mdia global (ALTURA Mean) da produo diminuiu para 2873.33.

O coeficiente de variao (C V) da produo diminuiu para 9.078%.

C)

EXPERI MENTO COM BLOCOS CASUALI ZADO - EXCLUI NDO BLOCO = 4

Anal ysi s of Var i ance Pr ocedur e
Cl ass Level I nf or mat i on

Cl ass Level s Val ues

CULTI V 7 1 2 3 4 5 6 7

BLOCO 3 1 2 3

Number of obser vat i ons i n dat a set = 21
*************************************************************************

EXPERI MENTO COM BLOCOS CASUALI ZADO - EXCLUI NDO BLOCO = 4

Anal ysi s of Var i ance Pr ocedur e

Dependent Var i abl e: PROD
Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr > F

Model 8 6931152. 3810 866394. 0476 15. 53 0. 0001

Er r or 12 669276. 1905 55773. 0159

Cor r ect ed Tot al 20 7600428. 5714

Treinamento Sistema SAS Prof. Luis Felipe Lopes

123
R- Squar e C. V. Root MSE PROD Mean

0. 911942 8. 052322 236. 16311 2932. 8571

Sour ce DF Anova SS Mean Squar e F Val ue Pr > F

CULTI V 6 6601895. 2381 1100315. 8730 19. 73 0. 0001
BLOCO 2 329257. 1429 164628. 5714 2. 95 0. 0907

*************************************************************************

EXPERI MENTO COM BLOCOS CASUALI ZADO - EXCLUI DO BLOCO = 4

Anal ysi s of Var i ance Pr ocedur e

Tukey' s St udent i zed Range ( HSD) Test f or var i abl e: PROD

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e, but
gener al l y has a hi gher t ype I I er r or r at e t han REGWQ.

Al pha= 0. 05 df = 12 MSE= 55773. 02
Cr i t i cal Val ue of St udent i zed Range= 4. 949
Mi ni mumSi gni f i cant Di f f er ence= 674. 85

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Tukey Gr oupi ng Mean N CULTI V

A 3556. 7 3 3
A
A 3483. 3 3 2
A
A 3456. 7 3 7
A
B A 3036. 7 3 6
B
B C 2630. 0 3 5
C
C 2246. 7 3 4
C
C 2120. 0 3 1

*************************************************************************

EXPERI MENTO COM BLOCOS CASUALI ZADO - EXCLUI NDO BLOCO = 4

Anal ysi s of Var i ance Pr ocedur e

Tukey' s St udent i zed Range ( HSD) Test f or var i abl e: PROD

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e, but
gener al l y has a hi gher t ype I I er r or r at e t han REGWQ.

Al pha= 0. 05 df = 12 MSE= 55773. 02
Cr i t i cal Val ue of St udent i zed Range= 3. 773
Mi ni mumSi gni f i cant Di f f er ence= 336. 76

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Tukey Gr oupi ng Mean N BLOCO

A 3078. 6 7 2
A
A 2947. 1 7 3
A
A 2772. 9 7 1

COMENTRIO:

Treinamento Sistema SAS Prof. Luis Felipe Lopes

124
Comparando o item (A) e (C) observa-se que o R-Square aumentou de 84.58%
para 91.19%.

O p-valor para a varivel CULTIV (Pr>F=0.0001) continuou o mesmo e para a
varivel BLOCO (Pr>F=0.0907) diminuiu significativamente (<10%), o que
significa que a mdia da produo (PROD) significativamente diferente para os
diferentes tipos de BLOCOS.

A mdia global (ALTURA Mean) da produo aumentou para 2932.85.

O coeficiente de variao (C V) da produo diminuiu para 8.05%.

13) As variveis BLOCO e TRAT representam os fatores. As variveis CAMPO1 e
CAMPO2 representam as respostas do experimento, Use o comando MODEL
para obter uma anlise de varincia para cada uma das variveis
dependentes CAMPO1 e CAMPO2.Use =5 e 10%.

T R A T A M E N T O S
A B C
B 1 32.6 36.4 29.5
L 112 130 106
O 2 42.7 47.1 32.9
C 139 143 112
O 3 35.3 40.1 33.6
S 124 134 116

OPTIONS FORMDLIM='*' LS=80;
DATA CAMPO A;
INPUT BLOCO TRAT $ CAMPO1 CAMPO2 @@;
CARDS;
1 A 32.6 112 1 B 36.4 130 1 C 29.5 106
2 A 42.7 139 2 B 47.1 143 2 C 32.9 112
3 A 35.3 124 3 B 40.1 134 3 C 33.6 116
;
PROC ANOVA;
CLASS BLOCO TRAT;
MODEL CAMPO1 CAMPO2=BLOCO TRAT;
TITLE 'ANALISE DE VARIANCIA';
RUN;

ANALISE DE VARIANCIA

Analysis of Variance Procedure
Class Level Information

Class Levels Values

BLOCO 3 1 2 3

TRAT 3 A B C

Number of observations in data set = 9


*************************************************************************

ANALISE DE VARIANCIA

Analysis of Variance Procedure

Dependent Variable: CAMPO1
Treinamento Sistema SAS Prof. Luis Felipe Lopes

125
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 4 225.27777778 56.31944444 8.94 0.0283

Error 4 25.19111111 6.29777778

Corrected Total 8 250.46888889

R-Square C.V. Root MSE CAMPO1 Mean

0.899424 6.840047 2.5095374 36.688889

Source DF Anova SS Mean Square F Value Pr > F

BLOCO 2 98.17555556 49.08777778 7.79 0.0417
TRAT 2 127.10222222 63.55111111 10.09 0.0274

*************************************************************************

ANALISE DE VARIANCIA

Analysis of Variance Procedure

Dependent Variable: CAMPO2
Sum of Mean
Source DF Squares Square F Value Pr > F

Model 4 1247.3333333 311.8333333 8.28 0.0323

Error 4 150.6666667 37.6666667

Corrected Total 8 1398.0000000

R-Square C.V. Root MSE CAMPO2 Mean

0.892227 4.949450 6.1373175 124.00000

Source DF Anova SS Mean Square F Value Pr > F

BLOCO 2 354.66666667 177.33333333 4.71 0.0889
TRAT 2 892.66666667 446.33333333 11.85 0.0209

COMENTRIO:

CAMPO1

Analisando o R-Square (CAMPO1) observa-se que o 89.24% da variao do
modelo explicado pela diferena entre os blocos e entre os tratamentos.

O p-valor para a varivel BLOCO (Pr>F=0.0417) menor que os nveis de
significncia 5 e 10%, donde se conclui que a mdia do CAMPO1
significativamente diferente para os diferentes tipos de blocos. O p-valor para a
varivel TRAT (Pr>F=0.0274) menor que os nveis de significncia 5 e 10%,
donde se conclui que a mdia do CAMPO1 significativamente diferente para os
diferentes tipos de tratamentos.

A mdia global (CAMPO1 Mean) do CAMPO1 124.0.

O coeficiente de variao (C V) do CAMPO1 6.84%.

CAMPO2

Treinamento Sistema SAS Prof. Luis Felipe Lopes

126
Analisando o R-Square (CAMPO2) observa-se que 89.22% da variao do
modelo explicado pela diferena entre os blocos e entre os tratamentos.

O p-valor para a varivel BLOCO (Pr>F=0.0889) maior que os nivel de
significncia 5%, donde se conclui que a mdia do CAMPO2 no
significativamente diferente para os diferentes tipos de blocos, mas isso acontece
para =10%. O p-valor para a varivel TRAT (Pr>F=0.0209) menor que os
nveis de significncia 5 e 10%, donde se conclui que a mdia do CAMPO2
significativamente diferente para os diferentes tipos de tratamentos.

A mdia global (CAMPO2 Mean) do CAMPO2 36.689.

O coeficiente de variao (C V) do CAMPO2 4.95%.
Treinamento Sistema SAS Prof. Luis Felipe Lopes

127
13 EXEMPLO PRTICO

13.1 Banco de Dados

GRUPO IDADE PAS_INI PAD_INI PAS_FIM PAD_FIM PESO ESTAT
A 11,9 120 80 120 70 40,0 154,5
A 11,1 110 60 130 70 42,0 155,5
A 12,5 110 60 120 60 40,4 148,4
A 11,8 120 60 160 60 46,5 160,8
A 11,8 110 70 130 80 49,0 166,0
A 11,8 130 90 170 100 53,6 157,0
A 11,9 120 70 140 80 49,0 159,0
A 11,9 90 60 150 100 43,5 154,0
A 11,1 120 80 150 100 43,3 156,3
A 11,1 80 50 160 80 53,8 157,3
A 11,1 110 60 160 90 45,0 164,7
A 12,2 130 70 150 40 55,2 157,2
A 12,4 90 50 150 90 52,1 167,3
B 12,2 100 80 150 90 31,6 155,0
B 12,1 100 50 140 90 36,4 158,9
B 11,1 120 70 140 80 37,5 147,2
B 11,9 100 60 150 70 45,4 156,1
B 11,8 110 70 120 80 37,1 152,0
B 11,8 100 70 160 100 55,5 161,5
B 11,7 100 60 160 90 39,0 152,0
B 11,6 110 70 120 50 41,2 141,0
B 11,6 140 90 130 70 31,2 155,3
B 11,8 110 70 120 50 33,3 163,5
B 11,9 120 90 130 70 32,4 158,0
B 11,9 130 90 130 60 47,2 152,0
B 11,1 110 80 140 80 52,0 147,0
B 11,1 130 70 140 60 43,6 153,0
B 12,1 110 80 120 30 41,7 158,0
B 12,2 110 80 130 40 34,7 154,0

Treinamento Sistema SAS Prof. Luis Felipe Lopes

128
13.2 Anlise dos dados

TESTE DE NORMALI DADE - TESTE DE SHAPI RO- WI LK

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - GRUPO=A - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Uni var i at e Pr ocedur e

Var i abl e=I DADE

W: Nor mal 0. 874563 Pr <W 0. 0586

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk

Uni var i at e Pr ocedur e

Var i abl e=PAS_I N

W: Nor mal 0. 888869 Pr <W 0. 0920

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk

Var i abl e=PAD_I N

W: Nor mal 0. 918092 Pr <W 0. 2279

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk

Var i abl e=PAD_FI

W: Nor mal 0. 920703 Pr <W 0. 2466

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk

Var i abl e=PAS_FI

W: Nor mal 0. 930316 Pr <W 0. 3279

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk

Var i abl e=PESO

W: Nor mal 0. 932284 Pr <W 0. 3471

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk

Var i abl e=ESTAT

W: Nor mal 0. 946241 Pr <W 0. 5094

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk
Treinamento Sistema SAS Prof. Luis Felipe Lopes

129
---------------------------------- GRUPO=B ------------------------------------

Uni var i at e Pr ocedur e

Var i abl e=I DADE

W: Nor mal 0. 878959 Pr <W 0. 0375

Anlise: Esta varivel NO segue uma distribuio Normal (p < 0,05)
Teste de Shapiro-Wilk

Var i abl e=PAS_I N

Moment s
W: Nor mal 0. 859048 Pr <W 0. 0181

Anlise: Esta varivel NO segue uma distribuio Normal (p < 0,05)
Teste de Shapiro-Wilk

Var i abl e=PAD_I N

W: Nor mal 0. 92103 Pr <W 0. 1767

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk

Var i abl e=PAD_FI

W: Nor mal 0. 902441 Pr <W 0. 0893

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk

W: Nor mal 0. 959803 Pr <W 0. 6350

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk

Var i abl e=PESO

W: Nor mal 0. 935181 Pr <W 0. 2925

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk

Var i abl e=ESTAT

W: Nor mal 0. 966555 Pr <W 0. 7506

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)
Teste de Shapiro-Wilk

Treinamento Sistema SAS Prof. Luis Felipe Lopes

130
Concluso do Teste de Normalidade

As variveis que devero ser analisadas por uma Anlise de varincia (para os
dois grupos as variveis esto normalizadas) so:

PAD_IN PAS_FI PAD_FI PESO ESTAT FCREP FLEX

As demais devero ser analisadas por Testes No Paramtricos (Teste de
Kruskal-Wallis) para variveis independentes.

IDADE PAS_IN

*******************************************************************************

ANALI SE DE VARI ANCI A - DADOS PARAMTRI COS

Anal ysi s of Var i ance Pr ocedur e
Cl ass Level I nf or mat i on

Cl ass Level s Val ues

GRUPO 2 A B


Number of obser vat i ons i n dat a set = 29

ANALI SE DE VARI ANCI A - DADOS

Anal ysi s of Var i ance Pr ocedur e

Dependent Var i abl e: PAD_IN
Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr > F

Model 1 413. 85941645 413. 85941645 3. 03 0. 0929

Er r or 27 3682. 69230769 136. 39601140

Cor r ect ed Tot al 28 4096. 55172414

R- Squar e C. V. Root MSE PAD_I N Mean

0. 101026 16. 60232 11. 678870 70. 344828



GRUPO 1 413. 85941645 413. 85941645 3. 03 0. 0929

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Dependent Var i abl e: PAS_FI
Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr > F

Model 1 592. 19164456 592. 19164456 1. 62 0. 2138

Er r or 27 9862. 98076923 365. 29558405

Cor r ect ed Tot al 28 10455. 17241379

R- Squar e C. V. Root MSE PAS_FI Mean

0. 056641 26. 02200 19. 112707 73. 448276


Treinamento Sistema SAS Prof. Luis Felipe Lopes

131
Sour ce DF Anova SS Mean Squar e F Val ue Pr > F

GRUPO 1 592. 19164456 592. 19164456 1. 62 0. 2138

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Dependent Var i abl e: PAD_FI
Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr > F

Model 1 598. 47480106 598. 47480106 2. 74 0. 1095

Er r or 27 5898. 07692308 218. 44729345

Cor r ect ed Tot al 28 6496. 55172414

R- Squar e C. V. Root MSE PAD_FI Mean

0. 092122 10. 53118 14. 779963 140. 34483


Sour ce DF Anova SS Mean Squar e F Val ue Pr > F

GRUPO 1 598. 47480106 598. 47480106 2. 74 0. 1095

******************************************************************************

ANALI SE DE VARI ANCI A - DADOS PARAMTRI COS

Anal ysi s of Var i ance Pr ocedur e

Dependent Var i abl e: PESO
Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr > F

Model 1 371. 52005968 371. 52005968 8. 89 0. 0060

Er r or 27 1128. 25442308 41. 78720085

Cor r ect ed Tot al 28 1499. 77448276

R- Squar e C. V. Root MSE PESO Mean

0. 247717 14. 95889 6. 4643020 43. 213793


Sour ce DF Anova SS Mean Squar e F Val ue Pr > F

GRUPO 1 371. 52005968 371. 52005968 8. 89 0. 0060

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Dependent Var i abl e: ESTAT
Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr > F

Model 1 131. 16880802 131. 16880802 4. 31 0. 0475

Er r or 27 821. 50360577 30. 42605947

Cor r ect ed Tot al 28 952. 67241379

R- Squar e C. V. Root MSE ESTAT Mean

0. 137685 3. 537059 5. 5159822 155. 94828


Treinamento Sistema SAS Prof. Luis Felipe Lopes

132
Sour ce DF Anova SS Mean Squar e F Val ue Pr > F

GRUPO 1 131. 16880802 131. 16880802 4. 31 0. 0475

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Duncan' s Mul t i pl e Range Test f or var i abl e: PAD_I N

NOTE: Thi s t est cont r ol s t he t ype I compar i sonwi se er r or r at e, not
t he exper i ment wi se er r or r at e

Al pha= 0. 05 df = 27 MSE= 136. 396
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Number of Means 2
Cr i t i cal Range 8. 948

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Duncan Gr oupi ng Mean N GRUPO

A 73. 750 16 B
A
A 66. 154 13 A

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Tukey' s St udent i zed Range ( HSD) Test f or var i abl e: PAD_I N

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e, but
gener al l y has a hi gher t ype I I er r or r at e t han REGWQ.

Al pha= 0. 05 df = 27 MSE= 136. 396
Cr i t i cal Val ue of St udent i zed Range= 2. 902
Mi ni mumSi gni f i cant Di f f er ence= 8. 9477
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Tukey Gr oupi ng Mean N GRUPO

A 73. 750 16 B
A
A 66. 154 13 A

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Schef f e' s t est f or var i abl e: PAD_I N

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e but
gener al l y has a hi gher t ype I I er r or r at e t han REGWF f or al l
pai r wi se compar i sons

Al pha= 0. 05 df = 27 MSE= 136. 396
Cr i t i cal Val ue of F= 4. 21001
Mi ni mumSi gni f i cant Di f f er ence= 8. 9477
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Schef f e Gr oupi ng Mean N GRUPO

Treinamento Sistema SAS Prof. Luis Felipe Lopes

133
A 73. 750 16 B
A
A 66. 154 13 A

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Duncan' s Mul t i pl e Range Test f or var i abl e: PAS_FI

NOTE: Thi s t est cont r ol s t he t ype I compar i sonwi se er r or r at e, not
t he exper i ment wi se er r or r at e

Al pha= 0. 05 df = 27 MSE= 365. 2956
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Number of Means 2
Cr i t i cal Range 14. 64

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Duncan Gr oupi ng Mean N GRUPO

A 78. 462 13 A
A
A 69. 375 16 B

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Tukey' s St udent i zed Range ( HSD) Test f or var i abl e: PAS_FI

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e, but
gener al l y has a hi gher t ype I I er r or r at e t han REGWQ.

Al pha= 0. 05 df = 27 MSE= 365. 2956
Cr i t i cal Val ue of St udent i zed Range= 2. 902
Mi ni mumSi gni f i cant Di f f er ence= 14. 643
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Tukey Gr oupi ng Mean N GRUPO

A 78. 462 13 A
A
A 69. 375 16 B

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Schef f e' s t est f or var i abl e: PAS_FI

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e but
gener al l y has a hi gher t ype I I er r or r at e t han REGWF f or al l
pai r wi se compar i sons

Al pha= 0. 05 df = 27 MSE= 365. 2956
Cr i t i cal Val ue of F= 4. 21001
Mi ni mumSi gni f i cant Di f f er ence= 14. 643
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483


Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Schef f e Gr oupi ng Mean N GRUPO
Treinamento Sistema SAS Prof. Luis Felipe Lopes

134

A 78. 462 13 A
A
A 69. 375 16 B

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Duncan' s Mul t i pl e Range Test f or var i abl e: PAD_FI

NOTE: Thi s t est cont r ol s t he t ype I compar i sonwi se er r or r at e, not
t he exper i ment wi se er r or r at e

Al pha= 0. 05 df = 27 MSE= 218. 4473
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Number of Means 2
Cr i t i cal Range 11. 32

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Duncan Gr oupi ng Mean N GRUPO

A 145. 385 13 A
A
A 136. 250 16 B

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Tukey's Studentized Range (HSD) Test for variable: PAD_FI

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e, but
gener al l y has a hi gher t ype I I er r or r at e t han REGWQ.

Al pha= 0. 05 df = 27 MSE= 218. 4473
Cr i t i cal Val ue of St udent i zed Range= 2. 902
Mi ni mumSi gni f i cant Di f f er ence= 11. 324
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Tukey Gr oupi ng Mean N GRUPO

A 145. 385 13 A
A
A 136. 250 16 B

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Schef f e' s t est f or var i abl e: PAD_FI

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e but
gener al l y has a hi gher t ype I I er r or r at e t han REGWF f or al l
pai r wi se compar i sons

Al pha= 0. 05 df = 27 MSE= 218. 4473
Cr i t i cal Val ue of F= 4. 21001
Mi ni mumSi gni f i cant Di f f er ence= 11. 324
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Treinamento Sistema SAS Prof. Luis Felipe Lopes

135
Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Schef f e Gr oupi ng Mean N GRUPO

A 145. 385 13 A
A
A 136. 250 16 B

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Duncan' s Mul t i pl e Range Test f or var i abl e: PESO

NOTE: Thi s t est cont r ol s t he t ype I compar i sonwi se er r or r at e, not
t he exper i ment wi se er r or r at e

Al pha= 0. 05 df = 27 MSE= 41. 7872
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Number of Means 2
Cr i t i cal Range 4. 953

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Duncan Gr oupi ng Mean N GRUPO

A 47. 185 13 A

B 39. 988 16 B

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Tukey' s St udent i zed Range ( HSD) Test f or var i abl e: PESO

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e, but
gener al l y has a hi gher t ype I I er r or r at e t han REGWQ.

Al pha= 0. 05 df = 27 MSE= 41. 7872
Cr i t i cal Val ue of St udent i zed Range= 2. 902
Mi ni mumSi gni f i cant Di f f er ence= 4. 9526
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Tukey Gr oupi ng Mean N GRUPO

A 47. 185 13 A

B 39. 988 16 B

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Schef f e' s t est f or var i abl e: PESO

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e but
gener al l y has a hi gher t ype I I er r or r at e t han REGWF f or al l
pai r wi se compar i sons

Al pha= 0. 05 df = 27 MSE= 41. 7872
Cr i t i cal Val ue of F= 4. 21001
Treinamento Sistema SAS Prof. Luis Felipe Lopes

136
Mi ni mumSi gni f i cant Di f f er ence= 4. 9526
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Schef f e Gr oupi ng Mean N GRUPO

A 47. 185 13 A

B 39. 988 16 B

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Duncan' s Mul t i pl e Range Test f or var i abl e: ESTAT

NOTE: Thi s t est cont r ol s t he t ype I compar i sonwi se er r or r at e, not
t he exper i ment wi se er r or r at e

Al pha= 0. 05 df = 27 MSE= 30. 42606
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Number of Means 2
Cr i t i cal Range 4. 226

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Duncan Gr oupi ng Mean N GRUPO

A 158. 308 13 A

B 154. 031 16 B

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Tukey' s St udent i zed Range ( HSD) Test f or var i abl e: ESTAT

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e, but
gener al l y has a hi gher t ype I I er r or r at e t han REGWQ.

Al pha= 0. 05 df = 27 MSE= 30. 42606
Cr i t i cal Val ue of St udent i zed Range= 2. 902
Mi ni mumSi gni f i cant Di f f er ence= 4. 226
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Tukey Gr oupi ng Mean N GRUPO

A 158. 308 13 A

B 154. 031 16 B

*******************************************************************************

Anal ysi s of Var i ance Pr ocedur e

Schef f e' s t est f or var i abl e: ESTAT

NOTE: Thi s t est cont r ol s t he t ype I exper i ment wi se er r or r at e but
gener al l y has a hi gher t ype I I er r or r at e t han REGWF f or al l
Treinamento Sistema SAS Prof. Luis Felipe Lopes

137
pai r wi se compar i sons

Al pha= 0. 05 df = 27 MSE= 30. 42606
Cr i t i cal Val ue of F= 4. 21001
Mi ni mumSi gni f i cant Di f f er ence= 4. 226
WARNI NG: Cel l si zes ar e not equal .
Har moni c Mean of cel l si zes= 14. 34483

Means wi t h t he same l et t er ar e not si gni f i cant l y di f f er ent .

Schef f e Gr oupi ng Mean N GRUPO

A 158. 308 13 A

B 154. 031 16 B

*******************************************************************************

N P A R 1 WA Y P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable IDADE
Cl assi f i ed by Var i abl e GRUPO


Sumof Expect ed St d Dev Mean
GRUPO N Scor es Under H0 Under H0 Scor e

A 13 202. 500000 195. 0 22. 5578621 15. 5769231
B 16 232. 500000 240. 0 22. 5578621 14. 5312500
Aver age Scor es Wer e Used f or Ti es


Wi l coxon 2- Sampl e Test ( Nor mal Appr oxi mat i on)
( wi t h Cont i nui t y Cor r ect i on of . 5)

S = 202. 500 Z = 0. 310313 Pr ob > | Z| = 0. 7563

T- Test Appr ox. Si gni f i cance = 0. 7586

Kruskal-Wallis Test (Chi-Square Approximation)
CHISQ = 0.11054 DF = 1 Prob > CHISQ = 0.7395

*******************************************************************************

TESTE NAO PARAMETRI CO - WI LCOXON

N P A R 1 WA Y P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable PAS_IN
Cl assi f i ed by Var i abl e GRUPO

Sumof Expect ed St d Dev Mean
GRUPO N Scor es Under H0 Under H0 Scor e

A 13 199. 0 195. 0 22. 1452883 15. 3076923
B 16 236. 0 240. 0 22. 1452883 14. 7500000
Aver age Scor es Wer e Used f or Ti es

Wi l coxon 2- Sampl e Test ( Nor mal Appr oxi mat i on)
( wi t h Cont i nui t y Cor r ect i on of . 5)

S = 199. 000 Z = 0. 158047 Pr ob > | Z| = 0. 8744

T- Test Appr ox. Si gni f i cance = 0. 8756

Kruskal-Wallis Test (Chi-Square Approximation)
CHISQ = 0.03263 DF = 1 Prob > CHISQ = 0.8567
*******************************************************************************

ANALI SE DE CORRELAO - POR GRUPO

Treinamento Sistema SAS Prof. Luis Felipe Lopes

138
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - GRUPO=A - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Cor r el at i on Anal ysi s

Pear son Cor r el at i on Coef f i ci ent s / Pr ob > | R| under Ho: Rho=0 / N = 13

I DADE PAS_I N PAD_I N PAD_FI PAS_FI PESO ESTAT

I DADE 1. 00000 0. 11355 - 0. 01829 - 0. 29866 - 0. 35359 0. 11772 - 0. 09825
0. 0 0. 7119 0. 9527 0. 3216 0. 2359 0. 7017 0. 7495

PAS_I N 0. 11355 1. 00000 0.78224 - 0. 05119 - 0. 32011 - 0. 03421 - 0. 14034
0. 7119 0. 0 0. 0016 0. 8681 0. 2863 0. 9116 0. 6475

PAD_I N - 0. 01829 0.78224 1. 00000 - 0. 01332 0. 16250 - 0. 03653 - 0. 21510
0. 9527 0. 0016 0. 0 0. 9655 0. 5958 0. 9057 0. 4803

PAD_FI - 0. 29866 - 0. 05119 - 0. 01332 1. 00000 0. 37142 0. 61683 0. 35160
0. 3216 0. 8681 0. 9655 0. 0 0. 2115 0. 0247 0. 2388

PAS_FI - 0. 35359 - 0. 32011 0. 16250 0. 37142 1. 00000 - 0. 03737 0. 22572
0. 2359 0. 2863 0. 5958 0. 2115 0. 0 0. 9035 0. 4584

PESO 0. 11772 - 0. 03421 - 0. 03653 0.61683 - 0. 03737 1. 00000 0. 45355
0. 7017 0. 9116 0. 9057 0. 0247 0. 9035 0. 0 0. 1196

ESTAT - 0. 09825 - 0. 14034 - 0. 21510 0. 35160 0. 22572 0. 45355 1. 00000
0. 7495 0. 6475 0. 4803 0. 2388 0. 4584 0. 1196 0. 0

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - GRUPO=B - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Cor r el at i on Anal ysi s

7 ' VAR' Var i abl es: I DADE PAS_I N PAD_I N PAD_FI PAS_FI PESO
ESTAT

Si mpl e St at i st i cs

Pear son Cor r el at i on Coef f i ci ent s / Pr ob > | R| under Ho: Rho=0 / N = 16

I DADE PAS_I N PAD_I N PAD_FI PAS_FI PESO ESTAT

I DADE 1. 00000 - 0. 41854 0. 02114 - 0. 08451 - 0. 15240 - 0. 32680 0.52205
0. 0 0. 1066 0. 9381 0. 7557 0. 5731 0. 2167 0. 0381

PAS_I N - 0. 41854 1. 00000 0.63341 - 0. 41562 - 0. 31914 - 0. 16878 - 0. 17507
0. 1066 0. 0 0. 0084 0. 1094 0. 2283 0. 5320 0. 5167

PAD_I N 0. 02114 0.63341 1. 00000 - 0. 37376 - 0. 34073 - 0. 12430 - 0. 05596
0. 9381 0. 0084 0. 0 0. 1538 0. 1966 0. 6465 0. 8369

PAD_FI - 0. 08451 - 0. 41562 - 0. 37376 1. 00000 0.73254 0. 36355 0. 12034
0. 7557 0. 1094 0. 1538 0. 0 0. 0012 0. 1663 0. 6571

PAS_FI - 0. 15240 - 0. 31914 - 0. 34073 0.73254 1. 00000 0. 16864 0. 05036
0. 5731 0. 2283 0. 1966 0. 0012 0. 0 0. 5324 0. 8530

PESO - 0. 32680 - 0. 16878 - 0. 12430 0. 36355 0. 16864 1. 00000 - 0. 14503
0. 2167 0. 5320 0. 6465 0. 1663 0. 5324 0. 0 0. 5920

ESTAT 0. 52205 - 0. 17507 - 0. 05596 0. 12034 0. 05036 - 0. 14503 1. 00000
0. 0381 0. 5167 0. 8369 0. 6571 0. 8530 0. 5920 0. 0
Treinamento Sistema SAS Prof. Luis Felipe Lopes

139
REFERNCIAS BIBLIOGRFICAS


BUSSAB, W.O.; MORETTIN, P.A. (1981) Estatstica Bsica. So Paulo: Atual
Editora.

COSTA NETO, Pedro L. O. Estatstica. So Paulo: Mc Graw-Hill do Brasil.

FONSECA, J .S.; MARTINS, G.A. (1993) Curso de Estatstica. So Paulo: Ed.
Atlas.

FONSECA, J .S.; MARTINS, G.A.; TOLEDO, G.L. (1991) Estatstica Aplicada.
So Paulo: Ed. Atlas.

Manuais do SAS/BASIC. Vol. I e II.

Manuais do SAS/STAT.

STEVENSON, W.J . (1981) Estatstica Aplicada Administrao. So Paulo:
Ed. Harbra.

VIEIRA, S.; HOFFMANN R. (1989) Estatstica Experimental. So Paulo: Ed.
Atlas.


Treinamento Sistema SAS Prof. Luis Felipe Lopes

140



























A N E X O S

Treinamento Sistema SAS Prof. Luis Felipe Lopes

141
ANEXO 1 - ANLISE DE NORMALIDADE USANDO A TABELA DE
ASSIMENTRIA E CURTOSE - Skewness and Kurtosis

Intervalo de confiana de 95%


n Skewness Kurtosis n Skewness Kurtosis

5 -1.81 1.81 . . 38 -0.69 0.69 -0.99 1.87
6 -1.70 1.70 . . 39 -0.68 0.68 -0.98 1.85
7 -1.57 1.57 -0.87 1.54 40 -0.67 0.67 -0.97 1.83
8 -1.45 1.45 -0.89 1.68 41 -0.67 0.67 -0.96 1.81
9 -1.37 1.37 -0.90 1.79 42 -0.66 0.66 -0.95 1.79
10 -1.31 1.31 -0.92 1.85 43 -0.65 0.65 -0.95 1.77
11 -1.26 1.26 . . 44 -0.64 0.64 -0.94 1.75
12 -1.21 1.21 -0.93 1.93 45 -0.63 0.63 -0.93 1.73
13 -1.17 1.17 . . 46 -0.63 0.63 -0.92 1.71
14 -1.13 1.13 . . 47 -0.62 0.62 -0.91 1.69
15 -1.09 1.09 -0.94 1.95 48 -0.61 0.61 -0.91 1.68
16 -1.06 1.06 . . 49 -0.61 0.61 -0.90 1.66
17 -1.03 1.03 . . 50 -0.60 0.60 -0.89 1.64
18 -1.00 1.00 . . 51 -0.59 0.59 -0.88 1.63
19 -0.98 0.98 . . 52 -0.59 0.59 -0.88 1.61
20 -0.95 0.95 . . 53 -0.58 0.58 -0.87 1.60
21 -0.93 0.93 -1.27 2.44 54 -0.58 0.58 -0.87 1.58
22 -0.91 0.91 -1.25 2.39 55 -0.57 0.57 -0.86 1.57
23 -0.89 0.89 -1.22 2.34 56 -0.57 0.57 -0.85 1.56
24 -0.87 0.87 -1.20 2.30 57 -0.56 0.56 -0.85 1.54
25 -0.85 0.85 -1.18 2.26 58 -0.56 0.56 -0.84 1.53
26 -0.84 0.84 -1.16 2.22 59 -0.55 0.55 -0.84 1.52
27 -0.82 0.82 -1.14 2.18 60 -0.55 0.55 -0.83 1.50
28 -0.81 0.81 -1.12 2.15 61 -0.54 0.54 -0.83 1.49
29 -0.79 0.79 -1.11 2.12 62 -0.54 0.54 -0.82 1.48
30 -0.78 0.78 -1.09 2.08 63 -0.53 0.53 -0.82 1.47
31 -0.77 0.77 -1.08 2.05 64 -0.53 0.53 -0.81 1.46
32 -0.76 0.76 -1.06 2.03 65 -0.52 0.52 -0.81 1.45
33 -0.74 0.74 -1.05 2.00 66 -0.52 0.52 -0.80 1.43
34 -0.73 0.73 -1.04 1.97 67 -0.51 0.51 -0.80 1.42
35 -0.72 0.72 -1.03 1.94 68 -0.51 0.51 -0.79 1.41
36 -0.71 0.71 -1.01 1.92 69 -0.51 0.51 -0.79 1.40
37 -0.70 0.70 -1.00 1.90 70 -0.50 0.50 -0.78 1.39

Treinamento Sistema SAS Prof. Luis Felipe Lopes

142






n Skewness Kurtosis n Skewness Kurtosis
71 -0.50 0.50 -0.78 1.38 110 -0.39 0.39 -0.66 1.11
72 -0.50 0.50 -0.78 1.37 111 -0.39 0.39 -0.66 1.10
73 -0.49 0.49 -0.77 1.36 112 -0.39 0.39 -0.66 1.09
74 -0.49 0.49 -0.77 1.35 113 -0.39 0.39 -0.65 1.09
75 -0.48 0.48 -0.76 1.35 114 -0.39 0.39 -0.65 1.08
76 -0.48 0.48 -0.76 1.34 115 -0.38 0.38 -0.65 1.08
77 -0.48 0.48 -0.76 1.33 117 -0.38 0.38 -0.65 1.07
78 -0.47 0.47 -0.75 1.32 118 -0.38 0.38 -0.64 1.07
79 -0.47 0.47 -0.75 1.31 119 -0.38 0.38 -0.64 1.06
80 -0.47 0.47 -0.75 1.30 121 -0.37 0.37 -0.64 1.05
81 -0.46 0.46 -0.74 1.29 123 -0.37 0.37 -0.63 1.04
83 -0.46 0.46 -0.74 1.28 125 -0.37 0.37 -0.63 1.03
84 -0.46 0.46 -0.73 1.27 127- -0.36 0.36 -0.63 1.02
85 -0.45 0.45 -0.73 1.26 128 -0.36 0.36 -0.62 1.02
86 -0.45 0.45 -0.73 1.26 129 -0.36 0.36 -0.62 1.01
87 -0.45 0.45 -0.72 1.25 130 -0.36 0.36 -0.62 1.01
88 -0.44 0.44 -0.72 1.24 132 -0.36 0.36 -0.62 1.00
89 -0.44 0.44 -0.72 1.23 133 -0.35 0 35 -0.62 1.00
90 -0.44 0.44 -0.71 1.23 134 -0.35 0 35 -0.61 1.00
91 -0.44 0.44 -0.71 1.22 135 -0.35 0 35 -0.61 0.99
92 -0.43 0.43 -0.71 1.21 137 -0.35 0 35 -0.61 0.98
93 -0.43 0.43 -0.70 1.21 140 -0.34 0 34 -0.60 0.97
94 -0.43 0.43 -0.70 1.20 143 -0.34 0 34 -0.60 0.96
95 -0.43 0.43 -0.70 1.19 146 -0.34 0 34 -0.59 0.95
96 -0.42 0.42 -0.70 1.19 148 -0.33 0 33 -0.59 0.95
97 -0.42 0.42 -0.69 1.18 149 -0.33 0 33 -0.59 0.94
98 -0.42 0.42 -0.69 1.17 152 -0.33 0 33 -0.5 0.93
100 -0.41 0.41 -0.69 1.16 155 -0.33 0 33 -0.58 0.92
101 -0.41 0.41 -0.68 1.16 156 -0.32 0 32 -0.58 0.92
102 -0.41 0.41 -0.68 1.15 158 -0.32 0 32 -0.58 0.91
103 -0.41 0.41 -0.68 1.14 159 -0.32 0 32 -0.57 0.91
105 -0.40 0.40 -0.67 1.13 161 -0.32 0.32 -0.57 0.90
107 -0.40 0.40 -0.67 1.12 164 -0.32 0.32 -0.57 0.89
108 -0.40 0.40 -0.67 1.12 165 -0.31 0.31 -0.57 0.89
109 -0.40 0.40 -0.66 1.11

Treinamento Sistema SAS Prof. Luis Felipe Lopes

143






n Skewness Kurtosis n Skewness Kurtosis

167 -0.31 0.31 -0.56 0.89 269 -0.24 0.24 -0.47 0.68
168 -0.31 0.31 -0.56 0.88 274 -0.24 0.24 -0.46 0.68
171 -0.31 0.31 -0.56 0.87 277 -0.24 0.24 -0.46 0.67
175 -0.30 0.30 -0.55 0.86 278 -0.23 0.23 -0.46 0.67
179 -0.30 0.30 -0.55 0.85 284 -0.23 0.23 -0.46 0.66
183 -0.30 0.30 -0.54 0.84 289 -0.23 0.23 -0.45 0.66
186 -0.29 0.29 -0.54 0.84 292 -0.23 0.23 -0.45 0.65
187 -0.29 0.29 -0.54 0.83 300 -0.22 0.22 -0.45 0.65
191 -0.29 0.29 -0.54 0.82 301 -0.22 0.22 -0.45 0.64
192 -0.29 0.29 -0.53 0.82 306 -0.22 0.22 -0.44 0.64
196 -0.29 0.29 -0.53 0.81 309 -0.22 0.22 -0.44 0.63
198 -0.28 0.28 -0.53 0.81 318 -0.22 0.22 -0.44 0.62
200 -0.28 0.28 -0.53 0.80 323 -0.22 0.22 -0.43 0.62
201 -0.28 0.28 -0.52 0.80 325 -0.21 0.21 -0.43 0.62
205 -0.28 0.28 -0.52 0.79 328 -0.21 0.21 -0.43 0.61
210 -0.28 0.28 -0.52 G.78 338 -0.21 0.21 -0.43 0.60
211 -0.27 0.27 -0.52 0.78 342 -0.21 0.21 -0.42 0.60
212 -0.27 0.27 -0.51 0.78 348 -0.21 0.21 -0.42 0.59
215 -0.27 0.27 -0.51 0.77 354 -0.20 0.20 -0.42 0.59
220 -0.27 0.27 -0.51 0.76 359 -0.20 0.20 -0.42 0.58
222 -0.27 0.27 -0.50 0.76 363 -0.20 0.20 -0.41 0.58
225 -0.26 0.26 -0.50 0.75 371 -0.20 0.20 -0.41 0.57
231 -0.26 0.26 -0.50 0.74 383 -0.20 0.20 -0.41 0.56
234 -0.26 0.26 -0.49 0.74 385 -0.20 0.20 -0.40 0.56
237 -0.26 0.26 -0.49 0.73 386 -0.19 0.19 -0.43 0.56
241 -0.25 0.25 -0.49 0.73 396 -0.19 0.19 -0.40 0.55
243 -0.25 0.25 -0.49 0.72 409 -0.19 0.19 -0.40 0.54
246 -0.25 0.25 -0.48 0.72 410 -0.19 0.19 -0.39 0.54
249 -0.25 0.25 -0.48 0.71 423 -0.18 0.18 -0.39 0.53
255 -0.25 0.25 -0.48 0.70 436 -0.18 0.18 -0.38 0.53
258 -0.24 0.24 -0.48 0.70 438 -0.18 0.18 -0.38 0.52
260 -0.24 0.24 -0.47 0.70 454 -0.18 0.18 -0.38 0.51
262 -0.24 0.24 -0.47 0.69 464 -0.18 0.18 -0.37 0.51

Treinamento Sistema SAS Prof. Luis Felipe Lopes

144






n Skewness Kurtosis

466 -0.17 0.17 -0.37 0.51
470 -0.17 0.17 -0.37 0.50
488 -0.17 0.17 -0.37 0.49
495 -0.17 0.17 -0.36 0.49
506 -0.17 0.17 -0.36 0.48
516 -0.16 0.16 -0.36 0.48
526 -0.16 0.16 -0.36 0.47
529 -0.16 0.16 -0.35 0.47
547 -0.16 0.16 -0.35 0.46
566 -0.16 0.16 -0.34 0.46
569 -0.16 0.16 -0.34 0.45
575 -0.15 0.15 -0.34 0.45
593 -0.15 0.15 -0.34 0.44
607 -0.15 0.15 -0.33 0.44
618 -0.15 0.15 -0.33 0.43
645 -0.14 0.14 -0.33 0.42
652 -0.14 0.14 -0.32 0.42
674 -0.14 0.14 -0.32 0.41
701 -0.14 0.14 -0.31 0.41
705 -0.14 0.14 -0.31 0.40
730 -0.13 0.13 -0.31 0.40
738 -0.13 0.13 -0.31 0.39
755 -0.13 0.13 -0.30 0.39
774 -0.13 0.13 -0.30 0.38
812 -0.13 0.13 -0.30 0.37
816 -0.13 0.13 -0.29 0.37
833 -0.12 0.12 -0.29 0.37
853 -0.12 0.12 -0.29 0.36
883 -0.12 0.12 -0.28 0.36
898 -0.12 0.12 -0.28 0.35
947 -0.12 0.12 -0.28 0.34
958 -0.12 0.12 -0.27 0.34
961 -0.11 0.11 -0.27 0.34
1000 -0.11 0.11 -0.27 0.33

Você também pode gostar