Apostila SAS PDF

MINISTRIO DE EDUCAO E DESPORTOS
UNIVERSIDADE FEDERAL DE SANTA MARIA

CENTRO DE CINCIAS NATURAIS E EXATAS
DEPARTAMENTO DE ESTATSTICA
LABORATRIO - S.A.S.
TREINAMENTO SISTEMA - S.A.S.

Prof. Dr. Luis Felipe Lopes
SANTA MARIA RS
2006
SUMRIO
1 INTRODUO
2 LIMITAES
3 O QUE O SISTEMA SAS?

3.1 O SAS/BASE
3.2 Tpicos gerais
1
2
3
4 ARQUIVOS SAS
5 COMANDOS DE PROGRAMAO
5.1 Comandos de controle de arquivos
5.2 Comandos que lem e gravam arquivos de dados
5.3 Comandos que lem e gravam arquivos SAS
5.4 Comandos que atuam sobre valores de dados
5.5 Comandos de informao
5.6 Comandos que controlam o fluxo lgico de programao
3
4
6
10
13
15
17
6 PRINCIPAIS PROCEDURES PROCs

6.1 PROC SORT
6.2 PROC PRINT
6.3 PROC FORMAT
6.4 PROC FREQ
6.5 PROC MEANS
20
20
21
22
23
24
7 ESTATSTICAS DESCRITIVAS E TESTE PARA NORMALIDADE

7.1 Introduo
7.2 Testes de Normalidade (PROC UNIVARIATE)
27
27
27
8 ANLISE DE CORRELAO E REGRESSO

8.1 Introduo
8.2 Correlao de Pearson (PROC CORR)
8.3 Regresso (PROC REG)
8.4 Inferncia na regresso
8.5 Resduos
32
32
33
39
41
41
9 INFERNCIA ESTATSTICA
9.1 Testes para igualdade de duas medias (PROC TTEST)
9.2 Teste para dados pareados
55
54
59
10 MTODOS NO PARAMTRICOS
10.1 Testes para igualdade de duas medias (PROC NPAR1WAY)
64
64
Treinamento Sistema SAS
Prof. Luis Felipe Lopes
11 ANLISE DE VARINCIA
11.1 Dados balanceados (PROC ANOVA)
11.1.1 Experimento Completamente Casualizado
11.1.2 Experimento com Blocos Aleatorizados
11.1.3 Experimento com Quadrado Latino
68
68
73
75
77
12 EXERCCIOS RESOLVIDOS E COMENTADOS
79
13 EXEMPLO PRTICO
13.1 Banco de dados
13.2 Anlise dos dados
127
127
128
REFERNCIAS BIBLIOGRFICAS
139
ANEXOS
140
ANEXO 1 - ANLISE DE NORMALIDADE USANDO A TABELA DE

ASSIMENTRIA E CURTOSE - Skewness and Kurtosis
141
ii
TREINAMENTO SISTEMA - S.A.S. Statistical Analisys System
1 INTRODUO
O Objetivo deste Curso ajudar o usurio a conhecer os comandos

bsicos do Sistema SAS de modo que possa obter as respostas a
problemas prticos de uma maneira rpida e objetiva.
2 LIMITAES
Este curso apenas uma introduo ao SAS, contendo uma pequena

frao de informao que voc encontrar no SAS USERS GUIDE: BASIC e SAS
USERS GUIDE STATISTICS.
3 O QUE O SISTEMA SAS ?
um sistema de aplicao integrada, que consiste em vrios produtos

que tem por funo: acesso, gerenciamento, anlise estatstica e apresentao de
dados, somada a uma linguagem poderosa de programao e gerao de
relatrios.
Acesso
Gerenciamento
DADOS
Apresentao
Anlise
Acesso aos dados - o sistema SAS possui ferramentas para acessar os

bancos de dados mais populares, tratando as suas tabelas, como arquivo SAS.
Gerenciamento de dados - com o SAS possvel editar, selecionar,
ordenar, concatenar e margear os arquivos.
Anlise de dados - o SAS possui rotinas estatsticas para anlises de

regresso, anlise de varincia, de componentes principais, discriminante,
modelos lineares, anlise fatorial, previses, controle de qualidade, clculos
matriciais, etc. .
Apresentao de informaes - a gerao de relatrios fcil e flexvel.
Eles podem ser listados, tabulados e grficos.
O SAS por ser um sistema integrado, ele composto por mdulos para
comercializao.
Principais mdulos:
SAS/BASE contm uma linguagem de Quarta gerao, com
procedimentos para estatstica bsica e grficos de baixa resoluo.
SAS/STAT este mdulo composto de procedimentos para estatstica
avanada, como anlise de varincia, anlise de regresso, multivariada, fatorial,
discriminante, outras.
SAS/GRAPH gera grficos de alta resoluo: barras verticais ou
horizontais, setoriais, cartesianos, mapas e superfcies tridimensionais.
SAS/ETS ferramenta de previso e anlise de sries temporais.
SAS/OR Procedimentos para Pesquisa Operacional, programao
linear, gerenciamento de projetos e apoio tomada de decises.
SAS/IML linguagem para operao com matrizes.
SAS/QC ferramenta para controle estatstico de qualidade e
delineamentos experimentais.
Existem outros mdulos, mas que no so de interesse para a estatstica.
3.1 O SAS/BASE
o instrumento principal do Sistema SAS. Ele permite ao usurios:
- Criar, montar e acessar qualquer tipo de dado;
- Produzir relatrios e grficos simples;
- Atualizar estatisticamente os dados;
- Utilizar a linguagem de programao SAS.
3.2 Tpicos gerais

- Todo os comandos do SAS terminam em (;).
- Os comandos iniciam e terminam em qualquer posio.
- Vrios comandos poder estar numa mesma linha.
- Um comando poder ser escrito em vrias linhas.
- Palavras sero separadas por um mais espaos.
- O comando INPUT obrigatrio no interessando onde os dados esto
armazenados.
- Arquivos SAS so armazenados em tabelas retangulares.
- Referenciam-se arquivos e variveis pelos nomes.
- Nomes de arquivos ou variveis poder ter no mximo 8 caracteres,
iniciando obrigatoriamente por letras (A-Z), podendo ter associado nmero e/ou
caracteres especiais com ( - quebra).
4 ARQUIVO SAS
Um arquivo SAS uma coleo de valores de dados arrumados em uma
tabela retangular.
Ex.:
Variveis
OBSERVAES
.
.
CULTURA
ALTURA1
ALTURA2
arroz
feijo
soja
0.35
0.25
0.15
0.39
0.30
0.17
As colunas da tabela so chamadas de VARIVEIS

- Variveis corresponde a campos de dados.
- Cada varivel tem um nome.
- H trs tipos de variveis: caracter, numrica e data.
As linhas so chamadas de OBSERVAES
- No h limite para o nmero de observaes.
5 COMANDOS DE PROGRAMAO
Os seguintes comandos so bsicos para a programao em SAS:
- Comandos de controle de arquivos.
- DATA
- CARDS
- INFILE
- FILE
3
- Comandos que lem e gravam arquivos de dados.

- INPUT
- PUT
- LIST
- Comandos que lem e gravam arquivos SAS.
- SET
- MERGE
- UPDATE
- OUTPUT
- Comandos que atuam sobre valores de dados.
- FUNES e EXPRESSES
- Comandos de informao.
- DROP
- RENAME
- LABEL
- FORMAT
- TITLE
- Comandos que controlam o fluxo lgico de programao.
- IF (THEN / ELSE)
- DELETE
5.1 Comando de controle de arquivos
- DATA
O primeiro comando em um programa SAS, geralmente um DATA. O
comando DATA diz ao SAS que se quer criar um arquivo SAS.
Voc poder escolher qualquer nome para esse arquivo, desde que tenha
at 8 caracteres ou menos e comece por uma letra (A-Z).
Ex.:
DATA TESTE;
INPUT . . .
.
.
A palavra TESTE o nome do arquivo SAS.

Se o nome for omitido pelo usurio, o SAS se encarrega de nome-lo.
Dando o nome de DATAn (n nmero de DATAS criados).
O comando DATA pode aparecer em outros lugares dentro do arquivo
SAS quando se quer fazer referncias a outros arquivos.
- CARDS
um comando dado logo aps o comando DATA. O comando CARDS
indica ao SAS que os registros de dados seguem imediatamente abaixo no texto
at o ponto e virgula ; do ltimo dado.
Ex.:
DATA A1;
INPUT IDADE 12 ALTURA 5-8 1 PESO 1014 1;
CARDS;
21 180 75.2
18 170 65.3
25 175 80.3
:
:
:
:
:
:
;
- INFILE
Tambm vem a ser um comando logo aps o comando DATA, s que os
valores de dados esto em disco (na forma de arquivo), logo deve-se incluir o
comando INFILE. Ele deve conter um nome com no mximo 8 caracteres e
dever ser lido com o cdigo ASCII.
Caractersticas do INFILE:
Aponta ao SAS para fazer a leitura num arquivo externo, onde os dados
esto armazenados.
Os dados esto armazenados em disco no arquivo chamado ARQUIVO.
Ex.:
DATA A1;
INFILE ARQUIVO DADOS;
INPUT NOME $10. @30 NOTA1 30 32 1
NOTA2 33 35 1 MEDIA 37 39 1;
PROC PRINT;
Obs.: Este dois comandos CARDS e INFILE especificam de onde sero lidos
os dados. O INFILE indica que sero lidos de um arquivo externo (banco de
dados ASCII) e o CARDS indica que os dados esto no programa logo
abaixo deste comando.
5.2 Comandos que lem e gravam arquivos de dados
- INPUT
A funo do comando INPUT descrever para o sistema SAS como so,
quais os nomes, e em que posio se encontra as VARIVEIS no arquivo de
dados.
O comando INPUT geralmente segue o comando DATA.
Ex.:
DATA TESTE;
INPUT
A 1-3
5-6;
Obs.: Lembre-se das regras para nomes (no mximo 8 caracteres).

a) Tipos de INPUT
a.1) INPUT COLUNADO
Especifica onde encontrar os valores pela posio da coluna.
Ex.:
INPUT NOME $ 18 SEXO $ 10 IDADE 12-13

ALTURA 1519 PESO 2126;
Restries:
As posies dos campos so fixas.

O $ usado para indicar varivel alfanumrica.
Caractersticas do INPUT COLUNADO:

Os campos (variveis) podem ser lidos em qualquer ordem.
Ex.:
INPUT SEXO $ 10 IDADE 1213 NOME $ 18

PESO 2126 ALTURA 1519;
Campos em brancos so considerados no informados.

(posies 9, 11, 14, 20).
Caracteres em branco s sero permitidos em variveis alfanumricas.
Ex.: JOSE CARLOS
Campos ou partes de campos podem ser relidos como uma nova
varivel;
Ex.:
INPUT NOME $ 1-8 ININOME $ 1;
Valores numricos podem aparecer em qualquer posio do campo,

podendo ser especificado sinais decimais ou ponto decimais.
Ex.:
INPUT PESO $ 16;
1
1
2
3
4
5
C A M P O S
3
4
2
5
2
5
5
5
2
.
6
5
.
.
Obs.: 1 - No se usa , (virgula) para separar a parte decimal e sim

. (ponto). Ex.: linhas 2 e 4
2 - Um campo em branco dever ser representado por um .
ponto (missing). Ex.: linha 5
a.2) INPUT LISTADO
O SAS procura pelos campos brancos at encontrar um caracter, ento l
o campo at o prximo branco.
Forma geral INPUT lista de variveis;
Ex.:
INPUT SEXO $ IDADE NOME $ PESO ALTURA;
Restries:
Todo o campo (var.) deve ser especificado em

ordem.
Campos devem ser separados por brancos.
No permitido campos em branco e sim . .
Ex.:
04
DATA CLASSE;
INPUT NOME $ SEXO $ IDADE ALTURA PESO;
CARDS;
01
02
03
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
C
J
A
P
A
O
N
A
R L O S
M
2 0
1 8 0 . 5
7 8 . 5
S E
M
1 8
1 7 5
7 0 . 8
A
F
1 7
1 6 5 . 6
6 2 . 5
U L A
F
2 1
1 6 8
5 5
a.3) INPUT FORMATADO
Especifica a posio e o tamanho do campo.
Formato de Entrada:
W
W.d
Largura do campo numrico

Numrica com decimal
Controle de posio:
Vai para a coluna n.
Move a posio n posies.
@n
+n
01
02
03
04
J
J
A
A
O
O
N
N
S E
S E
L U I S
A
A
P A U L A
Ex.:
05
06
07
08
09
10
11
M
M
F
F
12
13
14
2
1
1
2
0
8
7
1
15
16
17
18
19
1
1
1
1
8
7
6
6
0 .
5
5 .
8
20
5
6
21
22
23
24
7
7
6
5
8 .
0 .
2 .
5
25
5
8
5
INFILE BANCO DADOS;

INPUT NOME $ 9. @11 SEXO $ 1. +1 IDADE 2. +1
ALTURA 5. +1 PESO 4.;
Caractersticas do INPUT FORMATADO:

Variveis e formatos de entrada podem ser agrupados separadamente
com parnteses.
Ex.:
INPUT (JAN FEV MAR ABR MAI) (3. 3. 3. 3. 3.);

ou
INPUT (JAN FEV MAR ABR MAI) (3.);
Variveis numeradas podem ser usadas para abreviar diversas variveis

relacionadas.
Ex.:
INPUT (MES1 MES2 MES3 MES4 MES5) (3.);

ou
INPUT (MES1-MES5) (3.);
a.4) MISTURANDO TIPOS DE INPUT

Os trs tipos de INPUT vistos podem ser combinados (LISTADO,
COLUNADO e FORMATADO) em um nico comando INPUT.
Ex.:
DATA CLASSE;
INPUT NOME $ @11 SEXO $ 1. IDADE 13-14
ALTURA 1619 @21 PESO 5.;
a.5) OUTROS CONTROLADORES DE POSIO

/e#
1
2
3
4
Ex.:
01
02
03
04
J
1
J
1
A
1
A
1
O
8
O
7
N
6
N
6
S
0
S
5
A
5
A
8
E
.
E
05
06
5
L
6
P
07
08
09
7
U
7
8
I
0
.
S
.
6
U
5
2
L
5
.
A
10
11
13
14
12
15
5
8
5
DATA CLASSE;
INPUT NOME $ 19 SEXO $ 11 @13 IDADE 2. /
ALTURA 5. PESO 7-10;
ou
DATA CLASSE;
INPUT NOME $ 19 SEXO $ 11 @13 IDADE 2.
#2 ALTURA 1-5. PESO 7-10;
Obs.: 1 - Os campos podem ser lidos em qualquer ordem. A indicao #

sempre preceder o nome da varivel, logo dispensa-se informar
a prxima linha, ou seja, a partir da varivel altura as demais
variveis o SAS entende que pertencem ao segundo carto do
registro.
2 - Quando estivermos nos referindo a uma data devemos aps a
varivel colocar sua formatao (DT_NASC DDMMYY8. ).
5.3 Comandos que lem e gravam arquivos SAS
- SET
O comando SET usado para transferir dados de um arquivo SAS
existente para um novo arquivo SAS.
Todas as variveis do arquivo SAS so passadas automaticamente para o
novo arquivo SAS (a no ser que sejam direcionadas de outra maneira com
comandos de programao).
Novas variveis que se queira criar devem ser adicionadas com
comandos de atribuio.
Ex.:
DATA NOVACLAS;
SET CLASSES;
ANO_NASC=91-IDADE;
PROC PRINT DATA=NOVACLAS;
Obs.: No arquivo criado pelo comando SET possui uma varivel nova
ANO_NASC.
Como criamos uma varivel nova ao gerar o arquivo NOVACLAS,
podemos tambm excluir variveis, com o comando DROP associado ao
comando SET;
Ex.:
DATA NOVACLAS;
SET CLASSES;
DROP NOME SEXO;
PROC PRINT DATA=NOVACLAS;
O campo (varivel) NOME atravs dessa varivel referenciada com o

BY que far a juno dos dois arquivos num s. Obviamente que os
dois arquivos devero estar em ordem por NOME.
Ex.:
DATA AMBOS;
SET HOMENS MULHERES;
BY NOME;
PROC PRINT;
TITLE RESULTADO DA CONCATENACAO;
10
HOMENS
OBS
1
2
3
4
DEPT
213
917
916
914
NOME
Alvaro
Otto
Ricardo
Vitor
MULHERES
SEXO
m
m
m
m
OBS
1
2
3
DEPT
914
918
917
NOME
Eliane
Lorena
Sonia
SEXO
f
f
f
Resultado da Concatenao (SET)

HOMENS+MULHERES
OBS
1
2
3
4
5
6
7
DEPT
213
914
918
917
916
917
914
NOME
Alvaro
Eliane
Lorena
Otto
Ricardo
Sonia
Vitor
SEXO
m
f
f
m
m
f
m
Outra observao que se faz necessria para usar este comando com
a finalidade de juntar (concatenando) dois ou mais arquivos, que a
estrutura dos arquivos sejam idnticas, ou seja, com mesmas variveis.
Podemos tambm selecionar observaes na criao de um novo
arquivo com o comando IF
- MERGE
O comando MERGE usado para juntar observaes de dois ou mais
arquivos, colocando os mesmos um ao lado do outro.
Algumas consideraes:
- At 50 arquivos pode ser mergeados em um procedimento.
- Os arquivos de entrada devem estar ordenados pela varivel(eis) chaves
se um comando BY utilizado.
-
O arquivo resultante (sada) conter todas as variveis presentes nos

arquivos de entrada a menos que o comando DROP ou qualquer outro
de seleo tenha sido utilizado.
11
Ex.:
DATA JUNTA;
MERGE GERAL SALARIO;
PROC PRINT;
TITLE ARQUIVO MERGEADO;
GERAL
OBS
1
2
3
4
5
DEPT
917
918
917
914
916
SALRIO
NOME
Sonia
Alvaro
Otto
Eliane
Lorena
SEXO
f
m
m
f
f
OBS
1
2
3
4
5
NOME
Sonia
Alvaro
Otto
Eliane
Lorena
SAL_LIQ
169.10
223.00
329.05
650.70
380.95
SAL_BRU
279.10
310.05
410.75
715.12
470.30
MERGEADO
OBS
1
2
3
4
5
DEPT
917
918
917
914
916
NOME
Sonia
Alvaro
Otto
Eliane
Lorena
SEXO
f
m
m
f
f
SAL_LIQ
169.10
223.00
329.05
650.70
380.95
SAL_BRU
279.10
310.05
410.75
715.12
470.30
Obs.: O comando BY no foi necessrio ao mergear os arquivos porque

a chave principal NOME nos dois arquivos esto na mesma ordem.
Se no estivessem o comando BY seria necessrio, assim como
teramos que classificar os arquivos atravs do comando SORT.
- OUTPUT
O comando OUTPUT pode ser usado para:
Criar duas ou mais observaes para cada linha de entrada.
Combinar diversas observaes a partir de uma nica observao.
Criar um arquivo SAS sem nenhum dado de entrada.
12
Ex.: Criando quatro observaes SAS de cada linha de entrada
DATA RECEITA;
INPUT ANO
TRIM1
TRIM2
TRIMESTRE=1; VENDAS=TRIM1;
CARDS;
1996 1.2 0.9 1.1 1.5
1997 1.7 1.9 2.4 2.5;
PROC PRINT;
TITLE RESULTADO DA EXECUCAO
RUN;
TRIM3
TRIM4;
OUTPUT;
OUTPUT;
OUTPUT;
OUTPUT;
DO ARQUIVO RECEITA;
SADA
ANO
1996
1996
1996
1996
1997
1997
1997
1997
TRIM1
1.2
1.2
1.2
1.2
1.7
1.7
1.7
1.7
TRIM2
0.9
0.9
0.9
0.9
1.9
1.9
1.9
1.9
TRIM3
1.1
1.1
1.1
1.1
2.4
2.4
2.4
2.4
TRIM4
1.5
1.5
1.5
1.5
2.5
2.5
2.5
2.5
TRIMESTRE
1
2
3
4
1
2
3
4
VENDAS
1.2
0.9
1.1
1.5
1.7
1.9
2.4
2.5
5.4 Comandos que atuam sobre valores de dados
- Criando variveis
Quando se cria nova varivel, se est adicionando um novo grupo de
valores de dados ao arquivo.
Por exemplo, supondo que temos um arquivo com as seguintes variveis:
ALUNO NOTA1 NOTA2 NOTA3
se quisermos criar uma nova varivel chamada MEDIA devemos:
MEDIA = (NOTA1 + NOTA2 + NOTA3)/3;
Este comando informa para o SAS:
O sinal = significa atribua ao valor da esquerda o que se refere esquerda.
Para cada observao (linha) do arquivo, some as trs notas (variveis)
e divida por 3;
13
De o nome ao resultado obtido de MEDIA (nova varivel).

Obs.: As demais variveis continuam disponveis para posteriores
clculos.
- Funes e expresses
Operaes aritmticas mais conhecidas:
SMBOLO
]]
]
/
+
-
OPERAO
exponenciao
multiplicao
diviso
adio
subtrao
EXEMPLO
Y = X2
A=BxC
A=H/I
R=S+T
X=Z-W
NO SAS
Y = X ** 2
A=B*C
A=H/I
R=S+T
X=Z-W
Outras funes numricas:

FUNO
ABS
SQRT
COS
SIN
ARCOS
LOG
LOG10
SUM
MEAN
VAR
MIN
MAX
STD
ROUD
Ex.:
O que faz
Valor absoluto
Raiz quadrada
Cosseno
Seno
Arcosseno
Logaritmo neperiano (base e)
Logaritmo base 10
Soma
Mdia aritmtica
Varincia
Valor mnimo
Valor mximo
Desvio padro
Valor arredondado
X = 326.25;
Y = ROUND (X); RESULTADO Y = 327
(no est nas normas brasileiras)
Z = MIN (Y);
Z = MIN (of L Y);
W = SQRT (A + B/C);
K = MEAN (IDADE);
K = MEAN (of V1 V7);
SOMA= SUM (of V1 V10);
5.5 Comandos de Informao

14
- DROP
O comando DROP exclui a varivel ou variveis indicadas, da anlise em
questo;
O comando DROP vlido no DATA e nas PROCs. No um comando
executvel, fornece a informao ao SAS quando o comando compilado.
O comando DROP poder ser escrito em qualquer posio.
Ex.: DROP IDADE SEXO;
O comando DROP retira a varivel, portanto, todos os valores de
IDADE e SEXO so desconsiderados (coluna).
- TITLE
O comando TITLE define cabealhos a serem impressos no topo das
pginas de sada. At dez ttulos podero ser especificados.
Forma Geral TITLEn t i t u
l o;
n = nmero da linhas do ttulo.

Ex.: TITLE1
Levantamento Scio-econmico;
TITLE2
da;
TITLE3 Populacao Periferica de Santa Maria;
- FOOTNOTE
Define o texto a ser impresso no rodap das pginas de sada. A sintaxe
a mesma do comando TITLE.
Ex.: FOOTNOTE Departamento de Estatstica - UFSM;
- LABEL
O comando LABEL usado para atribuir rtulos (nomes) descritivos de
at 40 caracteres.
Rtulos podem ser atribudos temporariamente para a durao de apenas
um processamento, ou permanente definido no primeiro DATA.
15
Ex1.:
DATA CLASSES;
INPUT NOME $ 8. SEXO $ 11 IDADE 13-14
ALT 13-19 PESO 21-25;
CARDS;
Linha de Dados;
PROC MEANS;
VAR ALT PESO;
LABEL ALT=ALTURA EM POLEGADAS
PESO=PESO EM LIBRAS;
TITLE ESTATISTICAS DAS ALTURAS E DOS PESOS;
RUN;
Ex2.:
DATA CLASSES;
INPUT V1 V3;
LABEL V1=NMERO DE ALUNOS
V2=CURSO
V3=SEXO;
CARDS;
- COMMENT
O comando COMMENT serve para documentar. Pode ser usado em
qualquer parte do programa.
Incio (/*)
Fim (*/)
Ex.: DATA EMPREGO;

INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29;
/* CALCULO DO INSS */
INPS = SAL * .12;
IF DEPTO=201 THEN
DO;
DEPTO=VENDA;
COM=VENDA*.10;
/* CALCULO DO SALARIO BRUTO*/
SAL_BRUTO=COM+SAL;
/* CALCULO DO DESCONTO */
DESC=INPS + SEG;
/* CALCULO DO SALARIO LIQUIDO */
SAL_LIQ=SAL_BRUTO - DESC;
END;
CARDS;
Obs.: Este comando tambm poder cancelar uma determinada operao
temporariamente;
16
- FORMAT
O comando FORMAT usado para especificar os formatos para valores
dos dados.
Os formatos podem ser definidos apenas para a apurao de uma
procedure PROC.
Ex.: DATA CLASSE;

INPUT NOME $ 8. SEXO 11 IDADE 13-14 ALTURA PESO;
CARDS;
...
...
;
PROC FORMAT;
VALUE SEX 1 = MASCULINO;
2 = FEMININO;
PROC PRINT;
FORMAT SEXO SEX.;
TITLE USANDO O COMANDO FORMAT;
RUN;
5.6 Comandos que controlam o fluxo lgico de programao
- IF (THEN / ELSE)
Algumas vezes necessita-se trabalhar com parte dos dados, no todos.
Por exemplo suponhamos que se queira analisar somente o sexo masculino. O
comando IF pode ser usado para esta seleo.
Ex.: DATA A1;

INPUT NOME $ 1-8 SEXO $ 9 IDADE ALTURA PESO;
IF SEXO=M;
CARDS;
Linha de Dados;
O SAS l cada observao e verifica se o SEXO M (masculino), caso

contrrio nova observao ser lida.
A condio IF poder ser Verdadeira (THEN) ou Falsa (ELSE).
A condio IF tambm pode ser uma simples comparao de uma
varivel ou valor.
17
Ex.: IF ALTURA < 172 THEN DELETE;

IF PRETEST < TESTE
ELSE RESULT=NO;
THEN RESULT=SIM;
Principais operadores de comparao:

Smbolo
<
>
Abreviatura
LT
LE
GT
GE
EQ
NE
Comparao
Menor que
Menor que ou igual a
Maior que
Maior que ou igual a
Igual
Diferente
Principais operadores lgicos:

Smbolo
OR
AND
NOT
Comparao
Um ou outro
E, ambos
No, negao
A condio IF pode envolver comparaes de ANDs e de ORs.
Ex.: IF ESTADO=RS AND CIDADE=SANTA_MARIA

THEN REGIAO=SUL;
IF IDADE LT 13 AND ALTURA GT 162 OR PESO LE 50
THEN LIST;
IF RESULT=68 THEN RESP=CERTO;
ELSE RESP=ERRADO;
Usando o comando IF com melhor aproveitamento:
IF CODIGO=1 THEN RESPOSTA=BOM;
ELSE
IF CODIGO=2 THEN RESPOSTA=REGULAR;
ELSE
IF CODIGO=3 THEN RESPOSTA=RUIM;
Uso do comando DO e END associado ao comando IF:
18
O comando DO especifica que todos os comandos entre ele e o comando

END devem ser executados;
Ex.:
DATA EMPREGO;
INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23
VENDA 25-29;
INPS = SAL * .12;
IF DEPTO=201 THEN
DO;
DEPTO=VENDA;
COM=VENDA*.10;
SAL_BRUTO=COM+SAL;
SEG=SAL_BRUTO*.001;
DESC=INPS + SEG;
SAL_LIQ=SAL_BRUTO - DESC;
END;
ELSE DO;
DPTO=ADMIN;
SAL_LIQ=SAL - INPS;
CARDS;
Linha de Dados;
- DELETE
Quando se quer descartar uma observao., por ela conter um valor no
vlido para a anlise que se esta tratando usa-se o comando DELETE;
Quando este comando carregado o SAS para de trabalhar na
observao corrente, no adicionando ao arquivo SAS que esta sendo criado, e
comea imediatamente na observao seguinte.
O comando DELETE normalmente aparece com parte de um comando IF.
Ex.: IF SEXO=F THEN DELETE;
IF
SEXO=F THEN IDADE LE 14 THEN DELETE;
O comando DELETE retira toda a observao do arquivo, logo

aconselha-se coloc-lo dentro de uma rotina DATA SET;
Ex.: DATA A1; SET A;
19
6 PRINCIPAIS PROCEDURES - PROCs
6.1 PROC SORT
Funo: Quando se precisa ordenar os dados.

A ordem das observaes no importa muito para o processamento
estatstico, por exemplo para calcular a mdia da ALTURA dos alunos por SEXO,
a ordem como esto as observaes no importa. Porm necessita-se LISTAR as
observaes por SEXO, ou mesmo para juntar dois arquivos por MERGE ou por
SET, as observaes tero que estar ordenadas (SORT). Por exemplo se
quisermos combinar as informaes do estudo de ALTURA e PESO deste ano
com as dos anos anteriores ambos os arquivos devero ser ordenados.
A ordenao a arrumao das observaes de um arquivo em ordem
determinada pelos valores de uma ou mais variveis indicados no
comando BY (POR).
Para ordenar-se um arquivo usa-se a procedure PROC SORT seguida
do comando BY que indicar a varivel pela qual o arquivo ser
ordenado.
Ex.:
PROC SORT DATA=TESTE;

BY NOME;
Suponha que temos um arquivo chamado PESQUISA e que queremos

orden-lo por ESTADO, depois por CIDADE dentro de cada estado e finalmente
por NOME de cada cidade.
Ex.:
PROC SORT; BY PESQUISA;

BY ESTADO CIDADE NOME;
Obs.: A ordenao vista at aqui foi feita em cima do prprio arquivo

(PESQUISA). Se no desejar que isso acontea use o comando
OUT.
Ex.:
PROC SORT; BY PESQUISA;

OUT = NOVO;
BY ESTADO CIDADE NOME;
20
Os registros aps a ordenao estaro gravados no arquivo chamado

NOVO e no arquivo PESQUISA continuam desordenados.
Obs.: Existem outros tipos de rotinas de programao usando o PROC
SORT, onde poderemos incluir outras PROCs dentro dela.
Ex.:
PROC SORT; BY SEXO;

PROC FREQ;
TABLES V1 V2 V3 /LIST;
PROC UNIVARIATE;
VAR V1 V2 V3;
PROC COR;
VAR V1;
WITH V2 V3;
6.2 PROC PRINT
Este procedure serve para imprimir (listar) seus dados no relatrio.

Ex.: Listar ALTURA e PESO dos homens separado das mulheres
INPUT SEXO $ ALTURA PESO;
CARDS;
Linha de Dados;
PROC PRINT; BY SEXO;
Obs.: 1 - Observar que ao usar o comando PROC PRINT, sem especificar

o DATA, a impresso ser do ltimo DATA referenciado.
2 - O PROC PRINT imprime todos os dados, se for seguido do
comando VAR imprimir somente as variveis selecionadas no
comando VAR.
Ex.:
PROC PRINT DATA=TESTE;

VAR NOME IDADE ALTURA;
3 O comando PROC PRINT poder listar em funo de um valor

de uma determinada varivel
Ex.:
PROC PRINT DATA=TESTE;

VAR NOME IDADE ALTURA;
WHERE SEXO=M;
21
6.3 PROC FORMAT
O procedimento FORMAT usado para criar formatos definidos pelos

usurios.
Comando usado no PROC FORMAT VALUE
VALUE NOME VALOR = DESCRIO;
O NOME obedece as mesmas regras usadas para variveis (8
caracteres), pois no deixa de ser uma nova varivel selecionada.
A DESCRIO ter tamanho mximo de 40 caracteres e dever ser
includa entre aspas ( ).
Ex.: PROC FORMAT;

VALUE FAIXAS
VALUE $SEX
Obs.:
LOW-12 = CRIANCA
13-19
= JOVEM
20-HIGH = ADULTO;
F = FEMININO
M = MASCULINO;
LOW = Lowest (do menor valor)

HIGH = Highest (ao maior valor)
Ex.: DATA A1;

CARDS;
Lista de Dados;
...
...
PROC FORMAT;
VALUE FAIXAS
LOW-12 = CRIANCA
13-19
= JOVEM
20-HIGH = ADULTO;
VALUE $SEX
F = FEMININO
M = MASCULINO;
PROC PRINT;
FORMAT IDADE FAIXAS. SEXO $SEX.;
RUN;
22
6.4 PROC FREQ
O procedimento FREQ ser til para variveis discretas e qualitativas.

Para as variveis contnuas aconselha-se usar o PROC UNIVARIATE ou PROC
MEANS, pois este tipo de varivel possui muitos valores diferentes.
Outro benefcio que a tabela de freqncia ou tabulao cruzada oferece
poder sumarizar variveis caracteres, porque somente variveis numricas
podem ser sumarizadas por estatsticas como mdia e desvio padro.
- Tabelas de Freqncia Simples
Este tipo de tabela poder ajudar a sumarizao dos dados. Mostrar as
distribuio dos valores das variveis, podendo-se verificar quantas observaes
tem determinado valor. Por exemplo se queira saber quantos alunos tem idade 19
anos e assim por diante.
Para obter as Tabelas de Freqncias Simples das variveis que
interessam usa-se o comando TABLES com a relao das mesmas.
Ex.: PROC
FREQ;
TABLES IDADE PESO ALTURA;
ou
PROC FREQ;
TABLES
IDADE PESO ALTURA /LIST;
Podemos utilizar o comando FORMAT:
Ex.: PROC
FREQ;
TABLES
FORMAT
TABLES
FORMAT
IDADE /LIST;
IDADE FAIXAS.;
SEXO /LIST;
SEXO SEXOV.;
Com o uso do comando FORMAT na tabela de freqncia para as

variveis IDADE e SEXO teremos no relatrio a DESCRIO para cada valor.
- Tabelas de Freqncia Cruzada
A tabela de freqncia cruzada mostra a unio da distribuio de valores
de duas ou mais variveis. Por exemplo, queremos saber quantas mulheres com
19 anos temos no arquivo estudado.
23
Para obter-mos a resposta devemos cruzar as duas variveis: IDADE e

SEXO.
Ex.: PROC
ou
PROC
FREQ;
TABLES
FREQ;
TABLES
FORMAT
IDADE*SEXO /LIST;
IDADE*SEXO /LIST;
IDADE FAIXAS. SEXO
SEXOV.;
Aconselha-se usar o comando /LIST para facilitar a visualizao da tabela

cruzada. Este comando tambm ser aconselhado quando quisermos cruzar mais
de duas variveis.
Ex.: PROC
FREQ;
TABLES SEXO*IDADE*PESO /LIST;
Ex.:
DATA A1;
CARDS;
Lista de Dados;
...
PROC FREQ;
TABLES SEXO*(IDADE--PESO) /LIST /*(I at P)*/
TABLES SEXO*(IDADE PESO) /LIST /* (I e P)*/
RUN;
6.5 PROC MEANS
Suponhamos que no arquivo que se est estudando possua valores para

a varivel PESO. Pode-se obter um quadro completo desses pesos pela simples
listagem dos mesmos (PROC FREQ). Mas isso significa que teramos que olhar e
analisar todos os valores.
O PROC MEANS sumariza todos os valores para computar a mdia.
Ento teremos como resultado um nico valor representativo para todo o grupo.
O PROC MEANS fornece outras estatsticas como:
- Nmero de Observaes
- Mdia
- Desvio Padro
- Valor Mnimo e Mximo
- Erro padro
- Varincia
- Coeficiente de variao
24
Ex.: DATA A1;

CARDS;
Lista de Dados;
PROC MEANS;
VAR IDADE
ALTURA
PESO;
RUN;
Usando o comando BY
Podemos obter estatsticas sumarizadas por grupos de dados associados
ao comando BY. Por exemplo queremos calcular as estatsticas para as mesmas
variveis do exemplo acima s que por SEXO.
Obs.: Antes de usar o comando BY para qualquer procedure SAS, o arquivo
dever ser ordenado pelas variveis a serem usadas pelo comando BY.
Ex.: DATA A1;

CARDS;
Lista de Dados;
PROC SORT; BY SEXO;
PROC MEANS; BY SEXO;
VAR IDADE ALTURA PESO;
RUN;
Obs.: Valores no informados (representados por um ponto . ) no sero

includos no clculo da PROC MEANS.
25
SAS/STAT
Pr requisito:
Ter conhecimento de Estatstica Bsica.

Ter conhecimento do SAS/BASIC;
Objetivo:
Este curso tem por objetivo expor alguns conceitos estatsticos e
interpret-los atravs da utilizao de procedimentos do Sistema SAS. Os
exemplos apresentados ilustram caractersticas da release 6.08 do SAS/STAT e
orientam o usurio na sua programao quando seu interesse for:
Obter estatsticas descritivas elementares;
9 Desempenhar testes estatsticos de significncia para verificar a
normalidade da distribuio de seus dados;
9 Testar a igualdade de mdias entre grupos de observaes;
9 Encontrar um modelo que explique o comportamento de seus dados e,
atravs deste modelo, fazer previses e calcular intervalos de
confiana para parmetros da populao em estudo.
9 Analisar a variabilidade de uma srie de dados atravs do Mtodo de
Anlise de Varincia (ANOVA), critrio de tomada de decises
estatisticamente formulado para detectar qualquer diferena no
desempenho mdio de um ensaio experimental.
Os conceitos bsicos sero abordados a medida que os procedimentos
forem sendo utilizados, assim como a interpretao das principais sadas.
26
7 ESTATSTICA DESCRITIVA E TESTE DE NORMALIDADE

7.1 Introduo
Depois que o usurio cria seu arquivo de dados ele pode desejar
sumarizar estes dados atravs de medidas que descrevam seu comportamento.
Estas medidas incluem parmetros de posio como mdias, modas, medianas,
quartis e percentis, parmetros de disperso, como varincias, desvios padres,
amplitude (range), e parmetros que auxiliam na descrio da forma dos dados,
como assimetria e curtose (ver anexo 2).
Nos problemas que envolvem a Estatstica Indutiva, os conjuntos de
dados analisados so representados por amostras retiradas das populaes de
interesse. Sendo as amostras aleatrias, todos os seus elementos fornecero
valores aleatrios da varivel em anlise. Para caracterizar a distribuio dos
diversos valores assumidos por uma varivel aleatria, o conceito de distribuio
de probabilidades deve ser utilizado e estendido s populaes, ou seja, cada
valor da amostra deve ser considerado como valor de uma varivel aleatria cuja
distribuio de probabilidade a mesma da populao no instante da retirada
desse elemento da amostra. Os valores calculados em funo dos elementos da
amostra, denominam-se estatsticas. Se estas estatsticas forem utilizadas para
inferir informaes a respeito de uma populao, elas so consideradas como
variveis aleatrias, e tero, portanto uma distribuio de probabilidades, com
uma mdia, uma varincia, etc. Muitos mtodos da anlise estatstica assumem
que os dados da amostra provm de uma populao com distribuio normal. A
distribuio normal tem uma definio matemtica precisa, com as seguintes
caractersticas:
- ser completamente definida por sua mdia e seu desvio padro.
- ser uma distribuio simtrica, ou seja, sua mdia coincide com sua moda, que
por sua vez coincide com sua mediana.
- ser uma distribuio regular. Do seu ponto central mais alto at suas
extremidades no existe padres irregulares.
- ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuio).
7.2 Teste de normalidade
Nos testes de normalidade estabelecida a idia de que uma amostra
provm de uma distribuio normal. Atravs da amostra uma estatstica
calculada e testada para checar essa idia. Uma comparao feita entre a
forma da distribuio da amostra, com a forma de uma distribuio normal. Se
no for encontrada nenhuma evidncia para rejeitar a hiptese de normalidade,
prossegue-se as anlises baseando-se na suposio de que os dados da amostra
so normalmente distribudos (anlise paramtrica). Quando os dados no so
gerados por uma distribuio normal, a anlise deve ser baseada em mtodos
27
no paramtricos. A distribuio normal simtrica, com os valores distribudos

em forma de sino.
Ao desempenhar um teste de hiptese tem-se sempre uma hiptese
nula que descreve uma idia sobre a populao, e uma hiptese alternativa, que
descreve uma idia alternativa sobre a populao.
Nos testes para a normalidade, a hiptese nula que os dados da
amostra so gerados por uma distribuio normal. A hiptese alternativa que
eles so gerados por uma distribuio no normal. O mtodo utilizado para testar
hipteses consiste num contedo de deciso onde a probabilidade de rejeitar a
hiptese nula, sendo ela verdadeira (erro do tipo I), no excede um valor prfixado chamado de nvel de significncia do teste. Ao menor nvel de
significncia para o qual a hiptese nula rejeitada denominamos probabilidade
de significncia (p-valor). Se p-valor > h evidncias de que a hiptese nula
verdadeira.
A PROC UNIVARIATE utilizada para a obteno de estatsticas
descritivas. Ela difere de outros procedimentos SAS por fornecer maiores
detalhes das variveis, tais como plots das distribuies, tabelas de freqncia e
testes estatsticos para a normalidade.
FORMA GERAL:
PROC UNIVARIATE DATA = arquivo de dados opes;
VAR variveis;
BY variveis;
FREQ varivel;
ID variveis;
OUTPUT OUT = arquivo de dados palavra-chave = nomes;
OPES DISPONVEIS:
FREQ
gera uma tabela de freqncia com valores de freqncia,

percentagens e percentagens acumuladas.
NOPRINT
suprime toda a informao do OUTPUT. Esta opo utilizada

geralmente na criao de um arquivo de dados de sada.
NORMAL
desempenha um teste para a hiptese nula de que os dados provm

de uma distribuio normal. Dependendo do tamanho da amostra, o
teste utilizado ser baseado na estatstica de Shapiro-Wilk (N<2000)
ou na estatstica de Kolmogorovs D. (N>2000).
28
PLOT
produz plotes de probabilidade da distribuio normal e plotes em

box que auxiliam na determinao da forma da distribuio dos
dados investigados.
COMANDOS SELECIONADOS:
VAR
lista as variveis a serem sumarizadas no arquivo de dados.
BY
especifica subgrupos onde as estatsticas devem ser obtidas. Para

usar este comando o arquivo j dever estar ordenado pela varivel
de subgrupo .
FREQ
especifica variveis de freqncia.
ID
especifica as variveis que iro identificar os valores extremos.
OUTPUT OUT
cria arquivo de sada que ir gravar as estatsticas geradas.
Estatsticas reservadas utilizadas na criao de um arquivo de sada:

N
MEAN
STDMEAN
SUM
STD
NMISS
VAR
CV
RANGE
SKEWNESS
Prob T
KURTOSIS
MEDIAN
Ex1.: Resultados obtidos de uma distribuio aproximadamente Normal.

Para ilustrar, suponha que estejamos analisando uma amostra. No
programa SAS abaixo, a idade de cada pessoa est sendo representada pela
varivel IDADE, e sua identificao pela varivel IDENT.
OPTIONS FORMDLIM='*' LS=80;
DATA NORM A;
/* EXEMPL01 SAS */
INPUT IDENT IDADE @@;
CARDS;
1
72
2
69
3
75
4
71
5
71
6
73
7
70
8
67
9
71
10
72
11
73
12
68
13
69
14
70
15
70
16
71
17
74
18
72
;
PROC UNIVARIATE NORMAL PLOT FREQ;
VAR IDADE;
ID IDENT;
RUN;
29
ANLISE DOS RESULTADOS:

Univariate Procedure
Variable=IDADE
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
18
71
2.057983
0
90810
2.898568
146.3702
18
9
85.5
0.98356
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
18
1278
4.235294
-0.13576
72
0.485071
0.0001
18
0.0001
0.0001
0.9666
A tabela acima fornece estatsticas descritivas da varivel IDADE, alm do teste

para normalidade. O valor zero de assimetria traduz a forma simtrica da
distribuio. A estatstica de curtose de -0.13576 significa que a distribuio de
valores relativamente achatada. O alto p-valor associado ao teste de
normalidade, dado por Pr < W, mostra que existe 9666 chances em 10000 que se
obtenha este mesmo resultado se os dados fossem oriundos de uma populao
Normal. Por esta razo so poucas as chances de rejeitar a hiptese nula. Em
geral, rejeita-se a hiptese nula de normalidade dos dados somente quando o pvalor for menor que 0.05 .
Os quartis, percentis, a moda da distribuio, e os valores extremos esto
relacionados a seguir:
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
75
72
71
70
67
Range
Q3-Q1
Mode
99%
95%
90%
10%
5%
1%
75
75
74
68
67
67
8
2
71
Extremes
Lowest
67(
68(
69(
69(
70(
ID
8)
12)
13)
2)
15)
Highest
72(
73(
73(
74(
75(
ID
18)
6)
11)
17)
3)
O plote stem leaf (tronco e folhas) mostra a distribuio dos valores observados.
Entre estes plotes e o boxplot, h uma coluna que fornece a freqncia de
observaes em cada barra. O box plote indica o 25o e 75o percentil. A linha
30
central indica a mediana (50o percentil). O sinal de (+) indica a mdia da

distribuio, que est coincidindo com a mediana.
Stem
75
74
73
72
71
70
69
68
67
Leaf
0
0
00
000
0000
000
00
0
0
----+----+----+----+
#
1
1
2
3
4
3
2
1
1
Boxplot
|
|
|
+-----+
*--+--*
+-----+
|
|
|
O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+)
formam uma linha reta. Os (*) representam os valores amostrais. Se a amostra
gerada por uma distribuio normal, os asteriscos devem formar uma linha reta e
cobrir a maioria dos sinais positivos. A distribuio amostral aproxima-se da
normalidade.
Variable=IDADE
Normal Probability Plot
75.5+
* +++++
|
* +++++
|
* +*+++
|
**+*++
71.5+
**+**++
|
* **+++
|
* +*+++
|
+*+++
67.5+
+*+++
+----+----+----+----+----+----+----+----+----+----+
-2
-1
0
+1
+2
f(+) = 71 + 2.05 IDADE

A opo FREQ da PROC UNIVARIATE permite a obteno de uma tabela de
distribuio de freqncia onde o nmero de ocorrncias de cada valor da varivel
IDADE contabilizado juntamente com os percentuais e percentuais acumulados
de ocorrncia em cada categoria.
Frequency Table
Value Count
67
1
68
1
69
2
70
3
71
4
Percents
Cell
Cum
5.6
5.6
5.6 11.1
11.1 22.2
16.7 38.9
22.2 61.1
31
Value Count
72
3
73
2
74
1
75
1
Percents
Cell
Cum
16.7 77.8
11.1 88.9
5.6 94.4
5.6 100.0
8 - ANLISE DE CORRELAO E REGRESSO
8.1 Introduo
Existem numerosos procedimentos estatsticos para investigar

relacionamentos bivariados (entre somente duas variveis). Estes procedimentos
podem fornecer um teste estatstico de significncia, uma medida de associao,
ou ambos. O teste estatstico objetiva testar hipteses sobre o grau de
relacionamento entre variveis na populao. Por exemplo, o coeficiente de
correlao de Pearson. Num estudo para se testar a hiptese nula de que a
correlao entre duas variveis zero na populao, uma amostra de 200
observaes determinou um coeficiente de correlao entre duas variveis de
0.35. Com base nesta amostra, o resultado do teste forneceu uma probabilidade
de significncia de 0.001. Este p-valor sugere que existe menos que uma chance
em 1000 de se obter um valor igual ou superior 0.35, para correlao amostral,
se a hiptese nula fosse verdadeira. Rejeita-se portanto a hiptese nula,
concluindo-se que a correlao significativamente diferente de zero na
populao.
A escolha apropriada da estatstica a ser usada no estudo do
relacionamento entre duas varivel ir depender da natureza delas. Ateno
particular deve ser dada aos nveis de medidas usados para avaliar as duas
variveis. Uma breve discusso este respeito feita a seguir.
Uma varivel medida numa escala nominal representa classes que
indicam o grupo ao qual pertence uma determinada observao. Por exemplo,
SEXO uma varivel que est numa escala nominal. Uma observao pode ser
classificada como sendo da classe "masculino" ou da classe "feminino".
Uma varivel medida numa escala ordinal representa valores num rank
ordenado, ou seja, possui hierarquia. Por exemplo, se cada aluno de uma turma
fosse avaliado a respeito de sua habilidade verbal. O melhor aluno foi avaliado
com o valor 1, o segundo melhor com o valor 2, e assim por diante. Este rank de
valores so ditos ordinais. Escalas ordinais de valores porm possuem uma
limitao: iguais diferenas na escala de valores no tem necessariamente o
mesmo significado quantitativo. Isto quer dizer que a diferena de habilidade
verbal entre um aluno com grau 1 e um aluno com grau 2 no necessariamente
a mesma diferena existente entre as habilidades de um aluno com grau 2 e um
com grau 3.
Uma varivel medida numa escala de intervalo significa que iguais
diferenas entre valores da escala tem igual significado quantitativo. Um exemplo
a escala Fahrenheit de medio de temperatura. A diferena entre 70 e 75
graus igual a diferena entre 75 e 80 graus. As unidades de medidas so iguais
atravs de todo o range da escala. A limitao existente nesta escala que no
existe um ponto zero real, ou seja, o zero da distribuio de temperaturas no
indica que no haja nenhum calor presente no ambiente.
32
Uma varivel medida numa escala de razo aquela que iguais

diferenas entre valores da escala tem igual significado quantitativo. Neste caso,
alm deste fato, possvel interpretar a razo entre os valores da escala. Um
valor para peso igual zero indica nenhum peso corporal. Com isto, possvel
estabelecer que o peso de uma criana com 20 Kg o dobro de peso de uma
criana com 10 kg .
A tabela a seguir identifica as estatsticas apropriadas para avaliar o
relacionamento de pares de variveis nos seus respectivos nveis de medida.
TABELA COM ESTATSTICAS APROPRIADAS
R
E
S
P
O
S
T
A
Razo
Intervalo
Ordinal
Nominal
PREDITORA (INDEPENDENTE) Xi
Nominal
Ordinal
Intervalo
ANOVA
Spearman Pearson ou
Spearman
ANOVA
Spearman Pearson ou
Spearman
Kruskal
Spearman
--------Wallis
Chi-quadrado
-----------------
Razo
Pearson ou
Spearman
----------------------
8.2 Correlao de Pearson (PROC CORR)

O estudo de medidas de associao reflete o grau da intensidade da
relao entre variveis. Se X e Y representam duas variveis, ambas acessadas
na escala de intervalo ou de razo, o diagrama de disperso ir mostrar a
localizao dos pontos (x , y) em um sistema de coordenadas retangulares. Se os
pontos desse diagrama se distriburem nas proximidades de uma reta, como nas
figuras (A) e (B) a seguir, a correlao denominada linear. Se todos os pontos
se distriburem prximos de alguma curva, a correlao denominada no linear,
como pode ser visto na figura (C). Quando os pontos no apresentam nenhuma
forma definida, figura (D), diz-se que as variveis x e y so no correlacionadas.
Quando o coeficiente de Pearson utilizado para medir o grau de relacionamento
entre duas variveis com relacionamento no linear, ele normalmente subestima o
verdadeiro valor. Por esta razo sempre prudente avaliar primeiro o diagrama
de disperso para as variveis, usando para isso a PROC PLOT, que tem a
seguinte forma geral:
PROC PLOT DATA= ARQSAS;
PLOT Y*X;
RUN;
33
Para o tratamento quantitativo do problema da disperso dos dados

amostrais necessrio estabelecer medidas de correlao. O coeficiente de
correlao de Pearson, simbolizado por r, ser utilizado para medir o
relacionamento entre duas variveis que estejam na escala de intervalo ou de
razo. Outra considerao a ser feita ao usar esta medida de associao, que
ambas as amostras tenham sido retiradas de uma populao Normal. Caso
contrrio, uma medida de associao no paramtrica dever ser usada, tal como
o coeficiente de correlao de Spearman.
O range de r varia de -1 a 1. Se r for um valor prximo de 1 significa
que as duas variveis so correlacionadas positivamente, se for prximo de -1,
significa que as variveis so correlacionadas negativamente. Valores de r
prximos de zero correspondem a uma disperso de pontos que no mostra nem
uma tendncia crescente, nem decrescente, indicando uma baixa correlao
entre as variveis.
PROC CORR
A procedure CORR utilizada para gerar coeficientes de correlao.
Quando utilizada sozinha, ela obtm coeficientes de Pearson para todas as
variveis numricas do arquivo, alm de estatsticas bsicas como mdias e
desvios padres da distribuio de dados.
34
Outros coeficientes de correlaco podem ser obtidos como opo da

PROC CORR. So eles: Kendall, Hoeffding e Spearman, que so medidas no
paramtricas de associao .
FORMA GERAL:
PROC CORR opes;
VAR variveis;
WITH variveis;
FREQ variveis;
BY variveis;
RUN;
OPES DISPONVEIS:
DATA= arquivo.sas
arquivo com os dados a serem analisados.
OUTP= arquivo.sas
arquivo de sada - Pearson
OUTS= arquivo.sas
arquivo de sada - Sperman
OUTK= arquivo.sas
arquivo de sada - Kendall
OUTH = arquivo.sas
arquivo de sada - Hoeffding
NOSIMPLE
suprime a impresso das estatsticas descritivas

bsicas.
COMANDOS DISPONVEIS:
VAR variveis
especifica as variveis a serem correlacionadas
WITH variveis
especifica as variveis que devem aparecer na lateral

da matriz de correlao.
FREQ varivel
especifica variveis de freqncia
BY variveis
especifica subgrupos onde a correlao deve ser

obtida. Para usar o comando BY, o arquivo j deve
estar ordenado pela varivel de subgrupo.
Ex2.: O tempo necessrio para um trem parar depois que percebe um perigo
composto de tempo de reao e tempo de freagem. A varivel DIST
representa a distncia de parada de um trem que est a uma velocidade
VELOC no instante que o perigo avistado. Analise o diagrama de
disperso e determine o coeficiente de correlao entre as duas variveis.
35

DATA PERIGO A; /* EXEMPL02 SAS */
INPUT VELOC DIST @@;
CARDS;
20
54
30
90
40
138
50
206
60
292
70
396
;
PROC PLOT;
PLOT DIST*VELOC;
PROC CORR;
VAR VELOC DIST;
TITLE 'CORRELAAO ENTRE VELOCIDADE E DISTANCIA DE PARADA';
RUN;

Plot of DIST*VELOC.
Legend: A = 1 obs, B = 2 obs, etc.
DIST |
|
400 +
A
|
|
|
A
|
|
200 +
A
|
|
A
|
A
| A
|
0 +
--+-------------+-------------+-------------+-------------+-------20
30
40
50
60
70
VELOC
O diagrama de disperso ostra claramente uma tendncia crescente da

distribuio dos dados, ou seja, aumentando-se a velocidade do trem, aumentase a distncia de parada.
CORRELACAO ENTRE VELOCIDADE E DISTANCIA DE PARADA
Correlation Analysis
2 'VAR' Variables:
VELOC
DIST
Simple Statistics
Variable
Mean
Std Dev
Sum
Minimum
Maximum
VELOC
6
45.00000
18.70829 270.00000
20.00000
70.00000
DIST
6 196.00000 129.67652
1176
54.00000 396.00000
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 6
VELOC
36
DIST
VELOC
1.00000
0.0
0.98268
0.0004
DIST
0.98268
0.0004
1.00000
0.0
O valor de 0.98268 mede o coeficiente de correlao entre as variveis VELOC e

DIST. Um p-valor de 0.0004 indica uma forte evidncia que a correlao no
nula. O p-valor a probabilidade de significncia para se testar a hiptese de que
a verdadeira correlao da populao em questo zero.
Ex3.: Determinar o coeficiente de correlao entre as alturas e os pesos de 300
homens nos EUA, constantes da seguinte tabela de freqncias:
Altura (metros)
P
E
S
O
(kg)
45 a 54.5
55 a 64.5
65 a 74.5
75 a 84.5
85 a 94.5
95 a 104.5
105 a 114.5
1.5 a 1.58
2
7
5
2
0
0
0
1.6 a 1.68
1
8
15
12
7
2
0
1.7 a 1.78
0
4
22
63
28
10
1
1.8 a 1.88
0
2
7
19
32
20
4
1.9 a 1.98
0
0
1
5
12
7
2

DATA
AGRUPA A;
/* EXEMPL03 SAS */
DO MEDPES = 49.75 T0 109.75 BY 10;
DO MEDALT = 1.54 TO 1.94
BY 0.10;
INPUT N_OBS @@;
OUTPUT;
END;
END;
CARDS;
2
1
0
0
0
7
8
4
2
0
5
15
22
7
1
2
12
63
19
5
0
7
28
32
12
0
2
10
20
7
0
0
1
4
2;
;
PROC PRINT;
PROC CORR;
VAR MEDPES MEDALT;
FREQ N_OBS;
TITLE 'CORRELACAO PARA DADOS AGRUPADOS';
RUN;
37

OBS
MEDPES
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
MEDALT
49.75
49.75
49.75
49.75
49.75
59.75
59.75
59.75
59.75
59.75
69.75
69.75
69.75
69.75
69.75
79.75
79.75
79.75
79.75
79.75
89.75
89.75
89.75
89.75
89.75
99.75
99.75
99.75
99.75
99.75
109.75
109.75
109.75
109.75
109.75
N_OBS
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
2
1
0
0
0
7
8
4
2
0
5
15
22
7
1
2
12
63
19
5
0
7
28
32
12
0
2
10
20
7
0
0
1
4
2
CORRELACAO PARA DADOS AGRUPADOS

2 'VAR' Variables:
MEDPES
MEDALT
Simple Statistics
Variable
MEDPES
MEDALT
Mean
Std Dev
Sum
Minimum
Maximum
300
300
82.31667
1.76033
12.12031
0.09824
24695
528.10000
49.75000
1.54000
109.75000
1.94000
/ FREQ Var = N_OBS
MEDPES
MEDALT
MEDPES
1.00000
0.0
0.54023
0.0001
MEDALT
0.54023
0.0001
1.00000
0.0
38
O coeficiente de correlao de 0.54023. Um p-valor de 0.0001 reflete uma forte

evidncia de que a correlao entre altura e o peso difere de zero.
8.3 Regresso (PROC REG)
Os coeficientes de correlao indicam somente a existncia ou no de

algum tipo de relacionamento entre variveis. Para investigar a forma desse
relacionamento, o mtodo mais apropriado a anlise de regresso, onde a
relao pode ser expressa sob forma matemtica, por meio de uma equao que
interligue as variveis.
Atravs do diagrama de disperso possvel visualizar uma curva que se
aproxime dos dados. Essa curva denominada curva de ajustamento.
Para fins de referncia, a seguir encontram-se relacionados vrios tipos
comuns de curvas de ajustamento e suas equaes. As variveis independentes
esto representadas pela letra X e as variveis dependentes pela letra Y. As
demais letras representam constantes.
Funo Linear
Y = a0 + a1 X
Funo Quadrtica
Y = a0 + a1 X + a2 X2
Funo Cbica
Y = a0 +a1 x + a2 x2 + a3 x3
Funo Exponencial
Y = a bx
log y = Ioga + (log b) x = a0 +a1 x
Para evitar o critrio individual na construo de funes que se adaptem

ao conjunto de dados, necessrio instituir uma definio da "melhor funo de
ajustamento". Uma medida da qualidade do ajustamento aos dados apresentados
(aderncia) proporcionada a partir da distncia dos pontos observados at a
equao de regresso. De todas as equaes que podem ser traadas atravs do
grupo de pontos no diagrama de disperso, a funo que melhor se ajusta
aquela com a menor soma dos quadrados das distncias (Mtodo dos Mnimos
Quadrados).
Estas distncias so designadas como desvios, erros ou resduos, e
podem ser positivas, negativas ou nulas, como apresentado na figura a seguir:
39
O modelo linear:
Yj = 0 + 1 Xj + j
Suas suposies:
- Xj so fixos;
- 0 e 1 so parmetros fixos desconhecidos;
- j ~ N id (0 , 2) .
Considere a regresso como um particionamento da Soma Total dos
Quadrados:
( Yj Y )
$ Y
= Y
j
) + ( Y Y$ )
2
SST = SSM + SSE

onde:
SST - a soma total dos quadrados.
SSM - a soma dos quadrados devido ao modelo (soma dos quadrados devido
regresso ).
SSE - a soma dos quadrados devido ao erro , ou resduo.
Num modelo de regresso preciso:
Estimar:
- 2, ou seja, o erro mdio quadrtico;
- 0 e 1.
40
Testaras Hipteses :
H0: 1 = 0
0 = 0
Obter valores preditos e limites de predio.
Estimar a mdia da varivel resposta Y, dado um valor fixo X,
determinando tanto as estimativas por ponto como por intervalo.
8.4 Inferncia na regresso
Estatsticas usadas na Anlise de Regresso:

- valor estimado de 2 =MSE, Mdia quadrtica para o erro
= SSE/ df(erro)
= Soma dos Quadrados devido ao erro / df(erro)
- estimativas de mnimos quadrados de 0 e 1, que minimize SSE.
min
(Y j Y )
- teste de 0 = 0 e 1 = 0 com a estatstica t de Student ou teste de 0 no modelo /

1 = 0 com a estatstica F.
8.5 Resduos
Os resduos representam o comportamento de Y (varivel resposta), do

qual as variveis independentes no fazem a estimativa. Se for suposto que o
modelo correto, que no se tenha omitido nenhuma varivel independente, e
tambm que os resduos so normais e independentemente distribudos, com
mdia zero e varincia constante, pode-se provar hipteses, assinalar limites de
confiana, predizer valores da varivel dependente a partir das variveis
independentes e computar probabilidades de significncia .
Um plote dos resduos sobres as variveis independentes ou sobre os
valores preditos pode ser gerado para avaliar a qualidade do ajuste. Se o modelo
necessitar de algum outro termo, o plote dos resduos sugere que tipo de termo
pode ser adicionado ao modelo. Alguns modelos so mostrados a seguir:
41
PROC REG
A procedure REG o procedimento SAS mais comum para anlise da
regresso. um procedimento interativo, ou seja, o usurio pode dispor de seus
comandos bsicos para ajustar uma funo, verificar a sada das estatsticas, e
posteriormente adicionar mais comandos dando continuidade suas anlises sem
necessidade de reinicializar o comando da PROC. Quando usado interativamente,
o comando RUN no finaliza o procedimento. Para finaliz-lo o usurio deve
estabelecer outro DATA STEP ou PROC STEP, ou usar o comando QUIT, que
nunca deve ser acessado quando o procedimento estiver em curso.
FORMA GERAL:
PROC REG DATA = arquivo SAS opes;
MODEL dependente = independente / opes;
VAR varivel;
ID varivel;
OUTPUT OUT = novo arquivo
P = nova varivel
R = nova varivel
U95 = nova varivel
L95 = nova varivel
U95M = nova varivel
L95M = nova varivel;
PLOT varivel Y * varivel X = 'smbolo';
PRINT opes;
RUN;
OPES DISPONVEIS NA PROC REG:
42
SIMPLE
Lista estatsticas descritiva para cada varivel.
OUTEST
Cria um data set contendo as estimativas dos parmetros do

modelo de regresso.
OPES DISPONVEIS NO COMANDO

CLI
Fornece limites de confiana superior e inferior a 95% para um

valor particular predito da varivel dependente.
CLM
Fornece limites de confiana superior e inferior a 95% para a

mdia da varivel dependente nos nveis da(s) varivel(is)
independentes para cada observao.
Fornece valores preditos a partir do modelo estimado para cada

observao do arquivo a de entrada.
Fornece valores residuais (REAL-PREDITO)

observao e uma anlise dos resduos.
para
cada
SELECTION = mtodo
Especifica o mtodo usado para seleo do modelo (Backward, Stepwise,
MAXR, ADJRSQ, por exemplo). O default NONE (usa o modelo
completo).
ADJRSQ
Fornece o R-Square ajustado para o grau de liberdade, para cada

modelo selecionado.
AIC
Fornece o Critrio de Informao de Akaike's.
BIC
Fornece o Critrio de Informao Bayesiano de Sawa .
MSE
Fornece o erro mdio quadrtico para cada modelo.
MODEL
especifica as variveis dependentes e independentes.
VAR
lista a varivel (ou variveis) que possam vir a ser adicionadas no

modelo durante o processo de anlise. Este comando deve
aparecer antes do primeiro comando RUN.
ID
especifica a varivel que identifica as observaes na sada do

relatrio, quando so solicitadas estimativas de valores individuais
de uma varivel independente ( valores preditos ), valores
residuais, etc.
43
OUTPUT
especifica o arquivo de sada e os nomes das variveis que iro

conter os valores previstos, residuais , etc.
PLOT
gera plotes de disperso com a varivel y representando o eixo

vertical e a varivel x o eixo horizontal. Para plotar estatsticas
utiliza-se as palavras chave (nomes reservados) disponveis no
comando OUTPUT. (Ex: plot y.*p;)
PRINT
Lista as opes disponveis.
Os seguintes nomes reservados so utilizados para especificar as

estatsticas desejadas. Eles devem ser seguidos por um nome de varivel:
P (ou PREDICTED)
representa os valores preditos.
R (ou RESIDUAL)
representa os valores residuais para cada observao.
U95, L95
representam, respectivamente, os limites superior e

inferior de predio para os valores observados.
U95M, L95M
representam, respectivamente os limites superior e

inferior de confiana para a mdia da populao.
Ex4.: Os dados a seguir provem de um experimento para testar o desempenho de

uma mquina industrial. O experimento utilizou uma mistura de leo diesel e
gs, derivados de materiais destilados orgnicos. O valor da capacidade da
mquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas
em rotaes por minuto (rpm X 100). Analisar o diagrama de disperso e
encontrar um modelo de regresso que se ajuste aos dados.
DATA MAQUINA1 A;
/* EXEMPL04
INPUT VELOC CAPAC @@;
CARDS;
22.0 64.03 20.0 62.47 18.0
12.0 37.48 15.0 46.85 17.0
22.0 64.03 20.0 62.63 18.0
12.0 36.63 10.5 32.05 13.0
19.0 56.65 21.0 62.61 23.0
;
PROC PLOT;
PLOT CAPAC * VELOC = '0';
TITLE 'DIAGRAMA DE DISPERSAO';
RUN;
44
SAS */
54.94
51.17
52.90
39.68
65.31
16.0
19.0
16.0
15.0
24.0
48.84
58.00
48.84
45.79
63.89
14.0
21.0
14.0
17.0
43.73
63.21
42.74
51.17
PROC
REG;
MODEL CAPAC = VELOC;
OUTPUT OUT= RESIDl
P=PREVISTO
R=RESIDUAL;
TITLE 'AJUSTE DA FUNCAO LINEAR';
RUN;
PROC GPLOT;
PLOT RESIDUAL* VELOC /VREF = 0;
TITLE 'PLOT DE RESIDUOS P/ AJUSTE LINEAR';
RUN;
PROC UNIVARIATE DATA= RESIDl
NORMAL
PLOT;
VAR
RESIDUAL;
TITLE 'TESTE DE NORMALIDADE DOS RESIDUOS';
RUN;

DIAGRAMA DE DISPERSAO
Plot of CAPAC*VELOC.
Symbol used is '0'.
CAPAC |
|
65 +
0
|
0
0
|
0
|
0
0
60 +
|
|
0
|
0
55 +
0
|
|
0
|
0
50 +
|
0
|
0
|
0
45 +
|
0
|
0
|
40 +
0
|
|
0
|
0
35 +
|
|
| 0
30 +
|
--+-------+--------+--------+---------+-------+--------+--------+10
12
14
16
18
20
22
24
VELOC
NOTE: 4 obs hidden.
45
O diagrama de disperso mostra uma tendncia crescente da capacidade da

mquina em funo da velocidade utilizada. Os dados observados sero
ajustados inicialmente por uma funo linear. o relatrio de sada consta de duas
sees, Anlise da Varincia e Estimativas dos Parmetros, apresentadas a
seguir:
AJUSTE DA FUNCAO LINEAR
Model: MODEL1
Dependent Variable: CAPAC
Analysis of Variance
Source
DF
Sum of
Squares
Mean
Square
Model
Error
C Total
1
22
23
2294.80982
76.08652
2370.89633
2294.80982
3.45848
1.85970
52.31833
3.55458
R-square
Adj R-sq
Root MSE
Dep Mean
C.V.
F Value
Prob>F
663.532
0.0001
0.9679
0.9664
Parameter Estimates
Variable
INTERCEP
VELOC
DF
1
1
Parameter
Estimate
6.100234
2.650500
Standard
Error
1.83396047
0.10289565
T for H0:
Parameter=0
Prob > |T|
3.326
25.759
0.0031
0.0001
A seo de Anlise de Varincia contm informaes sobre a qualidade do

ajuste. So elas:
- DF
Identifica as fontes de variaes dos dados e os respectivos graus de liberdade.
- SOMA DOS QUADRADOS (SS):
Separam a variao dos dados em pores que podem ser tanto atribudas ao
modelo como ao erro. Parte da variao total da capacidade da mquina se deve
velocidade utilizada e outra parte se deve a erros aleatrios ou outros fatores
independentes da velocidade.
SS total = SS models + SS erro
Observando os valores da varivel Capacidade da Mquina quando o valor da
velocidade de 18 (rpm x 100), por exemplo, tem-se 54.94 HP e 52.90 HP. Esta
variao se deve ao erro do experimento ou a fatores outros que no a
velocidade.
46
- MDIA QUADRTICA (MS): SS/DF

MS erro = 3.45848 estima a varincia da populao dos valores da capacidade da
mquina para valores determinados da velocidade.
- F, PROB > F:
Fornece o valor da estatstica teste e o p-valor associado ao teste de hiptese de
que o modelo explica uma parte significante da variao dos dados.
- R_SQUARE : SS modelo / SS Total
R_Square a frao da variao total devida s variveis do modelo. Seu valor
varia dentro do intervalo [0,1], sendo que quanto mais prximo de 1, melhor o
modelo explica a variao dos dados. Neste caso o modelo proposto explica 96%
da variabilidade total. implicando um alto grau de aderncia dos valores
observados reta ajustada. Sobre a qualidade do ajuste, o valor de R_Square
no a explica sozinho. Recomenda-se tambm uma Anlise dos Resduos.
- Adj R_SQUARE
uma estatstica alternativa ao R-Square. utilizada em REGRESSO
MLTIPLA.
A seo Estimativas dos Parmetros prov coeficientes para a linha de
regresso e testes para determinar se estes coeficientes so significativamente
diferentes de zero. O modelo de ajuste, neste caso, representado por:
CAPAC = 6.10 + 2.65 VELOC
O valor de INTERCEP = 6.10 no tem uma interpretao especfica no modelo.
Para VELOC = 0, a capacidade predita pelo modelo de 6.10 HP. O coeficiente
2.65 pode ser interpretado como o acrscimo da capacidade esperada para cada
unidade adicional da velocidade.
Para verificar a suposio de que os coeficientes so no nulos, tem-se:
- DF
Fornece o grau de liberdade para os parmetros estimados. Para cada parmetro
estimado DF= 1.
- Erro Padro:
Mede o quanto cada parmetro estimado poderia vaiar de um conjunto de dados
para outro. Eles so utilizados na construo de intervalos de confiana.
47
- T para H0 : Parmetro = 0:
Estatstica para testar a hiptese que o parmetro igual a zero. Seu valor dado
por:
Valor Estimado do Parmetro / Erro Padro
- PROB > T:
Fornece o p-valor para a estatstica teste T. Para o parmetro VELOC, o p-valor
de 0.0001, evidenciando que o grau de inclinao da reta ajustada diferente de
zero. O intercepto tambm difere de zero.
i = Yi - 6.10 - 2.65 VELOC importante para

A anlise dos resduos ei= Yi - Y
avaliar se a escolha do modelo apropriada para o conjunto de dados
apresentado. Pelo comportamento da distribuio dos resduos (PROC GPLOT)
sugere-se a utilizao de um termo quadrtico.
A validade dos testes de significncia dependem da suposio de que os resduos
so normalmente distribudos. Para se verificar essa suposio basta utilizar a
PROC UNIVARIATE com as opes NORMAL e PLOT, o que gera as seguintes
sadas:
48
TESTE DE NORMALIDADE DOS RESIDUOS

Variable=RESIDUAL
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
24
0
1.818821
-0.95935
76.08652
.
0
24
1
4
0.896308
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
24
0
3.308109
4.145739
76.08652
0.371265
1.0000
13
0.8388
0.9119
0.0170
Quantiles(Def=5)
100% Max
75% Q3
50% Med
25% Q1
0% Min
3.51976
0.92076
0.011261
-0.67199
-5.82224
Range
Q3-Q1
Mode
9.342001
1.592748
-0.38124
99%
95%
90%
10%
5%
1%
3.51976
3.35976
1.54026
-1.75174
-1.88049
-5.82224
Extremes
Lowest
-5.82224(
-1.88049(
-1.75174(
-1.27624(
-0.90924(
Obs
Highest
24) 1.13076(
17) 1.449259(
23) 1.54026(
16) 3.35976(
13) 3.51976(
Obs
3)
10)
9)
2)
12)
A estatstica W de Shapiro WIL indica que os dados no so normalmente

distribudos. O valor da assimetria de 0.9593, encontrando-se fora do intervalo
(-0.87 , 0.87), e o valor da curtoze de 4.1457, que est fora do intervalo(1.20,2.30). Estes so os intervalos a 95% de confiana para a assimetria e
curtoze, referentes a um tamanho de amostra n=24, retirada de uma populao
normalmente distribuda. (Ver ANEXO 2).
Stem
3
2
1
0
-0
-1
-2
-3
-4
-5
Leaf
45
#
2
Boxplot
0
0145
0023358
9954441
983
4
7
7
3
|
+--+--+
+-----+
|
8
----+----+----+----+
49
Variable=RESIDUAL
Residual

3.5+
* ++*++
|
++++++
|
+++** *
0.5+
*+***+***
|
* ****+*+
|
* * *++++
-2.5+
++++++
|
+++++
|++++
-5.5+
*
+----+----+----+----+----+----+----+----+----+----+
-2
-1
0
+1
+2
Observa-se pelo histograma dos resduos que a distribuio assimtrica a

esquerda. Os asteriscos (*) no plote acima representam os resduos observados,
e os sinais de (+) so utilizados para prover uma linha de referncia baseada na
mdia e no desvio padro amostral, que so indicadores do intercepto e do grau
de inclinao da linha, respectivamente. Se os dados so normais, eles tendem a
acompanhar a disposio da linha de referncia indicada pelos sinais (+). Quando
isto acontece somente os asteriscos (*) so amostrados. No caso em questo, a
disposio dos resduos no se ajusta a linha de referncia, colocando em
cheque a suposio de normalidade dos resduos. Mais uma vez fica comprovada
a necessidade de uma nova tentativa de ajuste dos dados analisados.
FUNO QUADRTICA
Os comandos a seguir ajustam uma funo quadrtica aos dados do
arquivo MQUINA1. Alm de gerar um plote para os resduos do ajuste,
intervalos de confiana para a mdia da capacidade da populao e uma curva de
previso para os dados, com a opo r o programa tambm gera resduos
padronizados que permitem verificar se pontos fora do padro ('outliers') se
devem a causas aleatrias ou a causas especiais de variao. Um teste para a
normalidade dos resduos tambm efetuado para o ajuste quadrtico.
DATA MAQUINA2 SAS;
/* EXEMPL05 SAS */
INPUT VELOC CAPAC @@;
VELOC2 = VELOC*VELOC;
CARDS;
22.0 64.03 20.0 62.47 18.0
54.94 16.0 48.84 14.0 43.73
12.0 37.48 15.0 46.85 17.0 51.17 19.0 58.00 21.0 63.21
22.0 64.03 20.0 62.63 18.0
52.90 16.0 48.84 14.0 42.74
12.0 36.63 10.5 32.05 13.0 39.68 15.0 45.79 17.0 51.17
19.0 56.65 21.0 62.61 23.0 65.31 24.0 63.89
;
PROC REG;
MODEL CAPAC=VELOC VELOC2 / CLM R;
ID VELOC;
OUTPUT OUT=RESlD2
P=PREVISTO R=RESIDUAL;
TITLE 'AJUSTE DE FUNCAO QUADRATICA';
PROC GPLOT;
50
PLOT RESIDUAL * VELOC / VREF=0;

TITLE 'PLOT DE RESIDUOS P/ AJUSTE QUADRATICO';
RUN;
PROC UNIVARIATE NORMAL;
VAR RESIDUAL;
TITLE 'TESTE PARA NORMALIDADE DOS RESIDUOS';
PROC GPLOT;
PLOT PREVISTO*VELOC;
TITLE 'CURVA DE PREVISAO';
RUN;

AJUSTE DA FUNCAO QUADRATICA
Model: MODEL1
Dependent Variable: CAPAC
Source
DF
Sum of
Squares
Mean
Square
Model
Error
C Total
2
21
23
2329.52618
41.37016
2370.89633
1164.76309
1.97001
1.40357
52.31833
2.68275
R-square
Adj R-sq
Root MSE
Dep Mean
C.V.
F Value
Prob>F
591.248
0.0001
0.9826
0.9809
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
VELOC
VELOC2
1
1
1
-19.184839
5.710855
-0.088391
6.18024426
0.73314324
0.02105601
-3.104
7.790
-4.198
0.0054
0.0001
0.0004
O modelo do ajuste quadrtico dado por:

CAPAC = -19.18 + 5.71 VELOC - 0.08 VELOC2
O teste de significncia dos coeficientes indica que para o coeficiente -0.08 de
VELOC2 :
t = -0.08 /SE (VELOC2) = -0.08 / 0.021 = - 3.81
A probabilidade de significncia para esta estatstica 0.0004, ou seja, existe
somente quatro chances em dez mil de se encontrar uma estatstica t to grande
quanto a calculada acima. O desvio padro da estimativa do coeficiente de
VELOC2 to pequeno que pode-se afirmar que seu valor estatisticamente
diferente de zero. O modelo quadrtico, portanto, est representando melhor o
relacionamento entre a velocidade da mquina e sua capacidade de produo,
quando comparado ao modelo linear.
51
Os valores preditos e os limites de confiana para a mdia da populao obtidos

com o ajuste quadrtico esto relacionados a seguir:
AJUSTE DA FUNCAO QUADRATICA
Obs
VELOC
1
22
2
20
3
18
4
16
5
14
6
12
7
15
8
17
9
19
10
21
11
22
12
20
13
18
14
16
15
14
16
12
17
10.5
18
13
continuao ...
19
20
21
22
23
24
15
17
19
21
23
24
Dep Var
CAPAC
Predict
Value
Std Err
Predict
Lower95%
Mean
Upper95%
Mean
Residual
64.0300
62.4700
54.9400
48.8400
43.7300
37.4800
46.8500
51.1700
58.0000
63.2100
64.0300
62.6300
52.9000
48.8400
42.7400
36.6300
32.0500
39.6800
63.6726
59.6758
54.9718
49.5607
43.4425
36.6171
46.5900
52.3546
57.4122
61.7626
63.6726
59.6758
54.9718
49.5607
43.4425
36.6171
31.0340
40.1182
0.488
0.374
0.401
0.397
0.396
0.596
0.385
0.405
0.385
0.398
0.488
0.374
0.401
0.397
0.396
0.596
0.921
0.460
62.6568
58.8981
54.1382
48.7356
42.6198
35.3785
45.7890
51.5114
56.6114
60.9343
62.6568
58.8981
54.1382
48.7356
42.6198
35.3785
29.1185
39.1612
64.6884
60.4534
55.8054
50.3858
44.2651
37.8556
47.3909
53.1978
58.2130
62.5909
64.6884
60.4534
55.8054
50.3858
44.2651
37.8556
32.9495
41.0751
0.3574
2.7942
-0.0318
-0.7207
0.2875
0.8629
0.2600
-1.1846
0.5878
1.4474
0.3574
2.9542
-2.0718
-0.7207
-0.7025
0.0129
1.0160
-0.4382
45.7900
51.1700
56.6500
62.6100
65.3100
63.8900
46.5900
52.3546
57.4122
61.7626
65.4059
66.9623
0.385
0.405
0.385
0.398
0.651
0.878
45.7890
51.5114
56.6114
60.9343
64.0513
65.1364
47.3909
53.1978
58.2130
62.5909
66.7605
68.7883
-0.8000
-1.1846
-0.7622
0.8474
-0.0959
-3.0723
O plote dos resduos studentizados pode indicar a ocorrncia de pontos

discrepantes. Cada asterisco corresponde metade de uma unidade.
Observaes com quatro ou cinco asteriscos tem resduos studentizados entre
2.0 e 3.0, e esto num range suspeito. Observaes com seis ou mais asteriscos
provavelmente so outliers. No plote a seguir, as observaes 2 e 12
(VELOC=20), e a 24 esto num range suspeito. O grfico dos reduos mostrado
ao fim deste exemplo confirma estas suposies. O prximo passo seria reavaliar
a fonte de dados e identificar alguma razo peculiar para a ocorrncia destes
valores.
Obs
1
2
3
4
5
6
7
8
9
10
11
12
VELOC
22
20
18
16
14
12
15
17
19
21
22
20
Std Err
Residual
Student
Residual
1.316
1.353
1.345
1.346
1.347
1.271
1.350
1.344
1.350
1.346
1.316
1.353
0.272
2.065
-0.024
-0.535
0.214
0.679
0.193
-0.882
0.436
1.075
0.272
2.184
52
Cook's
D
-2-1-0 1 2
|
|
|
|
|
|
|
|
|
|
|
|
|
|****
|
*|
|
|*
|
*|
|
|**
|
|****
|
|
|
|
|
|
|
|
|
|
|
|
0.003
0.109
0.000
0.008
0.001
0.034
0.001
0.024
0.005
0.034
0.003
0.121
13
14
15
16
17
18
19
20
21
22
23
24
18
16
14
12
10.5
13
15
17
19
21
23
24
1.345
1.346
1.347
1.271
1.059
1.326
1.350
1.344
1.350
1.346
1.243
1.095
Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)
-1.540
-0.535
-0.522
0.010
0.959
-0.330
-0.593
-0.882
-0.565
0.630
-0.077
-2.806
|
***|
|
*|
|
*|
|
|
|
|*
|
|
|
*|
|
*|
|
*|
|
|*
|
|
| *****|
|
|
|
|
|
|
|
|
|
|
|
|
0.070
0.008
0.008
0.000
0.232
0.004
0.010
0.024
0.009
0.012
0.001
1.687
0
41.3702
65.0917
Atravs do grfico dos resduos (PROC GPLOT) observa-se que nem toda as
observaes seguem a mesma forma geral. O ponto onde VELOC=24 encontrase abaixo dos demais, e os dois pontos prximos VELOC=20 esto acima dos
demais. Isto pode se dever causas especiais ou simplesmente ao acaso, e
precisa ser verificado. Os demais pontos esto bem distribudos ao longo do
grfico, podendo ser admitida a suposio de varincia da distribuio dos
resduos.
53

Variable=RESIDUAL
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
24
0
1.341157
0.194918
41.37016
.
0
24
0
-5
0.961296
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
24
0
1.798702
1.047599
41.37016
0.273763
1.0000
12
1.0000
0.8899
0.4711
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
2.954224
0.717615
-0.00944
-0.74144
-3.07234
99%
95%
90%
10%
5%
1%
2.954224
2.794224
1.447409
-1.18464
-2.0718
-3.07234
6.026565
1.45905
-1.18464
Extremes
Lowest
Obs
Highest
Obs
-3.07234(
24) 0.862912(
6)
-2.0718(
13) 1.015991(
17)
-1.18464(
20) 1.447409(
10)
-1.18464(
8) 2.794224(
2)
-0.79996(
19) 2.954224(
12)
O p-valor associado ao teste de normalidade dos resduos de 0.47. A hiptese

de normalidade dos resduos do Ajuste Quadrtico no pode ser rejeitada aos
nveis usuais de significncia. A curva de previso baseada no modelo ajustado
mostrado no (PLOT GPLOT).
54
9 INFERNCIA ESTATSTICA
9.1 Testes para igualdade de duas mdias (PROC TTEST)
Na prtica freqentemente nos vemos diante de situaes onde uma

deciso deva ser tomada acerca de populaes, baseadas nas informaes
obtidas a partir das amostras. Este captulo abordar testes de hipteses, para o
caso em que duas amostras so consideradas, em princpio de populaes
distintas, Com base nestas amostras, as mdias equivalentes s populaes
envolvidas so comparadas. O teste t apropriado quando a anlise envolve uma
nica varivel independente (preditora), medida na escala nominal e assumindo
somente dois valores, e uma nica varivel resposta, medida na escala de razo
ou de intervalo. O teste t usualmente conhecido como teste de diferenas de
grupos.
Dois casos tpicos sero considerados neste tipo de experimento. O
primeiro o teste para dados no pareados, ou seja, amostras independentes
(populaes no correlacionadas). O segundo, para dados pareados, (populaes
correlacionadas). O que diferencia os dois testes a forma do clculo da
estatstica t. Hipteses adicionais devem ser atendidas para a validao destes
testes.
55
- AMOSTRAS INDEPENDENTES:
- Nvel de Medida: A varivel resposta deve ser acessada na escala de razo ou
de intervalo. A varivel independente deve estar na escala
nominal e assumir somente dois nveis.
- Observaes Independentes: Uma dada observao no pode depender de
qualquer outra entre os dois grupos.
- Amostras Aleatrias: Os valores da varivel resposta devem representar uma
amostra aleatria oriunda de uma populao normal. Se
cada amostra contiver cerca de 30 observaes, o teste
considerado robusto no que diz respeito
normalidade.
- Homogeneidade de Varincias: O teste t exato utilizado quando o teste F
para igualdade de varincias leva a no
rejeio da hiptese nula de igualdade de
varincias na populao.
PROC TTEST
A PROC TTEST desempenha um teste de hiptese para checar se a
mdia de duas populaes so iguais. Uma estatstica t para o teste calculada,
assumindo que as varincias so iguais para os dois grupos. Uma estatstica T
aproximada calculada, assumindo que as varincias so diferentes. Para testar
a igualdade das varincias calculada uma estatstica F. Para cada uma das
estatsticas T e F so associados os respectivos graus de liberdade e
probabilidades de significncia (p-valor). Se o p-valor menor que o nvel de
significncia associado ao teste, o resultado estatisticamente significante, e a
hiptese nula rejeitada, ou seja, as mdias para os dois grupos so
significativamente diferentes.
56
Os testes paramtricos que envolvem observaes pareadas sero

abordados no item 9.2. Os testes no paramtricos sero assunto do prximo
captulo.
FORMA GERAL:
PROC TTEST DATA = arquivo de dados;
CLASS varivel;
VAR varivel;
RUN;
CLASS
VAR
nomeia a varivel que forma os grupos. Estes grupos podem

assumir somente dois valores distintos, uma vez que o teste utilizado
para comparao de duas mdias.
nomeia a varivel cuja mdia ser comparada. Se o comando
VAR for omitido, todas as variveis numricas contidas no
arquivo de entrada (exceto as que aparecem no comando
CLASS) sero includas na anlise.
Ex6.: Dados no pareados com varincias desconhecidas e supostamente iguais.

Sejam amostras obtidas de dois tipos de cabo de ao em relao carga de
ruptura. Ao nvel de significncia de 5% pode-se concluir que o cabo do tipo l
seja mais resistente que o do tipo 2 ?
Carga de Ruptura (Kgf)
Tipo 1
760
755
758
761
755
Tipo 2
758
748
757
753
755

DATA CABO A;
/* EXEMPL06 SAS */
INPUT TIPO $ CARGA
@@;
CARDS;
Tl
760
T2
758
Tl
755
T2
748
Tl
758
T2
757
Tl
761
T2
753
Tl
755
T2
755
;
PROC TTEST;
CLASS
TIPO;
VAR
CARGA;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS';
RUN;
57

TESTE PARA IGUALDADE DE MEDIAS
TTEST PROCEDURE
Variable: CARGA
TIPO
N
Mean
Std Dev
Std Error
Minimum
Maximum
------------------------------------------------------------------------T1
5 757.8000000 2.77488739
1.24096736 755.0000000 761.0000000
T2
5 754.2000000 3.96232255
1.77200451 748.0000000 758.0000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
1.6641
7.2
0.1392
Equal
1.6641
8.0
0.1347
For H0: Variances are equal, F' = 2.04
DF = (4,4)
Prob>F' = 0.5072
Para comparar dois grupos independentes observa-se primeiramente a linha que

testa a igualdade de varincias. O p-valor para este teste dado por
PROB>F'=0.5072 que maior que 0.10, indicando que as varincias no so
significantemente diferentes a um nvel de 10% de significncia.
Utiliza-se ento o t-test exato. Para o teste da igualdade de mdias, a linha
denominada UNEQUAL d o resultado de um t-test aproximado, que utilizado
quando no se pode assumir a igualdade das varincias os dois grupos de
observaes.
O p-valor para o t-test PROB > ITI = 0.1347 que maior que 0.05, indicando
que ambas as mdias para o cabo do tipo 1 e tipo 2 no so significativamente
diferentes ao nvel de 5% de significncia. Valores altos para estatstica T indicam
diferenas significativas entre as mdias. Para o teste exato, o grau de liberdade
DF calculado como a soma dos tamanhos das amostras dos dois grupos menos
dois (8 = 5 + 5 - 2).
Ex7.: Dados no pareados com varincias desconhecidas e supostamente
diferentes.
Deseja-se saber se duas mquinas de empacotar caf esto fornecendo o
mesmo peso mdio por pacote, tanto como uma das mquinas nova e a
outra velha, razovel supor-se que trabalhem com diferentes
variabilidades dos pesos colocados nos pacotes. As amostras disponveis
constam de seis pacotes produzidos pela mquina nova e nove produzidos
pela mquina velha. Os pesos em quilogramas desses pacotes so:
mquina nova
mquina velha
0,82 0,83 0,79 0,81 0,81 0,80

0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78
Qual a concluso, ao nvel de 5% de significncia ?

DATA
CAF
A;
/* EXEMPL07
58
SAS */
INPUT
MAQUINA $ PESO @@,
CARDS;
NOVA
0.82
NOVA
0.83
NOVA
0.79
NOVA
0.81
NOVA
0.81
NOVA
0.80
VELHA 0.79
VELHA 0.82
VELHA 0.73
VELHA 0.74
VELHA 0.80
VELHA 0.77
VELHA 0.75
VELHA 0.84
VELHA 0.78
;
PROC TTEST DATA=CAFE,
CLASS MAQUINA;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS DADOS NO PAREADOS';
RUN;

TESTE PARA IGUALDADE DE MEDIAS - DADOS NAO PAREADOS
TTEST PROCEDURE
Variable: PESO
MAQUINA
N
Mean
Std Dev
Std Error
Minimum
Maximum
------------------------------------------------------------------------NOVA
6 0.81000000 0.01414214 0.00577350
0.79000000 0.83000000
VELHA
9
0.78000000 0.03674235
0.01224745 0.73000000 0.84000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
2.2156
11.1
0.0486
Equal
1.8893
13.0
0.0814
DF = (8,5)
Prob>F' = 0.0501
O p-valor para o teste de igualdade de varincias dado por PROB >F'=0.0501

que menor que 0.10, indicando que as varincias so significativamente
diferentes a um nvel de 10% de significncia. Para o teste de igualdade de
mdias, a linha denominada UNEQUAL deve ser utilizada. A um nvel de 5% de
significncia h diferena significativa entre as mdias dos pesos dos pacotes,
pois PROB > ITI = 0.0486 < 0.05.
9.2 Testes para dados pareados
Os resultados de duas amostras constituem dados emparelhados (ou

pareados) quando esto relacionados dois a dois segundo algum critrio que
introduz uma influncia mercante entre os diversos pares. Esta influncia incide
igualmente sobre os valores de cada par.
59
Assim, por exemplo, suponha que 10 cobaias sejam submetidas durante

uma semana a uma dieta com certo tipo de rao. Os pesos das cobaias so
medidos no incio e no fim do tratamento, e deseja-se tirar concluses sobre o
aumento mdio do peso verificado. Se os animais forem perfeitamente
identificados, teremos duas amostras de valores do tipo 'antes' e 'depois', e os
dados sero pareados, pois cada valor da palmeira amostra estar perfeitamente
associado ao respectivo valor da segunda amostra. O critrio que garante o
emparelhamento a identidade de cada cobaia. razovel esperar que a
identidade de cada animal tenha influncia nos valores observados de seu peso,
porm essa influncia deve exercer-se de forma aproximadamente igual dentro de
cada para de valores 'antes e depois', logo, ao se tomarem as diferenas entre
vrios pares de valores, a influncia individual de cada animal tende a
desaparecer, restando apenas os efeitos produzidos pela rao.
No mesmo exemplo, se os animais no fossem identificados, no haveria
como associar os valores das duas amostras, e os dados seriam noemparelhados.
Se os dados de duas amostras so emparelhados tem sentido calcular as
diferenas di correspondentes a cada par de valores, reduzindo assim os dados
a uma nica amostra de n diferenas. Testa-se ento a hiptese de que a
diferena entre as mdias das populaes emparelhadas seja igual a um certo
valor, reduzindo o problema ao teste de uma nica mdia. As hipteses a serem
atendidas para validao deste teste so listadas baixo:
- AMOSTRAS PAREADAS:
Nvel de medida: A varivel resposta deve estar na escala de intervalo ou de
razo. A varivel independente deve estar na escala nominal
e assumir somente duas categorias.
Observaes pareadas: Uma dada observao que aparece em uma condio
tem que estar de algum moda associada uma
observao correspondente na outra condio.
Observaes Independentes: Um valor de dado em uma condio no pode ser
afetado por qualquer outro valor de dado em
ambas condies.
Amostras Aleatrias: Os valores da varivel resposta devem representar uma
amostra aleatria oriunda de uma populao de interesse.
Distribuio Normal para a diferena de Scores:
As diferenas de scores entre os pares de valores devem ser
normalmente distribudas. No h necessidade que a varivel resposta seja
normalmente distribuda.
60
Homogeneidade de Varincias: As populaes representadas pelas duas

condies devem ter iguais varincias .
PROC UNIVARIATE
Para observaes pareadas, o primeiro passo encontrar as diferenas
para cada observao na amostra. O segundo sumarizar estas diferenas. Para
calcular estas diferenas, pode-se criar uma nova varivel no DATA STEP, cuja
mdia ser sumarizada atravs da PROC UNIVARIATE. Outro caminho para
sumarizar os dados amostrais produzir grficos que mostrem a distribuio dos
valores.
Ex8.: Dez cobaias adultas foram submetidas ao tratamento com certa rao
durante uma semana. Os animais foram perfeitamente identificados, tendo
sido mantidos, para tanto, em gaiolas individuais. Os pesos, em gramas, no
princpio e no fim da semana, so designados respectivamente por peso 1
e peso 2. Ao nvel de 5% de significncia pode-se concluir que o uso da
rao contribuiu para o aumento do peso mdio dos animais? O programa
a seguir prov um teste de hiptese para checar se a diferena mdia de
pesos significativamente diferente de zero.
DATA TRAT A;
/* EXEMPL08 SAS */
INPUT COBAIA
PESO1
PESO2 @@;
DIF= PESO2-PESO1;
CARDS;
1
635
640
2
704
712
3
662
681
4
560
558
5
603
610
6
745
740
7
698
707
8
575
585
9
633
635
10
669
682
;
PROC PRINT;
TITLE 'LISTA DAS DIFERENCAS PAREADAS';
RUN;
PROC UNIVARIATE;
VAR DIF;
TITLE 'TESTE PARA DIFERENCAS DE OBSERVACOES PAREADAS';
PROC CHART;
VBAR DIF;
TITLE 'CARTA PARA DIFERENCAS PAREADAS';
RUN;
61

LISTA DAS DIFERENCAS PAREADAS
OBS
COBAIA
PESO1
PESO2
DIF
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
635
704
662
560
603
745
698
575
633
669
640
712
681
558
610
740
707
585
635
682
5
8
19
-2
7
-5
9
10
2
13
TESTE PARA DIFERENCA DE OBSERVACOES PAREADAS

Variable=DIF
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
10
6.6
7.042727
-0.0293
882
106.708
2.963487
10
3
22.5
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
10
66
49.6
0.054015
446.4
2.227106
0.0159
8
0.1094
0.0215
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
19
10
7.5
2
-5
99%
95%
90%
10%
5%
1%
19
19
16
-3.5
-5
-5
24
8
-5
Extremes
Lowest
-5(
-2(
2(
5(
7(
Obs
6)
4)
9)
1)
5)
62
Highest
8(
9(
10(
13(
19(
Obs
2)
7)
8)
10)
3)
O relatrio parcial da PROC UNIVARIATE mostra na linha denominada

T:MEAN=0 o valor da estatstica de teste T (T=2.9635) e o p-valor associado ao
teste PROB > |T| = 0,0159. O p-valor menor que 0.05, donde se conclui que a
diferena mdia dos pesos das cobaias com a utilizao da rao
significativamente diferente de zero. A um nvel de 5% de significncia o uso da
rao contribui para o aumento do peso mdio dos animais.
CARTA PARA DIFERENCAS PAREADAS
Frequency
4 +
*****
|
*****
|
*****
|
*****
|
*****
|
*****
|
*****
3 +
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
2 +
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
1 +
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
--------------------------------------------------------4
4
12
20
DIF Midpoint
O grfico com a distribuio dos valores das diferenas obtido atravs da PROC
CHART. As barras verticais mostram que a mais alta freqncia ocorre para
valores entre 8 e 16, prximo a 12, indicando mais uma vez que a variao mdia
das diferenas estatisticamente significante.
63
10 MTODOS NO PARAMTRICOS
10.1 Testes para igualdade de duas mdias (PROC NPAR1WAY)

Os testes no paramtricos utilizam-se de poucas suposies a respeito
da distribuio de habilidade dos dados. Ele indicado quando o tamanho das
amostras analisadas muito pequeno para validar a suposio de normalidade
dos dados.
PROC NPAR1WAY
A PROC NPARLWAY um procedimento no paramtrico para testar se
a distribuio de uma varivel tem o mesmo parmetro de locao sobre
diferentes grupos. Ela trabalha com grupos independentes, dados no pareados.
Para dados pareados, a PROC UNIVARIATE desempenha um teste de sinais e o
teste dos ranks de Wilcoxon.
FORMA GERAL:
PROC NPARLWAY DATA= arquivo de dados opes;
VAR variveis;
CLASS varivel;
BY variveis;
VAR
nomeia variveis a serem analisadas para a comparao dos dois

grupos. (comando opcional). Uma vez omitido , as anlises so
feitas sobre todas as variveis numricas do arquivo de dados.
CLASS
nomeia somente uma varivel de classificao de grupo. O

comando CLASS obrigatrio. A varivel que identifica os grupos
podem ser caracteres ou numricas.
BY
separa a anlise em observaes definidas pelas variveis do

comando BY. Os dados precisam estar ordenados antes de se
utilizar este comando.
OPES DISPONVEIS:
WILCOXON
desempenha o teste da Soma dos Ranks de Wilcoxon para uma

varivel de dois nveis. Ele se baseia na soma dos ranks dos
valores observados. Este rank ir indicar a posio de um
determinado valor no conjunto ordenado (crescente ou
decrescentemente), do primeiro ao ltimo elemento Valores iguais
so considerados com um rank mdio de modo a no afetar os
rank seguintes. Por exemplo, os valores 15, 12, 16, 19 e 16,
considerados numa ordem crescente, tero os seguintes ranks: 2,
64
1, 3.5 , 5 e 3.5. Wilcoxon considerou que sendo vlida a hiptese

nula de identicidade entre as populaes, a soma dos postos nas
amostras deveriam fornecer valores intermedirios compatveis
com cada amostra. Com base nessa idia, determina-se quais os
limites para a soma dos ranks nas amostras, alm dos quais
deve-se rejeitar a hiptese nula.
Para uma varivel de
classificao que assuma mais que dois nveis, esta opo
corresponde ao Teste de Kruskal- Wallis.
MEDIAN
requisita uma anlise dos escores das medianas. Se as

populaes so idnticas, a mediana do conjunto formado pelas
duas amostras fornece uma boa estimativa da mediana da
distribuio comum. A proporo de valores abaixo da mediana
geral deve tender a ser a mesma nas duas amostras. O escore da
mediana 1 para pontos abaixo da mediana geral, e 0 caso
contrrio. Para mais que duas amostras, esta opo produz o
Teste de Brown- Mood.
Ex9.: Clica um distrbio comum em cavalos e freqentemente fatal. Em

casos extremos uma cirurgia o nico recurso. Pesquisadores estudam
novas tcnicas de cirurgia para reduzir os perodos sob anestesia a que
so submetidos os animais. Nove cavalos que se submeteram cirurgia
foram aleatoriamente assinalados para uma dentre as duas tcnicas
utilizadas. A tcnica A envolve a suspenso da anestesia depois da sutura
da inciso, e a tcnica B envolve a suspenso da anestesia durante a
sutura. O tempo de recuperao da anestesia foi medido em minutos a
partir do final da cirurgia at o momento que o cavalo levanta. Determinar
se os tempos de recuperao diferem para as duas tcnicas cirrgicas
utilizadas.
DATA ANEST1
A;
/* EXEMPL09 SAS */
INPUT
CAVALO
TECN $ TEMREC @@;
CARDS;
l
A
47
2
A
34
3
A
44
4
A
16
5
A
53
6
B
79
7
B
42
8
B
14
9
B
11
;
PROC NPAR1WAY WILCOXON MEDIAN;
VAR
TEMREC;
CLASS
TECN;
TITLE 'ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA';
RUN;
65

ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA
N P A R 1 W A Y
P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable TEMREC

Classified by Variable TECN
TECN
Sum of
Scores
Expected
Under H0
Std Dev
Under H0
Mean
Score
A
B
5
4
28.0
17.0
25.0
20.0
4.08248290
4.08248290
5.60000000
4.25000000
Wilcoxon 2-Sample Test (Normal Approximation)

(with Continuity Correction of .5)
S=
17.0000
Z= -.612372
Prob > |Z| =
T-Test approx. Significance =
0.5403
0.5573
Kruskal-Wallis Test (Chi-Square Approximation)

CHISQ= 0.54000
DF= 1
Prob > CHISQ=
0.4624

N P A R 1 W A Y
P R O C E D U R E
Median Scores (Number of Points above Median)

for Variable TEMREC
TECN
A
B
N
5
4
Sum of
Scores
3.0
1.0
Expected
Under H0
2.22222222
1.77777778
Std Dev
Under H0
0.785674201
0.785674201
Mean
Score
0.600000000
0.250000000
Median 2-Sample Test (Normal Approximation)

S=
1.00000
Z= -.989949
Prob > |Z| =
0.3222
Median 1-Way Analysis (Chi-Square Approximation)

CHISQ= 0.98000
DF=
Prob > CHISQ=
0.3222
O p-valor para o teste de Wilcoxon dado por Prob > |Z|= 0.5403 que
superior a 0.05. Conclui-se, portanto, que as mdias dos tempos de recuperao
no so significativamente diferentes ao nvel de 5% de significncia.
O p-valor para o teste de medianas dado por Prob > |Z| = O.3222 que
maior que 0.05, ou seja, a um nvel de 5% de significncia no h diferena
significativa entre os tempos de recuperao referentes as duas tcnicas
utilizadas. O valor dado por Prob > CHISQ = 0.3222 resulta de uma aproximao
de Chi-quadrado.
66
Ex10.: Se no exemplo anterior os cavalos fossem divididos em grupos por sexo,

Por exemplo feita no sentido de verificar a existncia de diferena entre os
tempos de recuperao dentro de cada grupo. O programa a seguir mostra
como desempenhar esta anlise.
DATA ANEST2
A;
/* EXEMP10 SAS */
INPUT CAVALO SEXO $ TECN $ TEMPREC;
CARDS;
l
M
A
47
2
M A
34
3
F
A
44
4
F
A
16
5
F
A
53
6
M B
79
7
M B
42
8
M B
14
9
F
B
11;
PROC SORT; BY SEXO;
PROC NPAR1WAY WILCOXON;
VAR TEMPREC;
CLASS TECN;
BY SEXO;
RUN;

--------------------------------- SEXO=F -------------------------------N P A R 1 W A Y
P R O C E D U R E

TECN
Sum of
Scores
Expected
Under H0
Std Dev
Under H0
Mean
Score
A
B
3
1
9.0
1.0
7.50000000
2.50000000
1.11803399
1.11803399
3.0
1.0

S=
1.00000
Z= -.894427
Prob > |Z| =

0.4370

CHISQ= 1.8000
DF= 1
Prob > CHISQ=
67
0.3711
0.1797

--------------------------------- SEXO=M -------------------------------N P A R 1 W A Y
P R O C E D U R E

TECN
Sum of
Scores
Expected
Under H0
Std Dev
Under H0
Mean
Score
A
B
2
3
6.0
9.0
6.0
9.0
1.73205081
1.73205081
3.0
3.0

S=
6.00000
Z=
Prob > |Z| =
0.9999
0.9999

CHISQ=
0
DF= 1
Prob > CHISQ=
0.9999
O p-valor de 0.3711 superior a 0.05, ou seja, para o grupo de fmeas no h

diferena significativa os tempos de recuperao referentes as duas tcnicas
utilizadas Prob > |Z| = 0.3711, um nvel de 5% de significncia. Para o grupo de
machos, PROB>|Z|=0.9999 tambm superior 0.05, donde se conclui que no
h diferena significativa entre os tempos de recuperao dentro deste subgrupo,
a um nvel de 5% de significncia.
11 ANLISE DE VARINCIA
11.1 Dados balanceados (PROC ANOVA)
Quando se deseja fazer inferncias sobre um conjunto de mais que duas

mdias, utiliza-se a Anlise de Varincia.
A Anlise da Varincia se resume na aplicao de um teste de hipteses
sobre um experimento projetado estatisticamente. Esta anlise permite saber se
h efeitos significativos de determinadas variveis agindo sobre os resultados
alm do erro experimental. Neste captulo, o termo ANOVA refere-se
especificamente a uma anlise paramtrica da varincia, que utilizada se
algumas suposies sobre os dados observados forem atendidas.
As suposies que envolvem uma anlise da varincia so:
- as observaes devem ser independentes: a medida para determinada
observao no afeta a medida de outra observao.
68
- as observaes so geradas por uma distribuio normal. Se existe uma

diferena entre os grupos, talvez exista uma distribuio normal especfica para
cada grupo.
- as varincias dos grupos so iguais.
Quando o experimento consiste na anlise de uma nica varivel (ou
fator), com vrios nveis, a anlise dita ANOVA a fator nico. Para este tipo de
anlise, os procedimentos SAS no fazem distino quanto ao tipo de dados
utilizados: se balanceados ou no. Dados balanceados so aqueles cujos grupos
experimentais tem o mesmo tamanho de amostra. Dados no balanceados, o
tamanho da amostra difere para cada grupo. Ambos os procedimentos GLM e
ANOVA, tratam estes dados na devida situao.
PROC ANOVA
A PROC ANOVA para anlise da varincia a fator nico pode ser
utilizada, como visto anteriormente, para ambos dados balanceados e no
balanceados. Em geral, entretanto, no se utiliza a PROC ANOVA para dados
no alanceados. Ela utilizada para:
- Blocos aleatorizados
- Quadrados latinos
Projetos com Blocos Aleatorizados assumem que uma populao de
unidades experimentais pode ser dividida em um nmero relativamente
homogneo de subpopulaes ou blocos. Os tratamentos so aleatoriamente
atribudos s unidades experimentais dentro de cada bloco. Se todos os
tratamentos so atribudos em cada bloco, o projeto denominado Projeto com
Blocos Completamente Aleatorizados.
Para exemplificar, suponha um experimento que, em funo da durao
do mesmo, sejam efetuadas edies pela manh e outra tarde. Se a
temperatura influir na varivel resposta, a variabilidade do experimento cresce, e a
sensibilidade dos efeitos do fator em anlise ser prejudicada. Em outras
palavras, entre ma medida feita pela manh e a outra tarde, tem-se as
variabilidades devidas ao erro experimental da edio em si, ao efeito do fator (se
houver) e variao da temperatura. Como a temperatura no um fator de
interesse no experimento, pode-se dizer que ela aumentou o erro experimental.
Uma maneira de quantificar e isolar esta influncia consiste em efetuar um grupo
completo de medies, que inclua todos os nveis do fator pela manh e outro
tarde. Cada grupo ser homogneo em relao temperatura e recebe a
designao de bloco aleatorizado. Quando o projeto envolve a blocagem de mais
de um fator no experimento, ele denominado de quadrado latino, e
representado por uma forma quadrada (4 X 4) tendo o fator em estudo
representado por letras latinas.
69
Os aspectos acima descritos dizem respeito ao controle do erro

experimental. Outro aspecto a ser considerado na Anlise de Varincia seria a
estrutura de tratamento fatorial, que pode ser aplicada qualquer esquema de
aleatorizao. Um experimento fatorial balanceado consiste de todas as possveis
combinaes dos nveis de duas ou mais variveis. Estes nveis podem se referir
quantidades numricas das variveis, tais como graus de temperatura,
quantidade de fertilizantes, ou variveis que definam categorias qualitativas, tais
como tipos de fertilizantes, condies operacionais (Temperatura: baixa, mdia ou
alta). Um exemplo de experimento fatorial o estudo envolvendo o uso de
nitrognio, fsforo e potssio, cada um trs nveis. Este experimento possui 3
**3 = 27 combinaes de tratamento. Experimentos fatoriais so utilizados para
investigar no somente todas as diferenas entre os nveis de cada fator (efeitos
principais), como tambm como os nveis de um fator afetam a varivel resposta,
em combinao com os nveis dos demais fatores (interaes).
A PROC ANOVA pode ser utilizada interativamente. Uma vez
especificado um modelo com o comando MODEL, que ser visto a seguir, e rodar
o procedimento com o comando RUN, outra variedade de comandos poder ser
executada sem que o procedimento recalcule as estatsticas do modelo geradas
inicialmente.
FORMA GERAL:
PROC ANOVA DATA = arquivo SAS;
CLASS variveis; /*tratamentos*/
MODEL dependente = efeitos / opes;
MANOVA H = varivel / opes;
MEANS efeitos / opes;
OUTPUT OUT = arquivo SAS
P= nova varivel
R = nova varivel
L95 = nova varivel
U95 = nova varivel
L95M = nova varivel
U95M=nova varivel;
RUN;
CLASS
nomeia as variveis de classificao utilizadas para identificar os

grupos para anlise. Este comando tem que aparecer antes do
comando MODEL.
MODEL
nomeia as variveis dependentes e independentes do modelo.
MANOVA
se o comando MODEL inclui mais que uma varivel dependente,

este comando fornece estatsticas multivariadas.
MEANS
gera mdias para cada nvel das variveis independentes e para a

interao dos nveis, quando existir.
70
OUTPUT
gera arquivo de sada com as variveis que iro conter os valores

previstos, residuais, intervalos de confiana para um valor
individual da varivel dependente, e intervalos de confiana para
o valor esperado ( mdia ) da varivel dependente.
OPES DISPONIVEIS NO COMANDO MODEL:

INT
requisita teste associado ao intercepto como parmetro do

modelo. Por default, ele includo no modelo, mas o teste
associado no listado. Com esta opo o teste associado
listado.
NOINT
requisita que o intercepto no seja usado no modelo.
NOUNI
suprimi estatsticas univariadas.
OPES DISPONVEIS NO COMANDO MANOVA:

H
especifica efeitos no modelo para usar como matriz de hipteses.
PRINTH
lista a matriz de hipteses SSCP e a matriz de erro. A opo

PRINTE tambm lista uma matriz de coeficientes de correlao
parcial e derivada da matiz de erros SSCP. Esta matriz de
correlao representa a correlao das variveis dependentes
corrigidas para todos os fatores independentes definidos no
comando MODEL.
OPES DISPONVEIS NO COMANDO MEANS:

As opes especificam os testes utilizados para comparao mltipla e
so aplicadas somente para os termos de efeitos principais .
DUNCAN
desempenha teste de mltiplos ranges para todas as mdias dos

efeitos principais especificados no comando MEANS.
TUKEY
desempenha teste de ranges de Student para todas as mdias

dos efeitos principais especificados no comando MEANS.
ALPHA
d os nveis de significncia para a comparao entre as mdias.

Por default Alpha=0.05. Para a opo DUNCAN, somente os
valores 0.01, 0.05 ou 0.1 so vlidos. Nas demais opes que
desempenham testes de comparao mltipla, valores entre
0.0001 e 0.9999 so vlidos.
71
Teste de Duncan
O teste de Duncan usado na anlise de varincia para comparar todo
e qualquer contraste entre duas mdias de tratamentos. menos rigoroso que o
Teste de Tukey, pois detecta diferena significativa entre duas mdias quando o o
teste de Tukey no o faz. um teste bastante usado em trabalhos de
laboratrios, pode ser usado tanto para tratamentos com o mesmo nmero de
repeties, quanto tratamentos com parcelas perdidas.
Teste de Tukey
O teste de Tukey usado na anlise de varincia para comparar todo e
qualquer contraste entre duas mdias de tratamentos. o teste de comparao
de mdias mais usado em experimentao, por ser bastante rigoroso e de fcil
aplicao. Ele mais exato quando os nmeros de repeties das mdias dos
tratamentos forem iguais.
Quando o Teste Tukey no der diferena significativa e o teste F for
significativo, o mesmo poder ser substitudo pelo Teste de Duncan, por ser
menos rigoroso, ou trocar o nvel de significncia para 10%, ou simplesmente
aceitar a anlise encontrada.
Teste de Scheff
O teste de Schfe usado na anlise de varincia numa forma mais
abrangente que o Teste de Duncan e de Tukey, pois permite julgar qualquer
constraste, pode ser usado tanto para duas mdias (contraste simples) como para
mais de duas mdias (contraste mltiplo), na qual ele o mais indicado, por ser
mais rigoroso que o Teste de Tukey.
Anlise dos Trs Testes
Quando o teste F da anlise de varincia no for significativo os trs
testes acima no tero efeito de aplicao (s se o teste F estiver prximo da
significncia). Para melhor visualizar a anlise comparativa das mdias, as
mdias dos tratamentos so colocadas em ordem crescente e para cada conjunto
de mdias que no diferem estatisticamente atribuda uma mesma letra, ou
seja, para letras iguais mdias estatisticamente iguais, para letras diferentes
mdias estatisticamente diferentes. Para a anlise usa-se um nvel de
significncia de 5%.
72
ESTUDO DE CASO
11.1.1 Experimento Completamente Casualizado
Suponha que os pesquisadores de uma linha de produo automobilstica

queiram comparar o desgaste de 4 tipos de pneus.
Eles decidiram usar 4 pneus de cada tipo e posicionaram aleatoriamente
os 16 pneus em 4 carros diferentes, medindo a quantidade de desgaste em mm
aps 10.000 Km rodados pelos 4 carros em condies idnticas de direo.
Considere as seguintes questes:

1 - As unidades experimentais deste experimento so os pneus.
2 - As suposies para anlise consistem em tratamentos aleatoriamente
atribudos para as 16 posies nos 4 carros, com o desgaste por marca de
pneu sendo normalmente distribudo, com varincia comum.
3 - O modelo experimental representado por:
DESGASTE = CTE + efeito TIPO + erro
A hiptese a ser testada :
Ho: As mdias do desgaste para os 4 tipos de pneus so iguais
Leia os dados em um arquivo SAS e anlise com a PROC ANOVA a
hiptese testada.
73

DATA PNEU1 A;
/* EXEMP11 SAS */
INPUT
TIPOS $ DESGASTE @@;
CARDS;
1
1.83
2
2.42
3
1.98
4
1.83
1
1.88
2
2.05
3
1,86
4
1.81
1
1.86
2
2.10
3
2.30
4
1.75
1
1.77
2
2.61
3
2.31
4
1.92
;
PROC ANOVA;
CLASS
TIPO;
MODEL
DESGASTE = TIPO;
TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO';
RUN;

EXPERIMENTO COMPLETAMENTE CASUALIZADO
Analysis of Variance Procedure
Class Level Information
Class
Levels
TIPO
Values
1 2 3 4
Number of observations in data set = 16

Dependent Variable: DESGASTE
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
0.62175000
0.20725000
6.37
0.0079
Error
12
0.39015000
0.03251250
Corrected Total
15
1.01190000
Source
TIPO
R-Square
C.V.
Root MSE
DESGASTE Mean
0.614438
8.937409
0.1803122
2.0175000
DF
3
Anova SS
0.62175000
Mean Square
F Value
Pr > F
0.20725000
6.37
0.0079
A estimativa da varincia do erro da populao dada por MSE (Error) = 0.032;

O R_Square descreve a quantidade de variao nos dados que se deve a
diferena existente entre os Grupos. Logo, 61% da variabilidade do modelo
explicada pela diferena entre os tipos dos pneus.
74
O p-valor dado por Pr > F = 0.0079 inferior ao nvel de significncia de 0.10,

donde se conclui que a mdia do desgaste significativamente diferente para os
diferentes tipos de pneus.
A Soma dos Quadrados (SS) mede a quantidade de variao atribuda a uma
dada fonte. Note que Model SS e Error SS somam a variao total do modelo.
A mdia global do desgaste dos pneus dada por DESGASTE Mean.
O coeficiente de variao CV calculado multiplicando o desvio padro por 100 e
dividindo pela mdia, ou seja. 100 (std/mean).
11.1.2 Experimento com Blocos Aleatorizados
A fim de controlar a influncia do fator tipo de carro no desgaste dos

pneus, decidiu-se coletar medidas do desgaste de modo que cada tipo de pneu
aparecesse em cada carro, Logo, cada carro consiste num bloco de edies, o
que permite:
- O controle da variao que se deve aos diferentes tipos de carro.
- A eliminao da variao de cada carro em relao aos tipos de pneus
utilizados.
- A obteno de uma preciso maior do erro do experimento.
O modelo experimental em questo dado por:
DESGASTE = CTE + efeito TIPO + efeito CARRO + erro
Os efeitos dos blocos so aditivos, ou seja, no existe interao entre o
tipo de pneu e o tipo de carro. O novo experimento tem o seguinte layout:
75

DATA PNEU2 A;
/* EXEMP12 SAS */
INPUT TIPO $ CARRO DESGASTE @@;
CARDS;
A
l
1.51
A
2
1.71
A
3
1.78
A
B
l
2.36
B
2
2.45
B
3
2.24
B
C
l
2.20
C
2
2.05
C
3
2.01
C
D
l
1.51
D
2
2.22
D
3
1.73
D
;
PROC ANOVA;
CLASS
TIPO
CARRO;
MODEL DESGASTE = TIPO CARRO;
TITLE 'EXPERIMENTO COM BLOCOS ALEATORIZADOS';
RUN;
4
4
4
4
1.80
2.41
2.01
1.80

EXPERIMENTO COM BLOCOS ALEATORIZADOS
Class
Levels
Values
TIPO
A B C D
CARRO
1 2 3 4

*************************************************************************
EXPERIMENTO COM BLOCOS ALEATORIZADOS
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
1.14733750
0.19122292
6.51
0.0068
Error
0.26440625
0.02937847
15
1.41174375
R-Square
C.V.
Root MSE
DESGASTE Mean
0.812709
8.626687
0.1714015
1.9868750
Source
DF
Anova SS
Mean Square
F Value
Pr > F
TIPO
CARRO
3
3
1.04526875
0.10206875
0.34842292
0.03402292
11.86
1.16
0.0018
0.3780
Corrected Total
76
Pode-se notar que estimativa da varincia do erro deste experimento inferior a

vista anteriormente. O fator de blocagem CARRO poderia ser retirado do
experimento, uma vez que ele no significativo.
11.1.3 Experimento com Quadrado Latino
A localizao do pneu no carro pode ter algum efeito sobre o resultado do

desgaste.
Se o interesse for controlar o efeito da localizao do pneu a fim de se
obter uma idia melhor do tipo de pneu no desgaste, os tipos de pneus devem ser
posicionados da seguinte maneira:
Nesse experimento cada tipo de pneu aparece em cada carro, todos os

tipos em diferentes posies.
O modelo experimental dado por:
DESGASTE = CTE + TIPO + CARRO + POS + ERRO
Os efeitos dos blocos (carro e posio do pneu) so aditivos. Analise a

varincia do experimento apresentado.
DATA PNEU3 A;
/* EXEMP13 SAS */
INPUT CARRO POS
TIPO $ DESGASTE
CARDS;
1 l B 2.23 2 l C 2.31 3 l D 2.07
l 2 C 2.04 2 2 D 1.97 3 2 A 1.69
1 3 D 1.78 2 3 A 1.73 3 3 B 2.20
1 4 A 1.64 2 4 B 2.22 3 4 C 1.80
;
PROC ANOVA;
CLASS CARRO POS TIPO;
MODEL DESGASTE = CARRO POS TIPO;
TITLE 'EXPERIMENTO COM QUADRADO LATINO';
RUN;
4
4
4
4
1
2
3
4
A
B
C
D
1.97
2.59
2.25
1.86

77
EXPERIMENTO COM QUADRADO LATINO

Class
Levels
Values
CARRO
1 2 3 4
POS
1 2 3 4
TIPO
A B C D

*************************************************************************
EXPERIMENTO COM QUADRADO LATINO
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
0.98925625
0.10991736
9.99
0.0055
Error
0.06598750
0.01099792
15
1.05524375
Corrected Total
R-Square
C.V.
Root MSE
DESGASTE Mean
0.937467
5.186817
0.1048710
2.0218750
Source
DF
Anova SS
Mean Square
F Value
Pr > F
CARRO
POS
TIPO
3
3
3
0.15621875
0.15546875
0.67756875
0.05207292
0.05182292
0.22585625
4.73
4.71
20.54
0.0505
0.0510
0.0015
Observa-se uma reduo na varincia do erro experimental MS(ERROR) = 0.010.

O modelo apresentado explica 93.75% da variabilidade do experimento. O tipo de
pneu um fator significativo para o modelo, pois Pr > F = 0.0055 inferior ao
nvel de significncia de 0.10.
78
12 EXERCCIOS RESOLVIDOS E COMENTADOS

1) Um analista de uma cadeia de lanchonetes quer investigar o relacionamento
entre o nmero de atendentes no balco self-service e as vendas de caf.
Quatorze lanchonetes foram escolhidas para teste por serem similares em
alguns aspectos tais como: volume total de negcios, tipo de clientela e
localizao. O nmero de atendentes que so colocados nas lanchonetes-teste
varia de zero a sete (o caf servido numa linha de atendimento), e
distribudo aleatoriamente em cada lanchonete, como mostra os dados abaixo:
No de
Atendentes
5
1
0
7
5
2
0
6
4
1
6
7
2
4
Vendas
729,1
568,2
508,1
854,7
787,6
651,7
498,4
841,4
755,3
577,3
831,8
871,4
657,0
758,9
Crie um arquivo LANCHE.SAS para:

A) Criar uma tabela das vendas de caf X nmero de atendentes e plote o grfico.
B) Ajustar um modelo linear de regresso das vendas em funo do nmero de
atendentes. Verifique a existncia de pontos fora do padro, e, atravs da
PROC UNIVARIATE, verifique a qualidade do ajuste.
C) Idem para o modelo quadrtico.
D) Caso seja identificado algum outlier, elimine-o da anlise e verifique

novamente a qualidade dos resduos.
DATA LANCHES A;
INPUT NO_AT VENDAS @@;
NUM2=NO_AT*NO_AT;
CARDS;
5 729.1 1 568.2 0 508.1 7 854.7 5 787.6
2 651.7 0 498.4 6 841.4 4 755.3 1 577.3
6 831.8 7 871.4 2 657.0 4 758.9
;
/* #############( A )################## */
PROC FREQ;
TABLES NO_AT*VENDAS /LIST;
TITLE 'TABELA NO ATENDENTES * VENDAS';
79
RUN;
PROC PLOT;
PLOT VENDAS*NO_AT='*';
TITLE 'DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES';
RUN;
/* #############( B )################## */
PROC REG;
MODEL VENDAS=NO_AT /R;
PLOT R.*NO_AT='*';
OUTPUT OUT=RESIDUO1 R=RESID1;
TITLE 'REGRESSAO LINEAR DE VENDAS * NO ATENDENTES';
PROC UNIVARIATE DATA=RESIDUO1 NORMAL;
VAR RESID1;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR';
RUN;
/* #############( C )################## */
PROC REG;
MODEL VENDAS=NO_AT NUM2 /R;
PLOT R.*NO_AT='*';
TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES';
VAR RESID2;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO';
RUN;
/* #############( D )################## */
PROC REG;
MODEL VENDAS=NO_AT NUM2 /R;
WHERE NO_AT NE 5 OR VENDAS NE 729.1;
PLOT R.*NO_AT='*';
TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS';
VAR RESID3;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS';
RUN;
A)
TABELA NO ATENDENTES * VENDAS

Cumulative Cumulative
NO_AT VENDAS
Frequency Percent
Frequency
Percent
---------------------------------------------------------0
498.4
1
7.1
1
7.1
0
508.1
1
7.1
2
14.3
1
568.2
1
7.1
3
21.4
1
577.3
1
7.1
4
28.6
2
651.7
1
7.1
5
35.7
2
657.0
1
7.1
6
42.9
4
755.3
1
7.1
7
50.0
4
758.9
1
7.1
8
57.1
5
729.1
1
7.1
9
64.3
5
787.6
1
7.1
10
71.4
6
831.8
1
7.1
11
78.6
6
841.4
1
7.1
12
85.7
7
854.7
1
7.1
13
92.9
7
871.4
1
7.1
14
100.0
80
DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES

Plot of VENDAS*NO_AT.
Symbol used is '*'.
900 +
|
|
*
|
*
850 +
|
*
|
*
|
800 +
V
|
*
E
|
N
|
*
D750 +
A
|
S
|
|
*
700 +
|
|
|
*
650 +
*
|
|
|
600 +
|
|
*
|
*
550 +
|
|
|*
500 +*
-+--------+--------+--------+--------+--------+--------+--------+0
1
2
3
4
5
6
7
NO_AT
NOTE: 1 obs hidden.
B)
REGRESSAO LINEAR DE VENDAS * NO ATENDENTES
Model: MODEL1
Dependent Variable: VENDAS
Source
DF
Model
Error
C Total
1
12
13
Root MSE
Dep Mean
C.V.
Sum of
Squares
211484.38607
7725.12322
219209.50929
25.37243
706.49286
3.59132
Mean
Square
211484.38607
643.76027
R-square
Adj R-sq
F Value
Prob>F
328.514
0.0001
0.9648
0.9618
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
NO_AT
1
1
526.678767
50.347945
12.01686851
2.77782371
43.828
18.125
0.0001
0.0001
81
Obs
Dep Var
VENDAS
Predict
Value
Std Err
Predict
Residual
Std Err
Residual
Student
Residual
1
2
3
4
5
6
7
8
9
10
11
12
13
14
729.1
568.2
508.1
854.7
787.6
651.7
498.4
841.4
755.3
577.3
831.8
871.4
657.0
758.9
778.4
577.0
526.7
879.1
778.4
627.4
526.7
828.8
728.1
577.0
828.8
879.1
627.4
728.1
7.857
9.849
12.017
11.691
7.857
8.065
12.017
9.565
6.885
9.849
9.565
11.691
8.065
6.885
-49.3185
-8.8267
-18.5788
-24.4144
9.1815
24.3253
-28.2788
12.6336
27.2295
0.2733
3.0336
-7.7144
29.6253
30.8295
24.125
23.383
22.346
22.518
24.125
24.057
22.346
23.500
24.420
23.383
23.500
22.518
24.057
24.420
-2.044
-0.377
-0.831
-1.084
0.381
1.011
-1.265
0.538
1.115
0.012
0.129
-0.343
1.231
1.262
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Cook's
D
-2-1-0 1 2
|
|
|
|
|
|
|
|
|
|
|
|
|
|
****|
|
*|
**|
|
|**
**|
|*
|**
|
|
|
|**
|**
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Sum of Residuals
0.222
0.013
0.100
0.158
0.008
0.057
0.232
0.024
0.049
0.000
0.001
0.016
0.085
0.063
0
7725.1232
10165.3789
82

RESIDUAL
------+-------+-------+-------+-------+-------+-------+-------+-----|
|
40 +
+
|
*
|
|
*
|
|
*
|
|
*
|
20 +
+
|
*
|
|
*
|
|
|
|
*
|
0 +
*
+
|
*
|
|
*
|
|
|
|
*
|
-20+
+
|
*
|
|
|
|
*
|
|
|
-40+
+
|
|
|
|
|
*
|
|
|
-60+
+
------+-------+-------+-------+-------+-------+-------+-------+-----0
1
2
3
4
5
6
7
NO_AT
TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR
Variable=RESID1
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
14
0
24.37704
-0.44594
7725.123
.
0
14
1
4.5
0.952408
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
83
14
0
594.2402
-0.49803
7725.123
6.515039
1.0000
8
0.7905
0.8077
0.5667
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
30.82945
24.32534
1.653425
-18.5788
-49.3185
99%
95%
90%
10%
5%
1%
80.14795
42.90411
-49.3185
30.82945
30.82945
29.62534
-28.2788
-49.3185
-49.3185
Extremes
Lowest
-49.3185(
-28.2788(
-24.4144(
-18.5788(
-8.82671(
Obs
1)
7)
4)
3)
2)
Highest
12.63356(
24.32534(
27.22945(
29.62534(
30.82945(
Obs
8)
6)
9)
13)
14)
COMENTRIO:
O modelo de regresso linear explica 96.48% da variabilidade das vendas de
caf. Tanto o intercepto quanto o parmetro relativo ao nmero de atendentes so
significativos para o modelo (p-valor=0.0001).O plote dos resduos de Student
indica que a 1a observao do arquivo est num range suspeito. O plote dos
resduos sugere a necessidade de um termo quadrtico. No teste de normalidade
obtido com a PROC UNIVARIATE, h indicao de normalidade dos resduos. Um
termo quadrtico deve ser considerado nas anlises.
C)
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES
Model: MODEL1
Source
DF
Model
Error
C Total
2
11
13
Root MSE
Dep Mean
C.V.
Sum of
Squares
Mean
Square
F Value
Prob>F
214249.72406
4959.78522
219209.50929
107124.86203
450.88957
237.586
0.0001
21.23416
706.49286
3.00557
R-square
Adj R-sq
0.9774
0.9733
Parameter Estimates
Variable
DF
INTERCEP
NO_AT
NUM2
1
1
1
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
507.641529
12.65833646
40.103
0.0001
72.191126
9.12139574
7.914
0.0001
-3.151289
1.27247482
-2.477
0.0308
Dep Var
Predict
Std Err
Std Err
84
Student
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
VENDAS
729.1
568.2
508.1
854.7
787.6
651.7
498.4
841.4
755.3
577.3
831.8
871.4
657.0
758.9
Value
Predict
Residual
Residual
Residual
789.8
576.7
507.6
858.6
789.8
639.4
507.6
827.3
746.0
576.7
827.3
858.6
639.4
746.0
8.026
8.244
12.658
12.829
8.026
8.319
12.658
8.026
9.248
8.244
8.026
12.829
8.319
9.248
-60.7149
-8.4814
0.4585
-3.8663
-2.2149
12.2814
-9.2415
14.0581
9.3146
0.6186
4.4581
12.8337
17.5814
12.9146
19.659
19.569
17.049
16.921
19.659
19.537
17.049
19.659
19.114
19.569
19.659
16.921
19.537
19.114
-3.088
-0.433
0.027
-0.228
-0.113
0.629
-0.542
0.715
0.487
0.032
0.227
0.758
0.900
0.676
Cook's
D
-2-1-0 1 2
|******|
|
|
|
|
|
|
|
|
|
|*
|
*|
|
|*
|
|
|
|
|
|
|
|*
|
|*
|
|*
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Sum of Residuals
0.530
0.011
0.000
0.010
0.001
0.024
0.054
0.028
0.019
0.000
0.003
0.110
0.049
0.036
0
4959.7852
7100.0421
85

RESIDUAL
------+-------+-------+-------+-------+-------+-------+-------+-----20 +
+
|
*
|
|
*
*
*
|
|
*
|
10 +
*
+
|
|
|
*
|
|
|
0 +
*
*
+
|
*
|
|
*
|
|
*
|
-10 +
*
+
|
|
|
|
|
|
-20 +
+
|
|
|
|
|
|
-30 +
+
|
|
|
|
|
|
-40 +
+
|
|
|
|
|
|
-50 +
+
|
|
|
|
|
|
-60 +
*
+
------+-------+-------+-------+-------+-------+-------+-------+-----0
1
2
3
4
5
6
7
NO_AT
TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO
Variable=RESID2
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
14
0
19.53259
-2.52959
4959.785
.
0
14
2
18.5
0.714683
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
14
0
381.5219
7.77964
4959.785
5.220303
1.0000
9
0.4240
0.2676
0.0004
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
17.58138
12.83375
2.538376
-3.86625
-60.7149
99%
95%
90%
10%
5%
1%
17.58138
17.58138
14.05812
-9.24153
-60.7149
-60.7149
78.29631
16.7
86
Mode
-60.7149
Extremes
Lowest
-60.7149(
-9.24153(
-8.48137(
-3.86625(
-2.21494(
Obs
1)
7)
2)
4)
5)
Highest
12.28138(
12.83375(
12.91459(
14.05812(
17.58138(
Obs
6)
12)
14)
8)
13)
COMENTRIO:
No ajuste quadrtico observa-se que a soma dos quadrados devido ao erro da
regresso diminuiu relativamente regresso linear, e o R-square aumentou para
97.74%. Todos os parmetros relativos ao ajuste quadrtico so significativos
para o modelo ao nvel de 5%. Os resduos indicam aleatoriedade (alternncia
homognea de pontos positivos e negativos). Com o plote dos resduos de
Student, pode-se verificar a existncia de um ponto fora do padro. Para verificar
a qualidade do ajuste, indica-se o teste para a normalidade dos resduos. Ao nvel
de = 5% de significncia, Prob<W=0.0004<, indicando a no normalidade dos
resduos. Considerando a 1a observao como um 'outlier', ela pode estar
influenciando nos resultados. O mesmo ajuste pode ser efetuado eliminando esta
observao.
D)
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS
Model: MODEL1
Sum of
Squares
Source
DF
Model
Error
C Total
2 218000.01432
10
659.09799
12 218659.11231
Root MSE
Dep Mean
C.V.
8.11849
704.75385
1.15196
Mean
Square
109000.00716
65.90980
R-square
Adj R-sq
87
F Value
Prob>F
1653.775
0.0001
0.9970
0.9964
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
NO_AT
NUM2
1
1
1
502.811932
79.780492
-4.071212
4.87646962
3.61173750
0.49965821
103.110
22.089
-8.148
0.0001
0.0001
0.0001

Obs
Dep Var
VENDAS
Predict
Value
Std Err
Predict
Residual
Std Err
Residual
Student
Residual
1
2
3
4
5
6
7
8
9
10
11
12
13
568.2
508.1
854.7
787.6
651.7
498.4
841.4
755.3
577.3
831.8
871.4
657.0
758.9
578.5
502.8
861.8
799.9
646.1
502.8
834.9
756.8
578.5
834.9
861.8
646.1
756.8
3.160
4.876
4.921
3.314
3.286
4.876
3.209
3.781
3.160
3.209
4.921
3.286
3.781
-10.3212
5.2881
-7.0860
-12.3341
5.6119
-4.4119
6.4688
-1.4945
-1.2212
-3.1312
9.6140
10.9119
2.1055
7.478
6.491
6.457
7.411
7.424
6.491
7.457
7.184
7.478
7.457
6.457
7.424
7.184
-1.380
0.815
-1.097
-1.664
0.756
-0.680
0.867
-0.208
-0.163
-0.420
1.489
1.470
0.293
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
Cook's
D
-2-1-0 1 2
|
|
|
|
|
|
|
|
|
|
|
|
|
**|
|*
**|
***|
|*
*|
|*
|
|
|
|**
|**
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Sum of Residuals
0.113
0.125
0.233
0.185
0.037
0.087
0.046
0.004
0.002
0.011
0.429
0.141
0.008
0
659.0980
1140.4168
88

RESIDUAL
------+-------+-------+-------+-------+-------+-------+-------+-----|
|
15 +
+
|
|
|
|
|
*
|
10 +
+
|
*
|
|
*
|
|
*
|
5 +
*
+
|
|
|
*
|
|
|
0 +
+
|
*
*
|
|
*
|
|
*
|
-5 +
+
|
|
|
*
|
|
|
-10 +
*
+
|
*
|
|
|
|
|
-15 +
+
|
|
------+-------+-------+-------+-------+-------+-------+-------+-----0
1
2
3
4
5
6
7
NO_AT
TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS
Variable=RESID3
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
13
0
7.411129
-0.1599
659.098
.
0
13
-0.5
0.5
0.965059
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W
89
13
0
54.92483
-1.01313
659.098
2.055477
1.0000
6
1.0000
1.0000
0.7796
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
10.91193
5.611932
-1.22121
-4.41193
-12.3341
99%
95%
90%
10%
5%
1%
23.24602
10.02386
-12.3341
10.91193
10.91193
9.614015
-10.3212
-12.3341
-12.3341
Extremes
Lowest
-12.3341(
-10.3212(
-7.08598(
-4.41193(
-3.13125(
Obs
4)
1)
3)
6)
10)
Highest
5.288068(
5.611932(
6.46875(
9.614015(
10.91193(
Obs
2)
5)
7)
11)
12)
COMENTRIO:
O coeficiente de determinao para este ajuste de 99,70%. A soma dos
quadrados devido ao erro da regresso caiu de 4959,78 para 659,09, e no teste
da normalidade de resduos o p-valor associado Pr<W=0.77>, indicando a
normalidade dos resduos.
2) Trs testes foram aplicados para a admisso de crianas em uma escola. So
eles: Inteligncia, Psicomotricidade e Motivao. Os coeficientes de rendimento
so guardados em uma varivel chamada CR. As notas e o CR obtidos por
cada criana so mostrados a seguir. Criar um arquivo TESTE.SAS para
resolver este problema.
QI
80
75
71
71
71
65
60
60
59
57
65
PSICO
36
35
34
33
30
35
20
25
31
31
35
MOTIVA
10
10
9
9
10
9
7
7
9
9
9
CR
10
10
9
9
8
7
7
7
7
7
8
A) O pedagogo deseja verificar a validade destes testes, ou seja, eles tem

importncia significativa no processo de seleo da escola? Use a PROC
CORR para verificar o grau de associao de cada teste com o coeficiente de
rendimento dos alunos.
90
B) A varivel CR depende das notas obtidas pelas crianas nos trs

testes. Supondo que o CR vai linearmente de acordo com as notas, testar
pela anlise da varincia, a significncia da equao de regresso.
Primeiramente ajuste um modelo de regresso mltipla aos dados e,
passo a passo, identifique as variveis mais significativas para o modelo.
DATA TESTE A;
INPUT QI PSICO MOTIVA CR @@;
CARDS;
80 36 10 10 75 35 10 10
71 34 9 9 71 33 9 9
71 30 10 8 65 35 9 7
60 20 7 7 60 25 7 7
59 31 9 7 57 31 9 7
65 35 9 8
;
/* #############( A )################## */
PROC CORR;
VAR QI PSICO MOTIVA;
WITH CR;
TITLE 'ANALISE DE CORRELACAO';
RUN;
/* #############( B.1 )################ */
PROC REG;
MODEL CR = QI PSICO MOTIVA;
OUTPUT OUT=RESID1 R=RESIDUAL;
PLOT RESIDUAL.*PREDICTED.='*';
TITLE 'ANALISE DE REGRESSAO MULTIPLA';
RUN;
/* #############( B.2 )################ */
PROC REG;
MODEL CR = QI /NOINT;
OUTPUT OUT=RESID2 R=RESIDUAL;
TITLE 'ANALISE DE REGRESSAO MULTIPLA';
PROC UNIVARIATE NORMAL PLOT;
VAR RESIDUAL;
TITLE 'ANALISE DOS RESIDUOS';
RUN;
A)
ANALISE DE CORRELACAO
3 'VAR'
1 'WITH' Variables: CR
Variables: QI
PSICO
MOTIVA
Simple Statistics
Variable
CR
QI
PSICO
MOTIVA
Mean
Std Dev
Sum
Minimum
Maximum
11 8.09091
11 66.72727
11 31.36364
11 8.90909
1.22103
7.41742
4.92489
1.04447
89.00000
734.00000
345.00000
98.00000
7.00000
57.00000
20.00000
7.00000
10.00000
80.00000
36.00000
10.00000
CR
QI
PSICO
MOTIVA
0.93048
0.0001
0.59261
0.0547
0.63442
0.0360
COMENTRIO:
91
QI um fator significativamente importante dentro do processo de seleo dos

alunos: Coef. Corr. Pearson (QI) = 0.93 e p-valor = 0.00001 < , para nveis de
1%, 5% e 10%. O p-valor associado ao teste de correlao nula para PSICO
supera os nveis usuais de significncia, evidenciando a hiptese nula, ou seja, a
correlao baixa entre a varivel PSICO e o CR do aluno. Ao nvel de 1% de
significncia h evidncia de H0. J aos nveis de 5% e 10% h indicaes que a
verdadeira correlao entre CR e MOTIVA difere de zero.
B.1)
ANALISE DE REGRESSAO MULTIPLA
Model: MODEL1
Dependent Variable: CR
Source
DF
Sum of
Squares
Mean
Square
F Value
Prob>F
Model
Error
C Total
3
7
10
12.97836
1.93073
14.90909
4.32612
0.27582
15.685
0.0017
Root MSE
Dep Mean
C.V.
0.52518
8.09091
6.49104
R-square
Adj R-sq
0.8705
0.8150
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
QI
PSICO
MOTIVA
1
1
1
1
-2.009199
0.151679
0.030064
-0.108196
1.61813951
0.03066149
0.05964986
0.30874764
-1.242
4.947
0.504
-0.350
0.2543
0.0017
0.6297
0.7363
92

RESIDUAL
------+------+------+------+------+------+------+------+------+-----0.8 +
+
|
|
|
*
|
|
|
0.6 +
+
|
|
|
|
0.4 +
*
+
|
|
|
*
|
0.2 +
*
+
|
*
|
|
*
*
|
|
|
0.0 +
+
|
*
|
|
*
|
|
|
-0.2+
+
|
|
|
|
|
|
-0.4+
+
|
|
|
|
|
*
|
-0.6+
+
|
|
|
|
|
|
-0.8+
+
|
|
|
*
|
|
|
-1.0+
+
------+------+------+------+------+------+------+------+------+-----6.5
7.0
7.5
8.0
8.5
9.0
9.5
10.0
10.5
Predicted Value of CR
PRED
COMENTRIO:
O modelo obtido para CR, com a Regresso Mltipla dados por:
CR= -2.01 + 0.15 QI + 0.03 PSICO - 0.11 MOTIVA
Pode-se notar que o erro padro relativo estimativa do parmetro de QI bem
pequeno (Standard Error=0.03). Este modelo explica 87% da variao de CR.
Como Prob>F=0.0017 'fechado' em zero, h evidncias da hiptese nula, isto ,
ao menos 1 parmetro do modelo deve ser diferente de zero. O p-valor para o
intercepto, PSICO e MOTIVA so altos, havendo grandes chances dos
parmetros relativos estas variveis serem iguais a zero. J o parmetro relativo
varivel QI (pvalor = 0.0015), existe forte evidncia que seja significativamente
diferente de zero. Podemos testar portanto, um novo modelo de regresso, porm
sem o intercepto e apenas com a varivel QI.
A rotina (B.2) desempenham esta tarefa.
Model: MODEL1
NOTE: No intercept in model. R-square is redefined.
93
Dependent Variable: CR
Source
DF
Sum of
Squares
Mean
Square
F Value
Prob>F
Model
Error
U Total
1
10
11
732.44486
2.55514
735.00000
732.44486
0.25551
2866.554
0.0001
Root MSE
Dep Mean
C.V.
0.50548
8.09091
6.24755
R-square
Adj R-sq
0.9965
0.9962
Parameter Estimates
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
0.121608
0.00227134
53.540
0.0001
94
Variable
QI

RESIDUAL
----+----+----+----+----+----+----+----+----+----+----+----+----+---|
|
1.0 +
+
|
|
|
*
|
0.8 +
+
|
|
|
|
0.6 +
+
|
|
|
|
0.4 +
+
|
*
|
|
*
|
0.2 +
+
|
*
|
|
*
|
0.0 +
+
|
|
|
*
|
-0.2+
+
|
|
|
*
|
-0.4+
+
|
|
|
|
-0.6+
+
|
*
|
|
|
-0.8+
+
|
|
|
*
|
-1.0+
+
|
|
----+----+----+----+----+----+----+----+----+----+----+----+----+---6.75 7.00 7.25 7.50 7.75 8.00 8.25 8.50 8.75 9.00 9.25 9.50 9.75
Predicted Value of CR
PRED
ANALISE DOS RESIDUOS
Variable=RESIDUAL
Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
11 Sum Wgts
11
0 Sum
0
0.4394 Variance
0.193073
-0.89363 Kurtosis
1.147284
1.930728 CSS
1.930728
. Std Mean
0.132484
0 Pr>|T|
1.0000
11 Num > 0
7
1.5 Pr>=|M|
0.5488
5 Pr>=|S|
0.7002
0.925844 Pr<W
0.3534
Quantiles(Def=5)
0.663001
0.221649
0.071596
-0.12546
-0.9284
99%
95%
90%
10%
5%
1%
1.591405
0.347107
-0.9284
0.663001
0.663001
0.405283
-0.57997
-0.9284
-0.9284
Extremes
Lowest
-0.9284(
Obs
Highest
6) 0.101925(
95
Obs
9)
-0.57997(
-0.12546(
-0.08576(
0.064553(
Stem
6
4
2
0
-0
-2
-4
-6
-8
5) 0.191585(
1) 0.221649(
8) 0.405283(
7) 0.663001(
Leaf
6
1
2
6709
39
#
1
1
1
4
2
3)
4)
10)
2)
Boxplot
|
|
+-----+
*--+--*
+-----+
|
|
3
1
0
----+----+----+----+
Multiply Stem.Leaf by 10**-1
ANALISE DOS RESIDUOS
Variable=RESIDUAL
Residual

0.7+
++*++
|
+*++
|
++*++
|
* *+*++*
-0.1+
* *++++
|
+++++
|
++*+
|
+++++
-0.9+
++++ *
+----+----+----+----+----+----+----+----+----+----+
-2
-1
0
+1
+2
COMENTRIO:
A regresso linear de CR em funo unicamente do QI da criana bem
significativa. O modelo proposto CR= 0.12 QI explica 99.65% da variabilidade do
CR. O grfico do resduos apresenta uma alternncia de sinais positivos e
negativos, indicando aleatoriedade. Para verificar a qualidade deste ajuste:
A hiptese de normalidade no deve ser rejeitada, pois Prob<W=0.35 alto. O
valor para a assimetria Skewness = -0.894, encontra-se dentro do intervalo de [1.26, 1.26], confirmando a hiptese testada.
3) Um proprietrio est interessado em analisar o efeito de seu ar condicionado
na sua conta de luz. Para isto ele tem registrado o nmero de horas de
utilizao do ar nos ltimos 21 dias. Ele tem monitorado o relgio de
eletricidade para estes dias e computado a quantidade de eletricidade
consumida, Killowat/Hora. Finalmente ele registrou o nmero de vezes que
sua secadora foi usada a cada dia. Crie um arquivo SAS com os registros
abaixo, relativos ao consumo de eletricidade do proprietrio.
CONSUMO
35
63
66
17
94
NO_HORA
S
1,5
4,5
5,0
2,0
8,5
96
USO_SEC
1
2
2
0
3
79
93
66
94
82
78
65
77
75
62
85
43
57
33
65
33
6,0
13,5
8,0
12,5
7,5
6,5
8,0
7,5
9,0
7,5
12,0
6,0
2,5
5,0
7,5
6,0
3
1
1
1
2
3
1
2
2
1
1
0
3
0
1
0
Pede-se:
A) Obter um plot do Consumo X Nmero de Horas ar para verificar o efeito que o
ar condicionado tem no consumo de eletricidade.
B) Use a PROC CORR para obter o coeficiente de correlao entre o consumo e
o tempo de utilizao do ar.
C) Para verificar a forma de relacionamento entre as duas variveis acima
descritas utilize a anlise de regresso fazendo o ajuste de uma reta atravs
dos pontos obtidos no plot do item A.
D) Suponha que o proprietrio queira predizer o consumo em um dia que o ar seja
usado por 8 horas. Com a reta ajustada calcule o valor predito para o consumo
quando o Nmero de Horas ar = 8
97
E) O plot do item A mostra que o valor do consumo para um dia de 8 horas de

utilizao de ar varia num range de 45 a 85 KWH,
dependendo de outros fatores que possam afetar o consumo
naquele dia . O proprietrio pode colocar limites de confiana
para um determinado valor predito, como o encontrado no
Item D. Estes limites fornecem um range provvel para
ocorrncia do no. de KWH consumido em um determinado
dia. Com a PROC REG riste os valores preditos do consumo
e os respectivos limites de predio .
F) Para melhor visualizao grfica do ajuste, obter um plot que contenha os
valores do no. de horas de utilizao do ar, os valores preditos e os limites de
predio a 95% de confiana para o consumo. (Utilize a opo overlay com o
comando plot da PROC REG para que os plotes saiam no mesmo grfico).
G) O proprietrio tambm registrou o no. de vezes que sua secadora foi utilizada
a cada dia . Esta varivel pode ser utilizada em adio ao no. de horas de ar
para predizer o valor do consumo de eletricidade ? Use a PROC REG para
ajustar um modelo de regresso mltipla para os dados acima.
DATA ENERGIA A;
INPUT CONSUMO NO_HORAS USO_SEC @@;
CARDS;
35 1.5 1 63 4.5 2 66 5.0 2 17 2.0 0
94 8.5 3 79 6.0 3 93 13.5 1 66 8.0 1
94 12.5 1 82 7.5 2 78 6.5 3 65 8.0 1
77 7.5 2 75 8.0 2 62 7.5 1 85 12.0 1
43 6.0 0 57 2.5 3 33 5.0 0 65 7.5 1
33 6.0 0
;
/* #############( A )################## */
PROC PLOT;
PLOT CONSUMO*NO_HORAS;
TITLE 'DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS';
RUN;
/* #############( B )################## */
PROC CORR;
VAR CONSUMO;
WITH NO_HORAS;
TITLE 'ANALISE DE CORRELACAO CONSUMO E NO HORAS';
RUN;
/* #############( C-E )############### */
PROC REG;
MODEL CONSUMO=NO_HORAS;
ID NO_HORAS;
VAR USO_SEC;
TITLE 'REGRESSAO LINEAR DO CONSUMO EM FUNCAO DO NO HORAS';
PRINT CLI;
TITLE 'LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO';
RUN;
/* #############( F )################## */
PLOT CONSUMO*NO_HORAS='O' P.*NO_HORAS='_'
L95.*NO_HORAS='L' U95.*NO_HORAS='U' /OVERLAY;
TITLE 'LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA';
RUN;
98
/* #############( G )################## */
PROC REG;
MODEL CONSUMO=NO_HORAS USO_SEC;
TITLE 'REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA';
RUN;
A)
DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS

Plot of CONSUMO*NO_HORAS.
Legend: A = 1 obs, B = 2 obs, etc.
CONSUMO
|
|
95 +
A
A
93 +
A
91 +
89 +
87 +
85 +
A
83 +
A
81 +
79 +
A A
77 +
A
75 +
A
73 +
71 +
69 +
67 +
A
A
65 +
A A
63 +
A
A
61 +
59 +
57 +
A
55 +
53 +
51 +
49 +
47 +
45 +
43 +
A
41 +
39 +
37 +
35 +
A
33 +
A
A
31 +
29 +
27 +
25 +
23 +
21 +
19 +
17 +
A
|
-+--------+--------+--------+---------+---------+---------+---------+
0
2
4
6
8
10
12
14
NO_HORAS
99
COMENTRIO:
O plote mostra uma tendncia crescente entre as variveis.
B)
ANALISE DE CORRELACAO CONSUMO E NO HORAS
1 'WITH' Variables: NO_HORAS
1 'VAR' Variables: CONSUMO
Simple Statistics
Variable
NO_HORAS
CONSUMO
Mean
Std Dev
Sum
Minimum
Maximum
21
21
6.92857
64.85714
3.13562
21.88444
145.50000
1362
1.50000
17.00000
13.50000
94.00000

CONSUMO
NO_HORAS
0.76528
0.0001
COMENTRIO:
O valor do Coef. Corr. Pearson=0.765 reflete a tendncia crescente mostrada no
plote, ou seja, quando h um aumento do uso do ar, h aumento no consumo de
energia.
C)
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO
Model: MODEL1
Dependent Variable: CONSUMO
Source
Model
Error
C Total
Root MSE
Dep Mean
C.V.
DF
1
19
20
Sum of
Squares
5609.66260
3968.90883
9578.57143
14.45303
64.85714
22.28440
Mean
Square
5609.66260
208.88994
R-square
Adj R-sq
100
F Value
26.855
Prob>F
0.0001
0.5856
0.5638
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
NO_HORAS
1
1
27.851072
5.341082
7.80653827
1.03067009
3.568
5.182
0.0021
0.0001

RESIDUAL
-+----+----+----+----+----+----+----+----+----+----+----+----+----+-|
|
30 +
+
|
|
|
|
|
|
|
*
|
20 +
+
|
*
|
|
*
*
|
|
*
|
|
* *
|
10 +
+
|
*
|
|
|
|
*
|
|
|
0 +
*
+
| *
*
|
|
*
|
|
* *
|
|
*
* |
-10 +
+
|
|
|
|
|
*
|
-20 +
+
|
*
*
|
|
|
|
*
|
-30 +
+
|
|
-+----+----+----+----+----+----+----+----+----+----+----+----+----+-35
40
45
50
55
60
65
70
75
80
85
90
95
100
Predicted Value of CONSUMO
PRED
COMENTRIO:
O modelo de regresso obtido dado por:
CONSUMO = 27.85 + 5.341 NO_HORAS
E pode ser interpretado como: Quando NO_HORAS = 0, h um nvel de consumo
mnimo estimado de energia de 27,85. A cada hora de uso de ar, o aumento
estimado do consumo de 5.341 kwh.
101
D)
Os dados do arquivo contm 3 observaes com N0_HORAS = 8, cujos valores
correspondentes para CONSUMO so 66, 65 e 75. Isso mostra a existncia de
um faixa de possveis valores de CONSUMO para um dado valor de NO_HORAS.
No modelo de regresso estimado, para o valor de NO_HORAS = 8:
CONSUMO = 27.85 - 5.34 * 8 = 70,57.
E)
Obs
NO_HORAS
Dep Var
CONSUMO
Predict
Value
Std Err
Predict
Lower95%
Predict
Upper95%
Predict
Residual
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
1.5
4.5
5
2
8.5
6
13.5
8
12.5
7.5
6.5
8
7.5
8
7.5
12
6
2.5
5
7.5
6
35.0000
63.0000
66.0000
17.0000
94.0000
79.0000
93.0000
66.0000
94.0000
82.0000
78.0000
65.0000
77.0000
75.0000
62.0000
85.0000
43.0000
57.0000
33.0000
65.0000
33.0000
35.8627
51.8859
54.5565
38.5332
73.2503
59.8976
99.9557
70.5797
94.6146
67.9092
62.5681
70.5797
67.9092
70.5797
67.9092
91.9441
59.8976
41.2038
54.5565
67.9092
59.8976
6.423
4.026
3.728
5.979
3.545
3.296
7.471
3.342
6.551
3.208
3.185
3.342
3.208
3.342
3.208
6.105
3.296
5.548
3.728
3.208
3.296
2.7597
20.4834
23.3158
5.7963
42.1028
28.8704
65.9024
39.5312
61.4013
36.9223
31.5919
39.5312
36.9223
39.5312
36.9223
59.1057
28.8704
8.8010
23.3158
36.9223
28.8704
68.9657
83.2884
85.7971
71.2702
104.4
90.9247
134.0
101.6
127.8
98.8961
93.5443
101.6
98.8961
101.6
98.8961
124.8
90.9247
73.6065
85.7971
98.8961
90.9247
-0.8627
11.1141
11.4435
-21.5332
20.7497
19.1024
-6.9557
-4.5797
-0.6146
14.0908
15.4319
-5.5797
9.0908
4.4203
-5.9092
-6.9441
-16.8976
15.7962
-21.5565
-2.9092
-26.8976
Sum of Residuals
0
3968.9088
4728.5664
COMENTRIO:
O intervalo de confiana para os valores preditos de AC dado por:
IC NO_HORAS = [ NO_HORAS ( ttab * S) ]
Para = 0.05 (/2 = 0.025 ), o valor da estatstica t consultado na Tabela de uma

Distribuio T de Student :
t (1-/2, 19) = t (0.975, 19) = 2.09
102
Logo:
IC NO_HORAS = [ NO_HORAS ( 2.09 * 1.03 ) ]
F)
LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA
CONSUMO
--+----+---+---+----+----+----+----+----+----+----+----+----+----+--140 +
+
|
U
|
|
|
|
U
|
|
U
|
|
|
20 +
+
|
|
|
|
|
|
|
U
|
|
U
|
100 +
U
_
+
|
|
|
U
O
?
O
|
|
U
_
|
|
|
|
U
O
|
|
U
O
|
80 +
O
+
|
O
O
|
|
U
O _
|
|
U
_
|
| U
_
|
|
O
O O
L
|
|
O
_
O
|
60 +
_
L L
+
|
O
|
|
_
|
|
_
|
|
|
|
O
L
|
40 +
_
L
+
| _ _
L
|
| O
O
O
|
|
L
|
|
L
|
|
|
|
L
|
20 +
L
+
|
O
|
|
|
|
L
|
|
L
|
| L
|
0 +
+
--+----+---+---+----+----+----+----+----+----+----+----+----+----+--1
2
3
4
5
6
7
8
9
10
11
12
13
14
NO_HORAS
COMENTRIO:
Pode-se observar que todos os pontos reais e previstos esto dentro dos limites
de predio.
G)
REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA
Model: MODEL1
103
Dependent Variable: CONSUMO

Source
DF
Sum of
Squares
Mean
Square
F Value
Prob>F
Model
Error
C Total
2
18
20
9299.80154
278.76989
9578.57143
4649.90077
15.48722
300.241
0.0001
Root MSE
Dep Mean
C.V.
3.93538
64.85714
6.06777
R-square
Adj R-sq
0.9709
0.9677
Parameter Estimates
Variable
DF
Parameter
Estimate
Standard
Error
T for H0:
Parameter=0
Prob > |T|
INTERCEP
NO_HORAS
USO_SEC
1
1
1
8.105385
5.465903
13.216600
2.48085116
0.28075519
0.85621937
3.267
19.469
15.436
0.0043
0.0001
0.0001
COMENTRIO:
Observa-se que:
SS(Erro) mltipla = 278.76 < SS (Erro) simples
O modelo:
CONSUMO = 8.10 + 5.466 NO_HORAS + 13.217 USO_SEC
representa 97% da variabilidade do consumo de energia. O valor de 8,10
representa o nmero de kwh consumido num dia onde nem o ar e nem a
secadora so utilizados. O valor de 5,466 a estimativa de energia consumida
para cada hora de uso do ar, e 13,217 representa a estimativa de energia
consumida a cada vez que a secadora ligada.
4) Uma droga que mistura estimulante e relaxante administrada em 15 animais.
taxa de pulsao medida antes e depois da administrao da droga. O
propsito do experimento determinar se existe uma mudana na taxa de
pulsao com o uso da droga. Os dados so apresentados abaixo:
104
ANTES
62
63
58
64
64
51
68
66
65
66
67
69
61
64
61
63
DEPOIS
61
62
51
61
63
58
61
64
64
62
68
65
60
65
63
62

DATA APT A;
INPUT ANIMAL ANTES DEPOIS @@;
DIF=DEPOIS-ANTES;
CARDS;
1 62 61 2 63 62 3 58 51 4 64 61 5 51 58 6 68 61
7 66 64 8 65 64 9 66 62 10 67 68 11 69 65 12 61 60
13 64 65 14 61 63 15 63 62
;
PROC UNIVARIATE;
VAR DIF;
TITLE 'TESTE PARA DIFERENCAS DE OBS. PAREADA';
RUN;
TESTE PARA DIFERENCAS DE OBS. PAREADA
Variable=DIF
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
15
-1.4
3.521363
0.508266
203
-251.526
-1.53979
15
-3.5
-29.5
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
105
15
-21
12.4
1.407817
173.6
0.909212
0.1459
4
0.1185
0.0984
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
7
1
-1
-4
-7
Range
Q3-Q1
Mode
14
5
-1
Lowest
-7(
-7(
-4(
-4(
-3(
Obs
6)
3)
11)
9)
4)
99%
95%
90%
10%
5%
1%
7
7
2
-7
-7
-7
Extremes
Highest
-1(
1(
1(
2(
7(
Obs
15)
10)
13)
14)
5)
Como Prob>|T|=0.0285<0.05. ao nvel de 5% de significncia h evidncias que a

diferena mdia da taxa de pulsao com a utilizao de droga difere de zero.
5) Um aparelho utilizado para testar a durabilidade de lmpadas submetidas a
diversas tenses. O aparelho consta de oito soquetes ligados em paralelo e de
um reostato ligado em srie com um gerador e oito soquetes. Oito lmpadas da
marca A e oito da B foram ensaiadas nesse aparelho, sob as mesmas
condies , fornecendo as seguintes duraes, em horas:
SOQUETE
Marca A
Marca B
1
35
23
2
26
28
3
40
31
4
35
35
5
31
36
6
49
30
7
38
27
8
24
26
Pode-se concordar, a um nvel de significncia de 1%, com os fabricantes da

marca A, que suas lmpadas tem durabilidade diferente das apresentadas pela
marca B ?
DATA LAMP A;
INPUT MARCA $ TEMPO @@;
CARDS;
A 35 B 23 A 26 B 28 A 40 B 31 A 35 B 35
A 31 B 36 A 49 B 30 A 38 B 27 A 24 B 26
;
PROC TTEST;
CLASS MARCA;
VAR TEMPO;
RUN;
106

TTEST PROCEDURE
Variable: TEMPO
MARCA N
Mean
Std Dev
Std Error
Minimum
Maximum
------------------------------------------------------------------------A
8 34.75000000
7.99553447
2.82684832 24.00000000 49.00000000
B
8 29.50000000
4.44007722
1.56980436 23.00000000 36.00000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
1.6236
10.9
0.1329
Equal
1.6236
14.0
0.1267
DF = (7,7)
Prob>F' = 0.1434
COMENTRIO:
As varincias no so significativamente diferentes ao nvel de 10% de
significncia, pois Prob>F=0.1434>. No teste de igualdade de mdias, na linha
(Variances=Equal), ao nvel de 1%, como foi estipulado no enunciado, no h
diferena significativa entre as mdias, uma vez que Prob>|T|=0.1265>(=0.01).
6) Duas amostras de carros produzidos em anos diferentes, do mesmo modelo e
fabricante, foram testados em iguais condies, quanto ao consumo de
combustvel em km/l a 80 Km/h, conforme mostrado na tabela abaixo. Desejase saber se os carros produzidos nos anos I e II tem o mesmo consumo ao
nvel de 10% de significncia.
Consumo (km/l)
Ano I
Ano II
13.01
12.99
13.00
13.06
12.95
12.98
12.97
13.14
13.01
13.14
12.93
12.94
12.96
12.97
12.94

DATA CONSUMO A;
INPUT ANO $ CONSUMO @@;
CARDS;
I 13.01 I 13.00 I 12.95 I 12.97 I 13.01 I 12.93 I 12.94 I 12.96
I 12.97 I 12.94 II 12.99 II 13.06 II 12.98 II 13.14 II 13.14
;
PROC TTEST;
CLASS ANO;
VAR CONSUMO;
RUN;
107

TTEST PROCEDURE
Variable: CONSUMO
ANO
N
Mean
Std Dev
Std Error
Minimum
Maximum
-----------------------------------------------------------------------I
10 12.96800000
0.02973961
0.00940449 12.93000000 13.01000000
II
5 13.06200000
0.07758866
0.03469870 12.98000000 13.14000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
-2.6147
4.6
0.0521
Equal
-3.4569
13.0
0.0043
DF = (4,9)
Prob>F' = 0.0166
COMENTRIO:
As varincias diferem significativamente ao nvel de 10% de significncia, pois
Prob>F=0.0166<. No teste de igualdade de mdias, na linha
(Variances=Equal), h indicao que o nvel mdio de consumo dos carros
produzidos nos anos I e II so diferentes ao nvel de 10% de significncia,
Prob>|T|=0.052<(= 0.10).
7) Dez culturas de fungo foram estudadas quanto a susceptibilidade de
crescimento devido exposio de luz permanente. O crescimento em termos
de dimetro mdio da cultura foi medido antes e aps o perodo de exposio
permanente de luz, durante 15 dias. A tabela abaixo mostra os resultados
obtidos nas 10 culturas durante o perodo. Ao nvel de 2.5% pode-se afirmar
que a luz permanente contribui para o crescimento das culturas de fungo?
Obter um grfico da distribuio dos valores da varivel DIF=DEPOISANTES.
DIAMETRO MDIO (CM)
CULTURA
1
2
3
4
5
6
7
8
9
10
ANTES
6,4
7.0
6.6
5.6
6.0
7.5
7.0
5.8
6.3
6.7
108
DEPOIS
6.4
7.1
6.8
5.6
6.1
7.4
7.1
5.9
6.4
6.8

DATA FUNGO A;
INPUT CULTURA ANTES DEPOIS @@;
DIF=DEPOIS-ANTES;
CARDS;
1 6.4 6.4 2 7.0 7.1 3 6.6 6.8 4 5.6 5.6 5 6.0 6.1
6 7.5 7.4 7 7.0 7.1 8 5.8 5.9 9 6.3 6.4 10 6.7 6.8
;
PROC UNIVARIATE;
VAR DIF;
TITLE 'TESTE PARA DIFERENCA DE OBS. PAREADAS';
RUN;
PROC CHART;
VBAR DIF;
TITLE 'GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS';
RUN;
TESTE PARA DIFERENCA DE OBS. PAREADAS
Variable=DIF
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
10
0.07
0.082327
-0.80646
0.11
117.6104
2.688774
8
3
12
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
10
0.7
0.006778
1.236995
0.061
0.026034
0.0248
7
0.0703
0.1094
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
0.2
0.1
0.1
0
-0.1
99%
95%
90%
10%
5%
1%
0.2
0.2
0.15
-0.05
-0.1
-0.1
0.3
0.1
0.1
Extremes
Lowest
-0.1(
0(
0(
0.1(
0.1(
Obs
6)
4)
1)
10)
7)
Highest
0.1(
0.1(
0.1(
0.1(
0.2(
109
Obs
7)
10)
8)
9)
3)
GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS

Frequency
6 +
*****
|
*****
|
*****
5 +
*****
|
*****
|
*****
4 +
*****
|
*****
|
*****
3 +
*****
|
*****
|
*****
2 +
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
1 +
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
--------------------------------------------------------0.1
0.0
0.1
0.2
DIF Midpoint
COMANTRIO:
Como o p-valor=0.0248<0.05, h evidncias de que a diferena mdia do
dimetro da cultura com a exposio de luz significativamente diferente de zero,
ou seja, a luz contribui para o crescimento das culturas. No plote das diferenas,
observa-se que a mais alta freqncia ocorre para valores superiores a 0.05.
8)
INSTITUTO DE PESQUISAS E EXPERIMENTAO AGROPECURIAS DO SUL
MODELOS DE ANLISE ESTATSTICA DE EXPERIMENTOS EXPERIMENTOS EM QUADRADO LATINO
Produo de Gros Secos em Gramas por Parcela de 5m3
4
5
1400
(4)
1235
(2)
1545
(1)
1305
(3)
1293
(5)
1207
(3)
1515
(1)
1212
(5)
1295
(2)
1322
(4)
C O L U N A
3
4
1125
(2)
1137
(5)
1100
(4)
1065
(1)
1118
(3)
1335
(1)
1163
(4)
885
(3)
1110
(5)
1012
(2)
5
1350
(5)
1090
(3)
1206
(2)
1000
(4)
1303
(1)
Faa uma anlise de varincia com os dados acima: (PROC ANOVA)

DATA GRAO A;
110
INPUT FILA COL VARIED PROD @@;

CARDS;
1 1 4 1400 1 2 3 1207 1 3 2 1125
2 1 2 1235 2 2 1 1515 2 3 5 1137
3 1 1 1545 3 2 5 1212 3 3 4 1100
4 1 3 1305 4 2 2 1295 4 3 1 1065
5 1 5 1293 5 2 4 1322 5 3 3 1118
;
PROC ANOVA;
CLASS FILA COL VARIED;
MODEL PROD=FILA COL VARIED;
TITLE 'ANALISE DE VARIANCIA';
RUN;
1
2
3
4
5
4
4
4
4
4
1
4
3
5
2
1335
1163
885
1110
1012
1
2
3
4
5
5
5
5
5
5
5
3
2
4
1
1350
1090
1206
1000
1303
ANALISE DE VARIANCIA
Class
Levels
Values
FILA
1 2 3 4 5
COL
1 2 3 4 5
VARIED
1 2 3 4 5

*************************************************************************
Dependent Variable: PROD
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
12
462611.92000
38550.99333
3.60
0.0175
Error
12
128386.72000
10698.89333
Corrected Total
24
590998.64000
R-Square
C.V.
Root MSE
PROD Mean
0.782763
8.526399
103.43545
1213.1200
DF
Anova SS
Mean Square
F Value
Pr > F
4
4
4
45521.04000
268403.84000
148687.04000
11380.26000
67100.96000
37171.76000
1.06
6.27
3.47
0.4161
0.0058
0.0418
Source
FILA
COL
VARIED
COMENTRIO:
Hiptese Testada: No h diferena significativa no nivel mdio de produo
devido aos fatores fila (FILA), coluna (COL) e variedade
(VARIED) do gro plantado
Pr>F (FILA) = 0.4161 > (=0.05)

Pr>F (COL) = 0.0058 < (=0.05)
Pr>F (VARIED) = 0.0418 < (=0.05)
Ao nvel de 5% o efeito coluna (COL) e variedade (VARIED) do gro so
significativos no nvel mdio de produo.
111
9) Deseja-se determinar se h diferena significativa no percurso por galo obtido

com quatro tipos de gasolina A, B, C, D. O expediente realizado com quatro
carros diferentes, quatro motoristas diferentes, e em quatro estradas diferentes.
C
A
R
R
O
S
1
2
3
4
M O T O R I S T A S
1
2
3
4
B3 19
A2 16 D4 16
C1 14
A4 15
B1 18 C3 11
D2 15
D1 14
C4 11 B2 21
A3 16
C2 16
D3 16 A1 15
B4 23
TIPOS DE ESTRADA = 1 2 3 4
TIPOS DE GASOLINA = A B C
D
Faa uma anlise de varincia com os dados acima: (PROC ANOVA)
DATA GAS A;
INPUT MOTOR CARRO GAS $ ESTR PERC @@;
CARDS;
1 1 B 3 19 1 2 A 2 16 1 3 D 4 16 1 4 C
2 1 A 4 15 2 2 B 1 18 2 3 C 3 11 2 4 D
3 1 D 1 14 3 2 C 4 11 3 3 B 2 21 3 4 A
4 1 C 2 16 4 2 D 3 16 4 3 A 1 15 4 4 B
;
PROC ANOVA;
CLASS MOTOR CARRO GAS ESTR;
MODEL PERC=MOTOR CARRO GAS ESTR;
RUN;
1
2
3
4
14
15
16
23
112
Class
Levels
Values
MOTOR
1 2 3 4
CARRO
1 2 3 4
GAS
A B C D
ESTR
1 2 3 4

*************************************************************************
Dependent Variable: PERC
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
12
142.00000000
11.83333333
5.92
0.0848
Error
6.00000000
2.00000000
Corrected Total 15
148.00000000
R-Square
C.V.
Root MSE
PERC Mean
0.959459
8.838835
1.4142136
16.000000
Source
DF
Anova SS
Mean Square
F Value
Pr > F
MOTOR
CARRO
GAS
ESTR
3
3
3
3
16.50000000
6.50000000
111.50000000
7.50000000
5.50000000
2.16666667
37.16666667
2.50000000
2.75
1.08
18.58
1.25
0.2141
0.4745
0.0193
0.4294
COMENTRIO:
Hiptese Testada: No h diferena significativa no percurso por galo devido
aos diferentes tipos de gasolina.
Pr>F (MOTOR) = 0.2141 > (=0.05)
Pr>F (CARRO) = 0.4745 > (=0.05)
Pr>F (GAS) = 0.0193 < (=0.05)

Pr>F (ESTR) = 0.4294 > (=0.05)
113
Ao nvel de 1% nenhum efeito significativo no percurso de gasolina por galo.

J ao nvel de 5% h diferena significativa no percurso mdio por galo devido
ao tipo de gasolina utilizada.
10) O exerccio a seguir consiste na avaliao de trs planos de vendas com
cupons publicados nos jornais. Foi planejado um experimento com 3
tratamentos e 4 blocos. Os blocos representam os tamanhos das lojas bloco 1
as maiores de todas, bloco 2 as maiores seguintes, e assim por adiante. Os
tratamentos so as vendas realizadas no dia imediato da publicao dos
cupons nos jornais da cidade. Os resultados esto abaixo:
TRATAMENTOS
Tamanho
Loja
Plano
Cupom 1
Plano
Cupom 2
Plano
Cupom 3
Total
1
2
3
4
Total
20
18
15
11
64
17
14
13
8
62
14
10
7
5
36
51
42
35
24
152
BLOCO = Tamanho da Loja
TRATAMENTO = Plano
Faa uma anlise de varincia com os dados acima: (PROC GLM)

DATA PLANO A;
INPUT LOJA $ PLANO $ N_VENDAS @@;
CARDS;
T1 P1 20 T1 P2 17 T1 P3 14
T2 P1 18 T2 P2 14 T2 P3 10
T3 P1 15 T3 P2 13 T3 P3 7
T4 P1 11 T4 P2 8 T4 P3 5
;
PROC GLM;
CLASS LOJA PLANO;
MODEL N_VENDAS=LOJA PLANO;
RUN;
General Linear Models Procedure
Class
Levels
Values
LOJA
T1 T2 T3 T4
PLANO
P1 P2 P3
114
*************************************************************************
General Linear Models Procedure
Dependent Variable: N_VENDAS
Sum of
Source
DF
Squares
Mean
Square
F Value
Pr > F
68.60
0.0001
Model
228.66666667
45.73333333
Error
4.00000000
0.66666667
Corrected Total 11
232.66666667
R-Square
C.V.
Root MSE
N_VENDAS Mean
0.982808
6.446026
0.8164966
12.666667
Source
DF
Type I SS
Mean Square
F Value
Pr > F
LOJA
PLANO
3
2
130.00000000
98.66666667
43.33333333
49.33333333
65.00
74.00
0.0001
0.0001
Source
DF
Type III SS
Mean Square
F Value
Pr > F
LOJA
PLANO
3
2
130.00000000
98.66666667
43.33333333
49.33333333
65.00
74.00
0.0001
0.0001
COMENTRIO:
Hiptese Testada: No h diferena significativa no volume de vendas nos
diferentes tamanhos de loja.
Pr>F (LOJA) = 0.0001 < (=0.01)
Pr>F (PLANO) = 0.0001 < (=0.01)
O baixo valor de Pr>F indica baixa probabilidade da hiptese testada ser

verdadeira, ou seja, aos nveis usuais de significncia (=1%), tanto o fator
tamanho da loja como o plano de vendas apresentam efeitos ponderveis sobre o
volume das vendas.
( Exerccios 11 e 12 - Ref. F. Pimentel Gomes )
11) Experimento Completamente Casualizado.
Considere um experimento de competio de cultivares de cana-de-acar,
completamente casualizado, com n=4 cultivares (A, B, C, D) e r = 6 repeties,
com os seguintes resultados, em t/ha.
115
CULTIVARES
Repeties
1
2
3
4
5
6
A
54
40
51
36
50
48
B
60
55
66
61
54
61
C
59
47
44
49
62
60
D
45
33
34
48
42
44
Obtenha a tabela de Anlise da Varincia para estes dados e compare as mdias

dos tratamentos, duas duas, utilizando para isso o Teste de Tukev no comando
MEANS da PROC ANOVA.
DATA CANA A;
INPUT CULTIV $ ALTURA @@;
CARDS;
A 54 B 60 C 59 D 45
A 40 B 55 C 47 D 33
A 51 B 66 C 44 D 34
A 36 B 61 C 49 D 48
A 50 B 54 C 62 D 42
A 48 B 61 C 60 D 44
;
PROC ANOVA;
CLASS CULTIV;
MODEL ALTURA=CULTIV;
MEANS CULTIV /TUKEY;
TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO';
RUN;
Class
CULTIV
Levels
4
Values
A B C D

*************************************************************************
Dependent Variable: ALTURA
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
1174.1250000
391.3750000
9.47
0.0004
Error
20
826.5000000
41.3250000
Corrected Total
23
2000.6250000
R-Square
C.V.
Root MSE
ALTURA Mean
0.586879
12.82484
6.4284524
50.125000
Source
DF
Anova SS
Mean Square
F Value
Pr > F
CULTIV
1174.1250000
391.3750000
9.47
0.0004
*************************************************************************
116

Tukey's Studentized Range (HSD) Test for variable: ALTURA
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 20 MSE= 41.325
Critical Value of Studentized Range= 3.958
Minimum Significant Difference= 10.388
Means with the same letter are not significantly different.
Tukey Grouping
Mean
CULTIV
A
A
A
59.500
53.500
C
C
C
46.500
41.000
B
B
B
COMENTRIO:
Analisando o R-Square observa-se que 58.69% da variao do modelo
explicado pela diferena entre os cultivares.
O p-valor dado por Pr>F=0.0004 bem menor que o nvel de significncia de
10%, donde se conclui que a mdia das alturas significativamente diferente para
os diferentes tipos de cultivares. Esta anlise pode ser vista tambm pelo Teste
de Tukey.
A mdia global (ALTURA Mean) das alturas 50.125.
O coeficiente de variao (C V) das alturas 12.825
117
12) Experimento com blocos casualizados.

Num experimento de competio de n=7 cultivares de milho, em r=4 blocos
casualizados, as produes, em km/ha, foram as da tabela abaixo:
Cultivares
1
2
3
4
5
6
7
Bloco 1
1920
3110
3260
2540
2270
3000
3310
Bloco 2
2340
3700
3990
2190
2800
3110
3420
Bloco 3
2100
3640
3420
2010
2820
3000
3640
Bloco 4
1920
3570
3510
2230
2710
3800
230
A) Os dados se encontram no arquivo MILHO.SAS. Obtenha a tabela de Anlise

de Varincia ao nvel de 5% para testar se so iguais as mdias dos 7
tratamentos. Compare estas mdias par a par.
B) Analise os dados considerando que tenha sido perdido o cultivar nmero 7
C) Analise os dados considerando apenas os 3 primeiros blocos
DATA MILHO A;
INPUT BLOCO CULTIV PROD @@;
CARDS;
1 1 1920 2 1 2340 3 1 2100 4 1 1920
1 2 3110 2 2 3700 3 2 3640 4 2 3570
1 3 3260 2 3 3990 3 3 3420 4 3 3510
1 4 2540 2 4 2190 3 4 2010 4 4 2230
1 5 2270 2 5 2800 3 5 2820 4 5 2710
1 6 3000 2 6 3110 3 6 3000 4 6 3800
1 7 3310 2 7 3420 3 7 3640 4 7 2630
;
/* ############( A )############### */;
PROC ANOVA;
CLASS CULTIV BLOCO;
MODEL PROD=CULTIV BLOCO;
MEANS CULTIV BLOCO /TUKEY;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO';
RUN;
/* ############( B )############### */;
PROC ANOVA;
WHERE CULTIV NE 7;
CLASS CULTIV BLOCO;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7';
RUN;
/* ############( C )############### */;
PROC ANOVA;
WHERE BLOCO NE 4;
CLASS CULTIV BLOCO;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4';
RUN;
A)
EXPERIMENTO COM BLOCOS CASUALIZADO
118
Class
Levels
Values
CULTIV
1 2 3 4 5 6 7
BLOCO
1 2 3 4

*************************************************************************
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
9093421.4286
1010380.1587
10.97
0.0001
Error
18
1658350.0000
92130.5556
Corrected Total
27
10751771.4286
R-Square
C.V.
Root MSE
PROD Mean
0.845760
10.36950
303.53016
2927.1429
Source
DF
Anova SS
Mean Square
F Value
Pr > F
CULTIV
BLOCO
6
3
8761421.4286
332000.0000
1460236.9048
110666.6667
15.85
1.20
0.0001
0.3377
*************************************************************************
Tukey's Studentized Range (HSD) Test for variable: PROD
Alpha= 0.05 df= 18 MSE= 92130.56
119

Tukey Grouping
Mean
CULTIV
A
A
A
A
A
A
A
3545.0
3505.0
3250.0
3227.5
C
C
C
C
C
2650.0
2242.5
2070.0
B
B
B
B
B
*************************************************************************
Alpha= 0.05 df= 18 MSE= 92130.56
Tukey Grouping
Mean
BLOCO
A
A
A
A
A
A
A
3078.6
2947.1
2910.0
2772.9
COMENTRIO:
Analisando o R-Square observa-se que 84.58% da variao do modelo
explicado pela diferena entre os cultivares.
O p-valor para a varivel CULTIV (Pr>F=0.0001) bem menor que o nvel de
significncia de 10%, donde se conclui que a mdia da produo (PROD)
significativamente diferente para os diferentes tipos de cultivares. Esta anlise
pode ser vista tambm pelo Teste de Tukey. O p-valor para a varivel BLOCO
(Pr>F=0.3377) maior o nvel de significncia de 10%, donde se conclui que a
mdia da produo (PROD) no significativamente diferente para os diferentes
tipos de blocos. Esta anlise pode ser vista tambm pelo Teste de Tukey.
A mdia global (ALTURA Mean) da produo 2927.14.
O coeficiente de variao (C V) da produo 10.37%.

B)
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7
120

Class
Levels
Values
CULTIV
1 2 3 4 5 6
BLOCO
1 2 3 4

*************************************************************************
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
8675683.3333
1084460.4167
15.94
0.0001
Error
15
1020650.0000
68043.3333
Corrected Total
23
9696333.3333
R-Square
C.V.
Root MSE
PROD Mean
0.894739
9.078347
260.85117
2873.3333
Source
DF
Anova SS
Mean Square
F Value
Pr > F
CULTIV
BLOCO
5
3
8274983.3333
400700.0000
1654996.6667
133566.6667
24.32
1.96
0.0001
0.1629
*************************************************************************
Alpha= 0.05 df= 15 MSE= 68043.33
Tukey Grouping
Mean
CULTIV
A
A
A
A
A
3545.0
3505.0
3227.5
C
C
C
C
C
2650.0
2242.5
2070.0
B
B
B
*************************************************************************
121

Alpha= 0.05 df= 15 MSE= 68043.33
Tukey Grouping
Mean
BLOCO
A
A
A
A
A
A
A
3021.7
2956.7
2831.7
2683.3
COMENTRIO:
Comparando o item (A) e (B) observa-se que o R-Square aumentou de 84.58%
para 89.47%.
O p-valor para a varivel CULTIV (Pr>F=0.0001) continuou o mesmo e para a
varivel BLOCO (Pr>F=0.1629) diminuiu, mas no significativamente.
A mdia global (ALTURA Mean) da produo diminuiu para 2873.33.
O coeficiente de variao (C V) da produo diminuiu para 9.078%.
C)
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4
Class
Levels
Values
CULTIV
1 2 3 4 5 6 7
BLOCO
1 2 3

*************************************************************************
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
6931152.3810
866394.0476
15.53
0.0001
Error
12
669276.1905
55773.0159
Corrected Total
20
7600428.5714
122
R-Square
C.V.
Root MSE
PROD Mean
0.911942
8.052322
236.16311
2932.8571
Source
DF
Anova SS
Mean Square
F Value
Pr > F
CULTIV
BLOCO
6
2
6601895.2381
329257.1429
1100315.8730
164628.5714
19.73
2.95
0.0001
0.0907
*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUIDO BLOCO = 4
Alpha= 0.05 df= 12 MSE= 55773.02
Tukey Grouping
Mean
CULTIV
A
A
A
A
A
A
A
3556.7
3483.3
3456.7
3036.7
C
C
C
C
C
2630.0
2246.7
2120.0
B
B
B
*************************************************************************
Alpha= 0.05 df= 12 MSE= 55773.02
Tukey Grouping
Mean
BLOCO
A
A
A
A
A
3078.6
2947.1
2772.9
COMENTRIO:
123
Comparando o item (A) e (C) observa-se que o R-Square aumentou de 84.58%

para 91.19%.
O p-valor para a varivel CULTIV (Pr>F=0.0001) continuou o mesmo e para a
varivel BLOCO (Pr>F=0.0907) diminuiu significativamente (<10%), o que
significa que a mdia da produo (PROD) significativamente diferente para os
diferentes tipos de BLOCOS.
A mdia global (ALTURA Mean) da produo aumentou para 2932.85.
O coeficiente de variao (C V) da produo diminuiu para 8.05%.
13) As variveis BLOCO e TRAT representam os fatores. As variveis CAMPO1 e
CAMPO2 representam as respostas do experimento, Use o comando MODEL
para obter uma anlise de varincia para cada uma das variveis
dependentes CAMPO1 e CAMPO2.Use = 5 e 10%.
B
L
O
C
O
S
1
2
3
T R A T A M E N T O S
A
B
C
32.6
36.4
29.5
112
130
106
42.7
47.1
32.9
139
143
112
35.3
40.1
33.6
124
134
116

DATA CAMPO A;
INPUT BLOCO TRAT $ CAMPO1 CAMPO2 @@;
CARDS;
1 A 32.6 112 1 B 36.4 130 1 C 29.5 106
2 A 42.7 139 2 B 47.1 143 2 C 32.9 112
3 A 35.3 124 3 B 40.1 134 3 C 33.6 116
;
PROC ANOVA;
CLASS BLOCO TRAT;
MODEL CAMPO1 CAMPO2=BLOCO TRAT;
RUN;
Class
Levels
Values
BLOCO
1 2 3
TRAT
A B C

*************************************************************************
Dependent Variable: CAMPO1
124
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
225.27777778
56.31944444
8.94
0.0283
Error
25.19111111
6.29777778
Corrected Total
250.46888889
R-Square
C.V.
Root MSE
CAMPO1 Mean
0.899424
6.840047
2.5095374
36.688889
Source
DF
Anova SS
Mean Square
F Value
Pr > F
BLOCO
TRAT
2
2
98.17555556
127.10222222
49.08777778
63.55111111
7.79
10.09
0.0417
0.0274
*************************************************************************
Dependent Variable: CAMPO2
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
1247.3333333
311.8333333
8.28
0.0323
Error
150.6666667
37.6666667
Corrected Total
1398.0000000
R-Square
C.V.
Root MSE
CAMPO2 Mean
0.892227
4.949450
6.1373175
124.00000
Source
DF
Anova SS
Mean Square
F Value
Pr > F
BLOCO
TRAT
2
2
354.66666667
892.66666667
177.33333333
446.33333333
4.71
11.85
0.0889
0.0209
COMENTRIO:
CAMPO1
Analisando o R-Square (CAMPO1) observa-se que o 89.24% da variao do
modelo explicado pela diferena entre os blocos e entre os tratamentos.
O p-valor para a varivel BLOCO (Pr>F=0.0417) menor que os nveis de
significncia 5 e 10%, donde se conclui que a mdia do CAMPO1
significativamente diferente para os diferentes tipos de blocos. O p-valor para a
varivel TRAT (Pr>F=0.0274) menor que os nveis de significncia 5 e 10%,
donde se conclui que a mdia do CAMPO1 significativamente diferente para os
diferentes tipos de tratamentos.
A mdia global (CAMPO1 Mean) do CAMPO1 124.0.
O coeficiente de variao (C V) do CAMPO1 6.84%.
CAMPO2
125
Analisando o R-Square (CAMPO2) observa-se que 89.22% da variao do

modelo explicado pela diferena entre os blocos e entre os tratamentos.
O p-valor para a varivel BLOCO (Pr>F=0.0889) maior que os nivel de
significncia 5%, donde se conclui que a mdia do CAMPO2 no
significativamente diferente para os diferentes tipos de blocos, mas isso acontece
para =10%. O p-valor para a varivel TRAT (Pr>F=0.0209) menor que os
nveis de significncia 5 e 10%, donde se conclui que a mdia do CAMPO2
significativamente diferente para os diferentes tipos de tratamentos.
A mdia global (CAMPO2 Mean) do CAMPO2 36.689.
O coeficiente de variao (C V) do CAMPO2 4.95%.
126
13 EXEMPLO PRTICO
13.1 Banco de Dados
GRUPO IDADE
A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
11,9
11,1
12,5
11,8
11,8
11,8
11,9
11,9
11,1
11,1
11,1
12,2
12,4
12,2
12,1
11,1
11,9
11,8
11,8
11,7
11,6
11,6
11,8
11,9
11,9
11,1
11,1
12,1
12,2
PAS_INI
PAD_INI
PAS_FIM
PAD_FIM
PESO
ESTAT
120
110
110
120
110
130
120
90
120
80
110
130
90
100
100
120
100
110
100
100
110
140
110
120
130
110
130
110
110
80
60
60
60
70
90
70
60
80
50
60
70
50
80
50
70
60
70
70
60
70
90
70
90
90
80
70
80
80
120
130
120
160
130
170
140
150
150
160
160
150
150
150
140
140
150
120
160
160
120
130
120
130
130
140
140
120
130
70
70
60
60
80
100
80
100
100
80
90
40
90
90
90
80
70
80
100
90
50
70
50
70
60
80
60
30
40
40,0
42,0
40,4
46,5
49,0
53,6
49,0
43,5
43,3
53,8
45,0
55,2
52,1
31,6
36,4
37,5
45,4
37,1
55,5
39,0
41,2
31,2
33,3
32,4
47,2
52,0
43,6
41,7
34,7
154,5
155,5
148,4
160,8
166,0
157,0
159,0
154,0
156,3
157,3
164,7
157,2
167,3
155,0
158,9
147,2
156,1
152,0
161,5
152,0
141,0
155,3
163,5
158,0
152,0
147,0
153,0
158,0
154,0
127
13.2 Anlise dos dados

TESTE DE NORMALIDADE - TESTE DE SHAPIRO-WILK
---------------------------------- GRUPO=A -----------------------------------Univariate Procedure
Variable=IDADE
W:Normal
0.874563
Pr<W
0.0586
Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)

Teste de Shapiro-Wilk
Variable=PAS_IN
W:Normal
0.888869
Pr<W
0.0920

Variable=PAD_IN
W:Normal
0.918092
Pr<W
0.2279

Variable=PAD_FI
W:Normal
0.920703
Pr<W
0.2466

Variable=PAS_FI
W:Normal
0.930316
Pr<W
0.3279

Variable=PESO
W:Normal
0.932284
Pr<W
0.3471

Variable=ESTAT
W:Normal
0.946241
Pr<W
0.5094

128
---------------------------------- GRUPO=B -----------------------------------Univariate Procedure

Variable=IDADE
W:Normal
0.878959
Pr<W
0.0375
Anlise: Esta varivel NO segue uma distribuio Normal (p < 0,05)

Variable=PAS_IN
W:Normal
Moments
0.859048 Pr<W
0.0181
Anlise: Esta varivel NO segue uma distribuio Normal (p < 0,05)

Variable=PAD_IN
W:Normal
0.92103
Pr<W
0.1767

Variable=PAD_FI
W:Normal
0.902441
Pr<W
0.0893

W:Normal
0.959803
Pr<W
0.6350

Variable=PESO
W:Normal
0.935181
Pr<W
0.2925

Variable=ESTAT
W:Normal
0.966555
Pr<W
0.7506

129
Concluso do Teste de Normalidade

As variveis que devero ser analisadas por uma Anlise de varincia (para os
dois grupos as variveis esto normalizadas) so:
PAD_IN
PAS_FI
PAD_FI PESO
ESTAT
FCREP
FLEX
As demais devero ser analisadas por Testes No Paramtricos (Teste de

Kruskal-Wallis) para variveis independentes.
IDADE
PAS_IN
*******************************************************************************
ANALISE DE VARIANCIA - DADOS PARAMTRICOS
Class
Levels
GRUPO
Values
A B

ANALISE DE VARIANCIA - DADOS
Dependent Variable: PAD_IN
Sum of
Squares
Source
DF
Model
413.85941645
Error
27
3682.69230769
Corrected Total
28
4096.55172414
GRUPO
Mean
Square
413.85941645
F Value
Pr > F
3.03
0.0929
136.39601140
R-Square
C.V.
Root MSE
PAD_IN Mean
0.101026
16.60232
11.678870
70.344828
413.85941645
413.85941645
3.03
0.0929
*******************************************************************************
Dependent Variable: PAS_FI
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
592.19164456
592.19164456
1.62
0.2138
Error
27
9862.98076923
365.29558405
Corrected Total
28
10455.17241379
R-Square
C.V.
Root MSE
PAS_FI Mean
0.056641
26.02200
19.112707
73.448276
130
Source
DF
Anova SS
Mean Square
F Value
Pr > F
GRUPO
592.19164456
592.19164456
1.62
0.2138
*******************************************************************************
Dependent Variable: PAD_FI
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
598.47480106
598.47480106
2.74
0.1095
Error
27
5898.07692308
218.44729345
Corrected Total
28
6496.55172414
R-Square
C.V.
Root MSE
PAD_FI Mean
0.092122
10.53118
14.779963
140.34483
Source
DF
Anova SS
Mean Square
F Value
Pr > F
GRUPO
598.47480106
598.47480106
2.74
0.1095
******************************************************************************
ANALISE DE VARIANCIA - DADOS PARAMTRICOS
Dependent Variable: PESO
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
371.52005968
371.52005968
8.89
0.0060
Error
27
1128.25442308
41.78720085
Corrected Total
28
1499.77448276
R-Square
C.V.
Root MSE
PESO Mean
0.247717
14.95889
6.4643020
43.213793
Source
DF
Anova SS
Mean Square
F Value
Pr > F
GRUPO
371.52005968
371.52005968
8.89
0.0060
*******************************************************************************
Dependent Variable: ESTAT
Source
DF
Sum of
Squares
Mean
Square
F Value
Pr > F
Model
131.16880802
131.16880802
4.31
0.0475
Error
27
821.50360577
30.42605947
Corrected Total
28
952.67241379
R-Square
C.V.
Root MSE
ESTAT Mean
0.137685
3.537059
5.5159822
155.94828
131
Source
DF
Anova SS
Mean Square
F Value
Pr > F
GRUPO
131.16880802
131.16880802
4.31
0.0475
*******************************************************************************
Duncan's Multiple Range Test for variable: PAD_IN
NOTE: This test controls the type I comparisonwise error rate, not
the experimentwise error rate
Alpha= 0.05 df= 27 MSE= 136.396
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Number of Means
2
Critical Range 8.948
Duncan Grouping
Mean
GRUPO
A
A
A
73.750
16
66.154
13
*******************************************************************************
Tukey's Studentized Range (HSD) Test for variable: PAD_IN
Alpha= 0.05 df= 27 MSE= 136.396
Tukey Grouping
Mean
GRUPO
A
A
A
73.750
16
66.154
13
*******************************************************************************
Scheffe's test for variable: PAD_IN
NOTE: This test controls the type I experimentwise error rate but
generally has a higher type II error rate than REGWF for all
pairwise comparisons
Alpha= 0.05 df= 27 MSE= 136.396
Critical Value of F= 4.21001
Scheffe Grouping
Mean
132
GRUPO
A
A
A
73.750
16
66.154
13
*******************************************************************************
Duncan's Multiple Range Test for variable: PAS_FI
Alpha= 0.05 df= 27 MSE= 365.2956
Number of Means
2
Duncan Grouping
Mean
GRUPO
A
A
A
78.462
13
69.375
16
*******************************************************************************
Tukey's Studentized Range (HSD) Test for variable: PAS_FI
Alpha= 0.05 df= 27 MSE= 365.2956
Tukey Grouping
Mean
GRUPO
A
A
A
78.462
13
69.375
16
*******************************************************************************
Scheffe's test for variable: PAS_FI
Alpha= 0.05 df= 27 MSE= 365.2956
Scheffe Grouping
Mean
133
GRUPO
A
A
A
78.462
13
69.375
16
*******************************************************************************
Duncan's Multiple Range Test for variable: PAD_FI

Alpha= 0.05 df= 27 MSE= 218.4473
Number of Means
2
Duncan Grouping
Mean
GRUPO
A
A
A
145.385
13
136.250
16
*******************************************************************************
Tukey's Studentized Range (HSD) Test for variable: PAD_FI
Alpha= 0.05 df= 27 MSE= 218.4473
Tukey Grouping
Mean
GRUPO
A
A
A
145.385
13
136.250
16
*******************************************************************************
Scheffe's test for variable: PAD_FI

Alpha= 0.05 df= 27 MSE= 218.4473
134

Scheffe Grouping
Mean
GRUPO
A
A
A
145.385
13
136.250
16
*******************************************************************************
Duncan's Multiple Range Test for variable: PESO

Alpha= 0.05 df= 27 MSE= 41.7872
Number of Means
2
Duncan Grouping
Mean
GRUPO
47.185
13
39.988
16
*******************************************************************************
Tukey's Studentized Range (HSD) Test for variable: PESO

Alpha= 0.05 df= 27 MSE= 41.7872
Tukey Grouping
Mean
GRUPO
47.185
13
39.988
16
*******************************************************************************
Scheffe's test for variable: PESO

Alpha= 0.05 df= 27 MSE= 41.7872
135

Scheffe Grouping
Mean
GRUPO
47.185
13
39.988
16
*******************************************************************************
Duncan's Multiple Range Test for variable: ESTAT

Alpha= 0.05 df= 27 MSE= 30.42606
Number of Means
2
Duncan Grouping
Mean
GRUPO
158.308
13
154.031
16
*******************************************************************************
Tukey's Studentized Range (HSD) Test for variable: ESTAT

Alpha= 0.05 df= 27 MSE= 30.42606
Tukey Grouping
Mean
GRUPO
158.308
13
154.031
16
*******************************************************************************
Scheffe's test for variable: ESTAT

136
Alpha= 0.05 df= 27 MSE= 30.42606
Scheffe Grouping
Mean
GRUPO
158.308
13
154.031
16
*******************************************************************************
N P A R 1 W A Y
P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable IDADE

Classified by Variable GRUPO
GRUPO
Sum of
Scores
Std Dev
Under H0
Mean
Score
202.500000
195.0
22.5578621
232.500000
240.0
22.5578621
Average Scores Were Used for Ties
15.5769231
14.5312500
A
B
13
16
Expected
Under H0

S =
202.500
Z = 0.310313
Prob > |Z| = 0.7563
T-Test Approx. Significance = 0.7586

CHISQ = 0.11054
DF = 1
Prob > CHISQ = 0.7395
*******************************************************************************
TESTE NAO PARAMETRICO - WILCOXON
N P A R 1 W A Y
P R O C E D U R E
Wilcoxon Scores (Rank Sums) for Variable PAS_IN

Classified by Variable GRUPO
GRUPO
Sum of
Scores
Std Dev
Under H0
Mean
Score
199.0
195.0
22.1452883
236.0
240.0
22.1452883
Average Scores Were Used for Ties
15.3076923
14.7500000
A
B
13
16
Expected
Under H0

S =
199.000
Z = 0.158047
Prob > |Z| = 0.8744
T-Test Approx. Significance = 0.8756

CHISQ = 0.03263
DF = 1
Prob > CHISQ = 0.8567
*******************************************************************************
ANALISE DE CORRELAO - POR GRUPO
137
---------------------------------- GRUPO=A -----------------------------------Correlation Analysis

IDADE
PAS_IN
PAD_IN
PAD_FI
PAS_FI
PESO
ESTAT
IDADE
1.00000
0.0
0.11355
0.7119
-0.01829
0.9527
-0.29866
0.3216
-0.35359
0.2359
0.11772
0.7017
-0.09825
0.7495
PAS_IN
0.11355
0.7119
1.00000
0.0
0.78224
0.0016
-0.05119
0.8681
-0.32011
0.2863
-0.03421
0.9116
-0.14034
0.6475
PAD_IN
-0.01829
0.9527
0.78224
0.0016
1.00000
0.0
-0.01332
0.9655
0.16250
0.5958
-0.03653
0.9057
-0.21510
0.4803
PAD_FI
-0.29866
0.3216
-0.05119
0.8681
-0.01332
0.9655
1.00000
0.0
0.37142
0.2115
0.61683
0.0247
0.35160
0.2388
PAS_FI
-0.35359
0.2359
-0.32011
0.2863
0.16250
0.5958
0.37142
0.2115
1.00000
0.0
-0.03737
0.9035
0.22572
0.4584
PESO
0.11772
0.7017
-0.03421
0.9116
-0.03653
0.9057
0.61683
0.0247
-0.03737
0.9035
1.00000
0.0
0.45355
0.1196
ESTAT
-0.09825
0.7495
-0.14034
0.6475
-0.21510
0.4803
0.35160
0.2388
0.22572
0.4584
0.45355
0.1196
1.00000
0.0
---------------------------------- GRUPO=B -----------------------------------Correlation Analysis

7 'VAR' Variables:
IDADE
ESTAT
PAS_IN
PAD_IN
PAD_FI
PAS_FI
PESO
Simple Statistics
IDADE
PAS_IN
PAD_IN
PAD_FI
PAS_FI
PESO
ESTAT
IDADE
1.00000
0.0
-0.41854
0.1066
0.02114
0.9381
-0.08451
0.7557
-0.15240
0.5731
-0.32680
0.2167
0.52205
0.0381
PAS_IN
-0.41854
0.1066
1.00000
0.0
0.63341
0.0084
-0.41562
0.1094
-0.31914
0.2283
-0.16878
0.5320
-0.17507
0.5167
PAD_IN
0.02114
0.9381
0.63341
0.0084
1.00000
0.0
-0.37376
0.1538
-0.34073
0.1966
-0.12430
0.6465
-0.05596
0.8369
PAD_FI
-0.08451
0.7557
-0.41562
0.1094
-0.37376
0.1538
1.00000
0.0
0.73254
0.0012
0.36355
0.1663
0.12034
0.6571
PAS_FI
-0.15240
0.5731
-0.31914
0.2283
-0.34073
0.1966
0.73254
0.0012
1.00000
0.0
0.16864
0.5324
0.05036
0.8530
PESO
-0.32680
0.2167
-0.16878
0.5320
-0.12430
0.6465
0.36355
0.1663
0.16864
0.5324
1.00000
0.0
-0.14503
0.5920
ESTAT
0.52205
0.0381
-0.17507
0.5167
-0.05596
0.8369
0.12034
0.6571
0.05036
0.8530
-0.14503
0.5920
1.00000
0.0
138
REFERNCIAS BIBLIOGRFICAS
BUSSAB, W.O.; MORETTIN, P.A. (1981) Estatstica Bsica. So Paulo: Atual

Editora.
COSTA NETO, Pedro L. O. Estatstica. So Paulo: Mc Graw-Hill do Brasil.
FONSECA, J.S.; MARTINS, G.A. (1993) Curso de Estatstica. So Paulo: Ed.
Atlas.
FONSECA, J.S.; MARTINS, G.A.; TOLEDO, G.L. (1991) Estatstica Aplicada.
So Paulo: Ed. Atlas.
Manuais do SAS/BASIC. Vol. I e II.
Manuais do SAS/STAT.
STEVENSON, W.J. (1981) Estatstica Aplicada Administrao. So Paulo:
Ed. Harbra.
VIEIRA, S.; HOFFMANN R. (1989) Estatstica Experimental. So Paulo: Ed.
Atlas.
139
ANEXOS
140
ANEXO 1 - ANLISE DE NORMALIDADE USANDO A TABELA DE

ASSIMENTRIA E CURTOSE - Skewness and Kurtosis
Intervalo de confiana de 95%
Skewness
Kurtosis
Skewness
Kurtosis
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
-1.81
-1.70
-1.57
-1.45
-1.37
-1.31
-1.26
-1.21
-1.17
-1.13
-1.09
-1.06
-1.03
-1.00
-0.98
-0.95
-0.93
-0.91
-0.89
-0.87
-0.85
-0.84
-0.82
-0.81
-0.79
-0.78
-0.77
-0.76
-0.74
-0.73
-0.72
-0.71
-0.70
.
.
-0.87
-0.89
-0.90
-0.92
.
-0.93
.
.
-0.94
.
.
.
.
.
-1.27
-1.25
-1.22
-1.20
-1.18
-1.16
-1.14
-1.12
-1.11
-1.09
-1.08
-1.06
-1.05
-1.04
-1.03
-1.01
-1.00
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
-0.69
-0.68
-0.67
-0.67
-0.66
-0.65
-0.64
-0.63
-0.63
-0.62
-0.61
-0.61
-0.60
-0.59
-0.59
-0.58
-0.58
-0.57
-0.57
-0.56
-0.56
-0.55
-0.55
-0.54
-0.54
-0.53
-0.53
-0.52
-0.52
-0.51
-0.51
-0.51
-0.50
-0.99
-0.98
-0.97
-0.96
-0.95
-0.95
-0.94
-0.93
-0.92
-0.91
-0.91
-0.90
-0.89
-0.88
-0.88
-0.87
-0.87
-0.86
-0.85
-0.85
-0.84
-0.84
-0.83
-0.83
-0.82
-0.82
-0.81
-0.81
-0.80
-0.80
-0.79
-0.79
-0.78
1.81
1.70
1.57
1.45
1.37
1.31
1.26
1.21
1.17
1.13
1.09
1.06
1.03
1.00
0.98
0.95
0.93
0.91
0.89
0.87
0.85
0.84
0.82
0.81
0.79
0.78
0.77
0.76
0.74
0.73
0.72
0.71
0.70
.
.
1.54
1.68
1.79
1.85
.
1.93
.
.
1.95
.
.
.
.
.
2.44
2.39
2.34
2.30
2.26
2.22
2.18
2.15
2.12
2.08
2.05
2.03
2.00
1.97
1.94
1.92
1.90
141
0.69
0.68
0.67
0.67
0.66
0.65
0.64
0.63
0.63
0.62
0.61
0.61
0.60
0.59
0.59
0.58
0.58
0.57
0.57
0.56
0.56
0.55
0.55
0.54
0.54
0.53
0.53
0.52
0.52
0.51
0.51
0.51
0.50
1.87
1.85
1.83
1.81
1.79
1.77
1.75
1.73
1.71
1.69
1.68
1.66
1.64
1.63
1.61
1.60
1.58
1.57
1.56
1.54
1.53
1.52
1.50
1.49
1.48
1.47
1.46
1.45
1.43
1.42
1.41
1.40
1.39
Skewness
Kurtosis
Skewness
Kurtosis
71
72
73
74
75
76
77
78
79
80
81
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
100
101
102
103
105
107
108
109
-0.50
-0.50
-0.49
-0.49
-0.48
-0.48
-0.48
-0.47
-0.47
-0.47
-0.46
-0.46
-0.46
-0.45
-0.45
-0.45
-0.44
-0.44
-0.44
-0.44
-0.43
-0.43
-0.43
-0.43
-0.42
-0.42
-0.42
-0.41
-0.41
-0.41
-0.41
-0.40
-0.40
-0.40
-0.40
-0.78
-0.78
-0.77
-0.77
-0.76
-0.76
-0.76
-0.75
-0.75
-0.75
-0.74
-0.74
-0.73
-0.73
-0.73
-0.72
-0.72
-0.72
-0.71
-0.71
-0.71
-0.70
-0.70
-0.70
-0.70
-0.69
-0.69
-0.69
-0.68
-0.68
-0.68
-0.67
-0.67
-0.67
-0.66
110
111
112
113
114
115
117
118
119
121
123
125
127128
129
130
132
133
134
135
137
140
143
146
148
149
152
155
156
158
159
161
164
165
-0.39
-0.39
-0.39
-0.39
-0.39
-0.38
-0.38
-0.38
-0.38
-0.37
-0.37
-0.37
-0.36
-0.36
-0.36
-0.36
-0.36
-0.35
-0.35
-0.35
-0.35
-0.34
-0.34
-0.34
-0.33
-0.33
-0.33
-0.33
-0.32
-0.32
-0.32
-0.32
-0.32
-0.31
-0.66
-0.66
-0.66
-0.65
-0.65
-0.65
-0.65
-0.64
-0.64
-0.64
-0.63
-0.63
-0.63
-0.62
-0.62
-0.62
-0.62
-0.62
-0.61
-0.61
-0.61
-0.60
-0.60
-0.59
-0.59
-0.59
-0.5
-0.58
-0.58
-0.58
-0.57
-0.57
-0.57
-0.57
0.50
0.50
0.49
0.49
0.48
0.48
0.48
0.47
0.47
0.47
0.46
0.46
0.46
0.45
0.45
0.45
0.44
0.44
0.44
0.44
0.43
0.43
0.43
0.43
0.42
0.42
0.42
0.41
0.41
0.41
0.41
0.40
0.40
0.40
0.40
1.38
1.37
1.36
1.35
1.35
1.34
1.33
1.32
1.31
1.30
1.29
1.28
1.27
1.26
1.26
1.25
1.24
1.23
1.23
1.22
1.21
1.21
1.20
1.19
1.19
1.18
1.17
1.16
1.16
1.15
1.14
1.13
1.12
1.12
1.11
142
0.39
0.39
0.39
0.39
0.39
0.38
0.38
0.38
0.38
0.37
0.37
0.37
0.36
0.36
0.36
0.36
0.36
0 35
0 35
0 35
0 35
0 34
0 34
0 34
0 33
0 33
0 33
0 33
0 32
0 32
0 32
0.32
0.32
0.31
1.11
1.10
1.09
1.09
1.08
1.08
1.07
1.07
1.06
1.05
1.04
1.03
1.02
1.02
1.01
1.01
1.00
1.00
1.00
0.99
0.98
0.97
0.96
0.95
0.95
0.94
0.93
0.92
0.92
0.91
0.91
0.90
0.89
0.89
Skewness
Kurtosis
Skewness
Kurtosis
167
168
171
175
179
183
186
187
191
192
196
198
200
201
205
210
211
212
215
220
222
225
231
234
237
241
243
246
249
255
258
260
262
-0.31
-0.31
-0.31
-0.30
-0.30
-0.30
-0.29
-0.29
-0.29
-0.29
-0.29
-0.28
-0.28
-0.28
-0.28
-0.28
-0.27
-0.27
-0.27
-0.27
-0.27
-0.26
-0.26
-0.26
-0.26
-0.25
-0.25
-0.25
-0.25
-0.25
-0.24
-0.24
-0.24
-0.56
-0.56
-0.56
-0.55
-0.55
-0.54
-0.54
-0.54
-0.54
-0.53
-0.53
-0.53
-0.53
-0.52
-0.52
-0.52
-0.52
-0.51
-0.51
-0.51
-0.50
-0.50
-0.50
-0.49
-0.49
-0.49
-0.49
-0.48
-0.48
-0.48
-0.48
-0.47
-0.47
269
274
277
278
284
289
292
300
301
306
309
318
323
325
328
338
342
348
354
359
363
371
383
385
386
396
409
410
423
436
438
454
464
-0.24
-0.24
-0.24
-0.23
-0.23
-0.23
-0.23
-0.22
-0.22
-0.22
-0.22
-0.22
-0.22
-0.21
-0.21
-0.21
-0.21
-0.21
-0.20
-0.20
-0.20
-0.20
-0.20
-0.20
-0.19
-0.19
-0.19
-0.19
-0.18
-0.18
-0.18
-0.18
-0.18
-0.47
-0.46
-0.46
-0.46
-0.46
-0.45
-0.45
-0.45
-0.45
-0.44
-0.44
-0.44
-0.43
-0.43
-0.43
-0.43
-0.42
-0.42
-0.42
-0.42
-0.41
-0.41
-0.41
-0.40
-0.43
-0.40
-0.40
-0.39
-0.39
-0.38
-0.38
-0.38
-0.37
0.31
0.31
0.31
0.30
0.30
0.30
0.29
0.29
0.29
0.29
0.29
0.28
0.28
0.28
0.28
0.28
0.27
0.27
0.27
0.27
0.27
0.26
0.26
0.26
0.26
0.25
0.25
0.25
0.25
0.25
0.24
0.24
0.24
0.89
0.88
0.87
0.86
0.85
0.84
0.84
0.83
0.82
0.82
0.81
0.81
0.80
0.80
0.79
G.78
0.78
0.78
0.77
0.76
0.76
0.75
0.74
0.74
0.73
0.73
0.72
0.72
0.71
0.70
0.70
0.70
0.69
143
0.24
0.24
0.24
0.23
0.23
0.23
0.23
0.22
0.22
0.22
0.22
0.22
0.22
0.21
0.21
0.21
0.21
0.21
0.20
0.20
0.20
0.20
0.20
0.20
0.19
0.19
0.19
0.19
0.18
0.18
0.18
0.18
0.18
0.68
0.68
0.67
0.67
0.66
0.66
0.65
0.65
0.64
0.64
0.63
0.62
0.62
0.62
0.61
0.60
0.60
0.59
0.59
0.58
0.58
0.57
0.56
0.56
0.56
0.55
0.54
0.54
0.53
0.53
0.52
0.51
0.51
n
466
470
488
495
506
516
526
529
547
566
569
575
593
607
618
645
652
674
701
705
730
738
755
774
812
816
833
853
883
898
947
958
961
1000
Skewness
Kurtosis
-0.17
-0.17
-0.17
-0.17
-0.17
-0.16
-0.16
-0.16
-0.16
-0.16
-0.16
-0.15
-0.15
-0.15
-0.15
-0.14
-0.14
-0.14
-0.14
-0.14
-0.13
-0.13
-0.13
-0.13
-0.13
-0.13
-0.12
-0.12
-0.12
-0.12
-0.12
-0.12
-0.11
-0.11
-0.37
-0.37
-0.37
-0.36
-0.36
-0.36
-0.36
-0.35
-0.35
-0.34
-0.34
-0.34
-0.34
-0.33
-0.33
-0.33
-0.32
-0.32
-0.31
-0.31
-0.31
-0.31
-0.30
-0.30
-0.30
-0.29
-0.29
-0.29
-0.28
-0.28
-0.28
-0.27
-0.27
-0.27
0.17
0.17
0.17
0.17
0.17
0.16
0.16
0.16
0.16
0.16
0.16
0.15
0.15
0.15
0.15
0.14
0.14
0.14
0.14
0.14
0.13
0.13
0.13
0.13
0.13
0.13
0.12
0.12
0.12
0.12
0.12
0.12
0.11
0.11
0.51
0.50
0.49
0.49
0.48
0.48
0.47
0.47
0.46
0.46
0.45
0.45
0.44
0.44
0.43
0.42
0.42
0.41
0.41
0.40
0.40
0.39
0.39
0.38
0.37
0.37
0.37
0.36
0.36
0.35
0.34
0.34
0.34
0.33
144

Apostila SAS PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila SAS PDF

Enviado por

Direitos autorais:

Formatos disponíveis

MINISTRIO DE EDUCAO E DESPORTOS

UNIVERSIDADE FEDERAL DE SANTA MARIA

TREINAMENTO SISTEMA - S.A.S.

3 O QUE O SISTEMA SAS?

6 PRINCIPAIS PROCEDURES PROCs

7 ESTATSTICAS DESCRITIVAS E TESTE PARA NORMALIDADE

8 ANLISE DE CORRELAO E REGRESSO

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

12 EXERCCIOS RESOLVIDOS E COMENTADOS

ANEXO 1 - ANLISE DE NORMALIDADE USANDO A TABELA DE

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

TREINAMENTO SISTEMA - S.A.S. Statistical Analisys System

O Objetivo deste Curso ajudar o usurio a conhecer os comandos

Este curso apenas uma introduo ao SAS, contendo uma pequena

3 O QUE O SISTEMA SAS ?

um sistema de aplicao integrada, que consiste em vrios produtos

Acesso aos dados - o sistema SAS possui ferramentas para acessar os

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Anlise de dados - o SAS possui rotinas estatsticas para anlises de

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

3.2 Tpicos gerais

As colunas da tabela so chamadas de VARIVEIS

Prof. Luis Felipe Lopes

- Comandos que lem e gravam arquivos de dados.

5.1 Comando de controle de arquivos

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

A palavra TESTE o nome do arquivo SAS.

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

5.2 Comandos que lem e gravam arquivos de dados

Obs.: Lembre-se das regras para nomes (no mximo 8 caracteres).

INPUT NOME $ 18 SEXO $ 10 IDADE 12-13

As posies dos campos so fixas.

Caractersticas do INPUT COLUNADO:

INPUT SEXO $ 10 IDADE 1213 NOME $ 18

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Campos em brancos so considerados no informados.

INPUT NOME $ 1-8 ININOME $ 1;

Valores numricos podem aparecer em qualquer posio do campo,

INPUT PESO $ 16;

Obs.: 1 - No se usa , (virgula) para separar a parte decimal e sim

INPUT SEXO $ IDADE NOME $ PESO ALTURA;

Todo o campo (var.) deve ser especificado em

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Largura do campo numrico

INFILE BANCO DADOS;

Caractersticas do INPUT FORMATADO:

INPUT (JAN FEV MAR ABR MAI) (3. 3. 3. 3. 3.);

Variveis numeradas podem ser usadas para abreviar diversas variveis

Prof. Luis Felipe Lopes

INPUT (MES1 MES2 MES3 MES4 MES5) (3.);

a.4) MISTURANDO TIPOS DE INPUT

a.5) OUTROS CONTROLADORES DE POSIO

Obs.: 1 - Os campos podem ser lidos em qualquer ordem. A indicao #

Treinamento Sistema SAS

Prof. Luis Felipe Lopes