Você está na página 1de 147

MINISTRIO DE EDUCAO E DESPORTOS

UNIVERSIDADE FEDERAL DE SANTA MARIA


CENTRO DE CINCIAS NATURAIS E EXATAS
DEPARTAMENTO DE ESTATSTICA
LABORATRIO - S.A.S.

TREINAMENTO SISTEMA - S.A.S.


Prof. Dr. Luis Felipe Lopes

SANTA MARIA RS
2006

SUMRIO
1 INTRODUO

2 LIMITAES

3 O QUE O SISTEMA SAS?


3.1 O SAS/BASE
3.2 Tpicos gerais

1
2
3

4 ARQUIVOS SAS

5 COMANDOS DE PROGRAMAO
5.1 Comandos de controle de arquivos
5.2 Comandos que lem e gravam arquivos de dados
5.3 Comandos que lem e gravam arquivos SAS
5.4 Comandos que atuam sobre valores de dados
5.5 Comandos de informao
5.6 Comandos que controlam o fluxo lgico de programao

3
4
6
10
13
15
17

6 PRINCIPAIS PROCEDURES PROCs


6.1 PROC SORT
6.2 PROC PRINT
6.3 PROC FORMAT
6.4 PROC FREQ
6.5 PROC MEANS

20
20
21
22
23
24

7 ESTATSTICAS DESCRITIVAS E TESTE PARA NORMALIDADE


7.1 Introduo
7.2 Testes de Normalidade (PROC UNIVARIATE)

27
27
27

8 ANLISE DE CORRELAO E REGRESSO


8.1 Introduo
8.2 Correlao de Pearson (PROC CORR)
8.3 Regresso (PROC REG)
8.4 Inferncia na regresso
8.5 Resduos

32
32
33
39
41
41

9 INFERNCIA ESTATSTICA
9.1 Testes para igualdade de duas medias (PROC TTEST)
9.2 Teste para dados pareados

55
54
59

10 MTODOS NO PARAMTRICOS
10.1 Testes para igualdade de duas medias (PROC NPAR1WAY)

64
64

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

11 ANLISE DE VARINCIA
11.1 Dados balanceados (PROC ANOVA)
11.1.1 Experimento Completamente Casualizado
11.1.2 Experimento com Blocos Aleatorizados
11.1.3 Experimento com Quadrado Latino

68
68
73
75
77

12 EXERCCIOS RESOLVIDOS E COMENTADOS

79

13 EXEMPLO PRTICO
13.1 Banco de dados
13.2 Anlise dos dados

127
127
128

REFERNCIAS BIBLIOGRFICAS

139

ANEXOS

140

ANEXO 1 - ANLISE DE NORMALIDADE USANDO A TABELA DE


ASSIMENTRIA E CURTOSE - Skewness and Kurtosis

141

Treinamento Sistema SAS

ii

Prof. Luis Felipe Lopes

TREINAMENTO SISTEMA - S.A.S. Statistical Analisys System

1 INTRODUO

O Objetivo deste Curso ajudar o usurio a conhecer os comandos


bsicos do Sistema SAS de modo que possa obter as respostas a
problemas prticos de uma maneira rpida e objetiva.

2 LIMITAES

Este curso apenas uma introduo ao SAS, contendo uma pequena


frao de informao que voc encontrar no SAS USERS GUIDE: BASIC e SAS
USERS GUIDE STATISTICS.

3 O QUE O SISTEMA SAS ?

um sistema de aplicao integrada, que consiste em vrios produtos


que tem por funo: acesso, gerenciamento, anlise estatstica e apresentao de
dados, somada a uma linguagem poderosa de programao e gerao de
relatrios.

Acesso

Gerenciamento

DADOS
Apresentao

Anlise

Acesso aos dados - o sistema SAS possui ferramentas para acessar os


bancos de dados mais populares, tratando as suas tabelas, como arquivo SAS.
Gerenciamento de dados - com o SAS possvel editar, selecionar,
ordenar, concatenar e margear os arquivos.

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Anlise de dados - o SAS possui rotinas estatsticas para anlises de


regresso, anlise de varincia, de componentes principais, discriminante,
modelos lineares, anlise fatorial, previses, controle de qualidade, clculos
matriciais, etc. .
Apresentao de informaes - a gerao de relatrios fcil e flexvel.
Eles podem ser listados, tabulados e grficos.
O SAS por ser um sistema integrado, ele composto por mdulos para
comercializao.
Principais mdulos:
SAS/BASE contm uma linguagem de Quarta gerao, com
procedimentos para estatstica bsica e grficos de baixa resoluo.
SAS/STAT este mdulo composto de procedimentos para estatstica
avanada, como anlise de varincia, anlise de regresso, multivariada, fatorial,
discriminante, outras.
SAS/GRAPH gera grficos de alta resoluo: barras verticais ou
horizontais, setoriais, cartesianos, mapas e superfcies tridimensionais.
SAS/ETS ferramenta de previso e anlise de sries temporais.
SAS/OR Procedimentos para Pesquisa Operacional, programao
linear, gerenciamento de projetos e apoio tomada de decises.
SAS/IML linguagem para operao com matrizes.
SAS/QC ferramenta para controle estatstico de qualidade e
delineamentos experimentais.
Existem outros mdulos, mas que no so de interesse para a estatstica.

3.1 O SAS/BASE
o instrumento principal do Sistema SAS. Ele permite ao usurios:
- Criar, montar e acessar qualquer tipo de dado;
- Produzir relatrios e grficos simples;
- Atualizar estatisticamente os dados;
- Utilizar a linguagem de programao SAS.

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

3.2 Tpicos gerais


- Todo os comandos do SAS terminam em (;).
- Os comandos iniciam e terminam em qualquer posio.
- Vrios comandos poder estar numa mesma linha.
- Um comando poder ser escrito em vrias linhas.
- Palavras sero separadas por um mais espaos.
- O comando INPUT obrigatrio no interessando onde os dados esto
armazenados.
- Arquivos SAS so armazenados em tabelas retangulares.
- Referenciam-se arquivos e variveis pelos nomes.
- Nomes de arquivos ou variveis poder ter no mximo 8 caracteres,
iniciando obrigatoriamente por letras (A-Z), podendo ter associado nmero e/ou
caracteres especiais com ( - quebra).
4 ARQUIVO SAS
Um arquivo SAS uma coleo de valores de dados arrumados em uma
tabela retangular.
Ex.:
Variveis

OBSERVAES
.
.

CULTURA

ALTURA1

ALTURA2

arroz
feijo
soja

0.35
0.25
0.15

0.39
0.30
0.17

As colunas da tabela so chamadas de VARIVEIS


- Variveis corresponde a campos de dados.
- Cada varivel tem um nome.
- H trs tipos de variveis: caracter, numrica e data.
As linhas so chamadas de OBSERVAES
- No h limite para o nmero de observaes.
5 COMANDOS DE PROGRAMAO
Os seguintes comandos so bsicos para a programao em SAS:
- Comandos de controle de arquivos.
- DATA
- CARDS
Treinamento Sistema SAS

- INFILE
- FILE
3

Prof. Luis Felipe Lopes

- Comandos que lem e gravam arquivos de dados.


- INPUT
- PUT
- LIST
- Comandos que lem e gravam arquivos SAS.
- SET
- MERGE
- UPDATE
- OUTPUT
- Comandos que atuam sobre valores de dados.
- FUNES e EXPRESSES
- Comandos de informao.
- DROP
- RENAME
- LABEL
- FORMAT
- TITLE
- Comandos que controlam o fluxo lgico de programao.
- IF (THEN / ELSE)
- DELETE

5.1 Comando de controle de arquivos

- DATA
O primeiro comando em um programa SAS, geralmente um DATA. O
comando DATA diz ao SAS que se quer criar um arquivo SAS.
Voc poder escolher qualquer nome para esse arquivo, desde que tenha
at 8 caracteres ou menos e comece por uma letra (A-Z).

Ex.:

DATA TESTE;
INPUT . . .
.
.

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

A palavra TESTE o nome do arquivo SAS.


Se o nome for omitido pelo usurio, o SAS se encarrega de nome-lo.
Dando o nome de DATAn (n nmero de DATAS criados).
O comando DATA pode aparecer em outros lugares dentro do arquivo
SAS quando se quer fazer referncias a outros arquivos.
- CARDS
um comando dado logo aps o comando DATA. O comando CARDS
indica ao SAS que os registros de dados seguem imediatamente abaixo no texto
at o ponto e virgula ; do ltimo dado.

Ex.:

DATA A1;
INPUT IDADE 12 ALTURA 5-8 1 PESO 1014 1;
CARDS;
21 180 75.2
18 170 65.3
25 175 80.3
:
:
:
:
:
:
;

- INFILE
Tambm vem a ser um comando logo aps o comando DATA, s que os
valores de dados esto em disco (na forma de arquivo), logo deve-se incluir o
comando INFILE. Ele deve conter um nome com no mximo 8 caracteres e
dever ser lido com o cdigo ASCII.
Caractersticas do INFILE:
Aponta ao SAS para fazer a leitura num arquivo externo, onde os dados
esto armazenados.
Os dados esto armazenados em disco no arquivo chamado ARQUIVO.

Ex.:

DATA A1;
INFILE ARQUIVO DADOS;
INPUT NOME $10. @30 NOTA1 30 32 1
NOTA2 33 35 1 MEDIA 37 39 1;
PROC PRINT;

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Obs.: Este dois comandos CARDS e INFILE especificam de onde sero lidos
os dados. O INFILE indica que sero lidos de um arquivo externo (banco de
dados ASCII) e o CARDS indica que os dados esto no programa logo
abaixo deste comando.

5.2 Comandos que lem e gravam arquivos de dados

- INPUT
A funo do comando INPUT descrever para o sistema SAS como so,
quais os nomes, e em que posio se encontra as VARIVEIS no arquivo de
dados.
O comando INPUT geralmente segue o comando DATA.

Ex.:

DATA TESTE;
INPUT
A 1-3

5-6;

Obs.: Lembre-se das regras para nomes (no mximo 8 caracteres).


a) Tipos de INPUT
a.1) INPUT COLUNADO
Especifica onde encontrar os valores pela posio da coluna.

Ex.:

INPUT NOME $ 18 SEXO $ 10 IDADE 12-13


ALTURA 1519 PESO 2126;

Restries:

As posies dos campos so fixas.


O $ usado para indicar varivel alfanumrica.

Caractersticas do INPUT COLUNADO:


Os campos (variveis) podem ser lidos em qualquer ordem.

Ex.:

INPUT SEXO $ 10 IDADE 1213 NOME $ 18


PESO 2126 ALTURA 1519;

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Campos em brancos so considerados no informados.


(posies 9, 11, 14, 20).
Caracteres em branco s sero permitidos em variveis alfanumricas.
Ex.: JOSE CARLOS
Campos ou partes de campos podem ser relidos como uma nova
varivel;
Ex.:

INPUT NOME $ 1-8 ININOME $ 1;

Valores numricos podem aparecer em qualquer posio do campo,


podendo ser especificado sinais decimais ou ponto decimais.
Ex.:

INPUT PESO $ 16;

1
1
2
3
4
5

C A M P O S
3
4
2
5
2

5
5

5
2
.

6
5

.
.

Obs.: 1 - No se usa , (virgula) para separar a parte decimal e sim


. (ponto). Ex.: linhas 2 e 4
2 - Um campo em branco dever ser representado por um .
ponto (missing). Ex.: linha 5
a.2) INPUT LISTADO
O SAS procura pelos campos brancos at encontrar um caracter, ento l
o campo at o prximo branco.
Forma geral INPUT lista de variveis;
Ex.:

INPUT SEXO $ IDADE NOME $ PESO ALTURA;

Restries:

Todo o campo (var.) deve ser especificado em


ordem.
Campos devem ser separados por brancos.
No permitido campos em branco e sim . .

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Ex.:

04

DATA CLASSE;
INPUT NOME $ SEXO $ IDADE ALTURA PESO;
CARDS;

01

02

03

05

06

07

08

09

10

11

12

13

14

15

16

17

18

19

20

21

22

C
J
A
P

A
O
N
A

R L O S
M
2 0
1 8 0 . 5
7 8 . 5
S E
M
1 8
1 7 5
7 0 . 8
A
F
1 7
1 6 5 . 6
6 2 . 5
U L A
F
2 1
1 6 8
5 5
a.3) INPUT FORMATADO
Especifica a posio e o tamanho do campo.
Formato de Entrada:
W
W.d

Largura do campo numrico


Numrica com decimal

Controle de posio:
Vai para a coluna n.
Move a posio n posies.

@n
+n
01

02

03

04

J
J
A
A

O
O
N
N

S E
S E
L U I S
A
A
P A U L A

Ex.:

05

06

07

08

09

10

11

M
M
F
F

12

13

14

2
1
1
2

0
8
7
1

15

16

17

18

19

1
1
1
1

8
7
6
6

0 .
5
5 .
8

20

5
6

21

22

23

24

7
7
6
5

8 .
0 .
2 .
5

25

5
8
5

INFILE BANCO DADOS;


INPUT NOME $ 9. @11 SEXO $ 1. +1 IDADE 2. +1
ALTURA 5. +1 PESO 4.;

Caractersticas do INPUT FORMATADO:


Variveis e formatos de entrada podem ser agrupados separadamente
com parnteses.

Ex.:

INPUT (JAN FEV MAR ABR MAI) (3. 3. 3. 3. 3.);


ou
INPUT (JAN FEV MAR ABR MAI) (3.);

Variveis numeradas podem ser usadas para abreviar diversas variveis


relacionadas.
Treinamento Sistema SAS

Prof. Luis Felipe Lopes

Ex.:

INPUT (MES1 MES2 MES3 MES4 MES5) (3.);


ou
INPUT (MES1-MES5) (3.);

a.4) MISTURANDO TIPOS DE INPUT


Os trs tipos de INPUT vistos podem ser combinados (LISTADO,
COLUNADO e FORMATADO) em um nico comando INPUT.

Ex.:

DATA CLASSE;
INPUT NOME $ @11 SEXO $ 1. IDADE 13-14
ALTURA 1619 @21 PESO 5.;

a.5) OUTROS CONTROLADORES DE POSIO


/e#
1
2
3
4

Ex.:

01

02

03

04

J
1
J
1
A
1
A
1

O
8
O
7
N
6
N
6

S
0
S
5
A
5
A
8

E
.
E

05

06

5
L

6
P

07

08

09

7
U
7

8
I
0

.
S
.

6
U
5

2
L
5

.
A

10

11

13

14

12

15

5
8
5

DATA CLASSE;
INPUT NOME $ 19 SEXO $ 11 @13 IDADE 2. /
ALTURA 5. PESO 7-10;
ou
DATA CLASSE;
INPUT NOME $ 19 SEXO $ 11 @13 IDADE 2.
#2 ALTURA 1-5. PESO 7-10;

Obs.: 1 - Os campos podem ser lidos em qualquer ordem. A indicao #


sempre preceder o nome da varivel, logo dispensa-se informar
a prxima linha, ou seja, a partir da varivel altura as demais
variveis o SAS entende que pertencem ao segundo carto do
registro.
2 - Quando estivermos nos referindo a uma data devemos aps a
varivel colocar sua formatao (DT_NASC DDMMYY8. ).

Treinamento Sistema SAS

Prof. Luis Felipe Lopes

5.3 Comandos que lem e gravam arquivos SAS

- SET
O comando SET usado para transferir dados de um arquivo SAS
existente para um novo arquivo SAS.
Todas as variveis do arquivo SAS so passadas automaticamente para o
novo arquivo SAS (a no ser que sejam direcionadas de outra maneira com
comandos de programao).
Novas variveis que se queira criar devem ser adicionadas com
comandos de atribuio.

Ex.:

DATA NOVACLAS;
SET CLASSES;
ANO_NASC=91-IDADE;
PROC PRINT DATA=NOVACLAS;

Obs.: No arquivo criado pelo comando SET possui uma varivel nova
ANO_NASC.
Como criamos uma varivel nova ao gerar o arquivo NOVACLAS,
podemos tambm excluir variveis, com o comando DROP associado ao
comando SET;

Ex.:

DATA NOVACLAS;
SET CLASSES;
DROP NOME SEXO;
PROC PRINT DATA=NOVACLAS;

O campo (varivel) NOME atravs dessa varivel referenciada com o


BY que far a juno dos dois arquivos num s. Obviamente que os
dois arquivos devero estar em ordem por NOME.

Ex.:

DATA AMBOS;
SET HOMENS MULHERES;
BY NOME;
PROC PRINT;
TITLE RESULTADO DA CONCATENACAO;

Treinamento Sistema SAS

10

Prof. Luis Felipe Lopes

HOMENS
OBS
1
2
3
4

DEPT
213
917
916
914

NOME
Alvaro
Otto
Ricardo
Vitor

MULHERES
SEXO
m
m
m
m

OBS
1
2
3

DEPT
914
918
917

NOME
Eliane
Lorena
Sonia

SEXO
f
f
f

Resultado da Concatenao (SET)


HOMENS+MULHERES
OBS
1
2
3
4
5
6
7

DEPT
213
914
918
917
916
917
914

NOME
Alvaro
Eliane
Lorena
Otto
Ricardo
Sonia
Vitor

SEXO
m
f
f
m
m
f
m

Outra observao que se faz necessria para usar este comando com
a finalidade de juntar (concatenando) dois ou mais arquivos, que a
estrutura dos arquivos sejam idnticas, ou seja, com mesmas variveis.
Podemos tambm selecionar observaes na criao de um novo
arquivo com o comando IF
- MERGE
O comando MERGE usado para juntar observaes de dois ou mais
arquivos, colocando os mesmos um ao lado do outro.
Algumas consideraes:
- At 50 arquivos pode ser mergeados em um procedimento.
- Os arquivos de entrada devem estar ordenados pela varivel(eis) chaves
se um comando BY utilizado.
-

O arquivo resultante (sada) conter todas as variveis presentes nos


arquivos de entrada a menos que o comando DROP ou qualquer outro
de seleo tenha sido utilizado.

Treinamento Sistema SAS

11

Prof. Luis Felipe Lopes

Ex.:

DATA JUNTA;
MERGE GERAL SALARIO;
PROC PRINT;
TITLE ARQUIVO MERGEADO;

GERAL
OBS
1
2
3
4
5

DEPT
917
918
917
914
916

SALRIO

NOME
Sonia
Alvaro
Otto
Eliane
Lorena

SEXO
f
m
m
f
f

OBS
1
2
3
4
5

NOME
Sonia
Alvaro
Otto
Eliane
Lorena

SAL_LIQ
169.10
223.00
329.05
650.70
380.95

SAL_BRU
279.10
310.05
410.75
715.12
470.30

MERGEADO
OBS
1
2
3
4
5

DEPT
917
918
917
914
916

NOME
Sonia
Alvaro
Otto
Eliane
Lorena

SEXO
f
m
m
f
f

SAL_LIQ
169.10
223.00
329.05
650.70
380.95

SAL_BRU
279.10
310.05
410.75
715.12
470.30

Obs.: O comando BY no foi necessrio ao mergear os arquivos porque


a chave principal NOME nos dois arquivos esto na mesma ordem.
Se no estivessem o comando BY seria necessrio, assim como
teramos que classificar os arquivos atravs do comando SORT.
- OUTPUT
O comando OUTPUT pode ser usado para:
Criar duas ou mais observaes para cada linha de entrada.
Combinar diversas observaes a partir de uma nica observao.
Criar um arquivo SAS sem nenhum dado de entrada.

Treinamento Sistema SAS

12

Prof. Luis Felipe Lopes

Ex.: Criando quatro observaes SAS de cada linha de entrada

DATA RECEITA;
INPUT ANO
TRIM1
TRIM2
TRIMESTRE=1; VENDAS=TRIM1;
TRIMESTRE=2; VENDAS=TRIM2;
TRIMESTRE=3; VENDAS=TRIM3;
TRIMESTRE=4; VENDAS=TRIM4;
CARDS;
1996 1.2 0.9 1.1 1.5
1997 1.7 1.9 2.4 2.5;
PROC PRINT;
TITLE RESULTADO DA EXECUCAO
RUN;

TRIM3
TRIM4;
OUTPUT;
OUTPUT;
OUTPUT;
OUTPUT;

DO ARQUIVO RECEITA;

SADA
ANO
1996
1996
1996
1996
1997
1997
1997
1997

TRIM1
1.2
1.2
1.2
1.2
1.7
1.7
1.7
1.7

TRIM2
0.9
0.9
0.9
0.9
1.9
1.9
1.9
1.9

TRIM3
1.1
1.1
1.1
1.1
2.4
2.4
2.4
2.4

TRIM4
1.5
1.5
1.5
1.5
2.5
2.5
2.5
2.5

TRIMESTRE
1
2
3
4
1
2
3
4

VENDAS
1.2
0.9
1.1
1.5
1.7
1.9
2.4
2.5

5.4 Comandos que atuam sobre valores de dados

- Criando variveis
Quando se cria nova varivel, se est adicionando um novo grupo de
valores de dados ao arquivo.
Por exemplo, supondo que temos um arquivo com as seguintes variveis:
ALUNO NOTA1 NOTA2 NOTA3
se quisermos criar uma nova varivel chamada MEDIA devemos:
MEDIA = (NOTA1 + NOTA2 + NOTA3)/3;
Este comando informa para o SAS:
O sinal = significa atribua ao valor da esquerda o que se refere esquerda.
Para cada observao (linha) do arquivo, some as trs notas (variveis)
e divida por 3;
13
Treinamento Sistema SAS
Prof. Luis Felipe Lopes

De o nome ao resultado obtido de MEDIA (nova varivel).


Obs.: As demais variveis continuam disponveis para posteriores
clculos.
- Funes e expresses
Operaes aritmticas mais conhecidas:
SMBOLO
]]
]
/
+
-

OPERAO
exponenciao
multiplicao
diviso
adio
subtrao

EXEMPLO
Y = X2
A=BxC
A=H/I
R=S+T
X=Z-W

NO SAS
Y = X ** 2
A=B*C
A=H/I
R=S+T
X=Z-W

Outras funes numricas:


FUNO
ABS
SQRT
COS
SIN
ARCOS
LOG
LOG10
SUM
MEAN
VAR
MIN
MAX
STD
ROUD

Ex.:

O que faz
Valor absoluto
Raiz quadrada
Cosseno
Seno
Arcosseno
Logaritmo neperiano (base e)
Logaritmo base 10
Soma
Mdia aritmtica
Varincia
Valor mnimo
Valor mximo
Desvio padro
Valor arredondado

X = 326.25;
Y = ROUND (X); RESULTADO Y = 327
(no est nas normas brasileiras)
Z = MIN (Y);
Z = MIN (of L Y);
W = SQRT (A + B/C);
K = MEAN (IDADE);
K = MEAN (of V1 V7);
SOMA= SUM (of V1 V10);

5.5 Comandos de Informao


Treinamento Sistema SAS

14

Prof. Luis Felipe Lopes

- DROP
O comando DROP exclui a varivel ou variveis indicadas, da anlise em
questo;
O comando DROP vlido no DATA e nas PROCs. No um comando
executvel, fornece a informao ao SAS quando o comando compilado.
O comando DROP poder ser escrito em qualquer posio.
Ex.: DROP IDADE SEXO;
O comando DROP retira a varivel, portanto, todos os valores de
IDADE e SEXO so desconsiderados (coluna).
- TITLE
O comando TITLE define cabealhos a serem impressos no topo das
pginas de sada. At dez ttulos podero ser especificados.
Forma Geral TITLEn t i t u

l o;

n = nmero da linhas do ttulo.


Ex.: TITLE1
Levantamento Scio-econmico;
TITLE2
da;
TITLE3 Populacao Periferica de Santa Maria;
- FOOTNOTE
Define o texto a ser impresso no rodap das pginas de sada. A sintaxe
a mesma do comando TITLE.
Ex.: FOOTNOTE Departamento de Estatstica - UFSM;
- LABEL
O comando LABEL usado para atribuir rtulos (nomes) descritivos de
at 40 caracteres.
Rtulos podem ser atribudos temporariamente para a durao de apenas
um processamento, ou permanente definido no primeiro DATA.

Treinamento Sistema SAS

15

Prof. Luis Felipe Lopes

Ex1.:

DATA CLASSES;
INPUT NOME $ 8. SEXO $ 11 IDADE 13-14
ALT 13-19 PESO 21-25;
CARDS;
Linha de Dados;
PROC MEANS;
VAR ALT PESO;
LABEL ALT=ALTURA EM POLEGADAS
PESO=PESO EM LIBRAS;
TITLE ESTATISTICAS DAS ALTURAS E DOS PESOS;
RUN;

Ex2.:

DATA CLASSES;
INPUT V1 V3;
LABEL V1=NMERO DE ALUNOS
V2=CURSO
V3=SEXO;
CARDS;

- COMMENT
O comando COMMENT serve para documentar. Pode ser usado em
qualquer parte do programa.
Incio (/*)

Fim (*/)

Ex.: DATA EMPREGO;


INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23 VENDA 25-29;
/* CALCULO DO INSS */
INPS = SAL * .12;
IF DEPTO=201 THEN
DO;
DEPTO=VENDA;
COM=VENDA*.10;
/* CALCULO DO SALARIO BRUTO*/
SAL_BRUTO=COM+SAL;
/* CALCULO DO DESCONTO */
DESC=INPS + SEG;
/* CALCULO DO SALARIO LIQUIDO */
SAL_LIQ=SAL_BRUTO - DESC;
END;
CARDS;
Obs.: Este comando tambm poder cancelar uma determinada operao
temporariamente;
Treinamento Sistema SAS

16

Prof. Luis Felipe Lopes

- FORMAT
O comando FORMAT usado para especificar os formatos para valores
dos dados.
Os formatos podem ser definidos apenas para a apurao de uma
procedure PROC.

Ex.: DATA CLASSE;


INPUT NOME $ 8. SEXO 11 IDADE 13-14 ALTURA PESO;
CARDS;
...
...
;
PROC FORMAT;
VALUE SEX 1 = MASCULINO;
2 = FEMININO;
PROC PRINT;
FORMAT SEXO SEX.;
TITLE USANDO O COMANDO FORMAT;
RUN;

5.6 Comandos que controlam o fluxo lgico de programao

- IF (THEN / ELSE)
Algumas vezes necessita-se trabalhar com parte dos dados, no todos.
Por exemplo suponhamos que se queira analisar somente o sexo masculino. O
comando IF pode ser usado para esta seleo.

Ex.: DATA A1;


INPUT NOME $ 1-8 SEXO $ 9 IDADE ALTURA PESO;
IF SEXO=M;
CARDS;
Linha de Dados;

O SAS l cada observao e verifica se o SEXO M (masculino), caso


contrrio nova observao ser lida.
A condio IF poder ser Verdadeira (THEN) ou Falsa (ELSE).
A condio IF tambm pode ser uma simples comparao de uma
varivel ou valor.
Treinamento Sistema SAS

17

Prof. Luis Felipe Lopes

Ex.: IF ALTURA < 172 THEN DELETE;


IF PRETEST < TESTE
ELSE RESULT=NO;

THEN RESULT=SIM;

Principais operadores de comparao:


Smbolo
<

>

Abreviatura
LT
LE
GT
GE
EQ
NE

Comparao
Menor que
Menor que ou igual a
Maior que
Maior que ou igual a
Igual
Diferente

Principais operadores lgicos:


Smbolo
OR
AND
NOT

Comparao
Um ou outro
E, ambos
No, negao

A condio IF pode envolver comparaes de ANDs e de ORs.

Ex.: IF ESTADO=RS AND CIDADE=SANTA_MARIA


THEN REGIAO=SUL;
IF IDADE LT 13 AND ALTURA GT 162 OR PESO LE 50
THEN LIST;
IF RESULT=68 THEN RESP=CERTO;
ELSE RESP=ERRADO;
Usando o comando IF com melhor aproveitamento:
IF CODIGO=1 THEN RESPOSTA=BOM;
ELSE
IF CODIGO=2 THEN RESPOSTA=REGULAR;
ELSE
IF CODIGO=3 THEN RESPOSTA=RUIM;
Uso do comando DO e END associado ao comando IF:
Treinamento Sistema SAS

18

Prof. Luis Felipe Lopes

O comando DO especifica que todos os comandos entre ele e o comando


END devem ser executados;

Ex.:

DATA EMPREGO;
INPUT NOME $ 1-8 DEPTO 10-12 SAL 19-23
VENDA 25-29;
INPS = SAL * .12;
IF DEPTO=201 THEN
DO;
DEPTO=VENDA;
COM=VENDA*.10;
SAL_BRUTO=COM+SAL;
SEG=SAL_BRUTO*.001;
DESC=INPS + SEG;
SAL_LIQ=SAL_BRUTO - DESC;
END;
ELSE DO;
DPTO=ADMIN;
SAL_LIQ=SAL - INPS;
CARDS;
Linha de Dados;

- DELETE
Quando se quer descartar uma observao., por ela conter um valor no
vlido para a anlise que se esta tratando usa-se o comando DELETE;
Quando este comando carregado o SAS para de trabalhar na
observao corrente, no adicionando ao arquivo SAS que esta sendo criado, e
comea imediatamente na observao seguinte.
O comando DELETE normalmente aparece com parte de um comando IF.
Ex.: IF SEXO=F THEN DELETE;
IF

SEXO=F THEN IDADE LE 14 THEN DELETE;

O comando DELETE retira toda a observao do arquivo, logo


aconselha-se coloc-lo dentro de uma rotina DATA SET;
Ex.: DATA A1; SET A;

Treinamento Sistema SAS

19

Prof. Luis Felipe Lopes

6 PRINCIPAIS PROCEDURES - PROCs

6.1 PROC SORT

Funo: Quando se precisa ordenar os dados.


A ordem das observaes no importa muito para o processamento
estatstico, por exemplo para calcular a mdia da ALTURA dos alunos por SEXO,
a ordem como esto as observaes no importa. Porm necessita-se LISTAR as
observaes por SEXO, ou mesmo para juntar dois arquivos por MERGE ou por
SET, as observaes tero que estar ordenadas (SORT). Por exemplo se
quisermos combinar as informaes do estudo de ALTURA e PESO deste ano
com as dos anos anteriores ambos os arquivos devero ser ordenados.
A ordenao a arrumao das observaes de um arquivo em ordem
determinada pelos valores de uma ou mais variveis indicados no
comando BY (POR).
Para ordenar-se um arquivo usa-se a procedure PROC SORT seguida
do comando BY que indicar a varivel pela qual o arquivo ser
ordenado.

Ex.:

PROC SORT DATA=TESTE;


BY NOME;

Suponha que temos um arquivo chamado PESQUISA e que queremos


orden-lo por ESTADO, depois por CIDADE dentro de cada estado e finalmente
por NOME de cada cidade.

Ex.:

PROC SORT; BY PESQUISA;


BY ESTADO CIDADE NOME;

Obs.: A ordenao vista at aqui foi feita em cima do prprio arquivo


(PESQUISA). Se no desejar que isso acontea use o comando
OUT.

Ex.:

PROC SORT; BY PESQUISA;


OUT = NOVO;
BY ESTADO CIDADE NOME;

Treinamento Sistema SAS

20

Prof. Luis Felipe Lopes

Os registros aps a ordenao estaro gravados no arquivo chamado


NOVO e no arquivo PESQUISA continuam desordenados.
Obs.: Existem outros tipos de rotinas de programao usando o PROC
SORT, onde poderemos incluir outras PROCs dentro dela.

Ex.:

PROC SORT; BY SEXO;


PROC FREQ;
TABLES V1 V2 V3 /LIST;
PROC UNIVARIATE;
VAR V1 V2 V3;
PROC COR;
VAR V1;
WITH V2 V3;

6.2 PROC PRINT

Este procedure serve para imprimir (listar) seus dados no relatrio.


Ex.: Listar ALTURA e PESO dos homens separado das mulheres
INPUT SEXO $ ALTURA PESO;
CARDS;
Linha de Dados;
PROC PRINT; BY SEXO;

Obs.: 1 - Observar que ao usar o comando PROC PRINT, sem especificar


o DATA, a impresso ser do ltimo DATA referenciado.
2 - O PROC PRINT imprime todos os dados, se for seguido do
comando VAR imprimir somente as variveis selecionadas no
comando VAR.
Ex.:

PROC PRINT DATA=TESTE;


VAR NOME IDADE ALTURA;

3 O comando PROC PRINT poder listar em funo de um valor


de uma determinada varivel
Ex.:

PROC PRINT DATA=TESTE;


VAR NOME IDADE ALTURA;
WHERE SEXO=M;

Treinamento Sistema SAS

21

Prof. Luis Felipe Lopes

6.3 PROC FORMAT

O procedimento FORMAT usado para criar formatos definidos pelos


usurios.
Comando usado no PROC FORMAT VALUE
VALUE NOME VALOR = DESCRIO;
O NOME obedece as mesmas regras usadas para variveis (8
caracteres), pois no deixa de ser uma nova varivel selecionada.
A DESCRIO ter tamanho mximo de 40 caracteres e dever ser
includa entre aspas ( ).

Ex.: PROC FORMAT;


VALUE FAIXAS

VALUE $SEX

Obs.:

LOW-12 = CRIANCA
13-19
= JOVEM
20-HIGH = ADULTO;
F = FEMININO
M = MASCULINO;

LOW = Lowest (do menor valor)


HIGH = Highest (ao maior valor)

Ex.: DATA A1;


INPUT NOME $ SEXO $ IDADE ALTURA PESO;
CARDS;
Lista de Dados;
...
...
PROC FORMAT;
VALUE FAIXAS
LOW-12 = CRIANCA
13-19
= JOVEM
20-HIGH = ADULTO;
VALUE $SEX
F = FEMININO
M = MASCULINO;
PROC PRINT;
FORMAT IDADE FAIXAS. SEXO $SEX.;
RUN;

Treinamento Sistema SAS

22

Prof. Luis Felipe Lopes

6.4 PROC FREQ

O procedimento FREQ ser til para variveis discretas e qualitativas.


Para as variveis contnuas aconselha-se usar o PROC UNIVARIATE ou PROC
MEANS, pois este tipo de varivel possui muitos valores diferentes.
Outro benefcio que a tabela de freqncia ou tabulao cruzada oferece
poder sumarizar variveis caracteres, porque somente variveis numricas
podem ser sumarizadas por estatsticas como mdia e desvio padro.
- Tabelas de Freqncia Simples
Este tipo de tabela poder ajudar a sumarizao dos dados. Mostrar as
distribuio dos valores das variveis, podendo-se verificar quantas observaes
tem determinado valor. Por exemplo se queira saber quantos alunos tem idade 19
anos e assim por diante.
Para obter as Tabelas de Freqncias Simples das variveis que
interessam usa-se o comando TABLES com a relao das mesmas.

Ex.: PROC

FREQ;
TABLES IDADE PESO ALTURA;

ou
PROC FREQ;
TABLES

IDADE PESO ALTURA /LIST;

Podemos utilizar o comando FORMAT:

Ex.: PROC

FREQ;
TABLES
FORMAT
TABLES
FORMAT

IDADE /LIST;
IDADE FAIXAS.;
SEXO /LIST;
SEXO SEXOV.;

Com o uso do comando FORMAT na tabela de freqncia para as


variveis IDADE e SEXO teremos no relatrio a DESCRIO para cada valor.
- Tabelas de Freqncia Cruzada
A tabela de freqncia cruzada mostra a unio da distribuio de valores
de duas ou mais variveis. Por exemplo, queremos saber quantas mulheres com
19 anos temos no arquivo estudado.

Treinamento Sistema SAS

23

Prof. Luis Felipe Lopes

Para obter-mos a resposta devemos cruzar as duas variveis: IDADE e


SEXO.

Ex.: PROC
ou
PROC

FREQ;
TABLES

FREQ;
TABLES
FORMAT

IDADE*SEXO /LIST;
IDADE*SEXO /LIST;
IDADE FAIXAS. SEXO

SEXOV.;

Aconselha-se usar o comando /LIST para facilitar a visualizao da tabela


cruzada. Este comando tambm ser aconselhado quando quisermos cruzar mais
de duas variveis.

Ex.: PROC

FREQ;
TABLES SEXO*IDADE*PESO /LIST;

Ex.:
DATA A1;
INPUT NOME $ SEXO $ IDADE ALTURA PESO;
CARDS;
Lista de Dados;
...
PROC FREQ;
TABLES SEXO*(IDADE--PESO) /LIST /*(I at P)*/
TABLES SEXO*(IDADE PESO) /LIST /* (I e P)*/
RUN;

6.5 PROC MEANS

Suponhamos que no arquivo que se est estudando possua valores para


a varivel PESO. Pode-se obter um quadro completo desses pesos pela simples
listagem dos mesmos (PROC FREQ). Mas isso significa que teramos que olhar e
analisar todos os valores.
O PROC MEANS sumariza todos os valores para computar a mdia.
Ento teremos como resultado um nico valor representativo para todo o grupo.
O PROC MEANS fornece outras estatsticas como:
- Nmero de Observaes
- Mdia
- Desvio Padro
- Valor Mnimo e Mximo

Treinamento Sistema SAS

- Erro padro
- Varincia
- Coeficiente de variao

24

Prof. Luis Felipe Lopes

Ex.: DATA A1;


INPUT NOME $ SEXO $ IDADE ALTURA PESO;
CARDS;
Lista de Dados;
PROC MEANS;
VAR IDADE
ALTURA
PESO;
RUN;

Usando o comando BY
Podemos obter estatsticas sumarizadas por grupos de dados associados
ao comando BY. Por exemplo queremos calcular as estatsticas para as mesmas
variveis do exemplo acima s que por SEXO.
Obs.: Antes de usar o comando BY para qualquer procedure SAS, o arquivo
dever ser ordenado pelas variveis a serem usadas pelo comando BY.

Ex.: DATA A1;


INPUT NOME $ SEXO $ IDADE ALTURA PESO;
CARDS;
Lista de Dados;
PROC SORT; BY SEXO;
PROC MEANS; BY SEXO;
VAR IDADE ALTURA PESO;
RUN;

Obs.: Valores no informados (representados por um ponto . ) no sero


includos no clculo da PROC MEANS.

Treinamento Sistema SAS

25

Prof. Luis Felipe Lopes

SAS/STAT
Pr requisito:

Ter conhecimento de Estatstica Bsica.


Ter conhecimento do SAS/BASIC;

Objetivo:
Este curso tem por objetivo expor alguns conceitos estatsticos e
interpret-los atravs da utilizao de procedimentos do Sistema SAS. Os
exemplos apresentados ilustram caractersticas da release 6.08 do SAS/STAT e
orientam o usurio na sua programao quando seu interesse for:
Obter estatsticas descritivas elementares;
9 Desempenhar testes estatsticos de significncia para verificar a
normalidade da distribuio de seus dados;
9 Testar a igualdade de mdias entre grupos de observaes;
9 Encontrar um modelo que explique o comportamento de seus dados e,
atravs deste modelo, fazer previses e calcular intervalos de
confiana para parmetros da populao em estudo.
9 Analisar a variabilidade de uma srie de dados atravs do Mtodo de
Anlise de Varincia (ANOVA), critrio de tomada de decises
estatisticamente formulado para detectar qualquer diferena no
desempenho mdio de um ensaio experimental.
Os conceitos bsicos sero abordados a medida que os procedimentos
forem sendo utilizados, assim como a interpretao das principais sadas.

Treinamento Sistema SAS

26

Prof. Luis Felipe Lopes

7 ESTATSTICA DESCRITIVA E TESTE DE NORMALIDADE


7.1 Introduo
Depois que o usurio cria seu arquivo de dados ele pode desejar
sumarizar estes dados atravs de medidas que descrevam seu comportamento.
Estas medidas incluem parmetros de posio como mdias, modas, medianas,
quartis e percentis, parmetros de disperso, como varincias, desvios padres,
amplitude (range), e parmetros que auxiliam na descrio da forma dos dados,
como assimetria e curtose (ver anexo 2).
Nos problemas que envolvem a Estatstica Indutiva, os conjuntos de
dados analisados so representados por amostras retiradas das populaes de
interesse. Sendo as amostras aleatrias, todos os seus elementos fornecero
valores aleatrios da varivel em anlise. Para caracterizar a distribuio dos
diversos valores assumidos por uma varivel aleatria, o conceito de distribuio
de probabilidades deve ser utilizado e estendido s populaes, ou seja, cada
valor da amostra deve ser considerado como valor de uma varivel aleatria cuja
distribuio de probabilidade a mesma da populao no instante da retirada
desse elemento da amostra. Os valores calculados em funo dos elementos da
amostra, denominam-se estatsticas. Se estas estatsticas forem utilizadas para
inferir informaes a respeito de uma populao, elas so consideradas como
variveis aleatrias, e tero, portanto uma distribuio de probabilidades, com
uma mdia, uma varincia, etc. Muitos mtodos da anlise estatstica assumem
que os dados da amostra provm de uma populao com distribuio normal. A
distribuio normal tem uma definio matemtica precisa, com as seguintes
caractersticas:
- ser completamente definida por sua mdia e seu desvio padro.
- ser uma distribuio simtrica, ou seja, sua mdia coincide com sua moda, que
por sua vez coincide com sua mediana.
- ser uma distribuio regular. Do seu ponto central mais alto at suas
extremidades no existe padres irregulares.
- ter curtose=0 (a curtose descreve o grau de achatamento de uma distribuio).
7.2 Teste de normalidade
Nos testes de normalidade estabelecida a idia de que uma amostra
provm de uma distribuio normal. Atravs da amostra uma estatstica
calculada e testada para checar essa idia. Uma comparao feita entre a
forma da distribuio da amostra, com a forma de uma distribuio normal. Se
no for encontrada nenhuma evidncia para rejeitar a hiptese de normalidade,
prossegue-se as anlises baseando-se na suposio de que os dados da amostra
so normalmente distribudos (anlise paramtrica). Quando os dados no so
gerados por uma distribuio normal, a anlise deve ser baseada em mtodos
Treinamento Sistema SAS

27

Prof. Luis Felipe Lopes

no paramtricos. A distribuio normal simtrica, com os valores distribudos


em forma de sino.
Ao desempenhar um teste de hiptese tem-se sempre uma hiptese
nula que descreve uma idia sobre a populao, e uma hiptese alternativa, que
descreve uma idia alternativa sobre a populao.
Nos testes para a normalidade, a hiptese nula que os dados da
amostra so gerados por uma distribuio normal. A hiptese alternativa que
eles so gerados por uma distribuio no normal. O mtodo utilizado para testar
hipteses consiste num contedo de deciso onde a probabilidade de rejeitar a
hiptese nula, sendo ela verdadeira (erro do tipo I), no excede um valor prfixado chamado de nvel de significncia do teste. Ao menor nvel de
significncia para o qual a hiptese nula rejeitada denominamos probabilidade
de significncia (p-valor). Se p-valor > h evidncias de que a hiptese nula
verdadeira.
A PROC UNIVARIATE utilizada para a obteno de estatsticas
descritivas. Ela difere de outros procedimentos SAS por fornecer maiores
detalhes das variveis, tais como plots das distribuies, tabelas de freqncia e
testes estatsticos para a normalidade.
FORMA GERAL:
PROC UNIVARIATE DATA = arquivo de dados opes;
VAR variveis;
BY variveis;
FREQ varivel;
ID variveis;
OUTPUT OUT = arquivo de dados palavra-chave = nomes;
OPES DISPONVEIS:
FREQ

gera uma tabela de freqncia com valores de freqncia,


percentagens e percentagens acumuladas.

NOPRINT

suprime toda a informao do OUTPUT. Esta opo utilizada


geralmente na criao de um arquivo de dados de sada.

NORMAL

desempenha um teste para a hiptese nula de que os dados provm


de uma distribuio normal. Dependendo do tamanho da amostra, o
teste utilizado ser baseado na estatstica de Shapiro-Wilk (N<2000)
ou na estatstica de Kolmogorovs D. (N>2000).

Treinamento Sistema SAS

28

Prof. Luis Felipe Lopes

PLOT

produz plotes de probabilidade da distribuio normal e plotes em


box que auxiliam na determinao da forma da distribuio dos
dados investigados.

COMANDOS SELECIONADOS:
VAR

lista as variveis a serem sumarizadas no arquivo de dados.

BY

especifica subgrupos onde as estatsticas devem ser obtidas. Para


usar este comando o arquivo j dever estar ordenado pela varivel
de subgrupo .

FREQ

especifica variveis de freqncia.

ID

especifica as variveis que iro identificar os valores extremos.

OUTPUT OUT

cria arquivo de sada que ir gravar as estatsticas geradas.

Estatsticas reservadas utilizadas na criao de um arquivo de sada:


N
MEAN
STDMEAN
SUM
STD

NMISS
VAR
CV
RANGE
SKEWNESS

Prob T
KURTOSIS
MEDIAN

Ex1.: Resultados obtidos de uma distribuio aproximadamente Normal.


Para ilustrar, suponha que estejamos analisando uma amostra. No
programa SAS abaixo, a idade de cada pessoa est sendo representada pela
varivel IDADE, e sua identificao pela varivel IDENT.
OPTIONS FORMDLIM='*' LS=80;
DATA NORM A;
/* EXEMPL01 SAS */
INPUT IDENT IDADE @@;
CARDS;
1
72
2
69
3
75
4
71
5
71
6
73
7
70
8
67
9
71
10
72
11
73
12
68
13
69
14
70
15
70
16
71
17
74
18
72
;
PROC UNIVARIATE NORMAL PLOT FREQ;
VAR IDADE;
ID IDENT;
RUN;

Treinamento Sistema SAS

29

Prof. Luis Felipe Lopes

ANLISE DOS RESULTADOS:


Univariate Procedure
Variable=IDADE
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal

18
71
2.057983
0
90810
2.898568
146.3702
18
9
85.5
0.98356

Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W

18
1278
4.235294
-0.13576
72
0.485071
0.0001
18
0.0001
0.0001
0.9666

A tabela acima fornece estatsticas descritivas da varivel IDADE, alm do teste


para normalidade. O valor zero de assimetria traduz a forma simtrica da
distribuio. A estatstica de curtose de -0.13576 significa que a distribuio de
valores relativamente achatada. O alto p-valor associado ao teste de
normalidade, dado por Pr < W, mostra que existe 9666 chances em 10000 que se
obtenha este mesmo resultado se os dados fossem oriundos de uma populao
Normal. Por esta razo so poucas as chances de rejeitar a hiptese nula. Em
geral, rejeita-se a hiptese nula de normalidade dos dados somente quando o pvalor for menor que 0.05 .
Os quartis, percentis, a moda da distribuio, e os valores extremos esto
relacionados a seguir:
Quantiles(Def=5)
100%
75%
50%
25%
0%

Max
Q3
Med
Q1
Min

75
72
71
70
67

Range
Q3-Q1
Mode

99%
95%
90%
10%
5%
1%

75
75
74
68
67
67

8
2
71
Extremes

Lowest
67(
68(
69(
69(
70(

ID
8)
12)
13)
2)
15)

Highest
72(
73(
73(
74(
75(

ID
18)
6)
11)
17)
3)

O plote stem leaf (tronco e folhas) mostra a distribuio dos valores observados.
Entre estes plotes e o boxplot, h uma coluna que fornece a freqncia de
observaes em cada barra. O box plote indica o 25o e 75o percentil. A linha
Treinamento Sistema SAS

30

Prof. Luis Felipe Lopes

central indica a mediana (50o percentil). O sinal de (+) indica a mdia da


distribuio, que est coincidindo com a mediana.
Stem
75
74
73
72
71
70
69
68
67

Leaf
0
0
00
000
0000
000
00
0
0
----+----+----+----+

#
1
1
2
3
4
3
2
1
1

Boxplot
|
|
|
+-----+
*--+--*
+-----+
|
|
|

O plote a seguir mostra tantos sinais positivos quanto asteriscos. Os sinais de (+)
formam uma linha reta. Os (*) representam os valores amostrais. Se a amostra
gerada por uma distribuio normal, os asteriscos devem formar uma linha reta e
cobrir a maioria dos sinais positivos. A distribuio amostral aproxima-se da
normalidade.
Univariate Procedure
Variable=IDADE
Normal Probability Plot
75.5+
* +++++
|
* +++++
|
* +*+++
|
**+*++
71.5+
**+**++
|
* **+++
|
* +*+++
|
+*+++
67.5+
+*+++
+----+----+----+----+----+----+----+----+----+----+
-2
-1
0
+1
+2

f(+) = 71 + 2.05 IDADE


A opo FREQ da PROC UNIVARIATE permite a obteno de uma tabela de
distribuio de freqncia onde o nmero de ocorrncias de cada valor da varivel
IDADE contabilizado juntamente com os percentuais e percentuais acumulados
de ocorrncia em cada categoria.
Frequency Table
Value Count
67
1
68
1
69
2
70
3
71
4

Treinamento Sistema SAS

Percents
Cell
Cum
5.6
5.6
5.6 11.1
11.1 22.2
16.7 38.9
22.2 61.1

31

Value Count
72
3
73
2
74
1
75
1

Percents
Cell
Cum
16.7 77.8
11.1 88.9
5.6 94.4
5.6 100.0

Prof. Luis Felipe Lopes

8 - ANLISE DE CORRELAO E REGRESSO

8.1 Introduo

Existem numerosos procedimentos estatsticos para investigar


relacionamentos bivariados (entre somente duas variveis). Estes procedimentos
podem fornecer um teste estatstico de significncia, uma medida de associao,
ou ambos. O teste estatstico objetiva testar hipteses sobre o grau de
relacionamento entre variveis na populao. Por exemplo, o coeficiente de
correlao de Pearson. Num estudo para se testar a hiptese nula de que a
correlao entre duas variveis zero na populao, uma amostra de 200
observaes determinou um coeficiente de correlao entre duas variveis de
0.35. Com base nesta amostra, o resultado do teste forneceu uma probabilidade
de significncia de 0.001. Este p-valor sugere que existe menos que uma chance
em 1000 de se obter um valor igual ou superior 0.35, para correlao amostral,
se a hiptese nula fosse verdadeira. Rejeita-se portanto a hiptese nula,
concluindo-se que a correlao significativamente diferente de zero na
populao.
A escolha apropriada da estatstica a ser usada no estudo do
relacionamento entre duas varivel ir depender da natureza delas. Ateno
particular deve ser dada aos nveis de medidas usados para avaliar as duas
variveis. Uma breve discusso este respeito feita a seguir.
Uma varivel medida numa escala nominal representa classes que
indicam o grupo ao qual pertence uma determinada observao. Por exemplo,
SEXO uma varivel que est numa escala nominal. Uma observao pode ser
classificada como sendo da classe "masculino" ou da classe "feminino".
Uma varivel medida numa escala ordinal representa valores num rank
ordenado, ou seja, possui hierarquia. Por exemplo, se cada aluno de uma turma
fosse avaliado a respeito de sua habilidade verbal. O melhor aluno foi avaliado
com o valor 1, o segundo melhor com o valor 2, e assim por diante. Este rank de
valores so ditos ordinais. Escalas ordinais de valores porm possuem uma
limitao: iguais diferenas na escala de valores no tem necessariamente o
mesmo significado quantitativo. Isto quer dizer que a diferena de habilidade
verbal entre um aluno com grau 1 e um aluno com grau 2 no necessariamente
a mesma diferena existente entre as habilidades de um aluno com grau 2 e um
com grau 3.
Uma varivel medida numa escala de intervalo significa que iguais
diferenas entre valores da escala tem igual significado quantitativo. Um exemplo
a escala Fahrenheit de medio de temperatura. A diferena entre 70 e 75
graus igual a diferena entre 75 e 80 graus. As unidades de medidas so iguais
atravs de todo o range da escala. A limitao existente nesta escala que no
existe um ponto zero real, ou seja, o zero da distribuio de temperaturas no
indica que no haja nenhum calor presente no ambiente.
Treinamento Sistema SAS

32

Prof. Luis Felipe Lopes

Uma varivel medida numa escala de razo aquela que iguais


diferenas entre valores da escala tem igual significado quantitativo. Neste caso,
alm deste fato, possvel interpretar a razo entre os valores da escala. Um
valor para peso igual zero indica nenhum peso corporal. Com isto, possvel
estabelecer que o peso de uma criana com 20 Kg o dobro de peso de uma
criana com 10 kg .
A tabela a seguir identifica as estatsticas apropriadas para avaliar o
relacionamento de pares de variveis nos seus respectivos nveis de medida.
TABELA COM ESTATSTICAS APROPRIADAS

R
E
S
P
O
S
T
A

Razo
Intervalo
Ordinal
Nominal

PREDITORA (INDEPENDENTE) Xi
Nominal
Ordinal
Intervalo
ANOVA
Spearman Pearson ou
Spearman
ANOVA
Spearman Pearson ou
Spearman
Kruskal
Spearman
--------Wallis
Chi-quadrado
-----------------

Razo
Pearson ou
Spearman
----------------------

8.2 Correlao de Pearson (PROC CORR)


O estudo de medidas de associao reflete o grau da intensidade da
relao entre variveis. Se X e Y representam duas variveis, ambas acessadas
na escala de intervalo ou de razo, o diagrama de disperso ir mostrar a
localizao dos pontos (x , y) em um sistema de coordenadas retangulares. Se os
pontos desse diagrama se distriburem nas proximidades de uma reta, como nas
figuras (A) e (B) a seguir, a correlao denominada linear. Se todos os pontos
se distriburem prximos de alguma curva, a correlao denominada no linear,
como pode ser visto na figura (C). Quando os pontos no apresentam nenhuma
forma definida, figura (D), diz-se que as variveis x e y so no correlacionadas.
Quando o coeficiente de Pearson utilizado para medir o grau de relacionamento
entre duas variveis com relacionamento no linear, ele normalmente subestima o
verdadeiro valor. Por esta razo sempre prudente avaliar primeiro o diagrama
de disperso para as variveis, usando para isso a PROC PLOT, que tem a
seguinte forma geral:
PROC PLOT DATA= ARQSAS;
PLOT Y*X;
RUN;

Treinamento Sistema SAS

33

Prof. Luis Felipe Lopes

Para o tratamento quantitativo do problema da disperso dos dados


amostrais necessrio estabelecer medidas de correlao. O coeficiente de
correlao de Pearson, simbolizado por r, ser utilizado para medir o
relacionamento entre duas variveis que estejam na escala de intervalo ou de
razo. Outra considerao a ser feita ao usar esta medida de associao, que
ambas as amostras tenham sido retiradas de uma populao Normal. Caso
contrrio, uma medida de associao no paramtrica dever ser usada, tal como
o coeficiente de correlao de Spearman.
O range de r varia de -1 a 1. Se r for um valor prximo de 1 significa
que as duas variveis so correlacionadas positivamente, se for prximo de -1,
significa que as variveis so correlacionadas negativamente. Valores de r
prximos de zero correspondem a uma disperso de pontos que no mostra nem
uma tendncia crescente, nem decrescente, indicando uma baixa correlao
entre as variveis.
PROC CORR
A procedure CORR utilizada para gerar coeficientes de correlao.
Quando utilizada sozinha, ela obtm coeficientes de Pearson para todas as
variveis numricas do arquivo, alm de estatsticas bsicas como mdias e
desvios padres da distribuio de dados.

Treinamento Sistema SAS

34

Prof. Luis Felipe Lopes

Outros coeficientes de correlaco podem ser obtidos como opo da


PROC CORR. So eles: Kendall, Hoeffding e Spearman, que so medidas no
paramtricas de associao .
FORMA GERAL:
PROC CORR opes;
VAR variveis;
WITH variveis;
FREQ variveis;
BY variveis;
RUN;
OPES DISPONVEIS:
DATA= arquivo.sas

arquivo com os dados a serem analisados.

OUTP= arquivo.sas

arquivo de sada - Pearson

OUTS= arquivo.sas

arquivo de sada - Sperman

OUTK= arquivo.sas

arquivo de sada - Kendall

OUTH = arquivo.sas

arquivo de sada - Hoeffding

NOSIMPLE

suprime a impresso das estatsticas descritivas


bsicas.

COMANDOS DISPONVEIS:
VAR variveis

especifica as variveis a serem correlacionadas

WITH variveis

especifica as variveis que devem aparecer na lateral


da matriz de correlao.

FREQ varivel

especifica variveis de freqncia

BY variveis

especifica subgrupos onde a correlao deve ser


obtida. Para usar o comando BY, o arquivo j deve
estar ordenado pela varivel de subgrupo.

Ex2.: O tempo necessrio para um trem parar depois que percebe um perigo
composto de tempo de reao e tempo de freagem. A varivel DIST
representa a distncia de parada de um trem que est a uma velocidade
VELOC no instante que o perigo avistado. Analise o diagrama de
disperso e determine o coeficiente de correlao entre as duas variveis.

Treinamento Sistema SAS

35

Prof. Luis Felipe Lopes

OPTIONS FORMDLIM='*' LS=80;


DATA PERIGO A; /* EXEMPL02 SAS */
INPUT VELOC DIST @@;
CARDS;
20
54
30
90
40
138
50
206
60
292
70
396
;
PROC PLOT;
PLOT DIST*VELOC;
PROC CORR;
VAR VELOC DIST;
TITLE 'CORRELAAO ENTRE VELOCIDADE E DISTANCIA DE PARADA';
RUN;

ANLISE DOS RESULTADOS:


Plot of DIST*VELOC.

Legend: A = 1 obs, B = 2 obs, etc.

DIST |
|
400 +
A
|
|
|
A
|
|
200 +
A
|
|
A
|
A
| A
|
0 +
--+-------------+-------------+-------------+-------------+-------20
30
40
50
60
70
VELOC

O diagrama de disperso ostra claramente uma tendncia crescente da


distribuio dos dados, ou seja, aumentando-se a velocidade do trem, aumentase a distncia de parada.
CORRELACAO ENTRE VELOCIDADE E DISTANCIA DE PARADA
Correlation Analysis
2 'VAR' Variables:

VELOC

DIST

Simple Statistics
Variable

Mean

Std Dev

Sum

Minimum

Maximum

VELOC
6
45.00000
18.70829 270.00000
20.00000
70.00000
DIST
6 196.00000 129.67652
1176
54.00000 396.00000
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 6
VELOC

Treinamento Sistema SAS

36

DIST

Prof. Luis Felipe Lopes

VELOC

1.00000
0.0

0.98268
0.0004

DIST

0.98268
0.0004

1.00000
0.0

O valor de 0.98268 mede o coeficiente de correlao entre as variveis VELOC e


DIST. Um p-valor de 0.0004 indica uma forte evidncia que a correlao no
nula. O p-valor a probabilidade de significncia para se testar a hiptese de que
a verdadeira correlao da populao em questo zero.
Ex3.: Determinar o coeficiente de correlao entre as alturas e os pesos de 300
homens nos EUA, constantes da seguinte tabela de freqncias:
Altura (metros)
P
E
S
O
(kg)

45 a 54.5
55 a 64.5
65 a 74.5
75 a 84.5
85 a 94.5
95 a 104.5
105 a 114.5

1.5 a 1.58
2
7
5
2
0
0
0

1.6 a 1.68
1
8
15
12
7
2
0

1.7 a 1.78
0
4
22
63
28
10
1

1.8 a 1.88
0
2
7
19
32
20
4

1.9 a 1.98
0
0
1
5
12
7
2

OPTIONS FORMDLIM='*' LS=80;


DATA
AGRUPA A;
/* EXEMPL03 SAS */
DO MEDPES = 49.75 T0 109.75 BY 10;
DO MEDALT = 1.54 TO 1.94
BY 0.10;
INPUT N_OBS @@;
OUTPUT;
END;
END;
CARDS;
2
1
0
0
0
7
8
4
2
0
5
15
22
7
1
2
12
63
19
5
0
7
28
32
12
0
2
10
20
7
0
0
1
4
2;
;
PROC PRINT;
PROC CORR;
VAR MEDPES MEDALT;
FREQ N_OBS;
TITLE 'CORRELACAO PARA DADOS AGRUPADOS';
RUN;

Treinamento Sistema SAS

37

Prof. Luis Felipe Lopes

ANLISE DOS RESULTADOS:


OBS

MEDPES

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35

MEDALT

49.75
49.75
49.75
49.75
49.75
59.75
59.75
59.75
59.75
59.75
69.75
69.75
69.75
69.75
69.75
79.75
79.75
79.75
79.75
79.75
89.75
89.75
89.75
89.75
89.75
99.75
99.75
99.75
99.75
99.75
109.75
109.75
109.75
109.75
109.75

N_OBS

1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94
1.54
1.64
1.74
1.84
1.94

2
1
0
0
0
7
8
4
2
0
5
15
22
7
1
2
12
63
19
5
0
7
28
32
12
0
2
10
20
7
0
0
1
4
2

CORRELACAO PARA DADOS AGRUPADOS


Correlation Analysis
2 'VAR' Variables:

MEDPES

MEDALT

Simple Statistics
Variable
MEDPES
MEDALT

Mean

Std Dev

Sum

Minimum

Maximum

300
300

82.31667
1.76033

12.12031
0.09824

24695
528.10000

49.75000
1.54000

109.75000
1.94000

Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 300
/ FREQ Var = N_OBS
MEDPES

MEDALT

MEDPES

1.00000
0.0

0.54023
0.0001

MEDALT

0.54023
0.0001

1.00000
0.0

Treinamento Sistema SAS

38

Prof. Luis Felipe Lopes

O coeficiente de correlao de 0.54023. Um p-valor de 0.0001 reflete uma forte


evidncia de que a correlao entre altura e o peso difere de zero.

8.3 Regresso (PROC REG)

Os coeficientes de correlao indicam somente a existncia ou no de


algum tipo de relacionamento entre variveis. Para investigar a forma desse
relacionamento, o mtodo mais apropriado a anlise de regresso, onde a
relao pode ser expressa sob forma matemtica, por meio de uma equao que
interligue as variveis.
Atravs do diagrama de disperso possvel visualizar uma curva que se
aproxime dos dados. Essa curva denominada curva de ajustamento.
Para fins de referncia, a seguir encontram-se relacionados vrios tipos
comuns de curvas de ajustamento e suas equaes. As variveis independentes
esto representadas pela letra X e as variveis dependentes pela letra Y. As
demais letras representam constantes.
Funo Linear

Y = a0 + a1 X

Funo Quadrtica

Y = a0 + a1 X + a2 X2

Funo Cbica

Y = a0 +a1 x + a2 x2 + a3 x3

Funo Exponencial

Y = a bx
log y = Ioga + (log b) x = a0 +a1 x

Para evitar o critrio individual na construo de funes que se adaptem


ao conjunto de dados, necessrio instituir uma definio da "melhor funo de
ajustamento". Uma medida da qualidade do ajustamento aos dados apresentados
(aderncia) proporcionada a partir da distncia dos pontos observados at a
equao de regresso. De todas as equaes que podem ser traadas atravs do
grupo de pontos no diagrama de disperso, a funo que melhor se ajusta
aquela com a menor soma dos quadrados das distncias (Mtodo dos Mnimos
Quadrados).
Estas distncias so designadas como desvios, erros ou resduos, e
podem ser positivas, negativas ou nulas, como apresentado na figura a seguir:

Treinamento Sistema SAS

39

Prof. Luis Felipe Lopes

O modelo linear:
Yj = 0 + 1 Xj + j
Suas suposies:
- Xj so fixos;
- 0 e 1 so parmetros fixos desconhecidos;
- j ~ N id (0 , 2) .
Considere a regresso como um particionamento da Soma Total dos
Quadrados:

( Yj Y )

$ Y
= Y
j

) + ( Y Y$ )
2

SST = SSM + SSE


onde:
SST - a soma total dos quadrados.
SSM - a soma dos quadrados devido ao modelo (soma dos quadrados devido
regresso ).
SSE - a soma dos quadrados devido ao erro , ou resduo.
Num modelo de regresso preciso:
Estimar:
- 2, ou seja, o erro mdio quadrtico;
- 0 e 1.

Treinamento Sistema SAS

40

Prof. Luis Felipe Lopes

Testaras Hipteses :
H0: 1 = 0
0 = 0
Obter valores preditos e limites de predio.
Estimar a mdia da varivel resposta Y, dado um valor fixo X,
determinando tanto as estimativas por ponto como por intervalo.

8.4 Inferncia na regresso

Estatsticas usadas na Anlise de Regresso:


- valor estimado de 2 =MSE, Mdia quadrtica para o erro
= SSE/ df(erro)
= Soma dos Quadrados devido ao erro / df(erro)
- estimativas de mnimos quadrados de 0 e 1, que minimize SSE.
min

(Y j Y )

- teste de 0 = 0 e 1 = 0 com a estatstica t de Student ou teste de 0 no modelo /


1 = 0 com a estatstica F.
8.5 Resduos

Os resduos representam o comportamento de Y (varivel resposta), do


qual as variveis independentes no fazem a estimativa. Se for suposto que o
modelo correto, que no se tenha omitido nenhuma varivel independente, e
tambm que os resduos so normais e independentemente distribudos, com
mdia zero e varincia constante, pode-se provar hipteses, assinalar limites de
confiana, predizer valores da varivel dependente a partir das variveis
independentes e computar probabilidades de significncia .
Um plote dos resduos sobres as variveis independentes ou sobre os
valores preditos pode ser gerado para avaliar a qualidade do ajuste. Se o modelo
necessitar de algum outro termo, o plote dos resduos sugere que tipo de termo
pode ser adicionado ao modelo. Alguns modelos so mostrados a seguir:

Treinamento Sistema SAS

41

Prof. Luis Felipe Lopes

PROC REG
A procedure REG o procedimento SAS mais comum para anlise da
regresso. um procedimento interativo, ou seja, o usurio pode dispor de seus
comandos bsicos para ajustar uma funo, verificar a sada das estatsticas, e
posteriormente adicionar mais comandos dando continuidade suas anlises sem
necessidade de reinicializar o comando da PROC. Quando usado interativamente,
o comando RUN no finaliza o procedimento. Para finaliz-lo o usurio deve
estabelecer outro DATA STEP ou PROC STEP, ou usar o comando QUIT, que
nunca deve ser acessado quando o procedimento estiver em curso.
FORMA GERAL:
PROC REG DATA = arquivo SAS opes;
MODEL dependente = independente / opes;
VAR varivel;
ID varivel;
OUTPUT OUT = novo arquivo
P = nova varivel
R = nova varivel
U95 = nova varivel
L95 = nova varivel
U95M = nova varivel
L95M = nova varivel;
PLOT varivel Y * varivel X = 'smbolo';
PRINT opes;
RUN;
OPES DISPONVEIS NA PROC REG:
Treinamento Sistema SAS

42

Prof. Luis Felipe Lopes

SIMPLE

Lista estatsticas descritiva para cada varivel.

OUTEST

Cria um data set contendo as estimativas dos parmetros do


modelo de regresso.

OPES DISPONVEIS NO COMANDO


CLI

Fornece limites de confiana superior e inferior a 95% para um


valor particular predito da varivel dependente.

CLM

Fornece limites de confiana superior e inferior a 95% para a


mdia da varivel dependente nos nveis da(s) varivel(is)
independentes para cada observao.

Fornece valores preditos a partir do modelo estimado para cada


observao do arquivo a de entrada.

Fornece valores residuais (REAL-PREDITO)


observao e uma anlise dos resduos.

para

cada

SELECTION = mtodo
Especifica o mtodo usado para seleo do modelo (Backward, Stepwise,
MAXR, ADJRSQ, por exemplo). O default NONE (usa o modelo
completo).

ADJRSQ

Fornece o R-Square ajustado para o grau de liberdade, para cada


modelo selecionado.

AIC

Fornece o Critrio de Informao de Akaike's.

BIC

Fornece o Critrio de Informao Bayesiano de Sawa .

MSE

Fornece o erro mdio quadrtico para cada modelo.

COMANDOS DISPONVEIS:
MODEL

especifica as variveis dependentes e independentes.

VAR

lista a varivel (ou variveis) que possam vir a ser adicionadas no


modelo durante o processo de anlise. Este comando deve
aparecer antes do primeiro comando RUN.

ID

especifica a varivel que identifica as observaes na sada do


relatrio, quando so solicitadas estimativas de valores individuais
de uma varivel independente ( valores preditos ), valores
residuais, etc.

Treinamento Sistema SAS

43

Prof. Luis Felipe Lopes

OUTPUT

especifica o arquivo de sada e os nomes das variveis que iro


conter os valores previstos, residuais , etc.

PLOT

gera plotes de disperso com a varivel y representando o eixo


vertical e a varivel x o eixo horizontal. Para plotar estatsticas
utiliza-se as palavras chave (nomes reservados) disponveis no
comando OUTPUT. (Ex: plot y.*p;)

PRINT

Lista as opes disponveis.

Os seguintes nomes reservados so utilizados para especificar as


estatsticas desejadas. Eles devem ser seguidos por um nome de varivel:
P (ou PREDICTED)

representa os valores preditos.

R (ou RESIDUAL)

representa os valores residuais para cada observao.

U95, L95

representam, respectivamente, os limites superior e


inferior de predio para os valores observados.

U95M, L95M

representam, respectivamente os limites superior e


inferior de confiana para a mdia da populao.

Ex4.: Os dados a seguir provem de um experimento para testar o desempenho de


uma mquina industrial. O experimento utilizou uma mistura de leo diesel e
gs, derivados de materiais destilados orgnicos. O valor da capacidade da
mquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas
em rotaes por minuto (rpm X 100). Analisar o diagrama de disperso e
encontrar um modelo de regresso que se ajuste aos dados.
OPTIONS FORMDLIM='*' LS=80;
DATA MAQUINA1 A;
/* EXEMPL04
INPUT VELOC CAPAC @@;
CARDS;
22.0 64.03 20.0 62.47 18.0
12.0 37.48 15.0 46.85 17.0
22.0 64.03 20.0 62.63 18.0
12.0 36.63 10.5 32.05 13.0
19.0 56.65 21.0 62.61 23.0
;
PROC PLOT;
PLOT CAPAC * VELOC = '0';
TITLE 'DIAGRAMA DE DISPERSAO';
RUN;

Treinamento Sistema SAS

44

SAS */
54.94
51.17
52.90
39.68
65.31

16.0
19.0
16.0
15.0
24.0

48.84
58.00
48.84
45.79
63.89

14.0
21.0
14.0
17.0

43.73
63.21
42.74
51.17

Prof. Luis Felipe Lopes

PROC

REG;
MODEL CAPAC = VELOC;
OUTPUT OUT= RESIDl
P=PREVISTO
R=RESIDUAL;
TITLE 'AJUSTE DA FUNCAO LINEAR';
RUN;
PROC GPLOT;
PLOT RESIDUAL* VELOC /VREF = 0;
TITLE 'PLOT DE RESIDUOS P/ AJUSTE LINEAR';
RUN;
PROC UNIVARIATE DATA= RESIDl
NORMAL
PLOT;
VAR
RESIDUAL;
TITLE 'TESTE DE NORMALIDADE DOS RESIDUOS';
RUN;

ANLISE DOS RESULTADOS:


DIAGRAMA DE DISPERSAO
Plot of CAPAC*VELOC.

Symbol used is '0'.

CAPAC |
|
65 +
0
|
0
0
|
0
|
0
0
60 +
|
|
0
|
0
55 +
0
|
|
0
|
0
50 +
|
0
|
0
|
0
45 +
|
0
|
0
|
40 +
0
|
|
0
|
0
35 +
|
|
| 0
30 +
|
--+-------+--------+--------+---------+-------+--------+--------+10
12
14
16
18
20
22
24
VELOC
NOTE: 4 obs hidden.

Treinamento Sistema SAS

45

Prof. Luis Felipe Lopes

O diagrama de disperso mostra uma tendncia crescente da capacidade da


mquina em funo da velocidade utilizada. Os dados observados sero
ajustados inicialmente por uma funo linear. o relatrio de sada consta de duas
sees, Anlise da Varincia e Estimativas dos Parmetros, apresentadas a
seguir:
AJUSTE DA FUNCAO LINEAR
Model: MODEL1
Dependent Variable: CAPAC
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model
Error
C Total

1
22
23

2294.80982
76.08652
2370.89633

2294.80982
3.45848

1.85970
52.31833
3.55458

R-square
Adj R-sq

Root MSE
Dep Mean
C.V.

F Value

Prob>F

663.532

0.0001

0.9679
0.9664

Parameter Estimates
Variable
INTERCEP
VELOC

DF
1
1

Parameter
Estimate
6.100234
2.650500

Standard
Error
1.83396047
0.10289565

T for H0:
Parameter=0

Prob > |T|

3.326
25.759

0.0031
0.0001

A seo de Anlise de Varincia contm informaes sobre a qualidade do


ajuste. So elas:
- DF
Identifica as fontes de variaes dos dados e os respectivos graus de liberdade.
- SOMA DOS QUADRADOS (SS):
Separam a variao dos dados em pores que podem ser tanto atribudas ao
modelo como ao erro. Parte da variao total da capacidade da mquina se deve
velocidade utilizada e outra parte se deve a erros aleatrios ou outros fatores
independentes da velocidade.
SS total = SS models + SS erro
Observando os valores da varivel Capacidade da Mquina quando o valor da
velocidade de 18 (rpm x 100), por exemplo, tem-se 54.94 HP e 52.90 HP. Esta
variao se deve ao erro do experimento ou a fatores outros que no a
velocidade.

Treinamento Sistema SAS

46

Prof. Luis Felipe Lopes

- MDIA QUADRTICA (MS): SS/DF


MS erro = 3.45848 estima a varincia da populao dos valores da capacidade da
mquina para valores determinados da velocidade.
- F, PROB > F:
Fornece o valor da estatstica teste e o p-valor associado ao teste de hiptese de
que o modelo explica uma parte significante da variao dos dados.
- R_SQUARE : SS modelo / SS Total
R_Square a frao da variao total devida s variveis do modelo. Seu valor
varia dentro do intervalo [0,1], sendo que quanto mais prximo de 1, melhor o
modelo explica a variao dos dados. Neste caso o modelo proposto explica 96%
da variabilidade total. implicando um alto grau de aderncia dos valores
observados reta ajustada. Sobre a qualidade do ajuste, o valor de R_Square
no a explica sozinho. Recomenda-se tambm uma Anlise dos Resduos.
- Adj R_SQUARE
uma estatstica alternativa ao R-Square. utilizada em REGRESSO
MLTIPLA.
A seo Estimativas dos Parmetros prov coeficientes para a linha de
regresso e testes para determinar se estes coeficientes so significativamente
diferentes de zero. O modelo de ajuste, neste caso, representado por:
CAPAC = 6.10 + 2.65 VELOC
O valor de INTERCEP = 6.10 no tem uma interpretao especfica no modelo.
Para VELOC = 0, a capacidade predita pelo modelo de 6.10 HP. O coeficiente
2.65 pode ser interpretado como o acrscimo da capacidade esperada para cada
unidade adicional da velocidade.
Para verificar a suposio de que os coeficientes so no nulos, tem-se:
- DF
Fornece o grau de liberdade para os parmetros estimados. Para cada parmetro
estimado DF= 1.
- Erro Padro:
Mede o quanto cada parmetro estimado poderia vaiar de um conjunto de dados
para outro. Eles so utilizados na construo de intervalos de confiana.

Treinamento Sistema SAS

47

Prof. Luis Felipe Lopes

- T para H0 : Parmetro = 0:
Estatstica para testar a hiptese que o parmetro igual a zero. Seu valor dado
por:
Valor Estimado do Parmetro / Erro Padro
- PROB > T:
Fornece o p-valor para a estatstica teste T. Para o parmetro VELOC, o p-valor
de 0.0001, evidenciando que o grau de inclinao da reta ajustada diferente de
zero. O intercepto tambm difere de zero.

i = Yi - 6.10 - 2.65 VELOC importante para


A anlise dos resduos ei= Yi - Y
avaliar se a escolha do modelo apropriada para o conjunto de dados
apresentado. Pelo comportamento da distribuio dos resduos (PROC GPLOT)
sugere-se a utilizao de um termo quadrtico.
A validade dos testes de significncia dependem da suposio de que os resduos
so normalmente distribudos. Para se verificar essa suposio basta utilizar a
PROC UNIVARIATE com as opes NORMAL e PLOT, o que gera as seguintes
sadas:

Treinamento Sistema SAS

48

Prof. Luis Felipe Lopes

TESTE DE NORMALIDADE DOS RESIDUOS


Univariate Procedure
Variable=RESIDUAL

Residual
Moments

N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal

24
0
1.818821
-0.95935
76.08652
.
0
24
1
4
0.896308

Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W

24
0
3.308109
4.145739
76.08652
0.371265
1.0000
13
0.8388
0.9119
0.0170

Quantiles(Def=5)
100% Max
75% Q3
50% Med
25% Q1
0% Min

3.51976
0.92076
0.011261
-0.67199
-5.82224

Range
Q3-Q1
Mode

9.342001
1.592748
-0.38124

99%
95%
90%
10%
5%
1%

3.51976
3.35976
1.54026
-1.75174
-1.88049
-5.82224

Extremes
Lowest
-5.82224(
-1.88049(
-1.75174(
-1.27624(
-0.90924(

Obs
Highest
24) 1.13076(
17) 1.449259(
23) 1.54026(
16) 3.35976(
13) 3.51976(

Obs
3)
10)
9)
2)
12)

A estatstica W de Shapiro WIL indica que os dados no so normalmente


distribudos. O valor da assimetria de 0.9593, encontrando-se fora do intervalo
(-0.87 , 0.87), e o valor da curtoze de 4.1457, que est fora do intervalo(1.20,2.30). Estes so os intervalos a 95% de confiana para a assimetria e
curtoze, referentes a um tamanho de amostra n=24, retirada de uma populao
normalmente distribuda. (Ver ANEXO 2).
Stem
3
2
1
0
-0
-1
-2
-3
-4
-5

Leaf
45

#
2

Boxplot
0

0145
0023358
9954441
983

4
7
7
3

|
+--+--+
+-----+
|

8
----+----+----+----+

TESTE DE NORMALIDADE DOS RESIDUOS

Treinamento Sistema SAS

49

Prof. Luis Felipe Lopes

Univariate Procedure
Variable=RESIDUAL

Residual

Normal Probability Plot


3.5+
* ++*++
|
++++++
|
+++** *
0.5+
*+***+***
|
* ****+*+
|
* * *++++
-2.5+
++++++
|
+++++
|++++
-5.5+
*
+----+----+----+----+----+----+----+----+----+----+
-2
-1
0
+1
+2

Observa-se pelo histograma dos resduos que a distribuio assimtrica a


esquerda. Os asteriscos (*) no plote acima representam os resduos observados,
e os sinais de (+) so utilizados para prover uma linha de referncia baseada na
mdia e no desvio padro amostral, que so indicadores do intercepto e do grau
de inclinao da linha, respectivamente. Se os dados so normais, eles tendem a
acompanhar a disposio da linha de referncia indicada pelos sinais (+). Quando
isto acontece somente os asteriscos (*) so amostrados. No caso em questo, a
disposio dos resduos no se ajusta a linha de referncia, colocando em
cheque a suposio de normalidade dos resduos. Mais uma vez fica comprovada
a necessidade de uma nova tentativa de ajuste dos dados analisados.
FUNO QUADRTICA
Os comandos a seguir ajustam uma funo quadrtica aos dados do
arquivo MQUINA1. Alm de gerar um plote para os resduos do ajuste,
intervalos de confiana para a mdia da capacidade da populao e uma curva de
previso para os dados, com a opo r o programa tambm gera resduos
padronizados que permitem verificar se pontos fora do padro ('outliers') se
devem a causas aleatrias ou a causas especiais de variao. Um teste para a
normalidade dos resduos tambm efetuado para o ajuste quadrtico.
OPTIONS FORMDLIM='*' LS=80;
DATA MAQUINA2 SAS;
/* EXEMPL05 SAS */
INPUT VELOC CAPAC @@;
VELOC2 = VELOC*VELOC;
CARDS;
22.0 64.03 20.0 62.47 18.0
54.94 16.0 48.84 14.0 43.73
12.0 37.48 15.0 46.85 17.0 51.17 19.0 58.00 21.0 63.21
22.0 64.03 20.0 62.63 18.0
52.90 16.0 48.84 14.0 42.74
12.0 36.63 10.5 32.05 13.0 39.68 15.0 45.79 17.0 51.17
19.0 56.65 21.0 62.61 23.0 65.31 24.0 63.89
;
PROC REG;
MODEL CAPAC=VELOC VELOC2 / CLM R;
ID VELOC;
OUTPUT OUT=RESlD2
P=PREVISTO R=RESIDUAL;
TITLE 'AJUSTE DE FUNCAO QUADRATICA';
PROC GPLOT;

Treinamento Sistema SAS

50

Prof. Luis Felipe Lopes

PLOT RESIDUAL * VELOC / VREF=0;


TITLE 'PLOT DE RESIDUOS P/ AJUSTE QUADRATICO';
RUN;
PROC UNIVARIATE NORMAL;
VAR RESIDUAL;
TITLE 'TESTE PARA NORMALIDADE DOS RESIDUOS';
PROC GPLOT;
PLOT PREVISTO*VELOC;
TITLE 'CURVA DE PREVISAO';
RUN;

ANLISE DOS RESULTADOS:


AJUSTE DA FUNCAO QUADRATICA
Model: MODEL1
Dependent Variable: CAPAC
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

Model
Error
C Total

2
21
23

2329.52618
41.37016
2370.89633

1164.76309
1.97001

1.40357
52.31833
2.68275

R-square
Adj R-sq

Root MSE
Dep Mean
C.V.

F Value

Prob>F

591.248

0.0001

0.9826
0.9809

Parameter Estimates
Variable

DF

Parameter
Estimate

Standard
Error

T for H0:
Parameter=0

Prob > |T|

INTERCEP
VELOC
VELOC2

1
1
1

-19.184839
5.710855
-0.088391

6.18024426
0.73314324
0.02105601

-3.104
7.790
-4.198

0.0054
0.0001
0.0004

O modelo do ajuste quadrtico dado por:


CAPAC = -19.18 + 5.71 VELOC - 0.08 VELOC2
O teste de significncia dos coeficientes indica que para o coeficiente -0.08 de
VELOC2 :
t = -0.08 /SE (VELOC2) = -0.08 / 0.021 = - 3.81
A probabilidade de significncia para esta estatstica 0.0004, ou seja, existe
somente quatro chances em dez mil de se encontrar uma estatstica t to grande
quanto a calculada acima. O desvio padro da estimativa do coeficiente de
VELOC2 to pequeno que pode-se afirmar que seu valor estatisticamente
diferente de zero. O modelo quadrtico, portanto, est representando melhor o
relacionamento entre a velocidade da mquina e sua capacidade de produo,
quando comparado ao modelo linear.

Treinamento Sistema SAS

51

Prof. Luis Felipe Lopes

Os valores preditos e os limites de confiana para a mdia da populao obtidos


com o ajuste quadrtico esto relacionados a seguir:
AJUSTE DA FUNCAO QUADRATICA
Obs

VELOC

1
22
2
20
3
18
4
16
5
14
6
12
7
15
8
17
9
19
10
21
11
22
12
20
13
18
14
16
15
14
16
12
17
10.5
18
13
continuao ...
19
20
21
22
23
24

15
17
19
21
23
24

Dep Var
CAPAC

Predict
Value

Std Err
Predict

Lower95%
Mean

Upper95%
Mean

Residual

64.0300
62.4700
54.9400
48.8400
43.7300
37.4800
46.8500
51.1700
58.0000
63.2100
64.0300
62.6300
52.9000
48.8400
42.7400
36.6300
32.0500
39.6800

63.6726
59.6758
54.9718
49.5607
43.4425
36.6171
46.5900
52.3546
57.4122
61.7626
63.6726
59.6758
54.9718
49.5607
43.4425
36.6171
31.0340
40.1182

0.488
0.374
0.401
0.397
0.396
0.596
0.385
0.405
0.385
0.398
0.488
0.374
0.401
0.397
0.396
0.596
0.921
0.460

62.6568
58.8981
54.1382
48.7356
42.6198
35.3785
45.7890
51.5114
56.6114
60.9343
62.6568
58.8981
54.1382
48.7356
42.6198
35.3785
29.1185
39.1612

64.6884
60.4534
55.8054
50.3858
44.2651
37.8556
47.3909
53.1978
58.2130
62.5909
64.6884
60.4534
55.8054
50.3858
44.2651
37.8556
32.9495
41.0751

0.3574
2.7942
-0.0318
-0.7207
0.2875
0.8629
0.2600
-1.1846
0.5878
1.4474
0.3574
2.9542
-2.0718
-0.7207
-0.7025
0.0129
1.0160
-0.4382

45.7900
51.1700
56.6500
62.6100
65.3100
63.8900

46.5900
52.3546
57.4122
61.7626
65.4059
66.9623

0.385
0.405
0.385
0.398
0.651
0.878

45.7890
51.5114
56.6114
60.9343
64.0513
65.1364

47.3909
53.1978
58.2130
62.5909
66.7605
68.7883

-0.8000
-1.1846
-0.7622
0.8474
-0.0959
-3.0723

O plote dos resduos studentizados pode indicar a ocorrncia de pontos


discrepantes. Cada asterisco corresponde metade de uma unidade.
Observaes com quatro ou cinco asteriscos tem resduos studentizados entre
2.0 e 3.0, e esto num range suspeito. Observaes com seis ou mais asteriscos
provavelmente so outliers. No plote a seguir, as observaes 2 e 12
(VELOC=20), e a 24 esto num range suspeito. O grfico dos reduos mostrado
ao fim deste exemplo confirma estas suposies. O prximo passo seria reavaliar
a fonte de dados e identificar alguma razo peculiar para a ocorrncia destes
valores.
Obs
1
2
3
4
5
6
7
8
9
10
11
12

VELOC
22
20
18
16
14
12
15
17
19
21
22
20

Std Err
Residual

Student
Residual

1.316
1.353
1.345
1.346
1.347
1.271
1.350
1.344
1.350
1.346
1.316
1.353

0.272
2.065
-0.024
-0.535
0.214
0.679
0.193
-0.882
0.436
1.075
0.272
2.184

Treinamento Sistema SAS

52

Cook's
D

-2-1-0 1 2
|
|
|
|
|
|
|
|
|
|
|
|

|
|****
|
*|
|
|*
|
*|
|
|**
|
|****

|
|
|
|
|
|
|
|
|
|
|
|

0.003
0.109
0.000
0.008
0.001
0.034
0.001
0.024
0.005
0.034
0.003
0.121

Prof. Luis Felipe Lopes

13
14
15
16
17
18
19
20
21
22
23
24

18
16
14
12
10.5
13
15
17
19
21
23
24

1.345
1.346
1.347
1.271
1.059
1.326
1.350
1.344
1.350
1.346
1.243
1.095

Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)

-1.540
-0.535
-0.522
0.010
0.959
-0.330
-0.593
-0.882
-0.565
0.630
-0.077
-2.806

|
***|
|
*|
|
*|
|
|
|
|*
|
|
|
*|
|
*|
|
*|
|
|*
|
|
| *****|

|
|
|
|
|
|
|
|
|
|
|
|

0.070
0.008
0.008
0.000
0.232
0.004
0.010
0.024
0.009
0.012
0.001
1.687

0
41.3702
65.0917

Atravs do grfico dos resduos (PROC GPLOT) observa-se que nem toda as
observaes seguem a mesma forma geral. O ponto onde VELOC=24 encontrase abaixo dos demais, e os dois pontos prximos VELOC=20 esto acima dos
demais. Isto pode se dever causas especiais ou simplesmente ao acaso, e
precisa ser verificado. Os demais pontos esto bem distribudos ao longo do
grfico, podendo ser admitida a suposio de varincia da distribuio dos
resduos.

Treinamento Sistema SAS

53

Prof. Luis Felipe Lopes

TESTE DE NORMALIDADE DOS RESIDUOS


Univariate Procedure
Variable=RESIDUAL

Residual
Moments

N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal

24
0
1.341157
0.194918
41.37016
.
0
24
0
-5
0.961296

Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W

24
0
1.798702
1.047599
41.37016
0.273763
1.0000
12
1.0000
0.8899
0.4711

Quantiles(Def=5)
100%
75%
50%
25%
0%

Max
Q3
Med
Q1
Min

Range
Q3-Q1
Mode

2.954224
0.717615
-0.00944
-0.74144
-3.07234

99%
95%
90%
10%
5%
1%

2.954224
2.794224
1.447409
-1.18464
-2.0718
-3.07234

6.026565
1.45905
-1.18464
Extremes

Lowest
Obs
Highest
Obs
-3.07234(
24) 0.862912(
6)
-2.0718(
13) 1.015991(
17)
-1.18464(
20) 1.447409(
10)
-1.18464(
8) 2.794224(
2)
-0.79996(
19) 2.954224(
12)

O p-valor associado ao teste de normalidade dos resduos de 0.47. A hiptese


de normalidade dos resduos do Ajuste Quadrtico no pode ser rejeitada aos
nveis usuais de significncia. A curva de previso baseada no modelo ajustado
mostrado no (PLOT GPLOT).

Treinamento Sistema SAS

54

Prof. Luis Felipe Lopes

9 INFERNCIA ESTATSTICA

9.1 Testes para igualdade de duas mdias (PROC TTEST)

Na prtica freqentemente nos vemos diante de situaes onde uma


deciso deva ser tomada acerca de populaes, baseadas nas informaes
obtidas a partir das amostras. Este captulo abordar testes de hipteses, para o
caso em que duas amostras so consideradas, em princpio de populaes
distintas, Com base nestas amostras, as mdias equivalentes s populaes
envolvidas so comparadas. O teste t apropriado quando a anlise envolve uma
nica varivel independente (preditora), medida na escala nominal e assumindo
somente dois valores, e uma nica varivel resposta, medida na escala de razo
ou de intervalo. O teste t usualmente conhecido como teste de diferenas de
grupos.
Dois casos tpicos sero considerados neste tipo de experimento. O
primeiro o teste para dados no pareados, ou seja, amostras independentes
(populaes no correlacionadas). O segundo, para dados pareados, (populaes
correlacionadas). O que diferencia os dois testes a forma do clculo da
estatstica t. Hipteses adicionais devem ser atendidas para a validao destes
testes.

Treinamento Sistema SAS

55

Prof. Luis Felipe Lopes

- AMOSTRAS INDEPENDENTES:
- Nvel de Medida: A varivel resposta deve ser acessada na escala de razo ou
de intervalo. A varivel independente deve estar na escala
nominal e assumir somente dois nveis.
- Observaes Independentes: Uma dada observao no pode depender de
qualquer outra entre os dois grupos.
- Amostras Aleatrias: Os valores da varivel resposta devem representar uma
amostra aleatria oriunda de uma populao normal. Se
cada amostra contiver cerca de 30 observaes, o teste
considerado robusto no que diz respeito
normalidade.
- Homogeneidade de Varincias: O teste t exato utilizado quando o teste F
para igualdade de varincias leva a no
rejeio da hiptese nula de igualdade de
varincias na populao.
PROC TTEST
A PROC TTEST desempenha um teste de hiptese para checar se a
mdia de duas populaes so iguais. Uma estatstica t para o teste calculada,
assumindo que as varincias so iguais para os dois grupos. Uma estatstica T
aproximada calculada, assumindo que as varincias so diferentes. Para testar
a igualdade das varincias calculada uma estatstica F. Para cada uma das
estatsticas T e F so associados os respectivos graus de liberdade e
probabilidades de significncia (p-valor). Se o p-valor menor que o nvel de
significncia associado ao teste, o resultado estatisticamente significante, e a
hiptese nula rejeitada, ou seja, as mdias para os dois grupos so
significativamente diferentes.

Treinamento Sistema SAS

56

Prof. Luis Felipe Lopes

Os testes paramtricos que envolvem observaes pareadas sero


abordados no item 9.2. Os testes no paramtricos sero assunto do prximo
captulo.
FORMA GERAL:
PROC TTEST DATA = arquivo de dados;
CLASS varivel;
VAR varivel;
RUN;
COMANDOS DISPONVEIS:
CLASS

VAR

nomeia a varivel que forma os grupos. Estes grupos podem


assumir somente dois valores distintos, uma vez que o teste utilizado
para comparao de duas mdias.
nomeia a varivel cuja mdia ser comparada. Se o comando
VAR for omitido, todas as variveis numricas contidas no
arquivo de entrada (exceto as que aparecem no comando
CLASS) sero includas na anlise.

Ex6.: Dados no pareados com varincias desconhecidas e supostamente iguais.


Sejam amostras obtidas de dois tipos de cabo de ao em relao carga de
ruptura. Ao nvel de significncia de 5% pode-se concluir que o cabo do tipo l
seja mais resistente que o do tipo 2 ?
Carga de Ruptura (Kgf)
Tipo 1
760
755
758
761
755

Tipo 2
758
748
757
753
755

OPTIONS FORMDLIM='*' LS=80;


DATA CABO A;
/* EXEMPL06 SAS */
INPUT TIPO $ CARGA
@@;
CARDS;
Tl
760
T2
758
Tl
755
T2
748
Tl
758
T2
757
Tl
761
T2
753
Tl
755
T2
755
;
PROC TTEST;
CLASS
TIPO;
VAR
CARGA;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS';
RUN;

Treinamento Sistema SAS

57

Prof. Luis Felipe Lopes

ANLISE DOS RESULTADOS:


TESTE PARA IGUALDADE DE MEDIAS
TTEST PROCEDURE
Variable: CARGA
TIPO
N
Mean
Std Dev
Std Error
Minimum
Maximum
------------------------------------------------------------------------T1
5 757.8000000 2.77488739
1.24096736 755.0000000 761.0000000
T2
5 754.2000000 3.96232255
1.77200451 748.0000000 758.0000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
1.6641
7.2
0.1392
Equal
1.6641
8.0
0.1347
For H0: Variances are equal, F' = 2.04

DF = (4,4)

Prob>F' = 0.5072

Para comparar dois grupos independentes observa-se primeiramente a linha que


testa a igualdade de varincias. O p-valor para este teste dado por
PROB>F'=0.5072 que maior que 0.10, indicando que as varincias no so
significantemente diferentes a um nvel de 10% de significncia.
Utiliza-se ento o t-test exato. Para o teste da igualdade de mdias, a linha
denominada UNEQUAL d o resultado de um t-test aproximado, que utilizado
quando no se pode assumir a igualdade das varincias os dois grupos de
observaes.
O p-valor para o t-test PROB > ITI = 0.1347 que maior que 0.05, indicando
que ambas as mdias para o cabo do tipo 1 e tipo 2 no so significativamente
diferentes ao nvel de 5% de significncia. Valores altos para estatstica T indicam
diferenas significativas entre as mdias. Para o teste exato, o grau de liberdade
DF calculado como a soma dos tamanhos das amostras dos dois grupos menos
dois (8 = 5 + 5 - 2).
Ex7.: Dados no pareados com varincias desconhecidas e supostamente
diferentes.
Deseja-se saber se duas mquinas de empacotar caf esto fornecendo o
mesmo peso mdio por pacote, tanto como uma das mquinas nova e a
outra velha, razovel supor-se que trabalhem com diferentes
variabilidades dos pesos colocados nos pacotes. As amostras disponveis
constam de seis pacotes produzidos pela mquina nova e nove produzidos
pela mquina velha. Os pesos em quilogramas desses pacotes so:
mquina nova
mquina velha

0,82 0,83 0,79 0,81 0,81 0,80


0,79 0,82 0,73 0,74 0,80 0,77 0,75 0,84 0,78

Qual a concluso, ao nvel de 5% de significncia ?


OPTIONS FORMDLIM='*' LS=80;
DATA
CAF
A;
/* EXEMPL07

Treinamento Sistema SAS

58

SAS */

Prof. Luis Felipe Lopes

INPUT
MAQUINA $ PESO @@,
CARDS;
NOVA
0.82
NOVA
0.83
NOVA
0.79
NOVA
0.81
NOVA
0.81
NOVA
0.80
VELHA 0.79
VELHA 0.82
VELHA 0.73
VELHA 0.74
VELHA 0.80
VELHA 0.77
VELHA 0.75
VELHA 0.84
VELHA 0.78
;
PROC TTEST DATA=CAFE,
CLASS MAQUINA;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS DADOS NO PAREADOS';
RUN;

ANLISE DOS RESULTADOS:


TESTE PARA IGUALDADE DE MEDIAS - DADOS NAO PAREADOS
TTEST PROCEDURE
Variable: PESO
MAQUINA
N
Mean
Std Dev
Std Error
Minimum
Maximum
------------------------------------------------------------------------NOVA
6 0.81000000 0.01414214 0.00577350
0.79000000 0.83000000
VELHA
9
0.78000000 0.03674235
0.01224745 0.73000000 0.84000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
2.2156
11.1
0.0486
Equal
1.8893
13.0
0.0814
For H0: Variances are equal, F' = 6.75

DF = (8,5)

Prob>F' = 0.0501

O p-valor para o teste de igualdade de varincias dado por PROB >F'=0.0501


que menor que 0.10, indicando que as varincias so significativamente
diferentes a um nvel de 10% de significncia. Para o teste de igualdade de
mdias, a linha denominada UNEQUAL deve ser utilizada. A um nvel de 5% de
significncia h diferena significativa entre as mdias dos pesos dos pacotes,
pois PROB > ITI = 0.0486 < 0.05.

9.2 Testes para dados pareados

Os resultados de duas amostras constituem dados emparelhados (ou


pareados) quando esto relacionados dois a dois segundo algum critrio que
introduz uma influncia mercante entre os diversos pares. Esta influncia incide
igualmente sobre os valores de cada par.

Treinamento Sistema SAS

59

Prof. Luis Felipe Lopes

Assim, por exemplo, suponha que 10 cobaias sejam submetidas durante


uma semana a uma dieta com certo tipo de rao. Os pesos das cobaias so
medidos no incio e no fim do tratamento, e deseja-se tirar concluses sobre o
aumento mdio do peso verificado. Se os animais forem perfeitamente
identificados, teremos duas amostras de valores do tipo 'antes' e 'depois', e os
dados sero pareados, pois cada valor da palmeira amostra estar perfeitamente
associado ao respectivo valor da segunda amostra. O critrio que garante o
emparelhamento a identidade de cada cobaia. razovel esperar que a
identidade de cada animal tenha influncia nos valores observados de seu peso,
porm essa influncia deve exercer-se de forma aproximadamente igual dentro de
cada para de valores 'antes e depois', logo, ao se tomarem as diferenas entre
vrios pares de valores, a influncia individual de cada animal tende a
desaparecer, restando apenas os efeitos produzidos pela rao.
No mesmo exemplo, se os animais no fossem identificados, no haveria
como associar os valores das duas amostras, e os dados seriam noemparelhados.
Se os dados de duas amostras so emparelhados tem sentido calcular as
diferenas di correspondentes a cada par de valores, reduzindo assim os dados
a uma nica amostra de n diferenas. Testa-se ento a hiptese de que a
diferena entre as mdias das populaes emparelhadas seja igual a um certo
valor, reduzindo o problema ao teste de uma nica mdia. As hipteses a serem
atendidas para validao deste teste so listadas baixo:
- AMOSTRAS PAREADAS:
Nvel de medida: A varivel resposta deve estar na escala de intervalo ou de
razo. A varivel independente deve estar na escala nominal
e assumir somente duas categorias.
Observaes pareadas: Uma dada observao que aparece em uma condio
tem que estar de algum moda associada uma
observao correspondente na outra condio.
Observaes Independentes: Um valor de dado em uma condio no pode ser
afetado por qualquer outro valor de dado em
ambas condies.
Amostras Aleatrias: Os valores da varivel resposta devem representar uma
amostra aleatria oriunda de uma populao de interesse.
Distribuio Normal para a diferena de Scores:
As diferenas de scores entre os pares de valores devem ser
normalmente distribudas. No h necessidade que a varivel resposta seja
normalmente distribuda.

Treinamento Sistema SAS

60

Prof. Luis Felipe Lopes

Homogeneidade de Varincias: As populaes representadas pelas duas


condies devem ter iguais varincias .
PROC UNIVARIATE
Para observaes pareadas, o primeiro passo encontrar as diferenas
para cada observao na amostra. O segundo sumarizar estas diferenas. Para
calcular estas diferenas, pode-se criar uma nova varivel no DATA STEP, cuja
mdia ser sumarizada atravs da PROC UNIVARIATE. Outro caminho para
sumarizar os dados amostrais produzir grficos que mostrem a distribuio dos
valores.
Ex8.: Dez cobaias adultas foram submetidas ao tratamento com certa rao
durante uma semana. Os animais foram perfeitamente identificados, tendo
sido mantidos, para tanto, em gaiolas individuais. Os pesos, em gramas, no
princpio e no fim da semana, so designados respectivamente por peso 1
e peso 2. Ao nvel de 5% de significncia pode-se concluir que o uso da
rao contribuiu para o aumento do peso mdio dos animais? O programa
a seguir prov um teste de hiptese para checar se a diferena mdia de
pesos significativamente diferente de zero.
OPTIONS FORMDLIM='*' LS=80;
DATA TRAT A;
/* EXEMPL08 SAS */
INPUT COBAIA
PESO1
PESO2 @@;
DIF= PESO2-PESO1;
CARDS;
1
635
640
2
704
712
3
662
681
4
560
558
5
603
610
6
745
740
7
698
707
8
575
585
9
633
635
10
669
682
;
PROC PRINT;
TITLE 'LISTA DAS DIFERENCAS PAREADAS';
RUN;
PROC UNIVARIATE;
VAR DIF;
TITLE 'TESTE PARA DIFERENCAS DE OBSERVACOES PAREADAS';
PROC CHART;
VBAR DIF;
TITLE 'CARTA PARA DIFERENCAS PAREADAS';
RUN;

Treinamento Sistema SAS

61

Prof. Luis Felipe Lopes

ANLISE DOS RESULTADOS:


LISTA DAS DIFERENCAS PAREADAS
OBS

COBAIA

PESO1

PESO2

DIF

1
2
3
4
5
6
7
8
9
10

1
2
3
4
5
6
7
8
9
10

635
704
662
560
603
745
698
575
633
669

640
712
681
558
610
740
707
585
635
682

5
8
19
-2
7
-5
9
10
2
13

TESTE PARA DIFERENCA DE OBSERVACOES PAREADAS


Univariate Procedure
Variable=DIF
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank

10
6.6
7.042727
-0.0293
882
106.708
2.963487
10
3
22.5

Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|

10
66
49.6
0.054015
446.4
2.227106
0.0159
8
0.1094
0.0215

Quantiles(Def=5)
100%
75%
50%
25%
0%

Max
Q3
Med
Q1
Min

Range
Q3-Q1
Mode

19
10
7.5
2
-5

99%
95%
90%
10%
5%
1%

19
19
16
-3.5
-5
-5

24
8
-5
Extremes

Lowest
-5(
-2(
2(
5(
7(

Treinamento Sistema SAS

Obs
6)
4)
9)
1)
5)

62

Highest
8(
9(
10(
13(
19(

Obs
2)
7)
8)
10)
3)

Prof. Luis Felipe Lopes

O relatrio parcial da PROC UNIVARIATE mostra na linha denominada


T:MEAN=0 o valor da estatstica de teste T (T=2.9635) e o p-valor associado ao
teste PROB > |T| = 0,0159. O p-valor menor que 0.05, donde se conclui que a
diferena mdia dos pesos das cobaias com a utilizao da rao
significativamente diferente de zero. A um nvel de 5% de significncia o uso da
rao contribui para o aumento do peso mdio dos animais.
CARTA PARA DIFERENCAS PAREADAS
Frequency
4 +
*****
|
*****
|
*****
|
*****
|
*****
|
*****
|
*****
3 +
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
2 +
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
|
*****
*****
*****
1 +
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
--------------------------------------------------------4
4
12
20
DIF Midpoint

O grfico com a distribuio dos valores das diferenas obtido atravs da PROC
CHART. As barras verticais mostram que a mais alta freqncia ocorre para
valores entre 8 e 16, prximo a 12, indicando mais uma vez que a variao mdia
das diferenas estatisticamente significante.

Treinamento Sistema SAS

63

Prof. Luis Felipe Lopes

10 MTODOS NO PARAMTRICOS

10.1 Testes para igualdade de duas mdias (PROC NPAR1WAY)


Os testes no paramtricos utilizam-se de poucas suposies a respeito
da distribuio de habilidade dos dados. Ele indicado quando o tamanho das
amostras analisadas muito pequeno para validar a suposio de normalidade
dos dados.
PROC NPAR1WAY
A PROC NPARLWAY um procedimento no paramtrico para testar se
a distribuio de uma varivel tem o mesmo parmetro de locao sobre
diferentes grupos. Ela trabalha com grupos independentes, dados no pareados.
Para dados pareados, a PROC UNIVARIATE desempenha um teste de sinais e o
teste dos ranks de Wilcoxon.
FORMA GERAL:
PROC NPARLWAY DATA= arquivo de dados opes;
VAR variveis;
CLASS varivel;
BY variveis;
COMANDOS DISPONVEIS:
VAR

nomeia variveis a serem analisadas para a comparao dos dois


grupos. (comando opcional). Uma vez omitido , as anlises so
feitas sobre todas as variveis numricas do arquivo de dados.

CLASS

nomeia somente uma varivel de classificao de grupo. O


comando CLASS obrigatrio. A varivel que identifica os grupos
podem ser caracteres ou numricas.

BY

separa a anlise em observaes definidas pelas variveis do


comando BY. Os dados precisam estar ordenados antes de se
utilizar este comando.

OPES DISPONVEIS:
WILCOXON

desempenha o teste da Soma dos Ranks de Wilcoxon para uma


varivel de dois nveis. Ele se baseia na soma dos ranks dos
valores observados. Este rank ir indicar a posio de um
determinado valor no conjunto ordenado (crescente ou
decrescentemente), do primeiro ao ltimo elemento Valores iguais
so considerados com um rank mdio de modo a no afetar os
rank seguintes. Por exemplo, os valores 15, 12, 16, 19 e 16,
considerados numa ordem crescente, tero os seguintes ranks: 2,

Treinamento Sistema SAS

64

Prof. Luis Felipe Lopes

1, 3.5 , 5 e 3.5. Wilcoxon considerou que sendo vlida a hiptese


nula de identicidade entre as populaes, a soma dos postos nas
amostras deveriam fornecer valores intermedirios compatveis
com cada amostra. Com base nessa idia, determina-se quais os
limites para a soma dos ranks nas amostras, alm dos quais
deve-se rejeitar a hiptese nula.
Para uma varivel de
classificao que assuma mais que dois nveis, esta opo
corresponde ao Teste de Kruskal- Wallis.
MEDIAN

requisita uma anlise dos escores das medianas. Se as


populaes so idnticas, a mediana do conjunto formado pelas
duas amostras fornece uma boa estimativa da mediana da
distribuio comum. A proporo de valores abaixo da mediana
geral deve tender a ser a mesma nas duas amostras. O escore da
mediana 1 para pontos abaixo da mediana geral, e 0 caso
contrrio. Para mais que duas amostras, esta opo produz o
Teste de Brown- Mood.

Ex9.: Clica um distrbio comum em cavalos e freqentemente fatal. Em


casos extremos uma cirurgia o nico recurso. Pesquisadores estudam
novas tcnicas de cirurgia para reduzir os perodos sob anestesia a que
so submetidos os animais. Nove cavalos que se submeteram cirurgia
foram aleatoriamente assinalados para uma dentre as duas tcnicas
utilizadas. A tcnica A envolve a suspenso da anestesia depois da sutura
da inciso, e a tcnica B envolve a suspenso da anestesia durante a
sutura. O tempo de recuperao da anestesia foi medido em minutos a
partir do final da cirurgia at o momento que o cavalo levanta. Determinar
se os tempos de recuperao diferem para as duas tcnicas cirrgicas
utilizadas.
OPTIONS FORMDLIM='*' LS=80;
DATA ANEST1
A;
/* EXEMPL09 SAS */
INPUT
CAVALO
TECN $ TEMREC @@;
CARDS;
l
A
47
2
A
34
3
A
44
4
A
16
5
A
53
6
B
79
7
B
42
8
B
14
9
B
11
;
PROC NPAR1WAY WILCOXON MEDIAN;
VAR
TEMREC;
CLASS
TECN;
TITLE 'ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA';
RUN;

Treinamento Sistema SAS

65

Prof. Luis Felipe Lopes

ANLISE DOS RESULTADOS:


ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA
N P A R 1 W A Y

P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable TEMREC


Classified by Variable TECN
TECN

Sum of
Scores

Expected
Under H0

Std Dev
Under H0

Mean
Score

A
B

5
4

28.0
17.0

25.0
20.0

4.08248290
4.08248290

5.60000000
4.25000000

Wilcoxon 2-Sample Test (Normal Approximation)


(with Continuity Correction of .5)
S=

17.0000

Z= -.612372

Prob > |Z| =

T-Test approx. Significance =

0.5403

0.5573

Kruskal-Wallis Test (Chi-Square Approximation)


CHISQ= 0.54000
DF= 1
Prob > CHISQ=

0.4624

ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA


N P A R 1 W A Y

P R O C E D U R E

Median Scores (Number of Points above Median)


for Variable TEMREC
Classified by Variable TECN
TECN
A
B

N
5
4

Sum of
Scores
3.0
1.0

Expected
Under H0
2.22222222
1.77777778

Std Dev
Under H0
0.785674201
0.785674201

Mean
Score
0.600000000
0.250000000

Median 2-Sample Test (Normal Approximation)


S=

1.00000

Z= -.989949

Prob > |Z| =

0.3222

Median 1-Way Analysis (Chi-Square Approximation)


CHISQ= 0.98000

DF=

Prob > CHISQ=

0.3222

O p-valor para o teste de Wilcoxon dado por Prob > |Z|= 0.5403 que
superior a 0.05. Conclui-se, portanto, que as mdias dos tempos de recuperao
no so significativamente diferentes ao nvel de 5% de significncia.
O p-valor para o teste de medianas dado por Prob > |Z| = O.3222 que
maior que 0.05, ou seja, a um nvel de 5% de significncia no h diferena
significativa entre os tempos de recuperao referentes as duas tcnicas
utilizadas. O valor dado por Prob > CHISQ = 0.3222 resulta de uma aproximao
de Chi-quadrado.

Treinamento Sistema SAS

66

Prof. Luis Felipe Lopes

Ex10.: Se no exemplo anterior os cavalos fossem divididos em grupos por sexo,


Por exemplo feita no sentido de verificar a existncia de diferena entre os
tempos de recuperao dentro de cada grupo. O programa a seguir mostra
como desempenhar esta anlise.
OPTIONS FORMDLIM='*' LS=80;
DATA ANEST2
A;
/* EXEMP10 SAS */
INPUT CAVALO SEXO $ TECN $ TEMPREC;
CARDS;
l
M
A
47
2
M A
34
3
F
A
44
4
F
A
16
5
F
A
53
6
M B
79
7
M B
42
8
M B
14
9
F
B
11;
PROC SORT; BY SEXO;
PROC NPAR1WAY WILCOXON;
VAR TEMPREC;
CLASS TECN;
BY SEXO;
RUN;

ANLISE DOS RESULTADOS:


ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA
--------------------------------- SEXO=F -------------------------------N P A R 1 W A Y

P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable TEMREC


Classified by Variable TECN
TECN

Sum of
Scores

Expected
Under H0

Std Dev
Under H0

Mean
Score

A
B

3
1

9.0
1.0

7.50000000
2.50000000

1.11803399
1.11803399

3.0
1.0

Wilcoxon 2-Sample Test (Normal Approximation)


(with Continuity Correction of .5)
S=

1.00000

Z= -.894427

T-Test approx. Significance =

Prob > |Z| =


0.4370

Kruskal-Wallis Test (Chi-Square Approximation)


CHISQ= 1.8000
DF= 1
Prob > CHISQ=

Treinamento Sistema SAS

67

0.3711

0.1797

Prof. Luis Felipe Lopes

ANALISE DOS TEMPOS DE RECUPERACAO DA ANESTESIA


--------------------------------- SEXO=M -------------------------------N P A R 1 W A Y

P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable TEMREC


Classified by Variable TECN
TECN

Sum of
Scores

Expected
Under H0

Std Dev
Under H0

Mean
Score

A
B

2
3

6.0
9.0

6.0
9.0

1.73205081
1.73205081

3.0
3.0

Wilcoxon 2-Sample Test (Normal Approximation)


(with Continuity Correction of .5)
S=

6.00000

Z=

T-Test approx. Significance =

Prob > |Z| =

0.9999

0.9999

Kruskal-Wallis Test (Chi-Square Approximation)


CHISQ=
0
DF= 1
Prob > CHISQ=

0.9999

O p-valor de 0.3711 superior a 0.05, ou seja, para o grupo de fmeas no h


diferena significativa os tempos de recuperao referentes as duas tcnicas
utilizadas Prob > |Z| = 0.3711, um nvel de 5% de significncia. Para o grupo de
machos, PROB>|Z|=0.9999 tambm superior 0.05, donde se conclui que no
h diferena significativa entre os tempos de recuperao dentro deste subgrupo,
a um nvel de 5% de significncia.

11 ANLISE DE VARINCIA

11.1 Dados balanceados (PROC ANOVA)

Quando se deseja fazer inferncias sobre um conjunto de mais que duas


mdias, utiliza-se a Anlise de Varincia.
A Anlise da Varincia se resume na aplicao de um teste de hipteses
sobre um experimento projetado estatisticamente. Esta anlise permite saber se
h efeitos significativos de determinadas variveis agindo sobre os resultados
alm do erro experimental. Neste captulo, o termo ANOVA refere-se
especificamente a uma anlise paramtrica da varincia, que utilizada se
algumas suposies sobre os dados observados forem atendidas.
As suposies que envolvem uma anlise da varincia so:
- as observaes devem ser independentes: a medida para determinada
observao no afeta a medida de outra observao.
Treinamento Sistema SAS

68

Prof. Luis Felipe Lopes

- as observaes so geradas por uma distribuio normal. Se existe uma


diferena entre os grupos, talvez exista uma distribuio normal especfica para
cada grupo.
- as varincias dos grupos so iguais.
Quando o experimento consiste na anlise de uma nica varivel (ou
fator), com vrios nveis, a anlise dita ANOVA a fator nico. Para este tipo de
anlise, os procedimentos SAS no fazem distino quanto ao tipo de dados
utilizados: se balanceados ou no. Dados balanceados so aqueles cujos grupos
experimentais tem o mesmo tamanho de amostra. Dados no balanceados, o
tamanho da amostra difere para cada grupo. Ambos os procedimentos GLM e
ANOVA, tratam estes dados na devida situao.
PROC ANOVA
A PROC ANOVA para anlise da varincia a fator nico pode ser
utilizada, como visto anteriormente, para ambos dados balanceados e no
balanceados. Em geral, entretanto, no se utiliza a PROC ANOVA para dados
no alanceados. Ela utilizada para:
- Blocos aleatorizados
- Quadrados latinos
Projetos com Blocos Aleatorizados assumem que uma populao de
unidades experimentais pode ser dividida em um nmero relativamente
homogneo de subpopulaes ou blocos. Os tratamentos so aleatoriamente
atribudos s unidades experimentais dentro de cada bloco. Se todos os
tratamentos so atribudos em cada bloco, o projeto denominado Projeto com
Blocos Completamente Aleatorizados.
Para exemplificar, suponha um experimento que, em funo da durao
do mesmo, sejam efetuadas edies pela manh e outra tarde. Se a
temperatura influir na varivel resposta, a variabilidade do experimento cresce, e a
sensibilidade dos efeitos do fator em anlise ser prejudicada. Em outras
palavras, entre ma medida feita pela manh e a outra tarde, tem-se as
variabilidades devidas ao erro experimental da edio em si, ao efeito do fator (se
houver) e variao da temperatura. Como a temperatura no um fator de
interesse no experimento, pode-se dizer que ela aumentou o erro experimental.
Uma maneira de quantificar e isolar esta influncia consiste em efetuar um grupo
completo de medies, que inclua todos os nveis do fator pela manh e outro
tarde. Cada grupo ser homogneo em relao temperatura e recebe a
designao de bloco aleatorizado. Quando o projeto envolve a blocagem de mais
de um fator no experimento, ele denominado de quadrado latino, e
representado por uma forma quadrada (4 X 4) tendo o fator em estudo
representado por letras latinas.

Treinamento Sistema SAS

69

Prof. Luis Felipe Lopes

Os aspectos acima descritos dizem respeito ao controle do erro


experimental. Outro aspecto a ser considerado na Anlise de Varincia seria a
estrutura de tratamento fatorial, que pode ser aplicada qualquer esquema de
aleatorizao. Um experimento fatorial balanceado consiste de todas as possveis
combinaes dos nveis de duas ou mais variveis. Estes nveis podem se referir
quantidades numricas das variveis, tais como graus de temperatura,
quantidade de fertilizantes, ou variveis que definam categorias qualitativas, tais
como tipos de fertilizantes, condies operacionais (Temperatura: baixa, mdia ou
alta). Um exemplo de experimento fatorial o estudo envolvendo o uso de
nitrognio, fsforo e potssio, cada um trs nveis. Este experimento possui 3
**3 = 27 combinaes de tratamento. Experimentos fatoriais so utilizados para
investigar no somente todas as diferenas entre os nveis de cada fator (efeitos
principais), como tambm como os nveis de um fator afetam a varivel resposta,
em combinao com os nveis dos demais fatores (interaes).
A PROC ANOVA pode ser utilizada interativamente. Uma vez
especificado um modelo com o comando MODEL, que ser visto a seguir, e rodar
o procedimento com o comando RUN, outra variedade de comandos poder ser
executada sem que o procedimento recalcule as estatsticas do modelo geradas
inicialmente.
FORMA GERAL:
PROC ANOVA DATA = arquivo SAS;
CLASS variveis; /*tratamentos*/
MODEL dependente = efeitos / opes;
MANOVA H = varivel / opes;
MEANS efeitos / opes;
OUTPUT OUT = arquivo SAS
P= nova varivel
R = nova varivel
L95 = nova varivel
U95 = nova varivel
L95M = nova varivel
U95M=nova varivel;
RUN;
COMANDOS DISPONVEIS:
CLASS

nomeia as variveis de classificao utilizadas para identificar os


grupos para anlise. Este comando tem que aparecer antes do
comando MODEL.

MODEL

nomeia as variveis dependentes e independentes do modelo.

MANOVA

se o comando MODEL inclui mais que uma varivel dependente,


este comando fornece estatsticas multivariadas.

MEANS

gera mdias para cada nvel das variveis independentes e para a


interao dos nveis, quando existir.

Treinamento Sistema SAS

70

Prof. Luis Felipe Lopes

OUTPUT

gera arquivo de sada com as variveis que iro conter os valores


previstos, residuais, intervalos de confiana para um valor
individual da varivel dependente, e intervalos de confiana para
o valor esperado ( mdia ) da varivel dependente.

OPES DISPONIVEIS NO COMANDO MODEL:


INT

requisita teste associado ao intercepto como parmetro do


modelo. Por default, ele includo no modelo, mas o teste
associado no listado. Com esta opo o teste associado
listado.

NOINT

requisita que o intercepto no seja usado no modelo.

NOUNI

suprimi estatsticas univariadas.

OPES DISPONVEIS NO COMANDO MANOVA:


H

especifica efeitos no modelo para usar como matriz de hipteses.

PRINTH

lista a matriz de hipteses SSCP e a matriz de erro. A opo


PRINTE tambm lista uma matriz de coeficientes de correlao
parcial e derivada da matiz de erros SSCP. Esta matriz de
correlao representa a correlao das variveis dependentes
corrigidas para todos os fatores independentes definidos no
comando MODEL.

OPES DISPONVEIS NO COMANDO MEANS:


As opes especificam os testes utilizados para comparao mltipla e
so aplicadas somente para os termos de efeitos principais .
DUNCAN

desempenha teste de mltiplos ranges para todas as mdias dos


efeitos principais especificados no comando MEANS.

TUKEY

desempenha teste de ranges de Student para todas as mdias


dos efeitos principais especificados no comando MEANS.

ALPHA

d os nveis de significncia para a comparao entre as mdias.


Por default Alpha=0.05. Para a opo DUNCAN, somente os
valores 0.01, 0.05 ou 0.1 so vlidos. Nas demais opes que
desempenham testes de comparao mltipla, valores entre
0.0001 e 0.9999 so vlidos.

Treinamento Sistema SAS

71

Prof. Luis Felipe Lopes

Teste de Duncan
O teste de Duncan usado na anlise de varincia para comparar todo
e qualquer contraste entre duas mdias de tratamentos. menos rigoroso que o
Teste de Tukey, pois detecta diferena significativa entre duas mdias quando o o
teste de Tukey no o faz. um teste bastante usado em trabalhos de
laboratrios, pode ser usado tanto para tratamentos com o mesmo nmero de
repeties, quanto tratamentos com parcelas perdidas.
Teste de Tukey
O teste de Tukey usado na anlise de varincia para comparar todo e
qualquer contraste entre duas mdias de tratamentos. o teste de comparao
de mdias mais usado em experimentao, por ser bastante rigoroso e de fcil
aplicao. Ele mais exato quando os nmeros de repeties das mdias dos
tratamentos forem iguais.
Quando o Teste Tukey no der diferena significativa e o teste F for
significativo, o mesmo poder ser substitudo pelo Teste de Duncan, por ser
menos rigoroso, ou trocar o nvel de significncia para 10%, ou simplesmente
aceitar a anlise encontrada.
Teste de Scheff
O teste de Schfe usado na anlise de varincia numa forma mais
abrangente que o Teste de Duncan e de Tukey, pois permite julgar qualquer
constraste, pode ser usado tanto para duas mdias (contraste simples) como para
mais de duas mdias (contraste mltiplo), na qual ele o mais indicado, por ser
mais rigoroso que o Teste de Tukey.
Anlise dos Trs Testes
Quando o teste F da anlise de varincia no for significativo os trs
testes acima no tero efeito de aplicao (s se o teste F estiver prximo da
significncia). Para melhor visualizar a anlise comparativa das mdias, as
mdias dos tratamentos so colocadas em ordem crescente e para cada conjunto
de mdias que no diferem estatisticamente atribuda uma mesma letra, ou
seja, para letras iguais mdias estatisticamente iguais, para letras diferentes
mdias estatisticamente diferentes. Para a anlise usa-se um nvel de
significncia de 5%.

Treinamento Sistema SAS

72

Prof. Luis Felipe Lopes

ESTUDO DE CASO

11.1.1 Experimento Completamente Casualizado

Suponha que os pesquisadores de uma linha de produo automobilstica


queiram comparar o desgaste de 4 tipos de pneus.
Eles decidiram usar 4 pneus de cada tipo e posicionaram aleatoriamente
os 16 pneus em 4 carros diferentes, medindo a quantidade de desgaste em mm
aps 10.000 Km rodados pelos 4 carros em condies idnticas de direo.

Considere as seguintes questes:


1 - As unidades experimentais deste experimento so os pneus.
2 - As suposies para anlise consistem em tratamentos aleatoriamente
atribudos para as 16 posies nos 4 carros, com o desgaste por marca de
pneu sendo normalmente distribudo, com varincia comum.
3 - O modelo experimental representado por:
DESGASTE = CTE + efeito TIPO + erro
A hiptese a ser testada :
Ho: As mdias do desgaste para os 4 tipos de pneus so iguais
Leia os dados em um arquivo SAS e anlise com a PROC ANOVA a
hiptese testada.

Treinamento Sistema SAS

73

Prof. Luis Felipe Lopes

OPTIONS FORMDLIM='*' LS=80;


DATA PNEU1 A;
/* EXEMP11 SAS */
INPUT
TIPOS $ DESGASTE @@;
CARDS;
1
1.83
2
2.42
3
1.98
4
1.83
1
1.88
2
2.05
3
1,86
4
1.81
1
1.86
2
2.10
3
2.30
4
1.75
1
1.77
2
2.61
3
2.31
4
1.92
;
PROC ANOVA;
CLASS
TIPO;
MODEL
DESGASTE = TIPO;
TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO';
RUN;

ANLISE DOS RESULTADOS:


EXPERIMENTO COMPLETAMENTE CASUALIZADO
Analysis of Variance Procedure
Class Level Information
Class

Levels

TIPO

Values
1 2 3 4

Number of observations in data set = 16


EXPERIMENTO COMPLETAMENTE CASUALIZADO
Analysis of Variance Procedure
Dependent Variable: DESGASTE
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

0.62175000

0.20725000

6.37

0.0079

Error

12

0.39015000

0.03251250

Corrected Total

15

1.01190000

Source
TIPO

R-Square

C.V.

Root MSE

DESGASTE Mean

0.614438

8.937409

0.1803122

2.0175000

DF
3

Anova SS
0.62175000

Mean Square

F Value

Pr > F

0.20725000

6.37

0.0079

A estimativa da varincia do erro da populao dada por MSE (Error) = 0.032;


O R_Square descreve a quantidade de variao nos dados que se deve a
diferena existente entre os Grupos. Logo, 61% da variabilidade do modelo
explicada pela diferena entre os tipos dos pneus.

Treinamento Sistema SAS

74

Prof. Luis Felipe Lopes

O p-valor dado por Pr > F = 0.0079 inferior ao nvel de significncia de 0.10,


donde se conclui que a mdia do desgaste significativamente diferente para os
diferentes tipos de pneus.
A Soma dos Quadrados (SS) mede a quantidade de variao atribuda a uma
dada fonte. Note que Model SS e Error SS somam a variao total do modelo.
A mdia global do desgaste dos pneus dada por DESGASTE Mean.
O coeficiente de variao CV calculado multiplicando o desvio padro por 100 e
dividindo pela mdia, ou seja. 100 (std/mean).

11.1.2 Experimento com Blocos Aleatorizados

A fim de controlar a influncia do fator tipo de carro no desgaste dos


pneus, decidiu-se coletar medidas do desgaste de modo que cada tipo de pneu
aparecesse em cada carro, Logo, cada carro consiste num bloco de edies, o
que permite:
- O controle da variao que se deve aos diferentes tipos de carro.
- A eliminao da variao de cada carro em relao aos tipos de pneus
utilizados.
- A obteno de uma preciso maior do erro do experimento.
O modelo experimental em questo dado por:
DESGASTE = CTE + efeito TIPO + efeito CARRO + erro
Os efeitos dos blocos so aditivos, ou seja, no existe interao entre o
tipo de pneu e o tipo de carro. O novo experimento tem o seguinte layout:

Treinamento Sistema SAS

75

Prof. Luis Felipe Lopes

OPTIONS FORMDLIM='*' LS=80;


DATA PNEU2 A;
/* EXEMP12 SAS */
INPUT TIPO $ CARRO DESGASTE @@;
CARDS;
A
l
1.51
A
2
1.71
A
3
1.78
A
B
l
2.36
B
2
2.45
B
3
2.24
B
C
l
2.20
C
2
2.05
C
3
2.01
C
D
l
1.51
D
2
2.22
D
3
1.73
D
;
PROC ANOVA;
CLASS
TIPO
CARRO;
MODEL DESGASTE = TIPO CARRO;
TITLE 'EXPERIMENTO COM BLOCOS ALEATORIZADOS';
RUN;

4
4
4
4

1.80
2.41
2.01
1.80

ANLISE DOS RESULTADOS:


EXPERIMENTO COM BLOCOS ALEATORIZADOS
Analysis of Variance Procedure
Class Level Information
Class

Levels

Values

TIPO

A B C D

CARRO

1 2 3 4

Number of observations in data set = 16


*************************************************************************
EXPERIMENTO COM BLOCOS ALEATORIZADOS
Analysis of Variance Procedure
Dependent Variable: DESGASTE
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

1.14733750

0.19122292

6.51

0.0068

Error

0.26440625

0.02937847

15

1.41174375

R-Square

C.V.

Root MSE

DESGASTE Mean

0.812709

8.626687

0.1714015

1.9868750

Source

DF

Anova SS

Mean Square

F Value

Pr > F

TIPO
CARRO

3
3

1.04526875
0.10206875

0.34842292
0.03402292

11.86
1.16

0.0018
0.3780

Corrected Total

Treinamento Sistema SAS

76

Prof. Luis Felipe Lopes

Pode-se notar que estimativa da varincia do erro deste experimento inferior a


vista anteriormente. O fator de blocagem CARRO poderia ser retirado do
experimento, uma vez que ele no significativo.

11.1.3 Experimento com Quadrado Latino

A localizao do pneu no carro pode ter algum efeito sobre o resultado do


desgaste.
Se o interesse for controlar o efeito da localizao do pneu a fim de se
obter uma idia melhor do tipo de pneu no desgaste, os tipos de pneus devem ser
posicionados da seguinte maneira:

Nesse experimento cada tipo de pneu aparece em cada carro, todos os


tipos em diferentes posies.
O modelo experimental dado por:
DESGASTE = CTE + TIPO + CARRO + POS + ERRO

Os efeitos dos blocos (carro e posio do pneu) so aditivos. Analise a


varincia do experimento apresentado.
OPTIONS FORMDLIM='*' LS=80;
DATA PNEU3 A;
/* EXEMP13 SAS */
INPUT CARRO POS
TIPO $ DESGASTE
CARDS;
1 l B 2.23 2 l C 2.31 3 l D 2.07
l 2 C 2.04 2 2 D 1.97 3 2 A 1.69
1 3 D 1.78 2 3 A 1.73 3 3 B 2.20
1 4 A 1.64 2 4 B 2.22 3 4 C 1.80
;
PROC ANOVA;
CLASS CARRO POS TIPO;
MODEL DESGASTE = CARRO POS TIPO;
TITLE 'EXPERIMENTO COM QUADRADO LATINO';
RUN;

4
4
4
4

1
2
3
4

A
B
C
D

1.97
2.59
2.25
1.86

ANLISE DOS RESULTADOS:


Treinamento Sistema SAS

77

Prof. Luis Felipe Lopes

EXPERIMENTO COM QUADRADO LATINO


Analysis of Variance Procedure
Class Level Information
Class

Levels

Values

CARRO

1 2 3 4

POS

1 2 3 4

TIPO

A B C D

Number of observations in data set = 16


*************************************************************************
EXPERIMENTO COM QUADRADO LATINO
Analysis of Variance Procedure
Dependent Variable: DESGASTE
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

0.98925625

0.10991736

9.99

0.0055

Error

0.06598750

0.01099792

15

1.05524375

Corrected Total

R-Square

C.V.

Root MSE

DESGASTE Mean

0.937467

5.186817

0.1048710

2.0218750

Source

DF

Anova SS

Mean Square

F Value

Pr > F

CARRO
POS
TIPO

3
3
3

0.15621875
0.15546875
0.67756875

0.05207292
0.05182292
0.22585625

4.73
4.71
20.54

0.0505
0.0510
0.0015

Observa-se uma reduo na varincia do erro experimental MS(ERROR) = 0.010.


O modelo apresentado explica 93.75% da variabilidade do experimento. O tipo de
pneu um fator significativo para o modelo, pois Pr > F = 0.0055 inferior ao
nvel de significncia de 0.10.

Treinamento Sistema SAS

78

Prof. Luis Felipe Lopes

12 EXERCCIOS RESOLVIDOS E COMENTADOS


1) Um analista de uma cadeia de lanchonetes quer investigar o relacionamento
entre o nmero de atendentes no balco self-service e as vendas de caf.
Quatorze lanchonetes foram escolhidas para teste por serem similares em
alguns aspectos tais como: volume total de negcios, tipo de clientela e
localizao. O nmero de atendentes que so colocados nas lanchonetes-teste
varia de zero a sete (o caf servido numa linha de atendimento), e
distribudo aleatoriamente em cada lanchonete, como mostra os dados abaixo:
No de
Atendentes
5
1
0
7
5
2
0
6
4
1
6
7
2
4

Vendas
729,1
568,2
508,1
854,7
787,6
651,7
498,4
841,4
755,3
577,3
831,8
871,4
657,0
758,9

Crie um arquivo LANCHE.SAS para:


A) Criar uma tabela das vendas de caf X nmero de atendentes e plote o grfico.
B) Ajustar um modelo linear de regresso das vendas em funo do nmero de
atendentes. Verifique a existncia de pontos fora do padro, e, atravs da
PROC UNIVARIATE, verifique a qualidade do ajuste.
C) Idem para o modelo quadrtico.

D) Caso seja identificado algum outlier, elimine-o da anlise e verifique


novamente a qualidade dos resduos.
OPTIONS FORMDLIM='*' LS=80;
DATA LANCHES A;
INPUT NO_AT VENDAS @@;
NUM2=NO_AT*NO_AT;
CARDS;
5 729.1 1 568.2 0 508.1 7 854.7 5 787.6
2 651.7 0 498.4 6 841.4 4 755.3 1 577.3
6 831.8 7 871.4 2 657.0 4 758.9
;
/* #############( A )################## */
PROC FREQ;
TABLES NO_AT*VENDAS /LIST;
TITLE 'TABELA NO ATENDENTES * VENDAS';

Treinamento Sistema SAS

79

Prof. Luis Felipe Lopes

RUN;
PROC PLOT;
PLOT VENDAS*NO_AT='*';
TITLE 'DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES';
RUN;
/* #############( B )################## */
PROC REG;
MODEL VENDAS=NO_AT /R;
PLOT R.*NO_AT='*';
OUTPUT OUT=RESIDUO1 R=RESID1;
TITLE 'REGRESSAO LINEAR DE VENDAS * NO ATENDENTES';
PROC UNIVARIATE DATA=RESIDUO1 NORMAL;
VAR RESID1;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR';
RUN;
/* #############( C )################## */
PROC REG;
MODEL VENDAS=NO_AT NUM2 /R;
PLOT R.*NO_AT='*';
OUTPUT OUT=RESIDUO2 R=RESID2;
TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES';
PROC UNIVARIATE DATA=RESIDUO2 NORMAL;
VAR RESID2;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO';
RUN;
/* #############( D )################## */
PROC REG;
MODEL VENDAS=NO_AT NUM2 /R;
WHERE NO_AT NE 5 OR VENDAS NE 729.1;
PLOT R.*NO_AT='*';
OUTPUT OUT=RESIDUO3 R=RESID3;
TITLE 'REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS';
PROC UNIVARIATE DATA=RESIDUO3 NORMAL;
VAR RESID3;
TITLE 'TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS';
RUN;

A)

TABELA NO ATENDENTES * VENDAS


Cumulative Cumulative
NO_AT VENDAS
Frequency Percent
Frequency
Percent
---------------------------------------------------------0
498.4
1
7.1
1
7.1
0
508.1
1
7.1
2
14.3
1
568.2
1
7.1
3
21.4
1
577.3
1
7.1
4
28.6
2
651.7
1
7.1
5
35.7
2
657.0
1
7.1
6
42.9
4
755.3
1
7.1
7
50.0
4
758.9
1
7.1
8
57.1
5
729.1
1
7.1
9
64.3
5
787.6
1
7.1
10
71.4
6
831.8
1
7.1
11
78.6
6
841.4
1
7.1
12
85.7
7
854.7
1
7.1
13
92.9
7
871.4
1
7.1
14
100.0

Treinamento Sistema SAS

80

Prof. Luis Felipe Lopes

DIAGRAMA DE DISPERSAO VENDAS * NO ATENDENTES


Plot of VENDAS*NO_AT.

Symbol used is '*'.

900 +
|
|
*
|
*
850 +
|
*
|
*
|
800 +
V
|
*
E
|
N
|
*
D750 +
A
|
S
|
|
*
700 +
|
|
|
*
650 +
*
|
|
|
600 +
|
|
*
|
*
550 +
|
|
|*
500 +*
-+--------+--------+--------+--------+--------+--------+--------+0
1
2
3
4
5
6
7
NO_AT
NOTE: 1 obs hidden.

B)
REGRESSAO LINEAR DE VENDAS * NO ATENDENTES
Model: MODEL1
Dependent Variable: VENDAS
Analysis of Variance
Source

DF

Model
Error
C Total

1
12
13

Root MSE
Dep Mean
C.V.

Sum of
Squares
211484.38607
7725.12322
219209.50929
25.37243
706.49286
3.59132

Mean
Square
211484.38607
643.76027
R-square
Adj R-sq

F Value

Prob>F

328.514

0.0001

0.9648
0.9618

Parameter Estimates
Variable

DF

Parameter
Estimate

Standard
Error

T for H0:
Parameter=0

Prob > |T|

INTERCEP
NO_AT

1
1

526.678767
50.347945

12.01686851
2.77782371

43.828
18.125

0.0001
0.0001

REGRESSAO LINEAR DE VENDAS * NO ATENDENTES

Treinamento Sistema SAS

81

Prof. Luis Felipe Lopes

Obs

Dep Var
VENDAS

Predict
Value

Std Err
Predict

Residual

Std Err
Residual

Student
Residual

1
2
3
4
5
6
7
8
9
10
11
12
13
14

729.1
568.2
508.1
854.7
787.6
651.7
498.4
841.4
755.3
577.3
831.8
871.4
657.0
758.9

778.4
577.0
526.7
879.1
778.4
627.4
526.7
828.8
728.1
577.0
828.8
879.1
627.4
728.1

7.857
9.849
12.017
11.691
7.857
8.065
12.017
9.565
6.885
9.849
9.565
11.691
8.065
6.885

-49.3185
-8.8267
-18.5788
-24.4144
9.1815
24.3253
-28.2788
12.6336
27.2295
0.2733
3.0336
-7.7144
29.6253
30.8295

24.125
23.383
22.346
22.518
24.125
24.057
22.346
23.500
24.420
23.383
23.500
22.518
24.057
24.420

-2.044
-0.377
-0.831
-1.084
0.381
1.011
-1.265
0.538
1.115
0.012
0.129
-0.343
1.231
1.262

Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14

Cook's
D

-2-1-0 1 2
|
|
|
|
|
|
|
|
|
|
|
|
|
|

****|
|
*|
**|
|
|**
**|
|*
|**
|
|
|
|**
|**

|
|
|
|
|
|
|
|
|
|
|
|
|
|

Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)

Treinamento Sistema SAS

0.222
0.013
0.100
0.158
0.008
0.057
0.232
0.024
0.049
0.000
0.001
0.016
0.085
0.063
0
7725.1232
10165.3789

82

Prof. Luis Felipe Lopes

REGRESSAO LINEAR DE VENDAS * NO ATENDENTES


RESIDUAL
------+-------+-------+-------+-------+-------+-------+-------+-----|
|
40 +
+
|
*
|
|
*
|
|
*
|
|
*
|
20 +
+
|
*
|
|
*
|
|
|
|
*
|
0 +
*
+
|
*
|
|
*
|
|
|
|
*
|
-20+
+
|
*
|
|
|
|
*
|
|
|
-40+
+
|
|
|
|
|
*
|
|
|
-60+
+
------+-------+-------+-------+-------+-------+-------+-------+-----0
1
2
3
4
5
6
7
NO_AT
TESTE DA NORMALIDADE DOS RESIDUOS - LINEAR
Univariate Procedure
Variable=RESID1

Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal

14
0
24.37704
-0.44594
7725.123
.
0
14
1
4.5
0.952408

Treinamento Sistema SAS

Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W

83

14
0
594.2402
-0.49803
7725.123
6.515039
1.0000
8
0.7905
0.8077
0.5667

Prof. Luis Felipe Lopes

Quantiles(Def=5)
100%
75%
50%
25%
0%

Max
Q3
Med
Q1
Min

Range
Q3-Q1
Mode

30.82945
24.32534
1.653425
-18.5788
-49.3185

99%
95%
90%
10%
5%
1%

80.14795
42.90411
-49.3185

30.82945
30.82945
29.62534
-28.2788
-49.3185
-49.3185

Extremes
Lowest
-49.3185(
-28.2788(
-24.4144(
-18.5788(
-8.82671(

Obs

1)
7)
4)
3)
2)

Highest
12.63356(
24.32534(
27.22945(
29.62534(
30.82945(

Obs

8)
6)
9)
13)
14)

COMENTRIO:
O modelo de regresso linear explica 96.48% da variabilidade das vendas de
caf. Tanto o intercepto quanto o parmetro relativo ao nmero de atendentes so
significativos para o modelo (p-valor=0.0001).O plote dos resduos de Student
indica que a 1a observao do arquivo est num range suspeito. O plote dos
resduos sugere a necessidade de um termo quadrtico. No teste de normalidade
obtido com a PROC UNIVARIATE, h indicao de normalidade dos resduos. Um
termo quadrtico deve ser considerado nas anlises.
C)

REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES

Model: MODEL1
Dependent Variable: VENDAS
Analysis of Variance
Source

DF

Model
Error
C Total

2
11
13

Root MSE
Dep Mean
C.V.

Sum of
Squares

Mean
Square

F Value

Prob>F

214249.72406
4959.78522
219209.50929

107124.86203
450.88957

237.586

0.0001

21.23416
706.49286
3.00557

R-square
Adj R-sq

0.9774
0.9733

Parameter Estimates
Variable

DF

INTERCEP
NO_AT
NUM2

1
1
1

Parameter
Estimate

Standard
Error

T for H0:
Parameter=0

Prob > |T|

507.641529
12.65833646
40.103
0.0001
72.191126
9.12139574
7.914
0.0001
-3.151289
1.27247482
-2.477
0.0308
REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES

Dep Var

Predict

Treinamento Sistema SAS

Std Err

Std Err

84

Student

Prof. Luis Felipe Lopes

Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14
Obs
1
2
3
4
5
6
7
8
9
10
11
12
13
14

VENDAS
729.1
568.2
508.1
854.7
787.6
651.7
498.4
841.4
755.3
577.3
831.8
871.4
657.0
758.9

Value

Predict

Residual

Residual

Residual

789.8
576.7
507.6
858.6
789.8
639.4
507.6
827.3
746.0
576.7
827.3
858.6
639.4
746.0

8.026
8.244
12.658
12.829
8.026
8.319
12.658
8.026
9.248
8.244
8.026
12.829
8.319
9.248

-60.7149
-8.4814
0.4585
-3.8663
-2.2149
12.2814
-9.2415
14.0581
9.3146
0.6186
4.4581
12.8337
17.5814
12.9146

19.659
19.569
17.049
16.921
19.659
19.537
17.049
19.659
19.114
19.569
19.659
16.921
19.537
19.114

-3.088
-0.433
0.027
-0.228
-0.113
0.629
-0.542
0.715
0.487
0.032
0.227
0.758
0.900
0.676

Cook's
D

-2-1-0 1 2
|******|
|
|
|
|
|
|
|
|
|
|*
|
*|
|
|*
|
|
|
|
|
|
|
|*
|
|*
|
|*

|
|
|
|
|
|
|
|
|
|
|
|
|
|

Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)

Treinamento Sistema SAS

0.530
0.011
0.000
0.010
0.001
0.024
0.054
0.028
0.019
0.000
0.003
0.110
0.049
0.036
0
4959.7852
7100.0421

85

Prof. Luis Felipe Lopes

REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES


RESIDUAL
------+-------+-------+-------+-------+-------+-------+-------+-----20 +
+
|
*
|
|
*
*
*
|
|
*
|
10 +
*
+
|
|
|
*
|
|
|
0 +
*
*
+
|
*
|
|
*
|
|
*
|
-10 +
*
+
|
|
|
|
|
|
-20 +
+
|
|
|
|
|
|
-30 +
+
|
|
|
|
|
|
-40 +
+
|
|
|
|
|
|
-50 +
+
|
|
|
|
|
|
-60 +
*
+
------+-------+-------+-------+-------+-------+-------+-------+-----0
1
2
3
4
5
6
7
NO_AT
TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO
Univariate Procedure
Variable=RESID2

Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal

14
0
19.53259
-2.52959
4959.785
.
0
14
2
18.5
0.714683

Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W

14
0
381.5219
7.77964
4959.785
5.220303
1.0000
9
0.4240
0.2676
0.0004

Quantiles(Def=5)
100%
75%
50%
25%
0%

Max
Q3
Med
Q1
Min

Range
Q3-Q1

17.58138
12.83375
2.538376
-3.86625
-60.7149

99%
95%
90%
10%
5%
1%

17.58138
17.58138
14.05812
-9.24153
-60.7149
-60.7149

78.29631
16.7

Treinamento Sistema SAS

86

Prof. Luis Felipe Lopes

Mode

-60.7149
Extremes

Lowest
-60.7149(
-9.24153(
-8.48137(
-3.86625(
-2.21494(

Obs
1)
7)
2)
4)
5)

Highest
12.28138(
12.83375(
12.91459(
14.05812(
17.58138(

Obs
6)
12)
14)
8)
13)

COMENTRIO:
No ajuste quadrtico observa-se que a soma dos quadrados devido ao erro da
regresso diminuiu relativamente regresso linear, e o R-square aumentou para
97.74%. Todos os parmetros relativos ao ajuste quadrtico so significativos
para o modelo ao nvel de 5%. Os resduos indicam aleatoriedade (alternncia
homognea de pontos positivos e negativos). Com o plote dos resduos de
Student, pode-se verificar a existncia de um ponto fora do padro. Para verificar
a qualidade do ajuste, indica-se o teste para a normalidade dos resduos. Ao nvel
de = 5% de significncia, Prob<W=0.0004<, indicando a no normalidade dos
resduos. Considerando a 1a observao como um 'outlier', ela pode estar
influenciando nos resultados. O mesmo ajuste pode ser efetuado eliminando esta
observao.
D)

REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS

Model: MODEL1
Dependent Variable: VENDAS
Analysis of Variance
Sum of
Squares

Source

DF

Model
Error
C Total

2 218000.01432
10
659.09799
12 218659.11231

Root MSE
Dep Mean
C.V.

8.11849
704.75385
1.15196

Treinamento Sistema SAS

Mean
Square
109000.00716
65.90980
R-square
Adj R-sq

87

F Value

Prob>F

1653.775

0.0001

0.9970
0.9964

Prof. Luis Felipe Lopes

Parameter Estimates
Variable

DF

Parameter
Estimate

Standard
Error

T for H0:
Parameter=0

Prob > |T|

INTERCEP
NO_AT
NUM2

1
1
1

502.811932
79.780492
-4.071212

4.87646962
3.61173750
0.49965821

103.110
22.089
-8.148

0.0001
0.0001
0.0001

REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS


Obs

Dep Var
VENDAS

Predict
Value

Std Err
Predict

Residual

Std Err
Residual

Student
Residual

1
2
3
4
5
6
7
8
9
10
11
12
13

568.2
508.1
854.7
787.6
651.7
498.4
841.4
755.3
577.3
831.8
871.4
657.0
758.9

578.5
502.8
861.8
799.9
646.1
502.8
834.9
756.8
578.5
834.9
861.8
646.1
756.8

3.160
4.876
4.921
3.314
3.286
4.876
3.209
3.781
3.160
3.209
4.921
3.286
3.781

-10.3212
5.2881
-7.0860
-12.3341
5.6119
-4.4119
6.4688
-1.4945
-1.2212
-3.1312
9.6140
10.9119
2.1055

7.478
6.491
6.457
7.411
7.424
6.491
7.457
7.184
7.478
7.457
6.457
7.424
7.184

-1.380
0.815
-1.097
-1.664
0.756
-0.680
0.867
-0.208
-0.163
-0.420
1.489
1.470
0.293

Obs
1
2
3
4
5
6
7
8
9
10
11
12
13

Cook's
D

-2-1-0 1 2
|
|
|
|
|
|
|
|
|
|
|
|
|

**|
|*
**|
***|
|*
*|
|*
|
|
|
|**
|**
|

|
|
|
|
|
|
|
|
|
|
|
|
|

Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)

Treinamento Sistema SAS

0.113
0.125
0.233
0.185
0.037
0.087
0.046
0.004
0.002
0.011
0.429
0.141
0.008
0
659.0980
1140.4168

88

Prof. Luis Felipe Lopes

REGRESSAO QUADRATICA DE VENDAS * NO ATENDENTES S/ OUTLIERS


RESIDUAL
------+-------+-------+-------+-------+-------+-------+-------+-----|
|
15 +
+
|
|
|
|
|
*
|
10 +
+
|
*
|
|
*
|
|
*
|
5 +
*
+
|
|
|
*
|
|
|
0 +
+
|
*
*
|
|
*
|
|
*
|
-5 +
+
|
|
|
*
|
|
|
-10 +
*
+
|
*
|
|
|
|
|
-15 +
+
|
|
------+-------+-------+-------+-------+-------+-------+-------+-----0
1
2
3
4
5
6
7
NO_AT
TESTE DA NORMALIDADE DOS RESIDUOS - QUADRATICO S/ OUTLIERS
Univariate Procedure
Variable=RESID3

Residual
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal

13
0
7.411129
-0.1599
659.098
.
0
13
-0.5
0.5
0.965059

Treinamento Sistema SAS

Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|
Pr<W

89

13
0
54.92483
-1.01313
659.098
2.055477
1.0000
6
1.0000
1.0000
0.7796

Prof. Luis Felipe Lopes

Quantiles(Def=5)
100%
75%
50%
25%
0%

Max
Q3
Med
Q1
Min

Range
Q3-Q1
Mode

10.91193
5.611932
-1.22121
-4.41193
-12.3341

99%
95%
90%
10%
5%
1%

23.24602
10.02386
-12.3341

10.91193
10.91193
9.614015
-10.3212
-12.3341
-12.3341

Extremes
Lowest
-12.3341(
-10.3212(
-7.08598(
-4.41193(
-3.13125(

Obs

4)
1)
3)
6)
10)

Highest
5.288068(
5.611932(
6.46875(
9.614015(
10.91193(

Obs

2)
5)
7)
11)
12)

COMENTRIO:
O coeficiente de determinao para este ajuste de 99,70%. A soma dos
quadrados devido ao erro da regresso caiu de 4959,78 para 659,09, e no teste
da normalidade de resduos o p-valor associado Pr<W=0.77>, indicando a
normalidade dos resduos.
2) Trs testes foram aplicados para a admisso de crianas em uma escola. So
eles: Inteligncia, Psicomotricidade e Motivao. Os coeficientes de rendimento
so guardados em uma varivel chamada CR. As notas e o CR obtidos por
cada criana so mostrados a seguir. Criar um arquivo TESTE.SAS para
resolver este problema.
QI
80
75
71
71
71
65
60
60
59
57
65

PSICO
36
35
34
33
30
35
20
25
31
31
35

MOTIVA
10
10
9
9
10
9
7
7
9
9
9

CR
10
10
9
9
8
7
7
7
7
7
8

A) O pedagogo deseja verificar a validade destes testes, ou seja, eles tem


importncia significativa no processo de seleo da escola? Use a PROC
CORR para verificar o grau de associao de cada teste com o coeficiente de
rendimento dos alunos.

Treinamento Sistema SAS

90

Prof. Luis Felipe Lopes

B) A varivel CR depende das notas obtidas pelas crianas nos trs


testes. Supondo que o CR vai linearmente de acordo com as notas, testar
pela anlise da varincia, a significncia da equao de regresso.
Primeiramente ajuste um modelo de regresso mltipla aos dados e,
passo a passo, identifique as variveis mais significativas para o modelo.
OPTIONS FORMDLIM='*' LS=80;
DATA TESTE A;
INPUT QI PSICO MOTIVA CR @@;
CARDS;
80 36 10 10 75 35 10 10
71 34 9 9 71 33 9 9
71 30 10 8 65 35 9 7
60 20 7 7 60 25 7 7
59 31 9 7 57 31 9 7
65 35 9 8
;
/* #############( A )################## */
PROC CORR;
VAR QI PSICO MOTIVA;
WITH CR;
TITLE 'ANALISE DE CORRELACAO';
RUN;
/* #############( B.1 )################ */
PROC REG;
MODEL CR = QI PSICO MOTIVA;
OUTPUT OUT=RESID1 R=RESIDUAL;
PLOT RESIDUAL.*PREDICTED.='*';
TITLE 'ANALISE DE REGRESSAO MULTIPLA';
RUN;
/* #############( B.2 )################ */
PROC REG;
MODEL CR = QI /NOINT;
OUTPUT OUT=RESID2 R=RESIDUAL;
PLOT RESIDUAL.*PREDICTED.='*';
TITLE 'ANALISE DE REGRESSAO MULTIPLA';
PROC UNIVARIATE NORMAL PLOT;
VAR RESIDUAL;
TITLE 'ANALISE DOS RESIDUOS';
RUN;

A)

ANALISE DE CORRELACAO
Correlation Analysis
3 'VAR'

1 'WITH' Variables: CR
Variables: QI
PSICO

MOTIVA

Simple Statistics
Variable
CR
QI
PSICO
MOTIVA

Mean

Std Dev

Sum

Minimum

Maximum

11 8.09091
11 66.72727
11 31.36364
11 8.90909

1.22103
7.41742
4.92489
1.04447

89.00000
734.00000
345.00000
98.00000

7.00000
57.00000
20.00000
7.00000

10.00000
80.00000
36.00000
10.00000

Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 11

CR

QI

PSICO

MOTIVA

0.93048
0.0001

0.59261
0.0547

0.63442
0.0360

COMENTRIO:

Treinamento Sistema SAS

91

Prof. Luis Felipe Lopes

QI um fator significativamente importante dentro do processo de seleo dos


alunos: Coef. Corr. Pearson (QI) = 0.93 e p-valor = 0.00001 < , para nveis de
1%, 5% e 10%. O p-valor associado ao teste de correlao nula para PSICO
supera os nveis usuais de significncia, evidenciando a hiptese nula, ou seja, a
correlao baixa entre a varivel PSICO e o CR do aluno. Ao nvel de 1% de
significncia h evidncia de H0. J aos nveis de 5% e 10% h indicaes que a
verdadeira correlao entre CR e MOTIVA difere de zero.
B.1)

ANALISE DE REGRESSAO MULTIPLA

Model: MODEL1
Dependent Variable: CR
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

F Value

Prob>F

Model
Error
C Total

3
7
10

12.97836
1.93073
14.90909

4.32612
0.27582

15.685

0.0017

Root MSE
Dep Mean
C.V.

0.52518
8.09091
6.49104

R-square
Adj R-sq

0.8705
0.8150

Parameter Estimates
Variable

DF

Parameter
Estimate

Standard
Error

T for H0:
Parameter=0

Prob > |T|

INTERCEP
QI
PSICO
MOTIVA

1
1
1
1

-2.009199
0.151679
0.030064
-0.108196

1.61813951
0.03066149
0.05964986
0.30874764

-1.242
4.947
0.504
-0.350

0.2543
0.0017
0.6297
0.7363

Treinamento Sistema SAS

92

Prof. Luis Felipe Lopes

ANALISE DE REGRESSAO MULTIPLA


RESIDUAL
------+------+------+------+------+------+------+------+------+-----0.8 +
+
|
|
|
*
|
|
|
0.6 +
+
|
|
|
|
0.4 +
*
+
|
|
|
*
|
0.2 +
*
+
|
*
|
|
*
*
|
|
|
0.0 +
+
|
*
|
|
*
|
|
|
-0.2+
+
|
|
|
|
|
|
-0.4+
+
|
|
|
|
|
*
|
-0.6+
+
|
|
|
|
|
|
-0.8+
+
|
|
|
*
|
|
|
-1.0+
+
------+------+------+------+------+------+------+------+------+-----6.5
7.0
7.5
8.0
8.5
9.0
9.5
10.0
10.5
Predicted Value of CR
PRED

COMENTRIO:
O modelo obtido para CR, com a Regresso Mltipla dados por:
CR= -2.01 + 0.15 QI + 0.03 PSICO - 0.11 MOTIVA
Pode-se notar que o erro padro relativo estimativa do parmetro de QI bem
pequeno (Standard Error=0.03). Este modelo explica 87% da variao de CR.
Como Prob>F=0.0017 'fechado' em zero, h evidncias da hiptese nula, isto ,
ao menos 1 parmetro do modelo deve ser diferente de zero. O p-valor para o
intercepto, PSICO e MOTIVA so altos, havendo grandes chances dos
parmetros relativos estas variveis serem iguais a zero. J o parmetro relativo
varivel QI (pvalor = 0.0015), existe forte evidncia que seja significativamente
diferente de zero. Podemos testar portanto, um novo modelo de regresso, porm
sem o intercepto e apenas com a varivel QI.
A rotina (B.2) desempenham esta tarefa.
ANALISE DE REGRESSAO MULTIPLA
Model: MODEL1
NOTE: No intercept in model. R-square is redefined.

Treinamento Sistema SAS

93

Prof. Luis Felipe Lopes

Dependent Variable: CR
Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

F Value

Prob>F

Model
Error
U Total

1
10
11

732.44486
2.55514
735.00000

732.44486
0.25551

2866.554

0.0001

Root MSE
Dep Mean
C.V.

0.50548
8.09091
6.24755

R-square
Adj R-sq

0.9965
0.9962

Parameter Estimates
DF

Parameter
Estimate

Standard
Error

T for H0:
Parameter=0

Prob > |T|

0.121608

0.00227134

53.540

0.0001

Treinamento Sistema SAS

94

Variable
QI

Prof. Luis Felipe Lopes

ANALISE DE REGRESSAO MULTIPLA


RESIDUAL
----+----+----+----+----+----+----+----+----+----+----+----+----+---|
|
1.0 +
+
|
|
|
*
|
0.8 +
+
|
|
|
|
0.6 +
+
|
|
|
|
0.4 +
+
|
*
|
|
*
|
0.2 +
+
|
*
|
|
*
|
0.0 +
+
|
|
|
*
|
-0.2+
+
|
|
|
*
|
-0.4+
+
|
|
|
|
-0.6+
+
|
*
|
|
|
-0.8+
+
|
|
|
*
|
-1.0+
+
|
|
----+----+----+----+----+----+----+----+----+----+----+----+----+---6.75 7.00 7.25 7.50 7.75 8.00 8.25 8.50 8.75 9.00 9.25 9.50 9.75
Predicted Value of CR
PRED
ANALISE DOS RESIDUOS
Univariate Procedure
Variable=RESIDUAL

Residual
Moments

N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank
W:Normal
100%
75%
50%
25%
0%

Max
Q3
Med
Q1
Min

Range
Q3-Q1
Mode

11 Sum Wgts
11
0 Sum
0
0.4394 Variance
0.193073
-0.89363 Kurtosis
1.147284
1.930728 CSS
1.930728
. Std Mean
0.132484
0 Pr>|T|
1.0000
11 Num > 0
7
1.5 Pr>=|M|
0.5488
5 Pr>=|S|
0.7002
0.925844 Pr<W
0.3534
Quantiles(Def=5)
0.663001
0.221649
0.071596
-0.12546
-0.9284

99%
95%
90%
10%
5%
1%

1.591405
0.347107
-0.9284

0.663001
0.663001
0.405283
-0.57997
-0.9284
-0.9284

Extremes
Lowest
-0.9284(

Treinamento Sistema SAS

Obs

Highest
6) 0.101925(

95

Obs

9)

Prof. Luis Felipe Lopes

-0.57997(
-0.12546(
-0.08576(
0.064553(
Stem
6
4
2
0
-0
-2
-4
-6
-8

5) 0.191585(
1) 0.221649(
8) 0.405283(
7) 0.663001(

Leaf
6
1
2
6709
39

#
1
1
1
4
2

3)
4)
10)
2)
Boxplot
|
|
+-----+
*--+--*
+-----+
|
|

3
1
0
----+----+----+----+
Multiply Stem.Leaf by 10**-1
ANALISE DOS RESIDUOS
Univariate Procedure

Variable=RESIDUAL

Residual

Normal Probability Plot


0.7+
++*++
|
+*++
|
++*++
|
* *+*++*
-0.1+
* *++++
|
+++++
|
++*+
|
+++++
-0.9+
++++ *
+----+----+----+----+----+----+----+----+----+----+
-2
-1
0
+1
+2

COMENTRIO:
A regresso linear de CR em funo unicamente do QI da criana bem
significativa. O modelo proposto CR= 0.12 QI explica 99.65% da variabilidade do
CR. O grfico do resduos apresenta uma alternncia de sinais positivos e
negativos, indicando aleatoriedade. Para verificar a qualidade deste ajuste:
A hiptese de normalidade no deve ser rejeitada, pois Prob<W=0.35 alto. O
valor para a assimetria Skewness = -0.894, encontra-se dentro do intervalo de [1.26, 1.26], confirmando a hiptese testada.
3) Um proprietrio est interessado em analisar o efeito de seu ar condicionado
na sua conta de luz. Para isto ele tem registrado o nmero de horas de
utilizao do ar nos ltimos 21 dias. Ele tem monitorado o relgio de
eletricidade para estes dias e computado a quantidade de eletricidade
consumida, Killowat/Hora. Finalmente ele registrou o nmero de vezes que
sua secadora foi usada a cada dia. Crie um arquivo SAS com os registros
abaixo, relativos ao consumo de eletricidade do proprietrio.
CONSUMO
35
63
66
17
94
Treinamento Sistema SAS

NO_HORA
S
1,5
4,5
5,0
2,0
8,5
96

USO_SEC
1
2
2
0
3
Prof. Luis Felipe Lopes

79
93
66
94
82
78
65
77
75
62
85
43
57
33
65
33

6,0
13,5
8,0
12,5
7,5
6,5
8,0
7,5
9,0
7,5
12,0
6,0
2,5
5,0
7,5
6,0

3
1
1
1
2
3
1
2
2
1
1
0
3
0
1
0

Pede-se:
A) Obter um plot do Consumo X Nmero de Horas ar para verificar o efeito que o
ar condicionado tem no consumo de eletricidade.
B) Use a PROC CORR para obter o coeficiente de correlao entre o consumo e
o tempo de utilizao do ar.
C) Para verificar a forma de relacionamento entre as duas variveis acima
descritas utilize a anlise de regresso fazendo o ajuste de uma reta atravs
dos pontos obtidos no plot do item A.
D) Suponha que o proprietrio queira predizer o consumo em um dia que o ar seja
usado por 8 horas. Com a reta ajustada calcule o valor predito para o consumo
quando o Nmero de Horas ar = 8

Treinamento Sistema SAS

97

Prof. Luis Felipe Lopes

E) O plot do item A mostra que o valor do consumo para um dia de 8 horas de


utilizao de ar varia num range de 45 a 85 KWH,
dependendo de outros fatores que possam afetar o consumo
naquele dia . O proprietrio pode colocar limites de confiana
para um determinado valor predito, como o encontrado no
Item D. Estes limites fornecem um range provvel para
ocorrncia do no. de KWH consumido em um determinado
dia. Com a PROC REG riste os valores preditos do consumo
e os respectivos limites de predio .
F) Para melhor visualizao grfica do ajuste, obter um plot que contenha os
valores do no. de horas de utilizao do ar, os valores preditos e os limites de
predio a 95% de confiana para o consumo. (Utilize a opo overlay com o
comando plot da PROC REG para que os plotes saiam no mesmo grfico).
G) O proprietrio tambm registrou o no. de vezes que sua secadora foi utilizada
a cada dia . Esta varivel pode ser utilizada em adio ao no. de horas de ar
para predizer o valor do consumo de eletricidade ? Use a PROC REG para
ajustar um modelo de regresso mltipla para os dados acima.
OPTIONS FORMDLIM='*' LS=80;
DATA ENERGIA A;
INPUT CONSUMO NO_HORAS USO_SEC @@;
CARDS;
35 1.5 1 63 4.5 2 66 5.0 2 17 2.0 0
94 8.5 3 79 6.0 3 93 13.5 1 66 8.0 1
94 12.5 1 82 7.5 2 78 6.5 3 65 8.0 1
77 7.5 2 75 8.0 2 62 7.5 1 85 12.0 1
43 6.0 0 57 2.5 3 33 5.0 0 65 7.5 1
33 6.0 0
;
/* #############( A )################## */
PROC PLOT;
PLOT CONSUMO*NO_HORAS;
TITLE 'DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS';
RUN;
/* #############( B )################## */
PROC CORR;
VAR CONSUMO;
WITH NO_HORAS;
TITLE 'ANALISE DE CORRELACAO CONSUMO E NO HORAS';
RUN;
/* #############( C-E )############### */
PROC REG;
MODEL CONSUMO=NO_HORAS;
ID NO_HORAS;
VAR USO_SEC;
PLOT RESIDUAL.*PREDICTED.='*';
TITLE 'REGRESSAO LINEAR DO CONSUMO EM FUNCAO DO NO HORAS';
PRINT CLI;
TITLE 'LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO';
RUN;
/* #############( F )################## */
PLOT CONSUMO*NO_HORAS='O' P.*NO_HORAS='_'
L95.*NO_HORAS='L' U95.*NO_HORAS='U' /OVERLAY;
TITLE 'LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA';
RUN;

Treinamento Sistema SAS

98

Prof. Luis Felipe Lopes

/* #############( G )################## */
PROC REG;
MODEL CONSUMO=NO_HORAS USO_SEC;
TITLE 'REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA';
RUN;

A)

DIAGRAMA DE DISPERSAO CONSUMO * NO HORAS


Plot of CONSUMO*NO_HORAS.

Legend: A = 1 obs, B = 2 obs, etc.

CONSUMO
|
|
95 +
A
A
93 +
A
91 +
89 +
87 +
85 +
A
83 +
A
81 +
79 +
A A
77 +
A
75 +
A
73 +
71 +
69 +
67 +
A
A
65 +
A A
63 +
A
A
61 +
59 +
57 +
A
55 +
53 +
51 +
49 +
47 +
45 +
43 +
A
41 +
39 +
37 +
35 +
A
33 +
A
A
31 +
29 +
27 +
25 +
23 +
21 +
19 +
17 +
A
|
-+--------+--------+--------+---------+---------+---------+---------+
0
2
4
6
8
10
12
14
NO_HORAS

Treinamento Sistema SAS

99

Prof. Luis Felipe Lopes

COMENTRIO:
O plote mostra uma tendncia crescente entre as variveis.
B)
ANALISE DE CORRELACAO CONSUMO E NO HORAS
Correlation Analysis
1 'WITH' Variables: NO_HORAS
1 'VAR' Variables: CONSUMO
Simple Statistics
Variable
NO_HORAS
CONSUMO

Mean

Std Dev

Sum

Minimum

Maximum

21
21

6.92857
64.85714

3.13562
21.88444

145.50000
1362

1.50000
17.00000

13.50000
94.00000

Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 21


CONSUMO
NO_HORAS

0.76528
0.0001

COMENTRIO:
O valor do Coef. Corr. Pearson=0.765 reflete a tendncia crescente mostrada no
plote, ou seja, quando h um aumento do uso do ar, h aumento no consumo de
energia.
C)
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO
Model: MODEL1
Dependent Variable: CONSUMO
Analysis of Variance
Source
Model
Error
C Total
Root MSE
Dep Mean
C.V.

DF
1
19
20

Sum of
Squares
5609.66260
3968.90883
9578.57143
14.45303
64.85714
22.28440

Treinamento Sistema SAS

Mean
Square
5609.66260
208.88994
R-square
Adj R-sq

100

F Value
26.855

Prob>F
0.0001

0.5856
0.5638

Prof. Luis Felipe Lopes

Parameter Estimates
Variable

DF

Parameter
Estimate

Standard
Error

T for H0:
Parameter=0

Prob > |T|

INTERCEP
NO_HORAS

1
1

27.851072
5.341082

7.80653827
1.03067009

3.568
5.182

0.0021
0.0001

LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO


RESIDUAL
-+----+----+----+----+----+----+----+----+----+----+----+----+----+-|
|
30 +
+
|
|
|
|
|
|
|
*
|
20 +
+
|
*
|
|
*
*
|
|
*
|
|
* *
|
10 +
+
|
*
|
|
|
|
*
|
|
|
0 +
*
+
| *
*
|
|
*
|
|
* *
|
|
*
* |
-10 +
+
|
|
|
|
|
*
|
-20 +
+
|
*
*
|
|
|
|
*
|
-30 +
+
|
|
-+----+----+----+----+----+----+----+----+----+----+----+----+----+-35
40
45
50
55
60
65
70
75
80
85
90
95
100
Predicted Value of CONSUMO
PRED

COMENTRIO:
O modelo de regresso obtido dado por:
CONSUMO = 27.85 + 5.341 NO_HORAS
E pode ser interpretado como: Quando NO_HORAS = 0, h um nvel de consumo
mnimo estimado de energia de 27,85. A cada hora de uso de ar, o aumento
estimado do consumo de 5.341 kwh.

Treinamento Sistema SAS

101

Prof. Luis Felipe Lopes

D)
Os dados do arquivo contm 3 observaes com N0_HORAS = 8, cujos valores
correspondentes para CONSUMO so 66, 65 e 75. Isso mostra a existncia de
um faixa de possveis valores de CONSUMO para um dado valor de NO_HORAS.
No modelo de regresso estimado, para o valor de NO_HORAS = 8:
CONSUMO = 27.85 - 5.34 * 8 = 70,57.
E)
LIMITES DE PREDICAO PARA A VARIAVEL CONSUMO
Obs

NO_HORAS

Dep Var
CONSUMO

Predict
Value

Std Err
Predict

Lower95%
Predict

Upper95%
Predict

Residual

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

1.5
4.5
5
2
8.5
6
13.5
8
12.5
7.5
6.5
8
7.5
8
7.5
12
6
2.5
5
7.5
6

35.0000
63.0000
66.0000
17.0000
94.0000
79.0000
93.0000
66.0000
94.0000
82.0000
78.0000
65.0000
77.0000
75.0000
62.0000
85.0000
43.0000
57.0000
33.0000
65.0000
33.0000

35.8627
51.8859
54.5565
38.5332
73.2503
59.8976
99.9557
70.5797
94.6146
67.9092
62.5681
70.5797
67.9092
70.5797
67.9092
91.9441
59.8976
41.2038
54.5565
67.9092
59.8976

6.423
4.026
3.728
5.979
3.545
3.296
7.471
3.342
6.551
3.208
3.185
3.342
3.208
3.342
3.208
6.105
3.296
5.548
3.728
3.208
3.296

2.7597
20.4834
23.3158
5.7963
42.1028
28.8704
65.9024
39.5312
61.4013
36.9223
31.5919
39.5312
36.9223
39.5312
36.9223
59.1057
28.8704
8.8010
23.3158
36.9223
28.8704

68.9657
83.2884
85.7971
71.2702
104.4
90.9247
134.0
101.6
127.8
98.8961
93.5443
101.6
98.8961
101.6
98.8961
124.8
90.9247
73.6065
85.7971
98.8961
90.9247

-0.8627
11.1141
11.4435
-21.5332
20.7497
19.1024
-6.9557
-4.5797
-0.6146
14.0908
15.4319
-5.5797
9.0908
4.4203
-5.9092
-6.9441
-16.8976
15.7962
-21.5565
-2.9092
-26.8976

Sum of Residuals
Sum of Squared Residuals
Predicted Resid SS (Press)

0
3968.9088
4728.5664

COMENTRIO:
O intervalo de confiana para os valores preditos de AC dado por:
IC NO_HORAS = [ NO_HORAS ( ttab * S) ]

Para = 0.05 (/2 = 0.025 ), o valor da estatstica t consultado na Tabela de uma


Distribuio T de Student :
t (1-/2, 19) = t (0.975, 19) = 2.09

Treinamento Sistema SAS

102

Prof. Luis Felipe Lopes

Logo:
IC NO_HORAS = [ NO_HORAS ( 2.09 * 1.03 ) ]

F)
LIMITES DE PREDICAO DA VARIAVEL CONSUMO - INTEVALO DE CONFIANCA
CONSUMO
--+----+---+---+----+----+----+----+----+----+----+----+----+----+--140 +
+
|
U
|
|
|
|
U
|
|
U
|
|
|
20 +
+
|
|
|
|
|
|
|
U
|
|
U
|
100 +
U
_
+
|
|
|
U
O
?
O
|
|
U
_
|
|
|
|
U
O
|
|
U
O
|
80 +
O
+
|
O
O
|
|
U
O _
|
|
U
_
|
| U
_
|
|
O
O O
L
|
|
O
_
O
|
60 +
_
L L
+
|
O
|
|
_
|
|
_
|
|
|
|
O
L
|
40 +
_
L
+
| _ _
L
|
| O
O
O
|
|
L
|
|
L
|
|
|
|
L
|
20 +
L
+
|
O
|
|
|
|
L
|
|
L
|
| L
|
0 +
+
--+----+---+---+----+----+----+----+----+----+----+----+----+----+--1
2
3
4
5
6
7
8
9
10
11
12
13
14

NO_HORAS

COMENTRIO:
Pode-se observar que todos os pontos reais e previstos esto dentro dos limites
de predio.

G)

REGRESSAO MULTIPLA - CONSUMO FUNCAO DO NO HORAS E USO SECADORA

Model: MODEL1

Treinamento Sistema SAS

103

Prof. Luis Felipe Lopes

Dependent Variable: CONSUMO


Analysis of Variance
Source

DF

Sum of
Squares

Mean
Square

F Value

Prob>F

Model
Error
C Total

2
18
20

9299.80154
278.76989
9578.57143

4649.90077
15.48722

300.241

0.0001

Root MSE
Dep Mean
C.V.

3.93538
64.85714
6.06777

R-square
Adj R-sq

0.9709
0.9677

Parameter Estimates
Variable

DF

Parameter
Estimate

Standard
Error

T for H0:
Parameter=0

Prob > |T|

INTERCEP
NO_HORAS
USO_SEC

1
1
1

8.105385
5.465903
13.216600

2.48085116
0.28075519
0.85621937

3.267
19.469
15.436

0.0043
0.0001
0.0001

COMENTRIO:
Observa-se que:
SS(Erro) mltipla = 278.76 < SS (Erro) simples
O modelo:
CONSUMO = 8.10 + 5.466 NO_HORAS + 13.217 USO_SEC
representa 97% da variabilidade do consumo de energia. O valor de 8,10
representa o nmero de kwh consumido num dia onde nem o ar e nem a
secadora so utilizados. O valor de 5,466 a estimativa de energia consumida
para cada hora de uso do ar, e 13,217 representa a estimativa de energia
consumida a cada vez que a secadora ligada.
4) Uma droga que mistura estimulante e relaxante administrada em 15 animais.
taxa de pulsao medida antes e depois da administrao da droga. O
propsito do experimento determinar se existe uma mudana na taxa de
pulsao com o uso da droga. Os dados so apresentados abaixo:

Treinamento Sistema SAS

104

Prof. Luis Felipe Lopes

ANTES
62
63
58
64
64
51
68
66
65
66
67
69
61
64
61
63

DEPOIS
61
62
51
61
63
58
61
64
64
62
68
65
60
65
63
62

OPTIONS FORMDLIM='*' LS=80;


DATA APT A;
INPUT ANIMAL ANTES DEPOIS @@;
DIF=DEPOIS-ANTES;
CARDS;
1 62 61 2 63 62 3 58 51 4 64 61 5 51 58 6 68 61
7 66 64 8 65 64 9 66 62 10 67 68 11 69 65 12 61 60
13 64 65 14 61 63 15 63 62
;
PROC UNIVARIATE;
VAR DIF;
TITLE 'TESTE PARA DIFERENCAS DE OBS. PAREADA';
RUN;
TESTE PARA DIFERENCAS DE OBS. PAREADA
Univariate Procedure
Variable=DIF
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank

15
-1.4
3.521363
0.508266
203
-251.526
-1.53979
15
-3.5
-29.5

Treinamento Sistema SAS

Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|

105

15
-21
12.4
1.407817
173.6
0.909212
0.1459
4
0.1185
0.0984

Prof. Luis Felipe Lopes

Quantiles(Def=5)
100%
75%
50%
25%
0%

Max
Q3
Med
Q1
Min

7
1
-1
-4
-7

Range
Q3-Q1
Mode

14
5
-1

Lowest
-7(
-7(
-4(
-4(
-3(

Obs

6)
3)
11)
9)
4)

99%
95%
90%
10%
5%
1%

7
7
2
-7
-7
-7

Extremes
Highest
-1(
1(
1(
2(
7(

Obs
15)
10)
13)
14)
5)

Como Prob>|T|=0.0285<0.05. ao nvel de 5% de significncia h evidncias que a


diferena mdia da taxa de pulsao com a utilizao de droga difere de zero.
5) Um aparelho utilizado para testar a durabilidade de lmpadas submetidas a
diversas tenses. O aparelho consta de oito soquetes ligados em paralelo e de
um reostato ligado em srie com um gerador e oito soquetes. Oito lmpadas da
marca A e oito da B foram ensaiadas nesse aparelho, sob as mesmas
condies , fornecendo as seguintes duraes, em horas:
SOQUETE
Marca A
Marca B

1
35
23

2
26
28

3
40
31

4
35
35

5
31
36

6
49
30

7
38
27

8
24
26

Pode-se concordar, a um nvel de significncia de 1%, com os fabricantes da


marca A, que suas lmpadas tem durabilidade diferente das apresentadas pela
marca B ?
OPTIONS FORMDLIM='*' LS=80;
DATA LAMP A;
INPUT MARCA $ TEMPO @@;
CARDS;
A 35 B 23 A 26 B 28 A 40 B 31 A 35 B 35
A 31 B 36 A 49 B 30 A 38 B 27 A 24 B 26
;
PROC TTEST;
CLASS MARCA;
VAR TEMPO;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS';
RUN;

Treinamento Sistema SAS

106

Prof. Luis Felipe Lopes

TESTE PARA IGUALDADE DE MEDIAS


TTEST PROCEDURE
Variable: TEMPO
MARCA N
Mean
Std Dev
Std Error
Minimum
Maximum
------------------------------------------------------------------------A
8 34.75000000
7.99553447
2.82684832 24.00000000 49.00000000
B
8 29.50000000
4.44007722
1.56980436 23.00000000 36.00000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
1.6236
10.9
0.1329
Equal
1.6236
14.0
0.1267
For H0: Variances are equal, F' = 3.24

DF = (7,7)

Prob>F' = 0.1434

COMENTRIO:
As varincias no so significativamente diferentes ao nvel de 10% de
significncia, pois Prob>F=0.1434>. No teste de igualdade de mdias, na linha
(Variances=Equal), ao nvel de 1%, como foi estipulado no enunciado, no h
diferena significativa entre as mdias, uma vez que Prob>|T|=0.1265>(=0.01).
6) Duas amostras de carros produzidos em anos diferentes, do mesmo modelo e
fabricante, foram testados em iguais condies, quanto ao consumo de
combustvel em km/l a 80 Km/h, conforme mostrado na tabela abaixo. Desejase saber se os carros produzidos nos anos I e II tem o mesmo consumo ao
nvel de 10% de significncia.
Consumo (km/l)
Ano I
Ano II

13.01
12.99

13.00
13.06

12.95
12.98

12.97
13.14

13.01
13.14

12.93

12.94

12.96

12.97

12.94

OPTIONS FORMDLIM='*' LS=80;


DATA CONSUMO A;
INPUT ANO $ CONSUMO @@;
CARDS;
I 13.01 I 13.00 I 12.95 I 12.97 I 13.01 I 12.93 I 12.94 I 12.96
I 12.97 I 12.94 II 12.99 II 13.06 II 12.98 II 13.14 II 13.14
;
PROC TTEST;
CLASS ANO;
VAR CONSUMO;
TITLE 'TESTE PARA IGUALDADE DE MEDIAS';
RUN;

Treinamento Sistema SAS

107

Prof. Luis Felipe Lopes

TESTE PARA IGUALDADE DE MEDIAS


TTEST PROCEDURE
Variable: CONSUMO
ANO
N
Mean
Std Dev
Std Error
Minimum
Maximum
-----------------------------------------------------------------------I
10 12.96800000
0.02973961
0.00940449 12.93000000 13.01000000
II
5 13.06200000
0.07758866
0.03469870 12.98000000 13.14000000
Variances
T
DF
Prob>|T|
--------------------------------------Unequal
-2.6147
4.6
0.0521
Equal
-3.4569
13.0
0.0043
For H0: Variances are equal, F' = 6.81

DF = (4,9)

Prob>F' = 0.0166

COMENTRIO:
As varincias diferem significativamente ao nvel de 10% de significncia, pois
Prob>F=0.0166<. No teste de igualdade de mdias, na linha
(Variances=Equal), h indicao que o nvel mdio de consumo dos carros
produzidos nos anos I e II so diferentes ao nvel de 10% de significncia,
Prob>|T|=0.052<(= 0.10).
7) Dez culturas de fungo foram estudadas quanto a susceptibilidade de
crescimento devido exposio de luz permanente. O crescimento em termos
de dimetro mdio da cultura foi medido antes e aps o perodo de exposio
permanente de luz, durante 15 dias. A tabela abaixo mostra os resultados
obtidos nas 10 culturas durante o perodo. Ao nvel de 2.5% pode-se afirmar
que a luz permanente contribui para o crescimento das culturas de fungo?
Obter um grfico da distribuio dos valores da varivel DIF=DEPOISANTES.
DIAMETRO MDIO (CM)
CULTURA
1
2
3
4
5
6
7
8
9
10

Treinamento Sistema SAS

ANTES
6,4
7.0
6.6
5.6
6.0
7.5
7.0
5.8
6.3
6.7

108

DEPOIS
6.4
7.1
6.8
5.6
6.1
7.4
7.1
5.9
6.4
6.8

Prof. Luis Felipe Lopes

OPTIONS FORMDLIM='*' LS=80;


DATA FUNGO A;
INPUT CULTURA ANTES DEPOIS @@;
DIF=DEPOIS-ANTES;
CARDS;
1 6.4 6.4 2 7.0 7.1 3 6.6 6.8 4 5.6 5.6 5 6.0 6.1
6 7.5 7.4 7 7.0 7.1 8 5.8 5.9 9 6.3 6.4 10 6.7 6.8
;
PROC UNIVARIATE;
VAR DIF;
TITLE 'TESTE PARA DIFERENCA DE OBS. PAREADAS';
RUN;
PROC CHART;
VBAR DIF;
TITLE 'GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS';
RUN;
TESTE PARA DIFERENCA DE OBS. PAREADAS
Univariate Procedure
Variable=DIF
Moments
N
Mean
Std Dev
Skewness
USS
CV
T:Mean=0
Num ^= 0
M(Sign)
Sgn Rank

10
0.07
0.082327
-0.80646
0.11
117.6104
2.688774
8
3
12

Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Pr>|T|
Num > 0
Pr>=|M|
Pr>=|S|

10
0.7
0.006778
1.236995
0.061
0.026034
0.0248
7
0.0703
0.1094

Quantiles(Def=5)
100%
75%
50%
25%
0%

Max
Q3
Med
Q1
Min

Range
Q3-Q1
Mode

0.2
0.1
0.1
0
-0.1

99%
95%
90%
10%
5%
1%

0.2
0.2
0.15
-0.05
-0.1
-0.1

0.3
0.1
0.1
Extremes

Lowest
-0.1(
0(
0(
0.1(
0.1(

Treinamento Sistema SAS

Obs
6)
4)
1)
10)
7)

Highest
0.1(
0.1(
0.1(
0.1(
0.2(

109

Obs
7)
10)
8)
9)
3)

Prof. Luis Felipe Lopes

GRAFICO DE BARRAS PARA DIFERENCAS PAREADAS


Frequency
6 +
*****
|
*****
|
*****
5 +
*****
|
*****
|
*****
4 +
*****
|
*****
|
*****
3 +
*****
|
*****
|
*****
2 +
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
|
*****
*****
1 +
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
|
*****
*****
*****
*****
--------------------------------------------------------0.1
0.0
0.1
0.2
DIF Midpoint

COMANTRIO:
Como o p-valor=0.0248<0.05, h evidncias de que a diferena mdia do
dimetro da cultura com a exposio de luz significativamente diferente de zero,
ou seja, a luz contribui para o crescimento das culturas. No plote das diferenas,
observa-se que a mais alta freqncia ocorre para valores superiores a 0.05.
8)
INSTITUTO DE PESQUISAS E EXPERIMENTAO AGROPECURIAS DO SUL
MODELOS DE ANLISE ESTATSTICA DE EXPERIMENTOS EXPERIMENTOS EM QUADRADO LATINO
Produo de Gros Secos em Gramas por Parcela de 5m3

4
5

1400
(4)
1235
(2)
1545
(1)
1305
(3)
1293
(5)

1207
(3)
1515
(1)
1212
(5)
1295
(2)
1322
(4)

C O L U N A
3
4
1125
(2)
1137
(5)
1100
(4)
1065
(1)
1118
(3)

1335
(1)
1163
(4)
885
(3)
1110
(5)
1012
(2)

5
1350
(5)
1090
(3)
1206
(2)
1000
(4)
1303
(1)

Faa uma anlise de varincia com os dados acima: (PROC ANOVA)


OPTIONS FORMDLIM='*' LS=80;
DATA GRAO A;

Treinamento Sistema SAS

110

Prof. Luis Felipe Lopes

INPUT FILA COL VARIED PROD @@;


CARDS;
1 1 4 1400 1 2 3 1207 1 3 2 1125
2 1 2 1235 2 2 1 1515 2 3 5 1137
3 1 1 1545 3 2 5 1212 3 3 4 1100
4 1 3 1305 4 2 2 1295 4 3 1 1065
5 1 5 1293 5 2 4 1322 5 3 3 1118
;
PROC ANOVA;
CLASS FILA COL VARIED;
MODEL PROD=FILA COL VARIED;
TITLE 'ANALISE DE VARIANCIA';
RUN;

1
2
3
4
5

4
4
4
4
4

1
4
3
5
2

1335
1163
885
1110
1012

1
2
3
4
5

5
5
5
5
5

5
3
2
4
1

1350
1090
1206
1000
1303

ANALISE DE VARIANCIA
Analysis of Variance Procedure
Class Level Information
Class

Levels

Values

FILA

1 2 3 4 5

COL

1 2 3 4 5

VARIED

1 2 3 4 5

Number of observations in data set = 25


*************************************************************************
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Dependent Variable: PROD
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

12

462611.92000

38550.99333

3.60

0.0175

Error

12

128386.72000

10698.89333

Corrected Total

24

590998.64000

R-Square

C.V.

Root MSE

PROD Mean

0.782763

8.526399

103.43545

1213.1200

DF

Anova SS

Mean Square

F Value

Pr > F

4
4
4

45521.04000
268403.84000
148687.04000

11380.26000
67100.96000
37171.76000

1.06
6.27
3.47

0.4161
0.0058
0.0418

Source
FILA
COL
VARIED

COMENTRIO:
Hiptese Testada: No h diferena significativa no nivel mdio de produo
devido aos fatores fila (FILA), coluna (COL) e variedade
(VARIED) do gro plantado

Pr>F (FILA) = 0.4161 > (=0.05)


Pr>F (COL) = 0.0058 < (=0.05)
Pr>F (VARIED) = 0.0418 < (=0.05)
Ao nvel de 5% o efeito coluna (COL) e variedade (VARIED) do gro so
significativos no nvel mdio de produo.
Treinamento Sistema SAS

111

Prof. Luis Felipe Lopes

9) Deseja-se determinar se h diferena significativa no percurso por galo obtido


com quatro tipos de gasolina A, B, C, D. O expediente realizado com quatro
carros diferentes, quatro motoristas diferentes, e em quatro estradas diferentes.

C
A
R
R
O
S

1
2
3
4

M O T O R I S T A S
1
2
3
4
B3 19
A2 16 D4 16
C1 14
A4 15
B1 18 C3 11
D2 15
D1 14
C4 11 B2 21
A3 16
C2 16
D3 16 A1 15
B4 23

TIPOS DE ESTRADA = 1 2 3 4
TIPOS DE GASOLINA = A B C
D
Faa uma anlise de varincia com os dados acima: (PROC ANOVA)
OPTIONS FORMDLIM='*' LS=80;
DATA GAS A;
INPUT MOTOR CARRO GAS $ ESTR PERC @@;
CARDS;
1 1 B 3 19 1 2 A 2 16 1 3 D 4 16 1 4 C
2 1 A 4 15 2 2 B 1 18 2 3 C 3 11 2 4 D
3 1 D 1 14 3 2 C 4 11 3 3 B 2 21 3 4 A
4 1 C 2 16 4 2 D 3 16 4 3 A 1 15 4 4 B
;
PROC ANOVA;
CLASS MOTOR CARRO GAS ESTR;
MODEL PERC=MOTOR CARRO GAS ESTR;
TITLE 'ANALISE DE VARIANCIA';
RUN;

Treinamento Sistema SAS

1
2
3
4

14
15
16
23

112

Prof. Luis Felipe Lopes

ANALISE DE VARIANCIA
Analysis of Variance Procedure
Class Level Information
Class

Levels

Values

MOTOR

1 2 3 4

CARRO

1 2 3 4

GAS

A B C D

ESTR

1 2 3 4

Number of observations in data set = 16


*************************************************************************
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Dependent Variable: PERC
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

12

142.00000000

11.83333333

5.92

0.0848

Error

6.00000000

2.00000000

Corrected Total 15

148.00000000

R-Square

C.V.

Root MSE

PERC Mean

0.959459

8.838835

1.4142136

16.000000

Source

DF

Anova SS

Mean Square

F Value

Pr > F

MOTOR
CARRO
GAS
ESTR

3
3
3
3

16.50000000
6.50000000
111.50000000
7.50000000

5.50000000
2.16666667
37.16666667
2.50000000

2.75
1.08
18.58
1.25

0.2141
0.4745
0.0193
0.4294

COMENTRIO:
Hiptese Testada: No h diferena significativa no percurso por galo devido
aos diferentes tipos de gasolina.
Pr>F (MOTOR) = 0.2141 > (=0.05)
Pr>F (CARRO) = 0.4745 > (=0.05)

Treinamento Sistema SAS

Pr>F (GAS) = 0.0193 < (=0.05)


Pr>F (ESTR) = 0.4294 > (=0.05)

113

Prof. Luis Felipe Lopes

Ao nvel de 1% nenhum efeito significativo no percurso de gasolina por galo.


J ao nvel de 5% h diferena significativa no percurso mdio por galo devido
ao tipo de gasolina utilizada.
10) O exerccio a seguir consiste na avaliao de trs planos de vendas com
cupons publicados nos jornais. Foi planejado um experimento com 3
tratamentos e 4 blocos. Os blocos representam os tamanhos das lojas bloco 1
as maiores de todas, bloco 2 as maiores seguintes, e assim por adiante. Os
tratamentos so as vendas realizadas no dia imediato da publicao dos
cupons nos jornais da cidade. Os resultados esto abaixo:
TRATAMENTOS
Tamanho
Loja

Plano
Cupom 1

Plano
Cupom 2

Plano
Cupom 3

Total

1
2
3
4
Total

20
18
15
11
64

17
14
13
8
62

14
10
7
5
36

51
42
35
24
152
BLOCO = Tamanho da Loja
TRATAMENTO = Plano

Faa uma anlise de varincia com os dados acima: (PROC GLM)


OPTIONS FORMDLIM='*' LS=80;
DATA PLANO A;
INPUT LOJA $ PLANO $ N_VENDAS @@;
CARDS;
T1 P1 20 T1 P2 17 T1 P3 14
T2 P1 18 T2 P2 14 T2 P3 10
T3 P1 15 T3 P2 13 T3 P3 7
T4 P1 11 T4 P2 8 T4 P3 5
;
PROC GLM;
CLASS LOJA PLANO;
MODEL N_VENDAS=LOJA PLANO;
TITLE 'ANALISE DE VARIANCIA';
RUN;
ANALISE DE VARIANCIA
General Linear Models Procedure
Class Level Information
Class

Levels

Values

LOJA

T1 T2 T3 T4

PLANO

P1 P2 P3

Number of observations in data set = 12

Treinamento Sistema SAS

114

Prof. Luis Felipe Lopes

*************************************************************************
ANALISE DE VARIANCIA
General Linear Models Procedure
Dependent Variable: N_VENDAS
Sum of
Source
DF
Squares

Mean
Square

F Value

Pr > F

68.60

0.0001

Model

228.66666667

45.73333333

Error

4.00000000

0.66666667

Corrected Total 11

232.66666667

R-Square

C.V.

Root MSE

N_VENDAS Mean

0.982808

6.446026

0.8164966

12.666667

Source

DF

Type I SS

Mean Square

F Value

Pr > F

LOJA
PLANO

3
2

130.00000000
98.66666667

43.33333333
49.33333333

65.00
74.00

0.0001
0.0001

Source

DF

Type III SS

Mean Square

F Value

Pr > F

LOJA
PLANO

3
2

130.00000000
98.66666667

43.33333333
49.33333333

65.00
74.00

0.0001
0.0001

COMENTRIO:
Hiptese Testada: No h diferena significativa no volume de vendas nos
diferentes tamanhos de loja.
Pr>F (LOJA) = 0.0001 < (=0.01)

Pr>F (PLANO) = 0.0001 < (=0.01)

O baixo valor de Pr>F indica baixa probabilidade da hiptese testada ser


verdadeira, ou seja, aos nveis usuais de significncia (=1%), tanto o fator
tamanho da loja como o plano de vendas apresentam efeitos ponderveis sobre o
volume das vendas.
( Exerccios 11 e 12 - Ref. F. Pimentel Gomes )
11) Experimento Completamente Casualizado.
Considere um experimento de competio de cultivares de cana-de-acar,
completamente casualizado, com n=4 cultivares (A, B, C, D) e r = 6 repeties,
com os seguintes resultados, em t/ha.

Treinamento Sistema SAS

115

Prof. Luis Felipe Lopes

CULTIVARES
Repeties
1
2
3
4
5
6

A
54
40
51
36
50
48

B
60
55
66
61
54
61

C
59
47
44
49
62
60

D
45
33
34
48
42
44

Obtenha a tabela de Anlise da Varincia para estes dados e compare as mdias


dos tratamentos, duas duas, utilizando para isso o Teste de Tukev no comando
MEANS da PROC ANOVA.
OPTIONS FORMDLIM='*' LS=80;
DATA CANA A;
INPUT CULTIV $ ALTURA @@;
CARDS;
A 54 B 60 C 59 D 45
A 40 B 55 C 47 D 33
A 51 B 66 C 44 D 34
A 36 B 61 C 49 D 48
A 50 B 54 C 62 D 42
A 48 B 61 C 60 D 44
;
PROC ANOVA;
CLASS CULTIV;
MODEL ALTURA=CULTIV;
MEANS CULTIV /TUKEY;
TITLE 'EXPERIMENTO COMPLETAMENTE CASUALIZADO';
RUN;
EXPERIMENTO COMPLETAMENTE CASUALIZADO
Analysis of Variance Procedure
Class Level Information
Class
CULTIV

Levels
4

Values
A B C D

Number of observations in data set = 24


*************************************************************************
EXPERIMENTO COMPLETAMENTE CASUALIZADO
Analysis of Variance Procedure
Dependent Variable: ALTURA
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

1174.1250000

391.3750000

9.47

0.0004

Error

20

826.5000000

41.3250000

Corrected Total

23

2000.6250000

R-Square

C.V.

Root MSE

ALTURA Mean

0.586879

12.82484

6.4284524

50.125000

Source

DF

Anova SS

Mean Square

F Value

Pr > F

CULTIV

1174.1250000

391.3750000

9.47

0.0004

*************************************************************************

Treinamento Sistema SAS

116

Prof. Luis Felipe Lopes

EXPERIMENTO COMPLETAMENTE CASUALIZADO


Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: ALTURA
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 20 MSE= 41.325
Critical Value of Studentized Range= 3.958
Minimum Significant Difference= 10.388
Means with the same letter are not significantly different.
Tukey Grouping

Mean

CULTIV

A
A
A

59.500

53.500

C
C
C

46.500

41.000

B
B
B

COMENTRIO:
Analisando o R-Square observa-se que 58.69% da variao do modelo
explicado pela diferena entre os cultivares.
O p-valor dado por Pr>F=0.0004 bem menor que o nvel de significncia de
10%, donde se conclui que a mdia das alturas significativamente diferente para
os diferentes tipos de cultivares. Esta anlise pode ser vista tambm pelo Teste
de Tukey.
A mdia global (ALTURA Mean) das alturas 50.125.
O coeficiente de variao (C V) das alturas 12.825

Treinamento Sistema SAS

117

Prof. Luis Felipe Lopes

12) Experimento com blocos casualizados.


Num experimento de competio de n=7 cultivares de milho, em r=4 blocos
casualizados, as produes, em km/ha, foram as da tabela abaixo:
Cultivares
1
2
3
4
5
6
7

Bloco 1
1920
3110
3260
2540
2270
3000
3310

Bloco 2
2340
3700
3990
2190
2800
3110
3420

Bloco 3
2100
3640
3420
2010
2820
3000
3640

Bloco 4
1920
3570
3510
2230
2710
3800
230

A) Os dados se encontram no arquivo MILHO.SAS. Obtenha a tabela de Anlise


de Varincia ao nvel de 5% para testar se so iguais as mdias dos 7
tratamentos. Compare estas mdias par a par.
B) Analise os dados considerando que tenha sido perdido o cultivar nmero 7
C) Analise os dados considerando apenas os 3 primeiros blocos
OPTIONS FORMDLIM='*' LS=80;
DATA MILHO A;
INPUT BLOCO CULTIV PROD @@;
CARDS;
1 1 1920 2 1 2340 3 1 2100 4 1 1920
1 2 3110 2 2 3700 3 2 3640 4 2 3570
1 3 3260 2 3 3990 3 3 3420 4 3 3510
1 4 2540 2 4 2190 3 4 2010 4 4 2230
1 5 2270 2 5 2800 3 5 2820 4 5 2710
1 6 3000 2 6 3110 3 6 3000 4 6 3800
1 7 3310 2 7 3420 3 7 3640 4 7 2630
;
/* ############( A )############### */;
PROC ANOVA;
CLASS CULTIV BLOCO;
MODEL PROD=CULTIV BLOCO;
MEANS CULTIV BLOCO /TUKEY;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO';
RUN;
/* ############( B )############### */;
PROC ANOVA;
WHERE CULTIV NE 7;
CLASS CULTIV BLOCO;
MODEL PROD=CULTIV BLOCO;
MEANS CULTIV BLOCO /TUKEY;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7';
RUN;
/* ############( C )############### */;
PROC ANOVA;
WHERE BLOCO NE 4;
CLASS CULTIV BLOCO;
MODEL PROD=CULTIV BLOCO;
MEANS CULTIV BLOCO /TUKEY;
TITLE 'EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4';
RUN;
A)
EXPERIMENTO COM BLOCOS CASUALIZADO
Analysis of Variance Procedure
Class Level Information

Treinamento Sistema SAS

118

Prof. Luis Felipe Lopes

Class

Levels

Values

CULTIV

1 2 3 4 5 6 7

BLOCO

1 2 3 4

Number of observations in data set = 28


*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO
Analysis of Variance Procedure
Dependent Variable: PROD
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

9093421.4286

1010380.1587

10.97

0.0001

Error

18

1658350.0000

92130.5556

Corrected Total

27

10751771.4286

R-Square

C.V.

Root MSE

PROD Mean

0.845760

10.36950

303.53016

2927.1429

Source

DF

Anova SS

Mean Square

F Value

Pr > F

CULTIV
BLOCO

6
3

8761421.4286
332000.0000

1460236.9048
110666.6667

15.85
1.20

0.0001
0.3377

*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 18 MSE= 92130.56
Critical Value of Studentized Range= 4.673
Minimum Significant Difference= 709.22

Treinamento Sistema SAS

119

Prof. Luis Felipe Lopes

Means with the same letter are not significantly different.


Tukey Grouping

Mean

CULTIV

A
A
A
A
A
A
A

3545.0

3505.0

3250.0

3227.5

C
C
C
C
C

2650.0

2242.5

2070.0

B
B
B
B
B

*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 18 MSE= 92130.56
Critical Value of Studentized Range= 3.997
Minimum Significant Difference= 458.55
Means with the same letter are not significantly different.
Tukey Grouping

Mean

BLOCO

A
A
A
A
A
A
A

3078.6

2947.1

2910.0

2772.9

COMENTRIO:
Analisando o R-Square observa-se que 84.58% da variao do modelo
explicado pela diferena entre os cultivares.
O p-valor para a varivel CULTIV (Pr>F=0.0001) bem menor que o nvel de
significncia de 10%, donde se conclui que a mdia da produo (PROD)
significativamente diferente para os diferentes tipos de cultivares. Esta anlise
pode ser vista tambm pelo Teste de Tukey. O p-valor para a varivel BLOCO
(Pr>F=0.3377) maior o nvel de significncia de 10%, donde se conclui que a
mdia da produo (PROD) no significativamente diferente para os diferentes
tipos de blocos. Esta anlise pode ser vista tambm pelo Teste de Tukey.
A mdia global (ALTURA Mean) da produo 2927.14.

O coeficiente de variao (C V) da produo 10.37%.


B)
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7

Treinamento Sistema SAS

120

Prof. Luis Felipe Lopes

Analysis of Variance Procedure


Class Level Information
Class

Levels

Values

CULTIV

1 2 3 4 5 6

BLOCO

1 2 3 4

Number of observations in data set = 24


*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7
Analysis of Variance Procedure
Dependent Variable: PROD
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

8675683.3333

1084460.4167

15.94

0.0001

Error

15

1020650.0000

68043.3333

Corrected Total

23

9696333.3333

R-Square

C.V.

Root MSE

PROD Mean

0.894739

9.078347

260.85117

2873.3333

Source

DF

Anova SS

Mean Square

F Value

Pr > F

CULTIV
BLOCO

5
3

8274983.3333
400700.0000

1654996.6667
133566.6667

24.32
1.96

0.0001
0.1629

*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 15 MSE= 68043.33
Critical Value of Studentized Range= 4.595
Minimum Significant Difference= 599.27
Means with the same letter are not significantly different.
Tukey Grouping

Mean

CULTIV

A
A
A
A
A

3545.0

3505.0

3227.5

C
C
C
C
C

2650.0

2242.5

2070.0

B
B
B

*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO CULTIVAR = 7

Treinamento Sistema SAS

121

Prof. Luis Felipe Lopes

Analysis of Variance Procedure


Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 15 MSE= 68043.33
Critical Value of Studentized Range= 4.076
Minimum Significant Difference= 434.06
Means with the same letter are not significantly different.
Tukey Grouping

Mean

BLOCO

A
A
A
A
A
A
A

3021.7

2956.7

2831.7

2683.3

COMENTRIO:
Comparando o item (A) e (B) observa-se que o R-Square aumentou de 84.58%
para 89.47%.
O p-valor para a varivel CULTIV (Pr>F=0.0001) continuou o mesmo e para a
varivel BLOCO (Pr>F=0.1629) diminuiu, mas no significativamente.
A mdia global (ALTURA Mean) da produo diminuiu para 2873.33.
O coeficiente de variao (C V) da produo diminuiu para 9.078%.
C)
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4
Analysis of Variance Procedure
Class Level Information
Class

Levels

Values

CULTIV

1 2 3 4 5 6 7

BLOCO

1 2 3

Number of observations in data set = 21


*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4
Analysis of Variance Procedure
Dependent Variable: PROD
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

6931152.3810

866394.0476

15.53

0.0001

Error

12

669276.1905

55773.0159

Corrected Total

20

7600428.5714

Treinamento Sistema SAS

122

Prof. Luis Felipe Lopes

R-Square

C.V.

Root MSE

PROD Mean

0.911942

8.052322

236.16311

2932.8571

Source

DF

Anova SS

Mean Square

F Value

Pr > F

CULTIV
BLOCO

6
2

6601895.2381
329257.1429

1100315.8730
164628.5714

19.73
2.95

0.0001
0.0907

*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUIDO BLOCO = 4
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 12 MSE= 55773.02
Critical Value of Studentized Range= 4.949
Minimum Significant Difference= 674.85
Means with the same letter are not significantly different.
Tukey Grouping

Mean

CULTIV

A
A
A
A
A
A
A

3556.7

3483.3

3456.7

3036.7

C
C
C
C
C

2630.0

2246.7

2120.0

B
B
B

*************************************************************************
EXPERIMENTO COM BLOCOS CASUALIZADO - EXCLUINDO BLOCO = 4
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PROD
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 12 MSE= 55773.02
Critical Value of Studentized Range= 3.773
Minimum Significant Difference= 336.76
Means with the same letter are not significantly different.
Tukey Grouping

Mean

BLOCO

A
A
A
A
A

3078.6

2947.1

2772.9

COMENTRIO:

Treinamento Sistema SAS

123

Prof. Luis Felipe Lopes

Comparando o item (A) e (C) observa-se que o R-Square aumentou de 84.58%


para 91.19%.
O p-valor para a varivel CULTIV (Pr>F=0.0001) continuou o mesmo e para a
varivel BLOCO (Pr>F=0.0907) diminuiu significativamente (<10%), o que
significa que a mdia da produo (PROD) significativamente diferente para os
diferentes tipos de BLOCOS.
A mdia global (ALTURA Mean) da produo aumentou para 2932.85.
O coeficiente de variao (C V) da produo diminuiu para 8.05%.
13) As variveis BLOCO e TRAT representam os fatores. As variveis CAMPO1 e
CAMPO2 representam as respostas do experimento, Use o comando MODEL
para obter uma anlise de varincia para cada uma das variveis
dependentes CAMPO1 e CAMPO2.Use = 5 e 10%.

B
L
O
C
O
S

1
2
3

T R A T A M E N T O S
A
B
C
32.6
36.4
29.5
112
130
106
42.7
47.1
32.9
139
143
112
35.3
40.1
33.6
124
134
116

OPTIONS FORMDLIM='*' LS=80;


DATA CAMPO A;
INPUT BLOCO TRAT $ CAMPO1 CAMPO2 @@;
CARDS;
1 A 32.6 112 1 B 36.4 130 1 C 29.5 106
2 A 42.7 139 2 B 47.1 143 2 C 32.9 112
3 A 35.3 124 3 B 40.1 134 3 C 33.6 116
;
PROC ANOVA;
CLASS BLOCO TRAT;
MODEL CAMPO1 CAMPO2=BLOCO TRAT;
TITLE 'ANALISE DE VARIANCIA';
RUN;
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Class Level Information
Class

Levels

Values

BLOCO

1 2 3

TRAT

A B C

Number of observations in data set = 9


*************************************************************************
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Dependent Variable: CAMPO1

Treinamento Sistema SAS

124

Prof. Luis Felipe Lopes

Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

225.27777778

56.31944444

8.94

0.0283

Error

25.19111111

6.29777778

Corrected Total

250.46888889

R-Square

C.V.

Root MSE

CAMPO1 Mean

0.899424

6.840047

2.5095374

36.688889

Source

DF

Anova SS

Mean Square

F Value

Pr > F

BLOCO
TRAT

2
2

98.17555556
127.10222222

49.08777778
63.55111111

7.79
10.09

0.0417
0.0274

*************************************************************************
ANALISE DE VARIANCIA
Analysis of Variance Procedure
Dependent Variable: CAMPO2
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

1247.3333333

311.8333333

8.28

0.0323

Error

150.6666667

37.6666667

Corrected Total

1398.0000000

R-Square

C.V.

Root MSE

CAMPO2 Mean

0.892227

4.949450

6.1373175

124.00000

Source

DF

Anova SS

Mean Square

F Value

Pr > F

BLOCO
TRAT

2
2

354.66666667
892.66666667

177.33333333
446.33333333

4.71
11.85

0.0889
0.0209

COMENTRIO:
CAMPO1
Analisando o R-Square (CAMPO1) observa-se que o 89.24% da variao do
modelo explicado pela diferena entre os blocos e entre os tratamentos.
O p-valor para a varivel BLOCO (Pr>F=0.0417) menor que os nveis de
significncia 5 e 10%, donde se conclui que a mdia do CAMPO1
significativamente diferente para os diferentes tipos de blocos. O p-valor para a
varivel TRAT (Pr>F=0.0274) menor que os nveis de significncia 5 e 10%,
donde se conclui que a mdia do CAMPO1 significativamente diferente para os
diferentes tipos de tratamentos.
A mdia global (CAMPO1 Mean) do CAMPO1 124.0.
O coeficiente de variao (C V) do CAMPO1 6.84%.
CAMPO2

Treinamento Sistema SAS

125

Prof. Luis Felipe Lopes

Analisando o R-Square (CAMPO2) observa-se que 89.22% da variao do


modelo explicado pela diferena entre os blocos e entre os tratamentos.
O p-valor para a varivel BLOCO (Pr>F=0.0889) maior que os nivel de
significncia 5%, donde se conclui que a mdia do CAMPO2 no
significativamente diferente para os diferentes tipos de blocos, mas isso acontece
para =10%. O p-valor para a varivel TRAT (Pr>F=0.0209) menor que os
nveis de significncia 5 e 10%, donde se conclui que a mdia do CAMPO2
significativamente diferente para os diferentes tipos de tratamentos.
A mdia global (CAMPO2 Mean) do CAMPO2 36.689.
O coeficiente de variao (C V) do CAMPO2 4.95%.

Treinamento Sistema SAS

126

Prof. Luis Felipe Lopes

13 EXEMPLO PRTICO
13.1 Banco de Dados
GRUPO IDADE

A
A
A
A
A
A
A
A
A
A
A
A
A
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B
B

11,9
11,1
12,5
11,8
11,8
11,8
11,9
11,9
11,1
11,1
11,1
12,2
12,4
12,2
12,1
11,1
11,9
11,8
11,8
11,7
11,6
11,6
11,8
11,9
11,9
11,1
11,1
12,1
12,2

PAS_INI

PAD_INI

PAS_FIM

PAD_FIM

PESO

ESTAT

120
110
110
120
110
130
120
90
120
80
110
130
90
100
100
120
100
110
100
100
110
140
110
120
130
110
130
110
110

80
60
60
60
70
90
70
60
80
50
60
70
50
80
50
70
60
70
70
60
70
90
70
90
90
80
70
80
80

120
130
120
160
130
170
140
150
150
160
160
150
150
150
140
140
150
120
160
160
120
130
120
130
130
140
140
120
130

70
70
60
60
80
100
80
100
100
80
90
40
90
90
90
80
70
80
100
90
50
70
50
70
60
80
60
30
40

40,0
42,0
40,4
46,5
49,0
53,6
49,0
43,5
43,3
53,8
45,0
55,2
52,1
31,6
36,4
37,5
45,4
37,1
55,5
39,0
41,2
31,2
33,3
32,4
47,2
52,0
43,6
41,7
34,7

154,5
155,5
148,4
160,8
166,0
157,0
159,0
154,0
156,3
157,3
164,7
157,2
167,3
155,0
158,9
147,2
156,1
152,0
161,5
152,0
141,0
155,3
163,5
158,0
152,0
147,0
153,0
158,0
154,0

Treinamento Sistema SAS

127

Prof. Luis Felipe Lopes

13.2 Anlise dos dados


TESTE DE NORMALIDADE - TESTE DE SHAPIRO-WILK
---------------------------------- GRUPO=A -----------------------------------Univariate Procedure
Variable=IDADE
W:Normal

0.874563

Pr<W

0.0586

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk
Univariate Procedure
Variable=PAS_IN
W:Normal

0.888869

Pr<W

0.0920

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk
Variable=PAD_IN
W:Normal

0.918092

Pr<W

0.2279

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk
Variable=PAD_FI
W:Normal

0.920703

Pr<W

0.2466

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk
Variable=PAS_FI
W:Normal

0.930316

Pr<W

0.3279

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk
Variable=PESO
W:Normal

0.932284

Pr<W

0.3471

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk
Variable=ESTAT
W:Normal

0.946241

Pr<W

0.5094

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk

Treinamento Sistema SAS

128

Prof. Luis Felipe Lopes

---------------------------------- GRUPO=B -----------------------------------Univariate Procedure


Variable=IDADE
W:Normal

0.878959

Pr<W

0.0375

Anlise: Esta varivel NO segue uma distribuio Normal (p < 0,05)


Teste de Shapiro-Wilk
Variable=PAS_IN
W:Normal

Moments
0.859048 Pr<W

0.0181

Anlise: Esta varivel NO segue uma distribuio Normal (p < 0,05)


Teste de Shapiro-Wilk
Variable=PAD_IN
W:Normal

0.92103

Pr<W

0.1767

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk
Variable=PAD_FI
W:Normal

0.902441

Pr<W

0.0893

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk
W:Normal

0.959803

Pr<W

0.6350

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk
Variable=PESO
W:Normal

0.935181

Pr<W

0.2925

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk
Variable=ESTAT
W:Normal

0.966555

Pr<W

0.7506

Anlise: Esta varivel segue uma distribuio Normal (p > 0,05)


Teste de Shapiro-Wilk

Treinamento Sistema SAS

129

Prof. Luis Felipe Lopes

Concluso do Teste de Normalidade


As variveis que devero ser analisadas por uma Anlise de varincia (para os
dois grupos as variveis esto normalizadas) so:
PAD_IN

PAS_FI

PAD_FI PESO

ESTAT

FCREP

FLEX

As demais devero ser analisadas por Testes No Paramtricos (Teste de


Kruskal-Wallis) para variveis independentes.
IDADE

PAS_IN

*******************************************************************************
ANALISE DE VARIANCIA - DADOS PARAMTRICOS
Analysis of Variance Procedure
Class Level Information
Class

Levels

GRUPO

Values
A B

Number of observations in data set = 29


ANALISE DE VARIANCIA - DADOS
Analysis of Variance Procedure
Dependent Variable: PAD_IN
Sum of
Squares

Source

DF

Model

413.85941645

Error

27

3682.69230769

Corrected Total

28

4096.55172414

GRUPO

Mean
Square
413.85941645

F Value

Pr > F

3.03

0.0929

136.39601140

R-Square

C.V.

Root MSE

PAD_IN Mean

0.101026

16.60232

11.678870

70.344828

413.85941645

413.85941645

3.03

0.0929

*******************************************************************************
Analysis of Variance Procedure
Dependent Variable: PAS_FI
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

592.19164456

592.19164456

1.62

0.2138

Error

27

9862.98076923

365.29558405

Corrected Total

28

10455.17241379

R-Square

C.V.

Root MSE

PAS_FI Mean

0.056641

26.02200

19.112707

73.448276

Treinamento Sistema SAS

130

Prof. Luis Felipe Lopes

Source

DF

Anova SS

Mean Square

F Value

Pr > F

GRUPO

592.19164456

592.19164456

1.62

0.2138

*******************************************************************************
Analysis of Variance Procedure
Dependent Variable: PAD_FI
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

598.47480106

598.47480106

2.74

0.1095

Error

27

5898.07692308

218.44729345

Corrected Total

28

6496.55172414

R-Square

C.V.

Root MSE

PAD_FI Mean

0.092122

10.53118

14.779963

140.34483

Source

DF

Anova SS

Mean Square

F Value

Pr > F

GRUPO

598.47480106

598.47480106

2.74

0.1095

******************************************************************************
ANALISE DE VARIANCIA - DADOS PARAMTRICOS
Analysis of Variance Procedure
Dependent Variable: PESO
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

371.52005968

371.52005968

8.89

0.0060

Error

27

1128.25442308

41.78720085

Corrected Total

28

1499.77448276

R-Square

C.V.

Root MSE

PESO Mean

0.247717

14.95889

6.4643020

43.213793

Source

DF

Anova SS

Mean Square

F Value

Pr > F

GRUPO

371.52005968

371.52005968

8.89

0.0060

*******************************************************************************
Analysis of Variance Procedure
Dependent Variable: ESTAT
Source

DF

Sum of
Squares

Mean
Square

F Value

Pr > F

Model

131.16880802

131.16880802

4.31

0.0475

Error

27

821.50360577

30.42605947

Corrected Total

28

952.67241379

R-Square

C.V.

Root MSE

ESTAT Mean

0.137685

3.537059

5.5159822

155.94828

Treinamento Sistema SAS

131

Prof. Luis Felipe Lopes

Source

DF

Anova SS

Mean Square

F Value

Pr > F

GRUPO

131.16880802

131.16880802

4.31

0.0475

*******************************************************************************
Analysis of Variance Procedure
Duncan's Multiple Range Test for variable: PAD_IN
NOTE: This test controls the type I comparisonwise error rate, not
the experimentwise error rate
Alpha= 0.05 df= 27 MSE= 136.396
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Number of Means
2
Critical Range 8.948
Means with the same letter are not significantly different.
Duncan Grouping

Mean

GRUPO

A
A
A

73.750

16

66.154

13

*******************************************************************************
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PAD_IN
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 27 MSE= 136.396
Critical Value of Studentized Range= 2.902
Minimum Significant Difference= 8.9477
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Tukey Grouping

Mean

GRUPO

A
A
A

73.750

16

66.154

13

*******************************************************************************
Analysis of Variance Procedure
Scheffe's test for variable: PAD_IN
NOTE: This test controls the type I experimentwise error rate but
generally has a higher type II error rate than REGWF for all
pairwise comparisons
Alpha= 0.05 df= 27 MSE= 136.396
Critical Value of F= 4.21001
Minimum Significant Difference= 8.9477
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Scheffe Grouping

Treinamento Sistema SAS

Mean

132

GRUPO

Prof. Luis Felipe Lopes

A
A
A

73.750

16

66.154

13

*******************************************************************************
Analysis of Variance Procedure
Duncan's Multiple Range Test for variable: PAS_FI
NOTE: This test controls the type I comparisonwise error rate, not
the experimentwise error rate
Alpha= 0.05 df= 27 MSE= 365.2956
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Number of Means
2
Critical Range 14.64
Means with the same letter are not significantly different.
Duncan Grouping

Mean

GRUPO

A
A
A

78.462

13

69.375

16

*******************************************************************************
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PAS_FI
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 27 MSE= 365.2956
Critical Value of Studentized Range= 2.902
Minimum Significant Difference= 14.643
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Tukey Grouping

Mean

GRUPO

A
A
A

78.462

13

69.375

16

*******************************************************************************
Analysis of Variance Procedure
Scheffe's test for variable: PAS_FI
NOTE: This test controls the type I experimentwise error rate but
generally has a higher type II error rate than REGWF for all
pairwise comparisons
Alpha= 0.05 df= 27 MSE= 365.2956
Critical Value of F= 4.21001
Minimum Significant Difference= 14.643
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Scheffe Grouping

Treinamento Sistema SAS

Mean

133

GRUPO

Prof. Luis Felipe Lopes

A
A
A

78.462

13

69.375

16

*******************************************************************************
Analysis of Variance Procedure

Duncan's Multiple Range Test for variable: PAD_FI


NOTE: This test controls the type I comparisonwise error rate, not
the experimentwise error rate
Alpha= 0.05 df= 27 MSE= 218.4473
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Number of Means
2
Critical Range 11.32
Means with the same letter are not significantly different.
Duncan Grouping

Mean

GRUPO

A
A
A

145.385

13

136.250

16

*******************************************************************************
Analysis of Variance Procedure
Tukey's Studentized Range (HSD) Test for variable: PAD_FI
NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 27 MSE= 218.4473
Critical Value of Studentized Range= 2.902
Minimum Significant Difference= 11.324
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Tukey Grouping

Mean

GRUPO

A
A
A

145.385

13

136.250

16

*******************************************************************************
Analysis of Variance Procedure

Scheffe's test for variable: PAD_FI


NOTE: This test controls the type I experimentwise error rate but
generally has a higher type II error rate than REGWF for all
pairwise comparisons
Alpha= 0.05 df= 27 MSE= 218.4473
Critical Value of F= 4.21001
Minimum Significant Difference= 11.324
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483

Treinamento Sistema SAS

134

Prof. Luis Felipe Lopes

Means with the same letter are not significantly different.


Scheffe Grouping

Mean

GRUPO

A
A
A

145.385

13

136.250

16

*******************************************************************************
Analysis of Variance Procedure

Duncan's Multiple Range Test for variable: PESO


NOTE: This test controls the type I comparisonwise error rate, not
the experimentwise error rate
Alpha= 0.05 df= 27 MSE= 41.7872
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Number of Means
2
Critical Range 4.953
Means with the same letter are not significantly different.
Duncan Grouping

Mean

GRUPO

47.185

13

39.988

16

*******************************************************************************
Analysis of Variance Procedure

Tukey's Studentized Range (HSD) Test for variable: PESO


NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 27 MSE= 41.7872
Critical Value of Studentized Range= 2.902
Minimum Significant Difference= 4.9526
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Tukey Grouping

Mean

GRUPO

47.185

13

39.988

16

*******************************************************************************
Analysis of Variance Procedure

Scheffe's test for variable: PESO


NOTE: This test controls the type I experimentwise error rate but
generally has a higher type II error rate than REGWF for all
pairwise comparisons
Alpha= 0.05 df= 27 MSE= 41.7872
Critical Value of F= 4.21001

Treinamento Sistema SAS

135

Prof. Luis Felipe Lopes

Minimum Significant Difference= 4.9526


WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Scheffe Grouping

Mean

GRUPO

47.185

13

39.988

16

*******************************************************************************
Analysis of Variance Procedure

Duncan's Multiple Range Test for variable: ESTAT


NOTE: This test controls the type I comparisonwise error rate, not
the experimentwise error rate
Alpha= 0.05 df= 27 MSE= 30.42606
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Number of Means
2
Critical Range 4.226
Means with the same letter are not significantly different.
Duncan Grouping

Mean

GRUPO

158.308

13

154.031

16

*******************************************************************************
Analysis of Variance Procedure

Tukey's Studentized Range (HSD) Test for variable: ESTAT


NOTE: This test controls the type I experimentwise error rate, but
generally has a higher type II error rate than REGWQ.
Alpha= 0.05 df= 27 MSE= 30.42606
Critical Value of Studentized Range= 2.902
Minimum Significant Difference= 4.226
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Tukey Grouping

Mean

GRUPO

158.308

13

154.031

16

*******************************************************************************
Analysis of Variance Procedure

Scheffe's test for variable: ESTAT


NOTE: This test controls the type I experimentwise error rate but
generally has a higher type II error rate than REGWF for all

Treinamento Sistema SAS

136

Prof. Luis Felipe Lopes

pairwise comparisons
Alpha= 0.05 df= 27 MSE= 30.42606
Critical Value of F= 4.21001
Minimum Significant Difference= 4.226
WARNING: Cell sizes are not equal.
Harmonic Mean of cell sizes= 14.34483
Means with the same letter are not significantly different.
Scheffe Grouping

Mean

GRUPO

158.308

13

154.031

16

*******************************************************************************
N P A R 1 W A Y

P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable IDADE


Classified by Variable GRUPO

GRUPO

Sum of
Scores

Std Dev
Under H0

Mean
Score

202.500000
195.0
22.5578621
232.500000
240.0
22.5578621
Average Scores Were Used for Ties

15.5769231
14.5312500

A
B

13
16

Expected
Under H0

Wilcoxon 2-Sample Test (Normal Approximation)


(with Continuity Correction of .5)
S =

202.500

Z = 0.310313

Prob > |Z| = 0.7563

T-Test Approx. Significance = 0.7586


Kruskal-Wallis Test (Chi-Square Approximation)
CHISQ = 0.11054
DF = 1
Prob > CHISQ = 0.7395
*******************************************************************************
TESTE NAO PARAMETRICO - WILCOXON
N P A R 1 W A Y

P R O C E D U R E

Wilcoxon Scores (Rank Sums) for Variable PAS_IN


Classified by Variable GRUPO
GRUPO

Sum of
Scores

Std Dev
Under H0

Mean
Score

199.0
195.0
22.1452883
236.0
240.0
22.1452883
Average Scores Were Used for Ties

15.3076923
14.7500000

A
B

13
16

Expected
Under H0

Wilcoxon 2-Sample Test (Normal Approximation)


(with Continuity Correction of .5)
S =

199.000

Z = 0.158047

Prob > |Z| = 0.8744

T-Test Approx. Significance = 0.8756


Kruskal-Wallis Test (Chi-Square Approximation)
CHISQ = 0.03263
DF = 1
Prob > CHISQ = 0.8567
*******************************************************************************
ANALISE DE CORRELAO - POR GRUPO

Treinamento Sistema SAS

137

Prof. Luis Felipe Lopes

---------------------------------- GRUPO=A -----------------------------------Correlation Analysis


Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 13
IDADE

PAS_IN

PAD_IN

PAD_FI

PAS_FI

PESO

ESTAT

IDADE

1.00000
0.0

0.11355
0.7119

-0.01829
0.9527

-0.29866
0.3216

-0.35359
0.2359

0.11772
0.7017

-0.09825
0.7495

PAS_IN

0.11355
0.7119

1.00000
0.0

0.78224
0.0016

-0.05119
0.8681

-0.32011
0.2863

-0.03421
0.9116

-0.14034
0.6475

PAD_IN

-0.01829
0.9527

0.78224
0.0016

1.00000
0.0

-0.01332
0.9655

0.16250
0.5958

-0.03653
0.9057

-0.21510
0.4803

PAD_FI

-0.29866
0.3216

-0.05119
0.8681

-0.01332
0.9655

1.00000
0.0

0.37142
0.2115

0.61683
0.0247

0.35160
0.2388

PAS_FI

-0.35359
0.2359

-0.32011
0.2863

0.16250
0.5958

0.37142
0.2115

1.00000
0.0

-0.03737
0.9035

0.22572
0.4584

PESO

0.11772
0.7017

-0.03421
0.9116

-0.03653
0.9057

0.61683
0.0247

-0.03737
0.9035

1.00000
0.0

0.45355
0.1196

ESTAT

-0.09825
0.7495

-0.14034
0.6475

-0.21510
0.4803

0.35160
0.2388

0.22572
0.4584

0.45355
0.1196

1.00000
0.0

---------------------------------- GRUPO=B -----------------------------------Correlation Analysis


7 'VAR' Variables:

IDADE
ESTAT

PAS_IN

PAD_IN

PAD_FI

PAS_FI

PESO

Simple Statistics
Pearson Correlation Coefficients / Prob > |R| under Ho: Rho=0 / N = 16
IDADE

PAS_IN

PAD_IN

PAD_FI

PAS_FI

PESO

ESTAT

IDADE

1.00000
0.0

-0.41854
0.1066

0.02114
0.9381

-0.08451
0.7557

-0.15240
0.5731

-0.32680
0.2167

0.52205
0.0381

PAS_IN

-0.41854
0.1066

1.00000
0.0

0.63341
0.0084

-0.41562
0.1094

-0.31914
0.2283

-0.16878
0.5320

-0.17507
0.5167

PAD_IN

0.02114
0.9381

0.63341
0.0084

1.00000
0.0

-0.37376
0.1538

-0.34073
0.1966

-0.12430
0.6465

-0.05596
0.8369

PAD_FI

-0.08451
0.7557

-0.41562
0.1094

-0.37376
0.1538

1.00000
0.0

0.73254
0.0012

0.36355
0.1663

0.12034
0.6571

PAS_FI

-0.15240
0.5731

-0.31914
0.2283

-0.34073
0.1966

0.73254
0.0012

1.00000
0.0

0.16864
0.5324

0.05036
0.8530

PESO

-0.32680
0.2167

-0.16878
0.5320

-0.12430
0.6465

0.36355
0.1663

0.16864
0.5324

1.00000
0.0

-0.14503
0.5920

ESTAT

0.52205
0.0381

-0.17507
0.5167

-0.05596
0.8369

0.12034
0.6571

0.05036
0.8530

-0.14503
0.5920

1.00000
0.0

Treinamento Sistema SAS

138

Prof. Luis Felipe Lopes

REFERNCIAS BIBLIOGRFICAS

BUSSAB, W.O.; MORETTIN, P.A. (1981) Estatstica Bsica. So Paulo: Atual


Editora.
COSTA NETO, Pedro L. O. Estatstica. So Paulo: Mc Graw-Hill do Brasil.
FONSECA, J.S.; MARTINS, G.A. (1993) Curso de Estatstica. So Paulo: Ed.
Atlas.
FONSECA, J.S.; MARTINS, G.A.; TOLEDO, G.L. (1991) Estatstica Aplicada.
So Paulo: Ed. Atlas.
Manuais do SAS/BASIC. Vol. I e II.
Manuais do SAS/STAT.
STEVENSON, W.J. (1981) Estatstica Aplicada Administrao. So Paulo:
Ed. Harbra.
VIEIRA, S.; HOFFMANN R. (1989) Estatstica Experimental. So Paulo: Ed.
Atlas.

Treinamento Sistema SAS

139

Prof. Luis Felipe Lopes

ANEXOS

Treinamento Sistema SAS

140

Prof. Luis Felipe Lopes

ANEXO 1 - ANLISE DE NORMALIDADE USANDO A TABELA DE


ASSIMENTRIA E CURTOSE - Skewness and Kurtosis
Intervalo de confiana de 95%

Skewness

Kurtosis

Skewness

Kurtosis

5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37

-1.81
-1.70
-1.57
-1.45
-1.37
-1.31
-1.26
-1.21
-1.17
-1.13
-1.09
-1.06
-1.03
-1.00
-0.98
-0.95
-0.93
-0.91
-0.89
-0.87
-0.85
-0.84
-0.82
-0.81
-0.79
-0.78
-0.77
-0.76
-0.74
-0.73
-0.72
-0.71
-0.70

.
.
-0.87
-0.89
-0.90
-0.92
.
-0.93
.
.
-0.94
.
.
.
.
.
-1.27
-1.25
-1.22
-1.20
-1.18
-1.16
-1.14
-1.12
-1.11
-1.09
-1.08
-1.06
-1.05
-1.04
-1.03
-1.01
-1.00

38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70

-0.69
-0.68
-0.67
-0.67
-0.66
-0.65
-0.64
-0.63
-0.63
-0.62
-0.61
-0.61
-0.60
-0.59
-0.59
-0.58
-0.58
-0.57
-0.57
-0.56
-0.56
-0.55
-0.55
-0.54
-0.54
-0.53
-0.53
-0.52
-0.52
-0.51
-0.51
-0.51
-0.50

-0.99
-0.98
-0.97
-0.96
-0.95
-0.95
-0.94
-0.93
-0.92
-0.91
-0.91
-0.90
-0.89
-0.88
-0.88
-0.87
-0.87
-0.86
-0.85
-0.85
-0.84
-0.84
-0.83
-0.83
-0.82
-0.82
-0.81
-0.81
-0.80
-0.80
-0.79
-0.79
-0.78

1.81
1.70
1.57
1.45
1.37
1.31
1.26
1.21
1.17
1.13
1.09
1.06
1.03
1.00
0.98
0.95
0.93
0.91
0.89
0.87
0.85
0.84
0.82
0.81
0.79
0.78
0.77
0.76
0.74
0.73
0.72
0.71
0.70

Treinamento Sistema SAS

.
.
1.54
1.68
1.79
1.85
.
1.93
.
.
1.95
.
.
.
.
.
2.44
2.39
2.34
2.30
2.26
2.22
2.18
2.15
2.12
2.08
2.05
2.03
2.00
1.97
1.94
1.92
1.90

141

0.69
0.68
0.67
0.67
0.66
0.65
0.64
0.63
0.63
0.62
0.61
0.61
0.60
0.59
0.59
0.58
0.58
0.57
0.57
0.56
0.56
0.55
0.55
0.54
0.54
0.53
0.53
0.52
0.52
0.51
0.51
0.51
0.50

1.87
1.85
1.83
1.81
1.79
1.77
1.75
1.73
1.71
1.69
1.68
1.66
1.64
1.63
1.61
1.60
1.58
1.57
1.56
1.54
1.53
1.52
1.50
1.49
1.48
1.47
1.46
1.45
1.43
1.42
1.41
1.40
1.39

Prof. Luis Felipe Lopes

Skewness

Kurtosis

Skewness

Kurtosis

71
72
73
74
75
76
77
78
79
80
81
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
100
101
102
103
105
107
108
109

-0.50
-0.50
-0.49
-0.49
-0.48
-0.48
-0.48
-0.47
-0.47
-0.47
-0.46
-0.46
-0.46
-0.45
-0.45
-0.45
-0.44
-0.44
-0.44
-0.44
-0.43
-0.43
-0.43
-0.43
-0.42
-0.42
-0.42
-0.41
-0.41
-0.41
-0.41
-0.40
-0.40
-0.40
-0.40

-0.78
-0.78
-0.77
-0.77
-0.76
-0.76
-0.76
-0.75
-0.75
-0.75
-0.74
-0.74
-0.73
-0.73
-0.73
-0.72
-0.72
-0.72
-0.71
-0.71
-0.71
-0.70
-0.70
-0.70
-0.70
-0.69
-0.69
-0.69
-0.68
-0.68
-0.68
-0.67
-0.67
-0.67
-0.66

110
111
112
113
114
115
117
118
119
121
123
125
127128
129
130
132
133
134
135
137
140
143
146
148
149
152
155
156
158
159
161
164
165

-0.39
-0.39
-0.39
-0.39
-0.39
-0.38
-0.38
-0.38
-0.38
-0.37
-0.37
-0.37
-0.36
-0.36
-0.36
-0.36
-0.36
-0.35
-0.35
-0.35
-0.35
-0.34
-0.34
-0.34
-0.33
-0.33
-0.33
-0.33
-0.32
-0.32
-0.32
-0.32
-0.32
-0.31

-0.66
-0.66
-0.66
-0.65
-0.65
-0.65
-0.65
-0.64
-0.64
-0.64
-0.63
-0.63
-0.63
-0.62
-0.62
-0.62
-0.62
-0.62
-0.61
-0.61
-0.61
-0.60
-0.60
-0.59
-0.59
-0.59
-0.5
-0.58
-0.58
-0.58
-0.57
-0.57
-0.57
-0.57

0.50
0.50
0.49
0.49
0.48
0.48
0.48
0.47
0.47
0.47
0.46
0.46
0.46
0.45
0.45
0.45
0.44
0.44
0.44
0.44
0.43
0.43
0.43
0.43
0.42
0.42
0.42
0.41
0.41
0.41
0.41
0.40
0.40
0.40
0.40

Treinamento Sistema SAS

1.38
1.37
1.36
1.35
1.35
1.34
1.33
1.32
1.31
1.30
1.29
1.28
1.27
1.26
1.26
1.25
1.24
1.23
1.23
1.22
1.21
1.21
1.20
1.19
1.19
1.18
1.17
1.16
1.16
1.15
1.14
1.13
1.12
1.12
1.11

142

0.39
0.39
0.39
0.39
0.39
0.38
0.38
0.38
0.38
0.37
0.37
0.37
0.36
0.36
0.36
0.36
0.36
0 35
0 35
0 35
0 35
0 34
0 34
0 34
0 33
0 33
0 33
0 33
0 32
0 32
0 32
0.32
0.32
0.31

1.11
1.10
1.09
1.09
1.08
1.08
1.07
1.07
1.06
1.05
1.04
1.03
1.02
1.02
1.01
1.01
1.00
1.00
1.00
0.99
0.98
0.97
0.96
0.95
0.95
0.94
0.93
0.92
0.92
0.91
0.91
0.90
0.89
0.89

Prof. Luis Felipe Lopes

Skewness

Kurtosis

Skewness

Kurtosis

167
168
171
175
179
183
186
187
191
192
196
198
200
201
205
210
211
212
215
220
222
225
231
234
237
241
243
246
249
255
258
260
262

-0.31
-0.31
-0.31
-0.30
-0.30
-0.30
-0.29
-0.29
-0.29
-0.29
-0.29
-0.28
-0.28
-0.28
-0.28
-0.28
-0.27
-0.27
-0.27
-0.27
-0.27
-0.26
-0.26
-0.26
-0.26
-0.25
-0.25
-0.25
-0.25
-0.25
-0.24
-0.24
-0.24

-0.56
-0.56
-0.56
-0.55
-0.55
-0.54
-0.54
-0.54
-0.54
-0.53
-0.53
-0.53
-0.53
-0.52
-0.52
-0.52
-0.52
-0.51
-0.51
-0.51
-0.50
-0.50
-0.50
-0.49
-0.49
-0.49
-0.49
-0.48
-0.48
-0.48
-0.48
-0.47
-0.47

269
274
277
278
284
289
292
300
301
306
309
318
323
325
328
338
342
348
354
359
363
371
383
385
386
396
409
410
423
436
438
454
464

-0.24
-0.24
-0.24
-0.23
-0.23
-0.23
-0.23
-0.22
-0.22
-0.22
-0.22
-0.22
-0.22
-0.21
-0.21
-0.21
-0.21
-0.21
-0.20
-0.20
-0.20
-0.20
-0.20
-0.20
-0.19
-0.19
-0.19
-0.19
-0.18
-0.18
-0.18
-0.18
-0.18

-0.47
-0.46
-0.46
-0.46
-0.46
-0.45
-0.45
-0.45
-0.45
-0.44
-0.44
-0.44
-0.43
-0.43
-0.43
-0.43
-0.42
-0.42
-0.42
-0.42
-0.41
-0.41
-0.41
-0.40
-0.43
-0.40
-0.40
-0.39
-0.39
-0.38
-0.38
-0.38
-0.37

0.31
0.31
0.31
0.30
0.30
0.30
0.29
0.29
0.29
0.29
0.29
0.28
0.28
0.28
0.28
0.28
0.27
0.27
0.27
0.27
0.27
0.26
0.26
0.26
0.26
0.25
0.25
0.25
0.25
0.25
0.24
0.24
0.24

Treinamento Sistema SAS

0.89
0.88
0.87
0.86
0.85
0.84
0.84
0.83
0.82
0.82
0.81
0.81
0.80
0.80
0.79
G.78
0.78
0.78
0.77
0.76
0.76
0.75
0.74
0.74
0.73
0.73
0.72
0.72
0.71
0.70
0.70
0.70
0.69

143

0.24
0.24
0.24
0.23
0.23
0.23
0.23
0.22
0.22
0.22
0.22
0.22
0.22
0.21
0.21
0.21
0.21
0.21
0.20
0.20
0.20
0.20
0.20
0.20
0.19
0.19
0.19
0.19
0.18
0.18
0.18
0.18
0.18

0.68
0.68
0.67
0.67
0.66
0.66
0.65
0.65
0.64
0.64
0.63
0.62
0.62
0.62
0.61
0.60
0.60
0.59
0.59
0.58
0.58
0.57
0.56
0.56
0.56
0.55
0.54
0.54
0.53
0.53
0.52
0.51
0.51

Prof. Luis Felipe Lopes

n
466
470
488
495
506
516
526
529
547
566
569
575
593
607
618
645
652
674
701
705
730
738
755
774
812
816
833
853
883
898
947
958
961
1000

Skewness

Kurtosis

-0.17
-0.17
-0.17
-0.17
-0.17
-0.16
-0.16
-0.16
-0.16
-0.16
-0.16
-0.15
-0.15
-0.15
-0.15
-0.14
-0.14
-0.14
-0.14
-0.14
-0.13
-0.13
-0.13
-0.13
-0.13
-0.13
-0.12
-0.12
-0.12
-0.12
-0.12
-0.12
-0.11
-0.11

-0.37
-0.37
-0.37
-0.36
-0.36
-0.36
-0.36
-0.35
-0.35
-0.34
-0.34
-0.34
-0.34
-0.33
-0.33
-0.33
-0.32
-0.32
-0.31
-0.31
-0.31
-0.31
-0.30
-0.30
-0.30
-0.29
-0.29
-0.29
-0.28
-0.28
-0.28
-0.27
-0.27
-0.27

0.17
0.17
0.17
0.17
0.17
0.16
0.16
0.16
0.16
0.16
0.16
0.15
0.15
0.15
0.15
0.14
0.14
0.14
0.14
0.14
0.13
0.13
0.13
0.13
0.13
0.13
0.12
0.12
0.12
0.12
0.12
0.12
0.11
0.11

Treinamento Sistema SAS

0.51
0.50
0.49
0.49
0.48
0.48
0.47
0.47
0.46
0.46
0.45
0.45
0.44
0.44
0.43
0.42
0.42
0.41
0.41
0.40
0.40
0.39
0.39
0.38
0.37
0.37
0.37
0.36
0.36
0.35
0.34
0.34
0.34
0.33

144

Prof. Luis Felipe Lopes

Você também pode gostar