Escolar Documentos
Profissional Documentos
Cultura Documentos
2
- teste de
0
=0 e
1
=0 com a estatstica t de Student ou teste de
0
no modelo /
1
=0 com a estatstica F.
8.5 Resduos
Os resduos representam o comportamento de Y (varivel resposta), do
qual as variveis independentes no fazem a estimativa. Se for suposto que o
modelo correto, que no se tenha omitido nenhuma varivel independente, e
tambm que os resduos so normais e independentemente distribudos, com
mdia zero e varincia constante, pode-se provar hipteses, assinalar limites de
confiana, predizer valores da varivel dependente a partir das variveis
independentes e computar probabilidades de significncia .
Um plote dos resduos sobres as variveis independentes ou sobre os
valores preditos pode ser gerado para avaliar a qualidade do ajuste. Se o modelo
necessitar de algum outro termo, o plote dos resduos sugere que tipo de termo
pode ser adicionado ao modelo. Alguns modelos so mostrados a seguir:
Treinamento Sistema SAS Prof. Luis Felipe Lopes
42
PROC REG
A procedure REG o procedimento SAS mais comum para anlise da
regresso. um procedimento interativo, ou seja, o usurio pode dispor de seus
comandos bsicos para ajustar uma funo, verificar a sada das estatsticas, e
posteriormente adicionar mais comandos dando continuidade suas anlises sem
necessidade de reinicializar o comando da PROC. Quando usado interativamente,
o comando RUN no finaliza o procedimento. Para finaliz-lo o usurio deve
estabelecer outro DATA STEP ou PROC STEP, ou usar o comando QUIT, que
nunca deve ser acessado quando o procedimento estiver em curso.
FORMA GERAL:
PROC REG DATA = arquivo SAS opes;
MODEL dependente =independente / opes;
VAR varivel;
ID varivel;
OUTPUT OUT =novo arquivo
P = nova varivel R = nova varivel
U95 = nova varivel L95 = nova varivel
U95M = nova varivel L95M = nova varivel;
PLOT varivel Y * varivel X ='smbolo';
PRINT opes;
RUN;
OPES DISPONVEIS NA PROC REG:
Treinamento Sistema SAS Prof. Luis Felipe Lopes
43
SIMPLE Lista estatsticas descritiva para cada varivel.
OUTEST Cria um data set contendo as estimativas dos parmetros do
modelo de regresso.
OPES DISPONVEIS NO COMANDO
CLI Fornece limites de confiana superior e inferior a 95% para um
valor particular predito da varivel dependente.
CLM Fornece limites de confiana superior e inferior a 95% para a
mdia da varivel dependente nos nveis da(s) varivel(is)
independentes para cada observao.
P Fornece valores preditos a partir do modelo estimado para cada
observao do arquivo a de entrada.
R Fornece valores residuais (REAL-PREDITO) para cada
observao e uma anlise dos resduos.
SELECTION = mtodo
Especifica o mtodo usado para seleo do modelo (Backward, Stepwise,
MAXR, ADJ RSQ, por exemplo). O default NONE (usa o modelo
completo).
ADJRSQ Fornece o R-Square ajustado para o grau de liberdade, para cada
modelo selecionado.
AIC Fornece o Critrio de Informao de Akaike's.
BIC Fornece o Critrio de Informao Bayesiano de Sawa .
MSE Fornece o erro mdio quadrtico para cada modelo.
COMANDOS DISPONVEIS:
MODEL especifica as variveis dependentes e independentes.
VAR lista a varivel (ou variveis) que possam vir a ser adicionadas no
modelo durante o processo de anlise. Este comando deve
aparecer antes do primeiro comando RUN.
ID especifica a varivel que identifica as observaes na sada do
relatrio, quando so solicitadas estimativas de valores individuais
de uma varivel independente ( valores preditos ), valores
residuais, etc.
Treinamento Sistema SAS Prof. Luis Felipe Lopes
44
OUTPUT especifica o arquivo de sada e os nomes das variveis que iro
conter os valores previstos, residuais , etc.
PLOT gera plotes de disperso com a varivel y representando o eixo
vertical e a varivel x o eixo horizontal. Para plotar estatsticas
utiliza-se as palavras chave (nomes reservados) disponveis no
comando OUTPUT. (Ex: plot y.*p;)
PRINT Lista as opes disponveis.
Os seguintes nomes reservados so utilizados para especificar as
estatsticas desejadas. Eles devem ser seguidos por um nome de varivel:
P (ou PREDICTED) representa os valores preditos.
R (ou RESIDUAL) representa os valores residuais para cada observao.
U95, L95 representam, respectivamente, os limites superior e
inferior de predio para os valores observados.
U95M, L95M representam, respectivamente os limites superior e
inferior de confiana para a mdia da populao.
Ex4.: Os dados a seguir provem de um experimento para testar o desempenho de
uma mquina industrial. O experimento utilizou uma mistura de leo diesel e
gs, derivados de materiais destilados orgnicos. O valor da capacidade da
mquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas
em rotaes por minuto (rpm X 100). Analisar o diagrama de disperso e
encontrar um modelo de regresso que se ajuste aos dados.
OPTI ONS FORMDLI M=' *' LS=80;
DATA MAQUI NA1 A; / * EXEMPL04 SAS */
I NPUT VELOC CAPAC @@;
CARDS;
22. 0 64. 03 20. 0 62. 47 18. 0 54. 94 16. 0 48. 84 14. 0 43. 73
12. 0 37. 48 15. 0 46. 85 17. 0 51. 17 19. 0 58. 00 21. 0 63. 21
22. 0 64. 03 20. 0 62. 63 18. 0 52. 90 16. 0 48. 84 14. 0 42. 74
12. 0 36. 63 10. 5 32. 05 13. 0 39. 68 15. 0 45. 79 17. 0 51. 17
19. 0 56. 65 21. 0 62. 61 23. 0 65. 31 24. 0 63. 89
;
PROC PLOT;
PLOT CAPAC * VELOC = ' 0' ;
TI TLE ' DI AGRAMA DE DI SPERSAO' ;
RUN;
Treinamento Sistema SAS Prof. Luis Felipe Lopes
45
PROC REG;
MODEL CAPAC = VELOC;
OUTPUT OUT= RESI Dl P=PREVI STO R=RESI DUAL;
TI TLE ' AJ USTE DA FUNCAO LI NEAR' ;
RUN;
PROC GPLOT;
PLOT RESI DUAL* VELOC / VREF = 0;
TI TLE ' PLOT DE RESI DUOS P/ AJ USTE LI NEAR' ;
RUN;
PROC UNI VARI ATE DATA= RESI Dl NORMAL PLOT;
VAR RESI DUAL;
TI TLE ' TESTE DE NORMALI DADE DOS RESI DUOS' ;
RUN;
ANLISE DOS RESULTADOS:
DI AGRAMA DE DI SPERSAO
Pl ot of CAPAC*VELOC. Symbol used i s ' 0' .
CAPAC |
|
65 + 0
| 0 0
| 0
| 0 0
60 +
|
| 0
| 0
55 + 0
|
| 0
| 0
50 +
| 0
| 0
| 0
45 +
| 0
| 0
|
40 + 0
|
| 0
| 0
35 +
|
|
| 0
30 +
|
- - +- - - - - - - +- - - - - - - - +- - - - - - - - +- - - - - - - - - +- - - - - - - +- - - - - - - - +- - - - - - - - +-
10 12 14 16 18 20 22 24
VELOC
NOTE: 4 obs hi dden.
Treinamento Sistema SAS Prof. Luis Felipe Lopes
46
O diagrama de disperso mostra uma tendncia crescente da capacidade da
mquina em funo da velocidade utilizada. Os dados observados sero
ajustados inicialmente por uma funo linear. o relatrio de sada consta de duas
sees, Anlise da Varincia e Estimativas dos Parmetros, apresentadas a
seguir:
AJ USTE DA FUNCAO LI NEAR
Model : MODEL1
Dependent Var i abl e: CAPAC
Anal ysi s of Var i ance
Sumof Mean
Sour ce DF Squar es Squar e F Val ue Pr ob>F
Model 1 2294. 80982 2294. 80982 663. 532 0. 0001
Er r or 22 76. 08652 3. 45848
C Tot al 23 2370. 89633
Root MSE 1. 85970 R- squar e 0. 9679
Dep Mean 52. 31833 Adj R- sq 0. 9664
C. V. 3. 55458
Par amet er Est i mat es
Par amet er St andar d T f or H0:
Var i abl e DF Est i mat e Er r or Par amet er =0 Pr ob > | T|
I NTERCEP 1 6. 100234 1. 83396047 3. 326 0. 0031
VELOC 1 2. 650500 0. 10289565 25. 759 0. 0001
A seo de Anlise de Varincia contm informaes sobre a qualidade do
ajuste. So elas:
- DF
Identifica as fontes de variaes dos dados e os respectivos graus de liberdade.
- SOMA DOS QUADRADOS (SS):
Separam a variao dos dados em pores que podem ser tanto atribudas ao
modelo como ao erro. Parte da variao total da capacidade da mquina se deve
velocidade utilizada e outra parte se deve a erros aleatrios ou outros fatores
independentes da velocidade.
SS total = SS models + SS erro
Observando os valores da varivel Capacidade da Mquina quando o valor da
velocidade de 18 (rpm x 100), por exemplo, tem-se 54.94 HP e 52.90 HP. Esta
variao se deve ao erro do experimento ou a fatores outros que no a
velocidade.
Treinamento Sistema SAS Prof. Luis Felipe Lopes
47
- MDIA QUADRTICA (MS): SS/DF
MS erro =3.45848 estima a varincia da populao dos valores da capacidade da
mquina para valores determinados da velocidade.
- F, PROB > F:
Fornece o valor da estatstica teste e o p-valor associado ao teste de hiptese de
que o modelo explica uma parte significante da variao dos dados.
- R_SQUARE : SS modelo / SS Total
R_Square a frao da variao total devida s variveis do modelo. Seu valor
varia dentro do intervalo [0,1], sendo que quanto mais prximo de 1, melhor o
modelo explica a variao dos dados. Neste caso o modelo proposto explica 96%
da variabilidade total. implicando um alto grau de aderncia dos valores
observados reta ajustada. Sobre a qualidade do ajuste, o valor de R_Square
no a explica sozinho. Recomenda-se tambm uma Anlise dos Resduos.
- Adj R_SQUARE
uma estatstica alternativa ao R-Square. utilizada em REGRESSO
MLTIPLA.
A seo Estimativas dos Parmetros prov coeficientes para a linha de
regresso e testes para determinar se estes coeficientes so significativamente
diferentes de zero. O modelo de ajuste, neste caso, representado por:
CAPAC = 6.10 + 2.65 VELOC
O valor de INTERCEP =6.10 no tem uma interpretao especfica no modelo.
Para VELOC =0, a capacidade predita pelo modelo de 6.10 HP. O coeficiente
2.65 pode ser interpretado como o acrscimo da capacidade esperada para cada
unidade adicional da velocidade.
Para verificar a suposio de que os coeficientes so no nulos, tem-se:
- DF
Fornece o grau de liberdade para os parmetros estimados. Para cada parmetro
estimado DF=1.
- Erro Padro:
Mede o quanto cada parmetro estimado poderia vaiar de um conjunto de dados
para outro. Eles so utilizados na construo de intervalos de confiana.
Treinamento Sistema SAS Prof. Luis Felipe Lopes
48
- T para H0 : Parmetro = 0:
Estatstica para testar a hiptese que o parmetro igual a zero. Seu valor dado
por:
Valor Estimado do Parmetro / Erro Padro
- PROB > T:
Fornece o p-valor para a estatstica teste T. Para o parmetro VELOC, o p-valor
de 0.0001, evidenciando que o grau de inclinao da reta ajustada diferente de
zero. O intercepto tambm difere de zero.
A anlise dos resduos ei=Yi - Y