Você está na página 1de 30

Aula 3

1) ABRIR O PROJETO MINITAB


Para abrir um projeto MINITAB j criado, seguir o caminho File > Open Project. Procurar o
diretrio onde est salvo o arquivo com o projeto, selecionar o arquivo e clicar em Open (ex:
Lab1_MINITAB. MPJ).
2) GRFICOS DE RESDUOS DA REGRESSO LINEAR
No menu Stat, seguir o caminho Regression > Regression.
Selecionar a varivel resposta (Response) e a varivel explicativa (Predictors).
Clicar no boto Graphs. Marcar os grficos Histogram of Residuals, Normal Plot of Residuals e
Residuals versus Fits. No campo Residuals versus other variables, coloque a varivel explicativa.
Clicar em OK.
Clicar no boto Storage. Marcar a caixa Standardized Residuals. Clicar em OK.
TAREFA 1: com os dados da planilha EST556_salario_experiencia.xls, rodar a
anlise de regresso da varivel resposta Salrio na varivel explicativa Experiencia, gerando
os grficos de resduos apropriados e tambm guardando os valores dos resduos padronizados
(Standardized Residuals).
Marginal Plot of Salario vs Experiencia

4,5

Salario

4,0
3,5
3,0
2,5
2,0
0

10

15
Experiencia

20

25

30

Regression Analysis: Salario versus Experiencia


The regression equation is
Salario = 1,81 + 0,101 Experiencia
Predictor
Constant
Experiencia

Coef
1,80633
0,100759

S = 0,211342

SE Coef
0,08161
0,005014

R-Sq = 94,2%

T
22,13
20,10

P
0,000
0,000

R-Sq(adj) = 93,9%

Analysis of Variance
Source
Regression
Residual Error
Lack of Fit
Pure Error
Total

DF
1
25
18
7
26

SS
18,037
1,117
0,607
0,510
19,154

MS
18,037
0,045
0,034
0,073

F
403,84

P
0,000

0,46

0,911

13 rows with no replicates


Unusual Observations
Obs
10

Experiencia
20,0

Salario
3,2307

Fit
3,8215

SE Fit
0,0503

Residual
-0,5908

St Resid
-2,88R

R denotes an observation with a large standardized residual.

Salario
1,9307
3,1769
2,2769
3,1307
2,7769
3,0923
2,6538
2,2230
2,8538
3,2307
2,8230
1,9076
2,5384
2,5692
4,2230
4,0923
3,6000
4,7076
3,1461
2,9923
4,7461

ExperienciaTRES1
HI1
0
0,63022
0,149114
17
-1,71811 0,041734
8
-1,69596 0,058057
15
-0,89850 0,037482
9
0,30402
0,051741
15
-1,09133 0,037482
8
0,19790
0,058057
5
-0,42356 0,083761
13
-1,28188 0,037732
20
-3,44860 0,056556
11
-0,43609 0,042485
1
0,00254
0,133792
6
0,61924
0,074067
7
0,27646
0,065499
23
0,48222
0,081509
20
1,33993
0,056556
18
-0,09491 0,045549
27
0,91429
0,130540
11
1,12495
0,042485
10
0,85986
0,046550
29
0,08990
0,161809

FITS1
1,80633
3,51924
2,61240
3,31772
2,71316
3,31772
2,61240
2,31013
3,11620
3,82152
2,91468
1,90709
2,41089
2,51165
4,12379
3,82152
3,62000
4,52683
2,91468
2,81392
4,72835

4,1153
2,3615
4,0923
4,5076
2,9076
4,4846

23
4
22
25
9
25

-0,04109
0,74985
0,33413
0,90789
0,94267
0,79013

0,081509
0,094580
0,072066
0,103773
0,051741
0,103773

Grau de Liberdade (n-2) = 27-2=25

4,12379
2,20937
4,02303
4,32531
2,71316
4,32531

Inserir o valor para calcular a rea, para poder verificar se esse outlier
ou no.
rea pequena outlier se s rea grande no .
>0,05 Grande <0,05 pequena
Cumulative Distribution Function
Student's t distribution with 25 DF
x
-3,4486

P( X <= x )
0,0010040

Regression Analysis: Salario_1 versus Experiencia_1 sem a observao 10


The regression equation is
Salario_1 = 1,80 + 0,103 Experiencia_1
Predictor
Constant
Experiencia_1

Coef
1,80023
0,102835

SE Coef
0,06813
0,004228

S = 0,176381

R-Sq = 96,1%

T
26,42
24,32

P
0,000
0,000

R-Sq(adj) = 95,9%

Analysis of Variance
Source
Regression
Residual Error
Lack of Fit
Pure Error
Total

DF
1
24
18
6
25

SS
18,407
0,747
0,608
0,139
19,154

MS
18,407
0,031
0,034
0,023

F
591,69

P
0,000

1,46

0,335

14 rows with no replicates


Unusual Observations
Obs

Experiencia_1

Salario_1

Fit

SE Fit

Residual

St Resid

2
3

17,0
8,0

3,1769
2,2769

3,5484
2,6229

0,0370
0,0426

-0,3715
-0,3460

R denotes an observation with a large standardized residual.

-2,15R
-2,02R

Salario_1
1,9307
3,1769
2,2769
3,1307
2,7769
3,0923
2,6538
2,2230
2,8538
2,8230
1,9076
2,5384
2,5692
4,2230
4,0923
3,6000
4,7076
3,1461
2,9923
4,7461
4,1153
2,3615
4,0923
4,5076
2,9076
4,4846

Experiencia_1
0
0,79578
17
-2,34826
8
-2,17267
15
-1,24022
9
0,29215
15
-1,48453
8
0,17678
5
-0,53330
13
-1,70180
11
-0,62031
1
0,02702
6
0,70640
7
0,28254
23
0,33502
20
1,40388
18
-0,29217
27
0,79232
11
1,25946
10
0,94890
29
-0,22163
23
-0,29164
4
0,88942
22
0,17161
25
0,81424
9
1,06182
25
0,67405

TESTE DE NORMALIDADE
Dados sem a observao 10.

TRES2
0,149214
0,044037
0,058356
0,039176
0,052169
0,039176
0,058356
0,083810
0,038911
0,043242
0,133836
0,074176
0,065691
0,086197
0,059947
0,048191
0,137283
0,043242
0,047131
0,169720
0,086197
0,094593
0,076298
0,109442
0,052169
0,109442

HI2 FITS2
1,80023
3,54843
2,62291
3,34276
2,72575
3,34276
2,62291
2,31441
3,13709
2,93142
1,90307
2,41724
2,52008
4,16544
3,85693
3,65126
4,57678
2,93142
2,82858
4,78245
4,16544
2,21157
4,06260
4,37111
2,72575
4,37111

Ryan-Joiner testpoderoso para verificar se normal, ele rejeita a hipotese nula.


H0: Distribuio no normal
H1: distribuio no normal

Probability Plot of TRES2


Normal
99

Mean
StDev
N
RJ
P-Value

95
90

-0,01058
1,046
26
0,960
0,055

Percent

80
70
60
50
40
30
20
10
5

-3

-2

-1

0
TRES2

=0,05 ficou proximo ao p valor = 0,055. Continuo com a hipotese de


normalidade.

GRFICOS SOBRE OS RESIDUOS

Scatterplot of TRES2 vs Experiencia_ 1


1,5
1,0
0,5

TRES2

0,0
-0,5
-1,0
-1,5
-2,0
-2,5
0

10

15
Experiencia_ 1

20

25

30

Verificar se variancia constante:


No indicios de funil, consideramos que a variancia constante.
Scatterplot of TRES2 vs FITS2
1,5
1,0
0,5

TRES2

0,0
-0,5
-1,0
-1,5
-2,0
-2,5
2,0

2,5

3,0

3,5
FITS2

4,0

4,5

5,0

Verificar a linearidade:
Se comparamos com o grfico abaixo no verificamos a formao de uma curva:

Scatterplot of Salario_ 1 vs Experiencia_ 1


5,0
4,5

Salario_ 1

4,0
3,5
3,0
2,5
2,0
0

10

15
Experiencia_ 1

GRFICO DA ORDEM DE COLETA

20

25

30

Versus Order
(response is Salario_1)
0,3
0,2

Residual

0,1
0,0
-0,1
-0,2
-0,3
-0,4
2

Est ok!

10
12
14
16
Observation Order

18

20

22

24

26

PASSO A PASSO
1. Ajustar o modelo (fazer a reta, determinando os coeficientes e anlise de
regresso);
2. Avaliar observaes discrepantes (outliers);
a. Olhar as alavancas HI, se vai tir-las ou no, verificar residuos;
3. Anlise de resduos
a. Normalidade (Ryan-Joiner), se tiver problema, h necessidade de
transformar;
b. Varincia constante (residuos vs explicativas), se no for,
geralmente apresenta problema tambm na normalidade, e tentar
transformar a variavel para traze a variancia constante e a
normalidade;
c. Independencia (residuos vs ordem, caso tenha ordem);
d. Linearidade (residuos vs preditos) Teste de falta de ajuste.
4. Testar a significcia dos coeficientes (s)
5. Usar a reta de regresso: X=a Ya=0+1*a
IC para mdia, variancia em torno da mdia da reta
IC para o individuo, mais largo devido est em torno da variancia da
mdia da reta e do individuo

TRANSFORMAO DE BOX COX

Selecionar o segundo item

Para selecionar o intervalo de lambda;


E escolher a coluna onde guarar os valores;
Box-Cox Plot of Salario_ 1
Lower CL

1,4

Upper CL
Lambda
(using 95,0% confidence)

Intrvalo de confiana

1,3

Estimate

1,2

Lower CLLambda
-1,34() = 1, no h
Upper CL
1,67
transformao

StDev

Rounded Value

0,10

0,00

1,1
1,0
0,9
0,8

Limit

0,7
-5,0

-2,5

0,0
Lambda

2,5

5,0

Teste de hipotese:
H0: = 1
H1: 1
Como 1 est contido no IC, no rejeitamos H0; no h necessidade de fazer
transformao.
Se rejeitar H0, os valores da coluna C16 seriam usados.

SADA DOS DADOS


0,65788
1,15591
0,82281
1,14126
1,02134
1,12892
0,97599
0,79886
1,04865
1,03780
0,64585
0,93153
0,94359
1,44055
1,40911
1,28093
1,54918
1,14616
1,09604
1,55732
1,41471
0,85930
1,40911
1,50576
1,06733
1,50065

TESTE DA FALTA DE AJUSTE

Marginal Plot of CustoSeguroVida vs Idade

CustoSeguroVida

800
600
400
200
0
20

30

40

50

60

70

Idade

Obs.: No h outliers, no h pontos de alavanca, pode ter pontos de alavanca.

Regression Analysis: CustoSeguroVida versus Idade

The regression equation is


CustoSeguroVida = 259 + 5,07 Idade
Predictor
Constant
Idade
S = 195,315

Coef
258,9
5,073

SE Coef
105,7
2,344

R-Sq = 7,4%

T
2,45
2,16

P
0,017
0,035

R-Sq(adj) = 5,8%

Analysis of Variance
Source
Regression
Residual Error
Lack of Fit
Pure Error
Total

DF
1
59
33
26
60

SS
178624
2250733
1496404
754329
2429357

MS
178624
38148
45346
29013

F
4,68

P
0,035

1,56

0,122

16 rows with no replicates


Unusual Observations
Obs
31
52

Idade
68,0
58,0

CustoSeguroVida
245,0
139,0

Fit
603,9
553,1

SE Fit
62,0
41,7

Residual
-358,9
-414,1

St Resid
-1,94 X
-2,17R

R denotes an observation with a large standardized residual.


X denotes an observation whose X value gives it large leverage.

VARIVEIS INDICADORAS (DUMMIES)

Determinar a varivel que necessrio criar as colunas indicadoras.


Se indicar a categoria 1 (leve), deve fivar as colunas Activity_2 Activity_3, para
essa categoria tornar o grupo base (0, 0).
Pulse1

Pulse2

Activity

64

88

58

70

62

76

66

78

64

80

74

84

84

84

68

72

62

75

76

118

90

94

80

96

92

84

68

76

60

76

62

58

66

82

70

72

Activity_1

Activity_2

Activity_3

68

76

72

80

70

106

74

76

66

102

70

94

Fazer todo o passo a passo e em seguida fazer a analise de regresso para a


Dammi:

Regression Analysis: Pulse1 versus Activity_2; Activity_3


The regression equation is
Pulse1 = 76,7 - 8,52 Activity_2 - 4,95 Activity_3
Predictor
Constant
Activity_2
Activity_3

Coef
76,667
-8,524
-4,952

S = 8,77716

SE Coef
5,067
5,584
6,057

R-Sq = 11,0%

T
15,13
-1,53
-0,82

P
0,000
0,142
0,423

R-Sq(adj) = 2,6%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
2
21
23

Source
Activity_2
Activity_3

Seq SS
149,19
51,50

DF
1
1

SS
200,69
1617,81
1818,50

MS
100,35
77,04

F
1,30

P
0,293

Unusual Observations
Obs
13

Activity_2
0,00

Pulse1
92,00

Fit
71,71

SE Fit
3,32

Residual
20,29

St Resid
2,50R

R denotes an observation with a large standardized residual.

Nova varivel resposta.


Efeito
24
12
14
12
16
10
0
4
13
42
4
16
-8
8
16
-4
16
2
8

8
36
2
36
24
Fazer o passo a passo para anlise de residuo e depois fazer a anlise de
regresso com a nova resposta Efeito em relao a activity 2 e 3.

Regression Analysis: Efeito versus Activity_2; Activity_3


The regression equation is
Efeito = 8,67 + 9,69 Activity_2 - 4,67 Activity_3
Predictor
Constant
Activity_2
Activity_3

Coef
8,667
9,690
-4,667

S = 11,0019

SE Coef
6,352
7,000
7,592

R-Sq = 28,7%

T
1,36
1,38
-0,61

P
0,187
0,181
0,545

R-Sq(adj) = 22,0%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
2
21
23

SS
1025,1
2541,9
3567,0

MS
512,5
121,0

F
4,23

P
0,029

The number of distinct predictor combinations equals the number of


parameters.
No degrees of freedom for lack of fit.
Cannot do pure error test.
Source
Activity_2
Activity_3

DF
1
1

Seq SS
979,3
45,7

Unusual Observations
Obs
10

Activity_2
1,00

Efeito
42,00

Fit
18,36

SE Fit
2,94

Residual
23,64

St Resid
2,23R

R denotes an observation with a large standardized residual.

INCORPORANDO A VARIAVEL DAMMI

Sada de dados:
RendaGasto Sexo Sexo_F

Sexo_M

2241,88
3641,42
5695,17
3350,86
7611,44
7281,52
2563,74
.
.
.

0
0
0
0
0
0
0

2151,10
2032,87
2789,27
2009,91
4984,77
3593,75
1403,90

M
M
M
M
M
M
M

1
1
1
1
1
1
1

Para ajustar o modelo ao sexo masculino, usar como referncia o Sexo F

Regression Analysis: Gasto versus Renda; Sexo_F


The regression equation is
Gasto = - 12,5 + 0,627 Renda + 1037 Sexo_F
Predictor
Constant
Renda
Sexo_F

Coef
-12,49
0,62694
1036,80

S = 521,035

SE Coef
93,95
0,01761
74,22

R-Sq = 87,5%

T
-0,13
35,60
13,97

P
0,894
0,000
0,000

R-Sq(adj) = 87,4%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
2
197
199

SS
375983614
53480972
429464585

MS
187991807
271477

F
692,48

P
0,000

No replicates.
Cannot do pure error test.
Source
Renda
Sexo_F

DF
1
1

Seq SS
323007166
52976448

Unusual Observations
Obs
27
64
131
138
140

Renda
6950
993
7616
5441
1697

Gasto
2978,1
2053,8
6940,9
5507,6
668,8

Fit
4344,7
609,9
5799,1
4435,6
2088,1

SE Fit
66,0
79,7
81,9
59,0
69,2

Residual
-1366,6
1443,9
1141,8
1072,1
-1419,4

St Resid
-2,64R
2,80R
2,22R
2,07R
-2,75R

144
147
166
169

1904
957
7640
6177

779,2
95,7
7042,7
6107,5

2217,7
1624,5
5814,2
4896,8

67,0
78,0
82,2
65,1

-1438,5
-1528,8
1228,5
1210,7

-2,78R
-2,97R
2,39R
2,34R

R denotes an observation with a large standardized residual.

GRFICO DE DISPERSO PARA OS GRUPOS

Scatterplot of Gasto vs Renda


Sexo
F
M

7000
6000

Gasto

5000
4000
3000
2000
1000
0
0

1000

2000

3000

4000 5000
Renda

6000

7000

8000

FAZENDO PLANILHAS SEPARADAS PARA A VARIAVEL

HI, valores diferentes de 0.

Você também pode gostar