Escolar Documentos
Profissional Documentos
Cultura Documentos
CORRELAO E REGRESSO
ESTATSTICA
Willow Madson Silva Franco - 11070008
Belm
Novembro 2015
1. INTRODUO
Antes de conceituarmos correlao e regresso estatstica deve-se saber porque us-la.
No estudo de inferncia, estuda-se casos com 1 varivel e 2 populaes. No estudo de
Correlao e Regresso Estatsticas dever-se levar em conta 2 variveis e 1 populao.
Exemplo: Peso e Comprimento (2variaveis) das baleias (1 populao). Dentre esse
estudo teremos a correlao e a regresso estatstica, cujo principal objetivo estudar a
relao entres essas variveis. Esse estudo pode ser investigando presena e/ou ausncia
dessa relao, que pode ser :
1) Quantificando a fora dessa relao: correlao
2) Explicitando a forma dessa relao: regresso
2. CORRELAO ESTATSTICA
A correlao a medida padronizada da relao entre duas variveis indica a fora e a
direo do relacionamento linear entre duas variveis aleatrias.
A correlao nunca pode ser maior do que 1 ou menor do que menos 1.
Uma correlao prxima a zero indica que as duas variveis no esto
relacionadas.
Uma correlao positiva indica que as duas variveis movem juntas, e a relao
forte quanto mais a correlao se aproxima 1.
Uma correlao negativa indica que as duas variveis movem-se em direes
opostas,
A relao fica mais forte quanto mais prxima a correlao de -1.
Duas variveis que esto perfeitamente correlacionadas positivamente (r=1)
movem-se essencialmente em perfeita proporo na mesma direo,
Dois conjuntos que esto perfeitamente correlacionados negativamente movemse em perfeita proporo em direes opostas.
A relao entre as variveis evidenciada pela formao de um padro no diagrama de
Disperso
Famlias
Mdia de Anos
de Estudo da
famlia
A
10
4
8
3
B
15
7
6
4
C
12
5
5
5
D
70
20
1
12
E
80
20
2
16
F
100
30
2
18
G
20
8
3
8
H
30
8
2
8
I
10
3
6
4
J
60
15
1
8
a) Calcular ao coeficiente de correlao Linear entre a renda familiar e a poupana.
Soluo:
RENDA (Y)
10
15
12
70
80
100
20
30
10
60
y =407
Renda (R$)
Poupana
(R$)
N de Filhos
POUPANA
(X)
4
7
5
20
20
30
8
8
3
15
x =120
X2
Y2
XY
16
79
25
400
400
900
64
64
9
225
2
x =2.152
100
225
144
4.900
6.400
10.000
400
900
100
3.600
2
y =26.769
40
105
60
1.400
1.600
3.000
160
240
30
900
xy=7.535
Aplicando na Frmula :
r=
N de filhos (x)
X2
Y2
XY
10
15
12
8
6
5
64
36
25
100
225
144
80
90
60
70
80
100
20
30
10
60
407
y = 407
1
2
2
3
2
6
1
36
x = 36
1
4
4
9
4
36
1
184
x2 =184
4.900
6.400
10.000
400
900
100
3.600
26.769
y2 = 26.769
70
160
200
60
60
60
60
900
xy = 900
r=
= - 0,758
O resultado revela uma correlao forte e inversa (negativa), ou seja, as famlias com
maiores rendas tm menor nmero de filhos.
3. REGRESSO ESTATSTICA
J que foi estabelecido uma relao linear e uma boa correlao entre as variveis , devese agora determinar uma formula matemtica para prever os resultados de y dado os
valores de x. Chama-se esta relao de regresso, ou seja, a regresso, em geral, trata da
questo de se estimar um valor condicional esperado.
Caso como os estas figura no seriam bem descritos pela equao linear.
Descrevemos a equao linear atravs da frmula y = a + bx. Chamamos a de inteceptoy (valor de y para o qual x = 0) e b o coeficiente angular da reta.
X
23
21
28
27
23
28
27
22
26
25
x = 250
X2
529
441
784
729
529
784
729
484
676
625
2
x =6.310
XY
598
525
868
783
621
868
864
616
780
750
xy = 7.273
b = (10x7.273)- (250x289)
(10x6.310) - 2502
= 0,8
= 8,9
Idade (X)
71.0
64.0
43.0
67.0
56.0
73.0
68.0
56.0
76.0
65.0
45.0
58.0
45.0
53.0
7
105.0
77.0
73.0
78.0
49.0
78.0
73.0
68.0
120
M.muscular
110
100
90
80
70
60
40
50
60
70
80
Idade
No grfico de disperso entre a varivel massa muscular e idade, pode-se observar que
h um forte indcio de relao linear decrescente entre as variveis em estudo. Nota-se
que a massa muscular das pessoas diminui medida que a idade aumenta.
(b) Calcule o coeficiente de correlao linear entre X e Y.
Denotamos as variveis: Y = Massa Muscular e X = Idade n=18
18
X 61,556
18
Y 85
S XX X i2 18 X
i 1
18
S YY Yi 2 18 Y
i 1
X i2 70362
i 1
18
Yi 2 133300
i 1
18
Y X
i 1
91964
18
(X
i 1
X )(Yi Y )
S XX S YY
18
X Y
i 1
18 XY
S XX S YY
91964 18(85)(61,556)
(2157,460)(3250)
-0,837
Segundo o resultado da correlao obtida, pode-se notar que h uma forte correlao
linear entre a varivel massa muscular e idade. Nota-se que medida que a idade da
pessoa aumenta a massa muscular diminui, o que coerente com o grfico de disperso
apresentada anteriormente.
(c) Ajuste uma reta de regresso para a relao entre as variveis Y: massa muscular
(dependente) e X: idade (independente).
S
91964 18(85)(61,556)
1 XY
-1,027
2157,460
S XX
e
0 Y 1 X 85 1,027(61,556) 148,218
A reta de regresso estimada da varivel Massa muscular (Y) em funo da Idade (X)
Y 148,218 1,027 X
(d) Considerando a reta estimada dada no item (c), estime a massa muscular mdia de
mulheres com 50 anos.
Exerccio 03
Os dados a seguir correspondem varivel renda familiar e gasto com alimentao (em
unidades monetrias) para uma amostra de 25 famlias.
Renda Familiar (X)
3
5
10
10
20
20
20
30
40
50
60
70
70
80
100
100
100
120
120
140
150
180
180
200
200
(a)
8,0
10,0
20,0
20,0
25,0
30,0
25,0
40,0
35,0
40,0
30,0
40,0
40,0
50,0
40,0
50,0
60,0
50,0
60
50
40
30
20
10
0
0
100
200
Renda Familiar
(b)
10
25
X 83,120
25
X i2 271934
Y 26,660
i 1
25
Y X
i 1
i 1
24899,250
80774,500
25
S XY
(c)
S X SY
X Y
i 1
25 XY
S X SY
0,954
S
1 XY
S XX
X Y
i 1
i i
25 X Y
S XX
e
0 Y 1 X 26,66 0,256(83,120) 5,380
Y 5,380 0,256 X
(d)
O valor 1 =0,256 significa que estima-se que para cada aumento de uma unidade
monetria da renda familiar ocorre um acrscimo em mdia de 0,256 unidades no gasto
com alimentao.
Exerccio 04
Um pesquisador deseja verificar se um instrumento para medir a concentrao de
determinada substncia no sangue est bem calibrado. Para isto, ele tomou 15 amostras
de concentraes conhecidas (X) e determinou a respectiva concentrao atravs do
instrumento (Y), obtendo:
X
2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0
2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7
11
Diagrama de Disperso
10,5
9,5
8,5
7,5
6,5
5,5
4,5
3,5
2,5
1,5
2
10
(b) Trace no grfico a reta com 45 de inclinao passando pela origem. Como essa reta
pode ser til na avaliao do instrumento?
10
0
0
10
Esta reta til, pois, quanto mais prximos os pontos estiverem nela, maior preciso
do instrumento, j que o ideal Y=X.
12
X 6
Y 6,040
X
i 1
i 1
15
15
660
2
i
(X
i 1
663,380
X )(Yi Y )
S X SY
15
Y X
i 1
661,200
0,996
Y 0,160 0,980 X
(e) Com base nos itens anteriores tire concluses sobre a eficincia do instrumento.
Com base nos itens anteriores, nota-se que, o instrumento para medir a concentrao de
determinada substncia no sangue encontra-se bem calibrado. Observa-se que
existe uma alta correlao entre as medidas feitas pelo instrumento e a
concentrao da determinada substncia, o que pode ser confirmado nos
grficos apresentados anteriormente. Alm disso, a reta de regresso obtida
bem prxima da reta Y=X, indicando grande proximidade entre as medidas. O
mtodo formal para verificar se o instrumento esta bem calibrado testar as
hipteses:(=0,05)
H 0: 1 1
H 1 : 1 1
13
Exemplo 5
Uma amostra de fbricas de uma indstria levou a:
Custo total Produo
Y
X
80
12
44
4
51
6
70
11
61
8
a) Determine a equao de regresso linear.
b) Quais os significados econmicos de "a" e "b"?
c) Encontre o coeficiente de determinao ( ou de explicao).
d) Teste a existncia da regresso a um nvel de significncia de 5%.
e) Determine um Intervalo de Predio (90%) para a mdia de Y dado X=10.
Exerccio 3
Custo
Total
Produo
80
44
51
70
61
12
4
6
11
8
RESUMO DOS
RESULTADOS
Estatstica de
regresso
R mltiplo
0,
98
89
88
R-Quadrado
0,
97
80
98
R-quadrado
0,
ajustado
97
07
97
Erro padro
2,
46
28
19
Observaes
5
14
ANOVA
Regresso
Resduo
Total
Interseo
Varivel X 1
gl
SQ
MQ
F
F de significao
1 812,6036 812,6036 133,9719 0,001385
3 18,19643 6,065476
4
830,8
C Erro
Stat t valor-P
95%
95% superiores
oe padro
inferiore
fic
s
ie
nt
es
26 3,211966 8,180904 0,003821 16,05487 36,4987
,2
76
79
4, 0,367954 11,57462 0,001385 3,087934 5,429923
25
89
29
Exemplo 6
Pretendendo estudar a relao entre o tempo necessrio a um consumidor para optar e o
nmero
de produtos substitutos alternativos expostos a ele, foi observada uma amostra aleatria
de 15
consumidores, da qual resultaram os seguintes dados,:
Y
X
5
2
8
2
8
2
7
2
9
2
7
3
9
3
8
3
9
3
10
3
10
3
11
4
10
4
12
4
15
Resposta:
Tempo
5
8
8
7
9
7
9
8
9
10
10
11
10
12
9
RESUMO DOS
RESULTADOS
Alternativas
2
2
2
2
2
3
3
3
3
3
3
4
4
4
4
Estatstica de
regresso
R
0,70907
mltiplo
R0,502781
Quadrad
o
R0,464533
quadrado
ajustado
Erro
1,27346
padro
Observa
15
es
ANOVA
16
gl
Regress
o
Resduo
Total
SQ
MQ
F
F de significao
1 21,31791 21,31791 13,14542 0,003077
13 21,08209 1,621699
14
42,4
Coeficie Erro
ntes
padro
Stat t
valor-P
95%
95% superiores
inferiore
s
Interse 4,268657 1,292327 3,303079 0,005714 1,476755 7,060558
o
Alternati 1,544776 0,426067 3,625661 0,003077 0,624313 2,465239
vas
17