Você está na página 1de 17

CESUPA-Centro Universitrio do Par

CORRELAO E REGRESSO
ESTATSTICA
Willow Madson Silva Franco - 11070008

Belm
Novembro 2015

1. INTRODUO
Antes de conceituarmos correlao e regresso estatstica deve-se saber porque us-la.
No estudo de inferncia, estuda-se casos com 1 varivel e 2 populaes. No estudo de
Correlao e Regresso Estatsticas dever-se levar em conta 2 variveis e 1 populao.
Exemplo: Peso e Comprimento (2variaveis) das baleias (1 populao). Dentre esse
estudo teremos a correlao e a regresso estatstica, cujo principal objetivo estudar a
relao entres essas variveis. Esse estudo pode ser investigando presena e/ou ausncia
dessa relao, que pode ser :
1) Quantificando a fora dessa relao: correlao
2) Explicitando a forma dessa relao: regresso

2. CORRELAO ESTATSTICA
A correlao a medida padronizada da relao entre duas variveis indica a fora e a
direo do relacionamento linear entre duas variveis aleatrias.
A correlao nunca pode ser maior do que 1 ou menor do que menos 1.
Uma correlao prxima a zero indica que as duas variveis no esto
relacionadas.
Uma correlao positiva indica que as duas variveis movem juntas, e a relao
forte quanto mais a correlao se aproxima 1.
Uma correlao negativa indica que as duas variveis movem-se em direes
opostas,
A relao fica mais forte quanto mais prxima a correlao de -1.
Duas variveis que esto perfeitamente correlacionadas positivamente (r=1)
movem-se essencialmente em perfeita proporo na mesma direo,
Dois conjuntos que esto perfeitamente correlacionados negativamente movemse em perfeita proporo em direes opostas.
A relao entre as variveis evidenciada pela formao de um padro no diagrama de
Disperso

2.1 TIPOS DE CORRELAO


A correlao entre 02 variveis pode ser:
1. Correlao Positiva : O aumento de uma varivel corresponde, ao aumento da outra.
2. Correlao Negativa: O aumento de uma varivel corresponde a diminuio da outra.
3. Correlao Linear: Quando possvel ajustar uma reta, ode ser forte (quanto mais
prximas da reta) ou fraca (quanto mais prximas da reta).
4. Correlao no-linear: Quando no possvel ajustar uma reta.

2.2 DIAGRAMA DE DISPERSO


O diagrama de disperso um grfico onde pontos no espao cartesiano XY so usados
para representar simultaneamente os valores de duas variveis quantitativas medidas em
cada elemento do conjunto de dados. Ele muito til para comparar dados, como antes e
depois. De acordo com a correlao das variveis o diagrama pode ser:

2.3 COEFICIENTE DE CORRELAO


Coeficiente de correlao indica a fora e a direo do relacionamento linear entre as
duas variveis a ser estudada, sendo denotada por r. Vrios coeficientes so utilizados
para situaes diferentes, tais como o coeficiente de correlao de Pearson e o
coeficiente Linear.

2.3.1 COEFICIENTE DE CORRELAO LINEAR


Esse coeficiente serve para detectar padres de lineares. (no vale para os padres no
lineares).

O valor de r estar sempre entre 1 e -1, ou seja 1 r 1


Se r est prximo de 1, h uma forte correlao positiva.
Se r est prximo a 1, h uma forte correlao negativa.
Se r est prximo de 0, no h correlao linear.

2.4 EXERCICIOS RESOLVIDOS


1) A tabela abaixo mostra o resultado de uma pesquisa com 10 famlias de determinada
regio.

Famlias

Mdia de Anos
de Estudo da
famlia
A
10
4
8
3
B
15
7
6
4
C
12
5
5
5
D
70
20
1
12
E
80
20
2
16
F
100
30
2
18
G
20
8
3
8
H
30
8
2
8
I
10
3
6
4
J
60
15
1
8
a) Calcular ao coeficiente de correlao Linear entre a renda familiar e a poupana.
Soluo:
RENDA (Y)
10
15
12
70
80
100
20
30
10
60
y =407

Renda (R$)

Poupana
(R$)

N de Filhos

POUPANA
(X)
4
7
5
20
20
30
8
8
3
15
x =120

X2

Y2

XY

16
79
25
400
400
900
64
64
9
225
2
x =2.152

100
225
144
4.900
6.400
10.000
400
900
100
3.600
2
y =26.769

40
105
60
1.400
1.600
3.000
160
240
30
900
xy=7.535

Aplicando na Frmula :

r=

(10 x 7.535 ) (120 x 407


= 0,9835
(10x2.152) 1202 10x26.769 -4072

Existe uma forte correlao linear entre renda e a poupana familiar.


O sinal do coeficiente mostra que as duas variveis variam no mesmo sentido.
b) Calcular o coeficiente de correlao linear entre renda e nmeros de filhos para as dez
famlias.
Soluo:
Renda (y)

N de filhos (x)

X2

Y2

XY

10
15
12

8
6
5

64
36
25

100
225
144

80
90
60

70
80
100
20
30
10
60
407
y = 407

1
2
2
3
2
6
1
36
x = 36

1
4
4
9
4
36
1
184
x2 =184

4.900
6.400
10.000
400
900
100
3.600
26.769
y2 = 26.769

70
160
200
60
60
60
60
900
xy = 900

Aplicando a frmula obtemos:

r=

(10 x 900) (36 x 407)


(10x184) 362 10x 26.769 -4072

= - 0,758

O resultado revela uma correlao forte e inversa (negativa), ou seja, as famlias com
maiores rendas tm menor nmero de filhos.

3. REGRESSO ESTATSTICA
J que foi estabelecido uma relao linear e uma boa correlao entre as variveis , devese agora determinar uma formula matemtica para prever os resultados de y dado os
valores de x. Chama-se esta relao de regresso, ou seja, a regresso, em geral, trata da
questo de se estimar um valor condicional esperado.

3.1 EQUAO DE REGRESSO


A regresso linear que um modelo adequado quando encontramos disposies dos
pontos conforme os da figura abaixo:

Caso como os estas figura no seriam bem descritos pela equao linear.

Descrevemos a equao linear atravs da frmula y = a + bx. Chamamos a de inteceptoy (valor de y para o qual x = 0) e b o coeficiente angular da reta.

Os diferentes valores observados representados pela figura abaixo sero ajustados


atravs da tcnica dos mnimos quadrados que permitem ajustar a melhor reta para o
conjunto de pontos dados.

Os valores de b e a so sinteticamente determinados pelas frmulas:

3.2 EXEMPLO RESOLVIDO


Os dados abaixo referem-se ao volume de precipitao pluviomtrica (mm) e ao volume
de produo de leite tipo C (milhes de litros), em determinada regio do pas.
a) Ajustar os dados atravs de um modelo linear
b) Admitindo-se, em 1980, um ndice pluviomtrico de 24 mm, qual dever ser o
volume esperado de produo do leite tipo C?
Anos
Produo de leite
ndice Pluviomtrico
(1.000.000 l)
(mm)
1970
26
23
1917
25
21
1972
31
28
1973
29
27
1974
27
23
1975
31
28
1976
32
27
1977
28
22
1978
30
26
1979
30
25
Soluo:
Y
26
25
31
29
27
31
32
28
30
30
y = 289

X
23
21
28
27
23
28
27
22
26
25
x = 250

X2
529
441
784
729
529
784
729
484
676
625
2
x =6.310

XY
598
525
868
783
621
868
864
616
780
750
xy = 7.273

I Determinar o valor do Parmetro b

b = (10x7.273)- (250x289)
(10x6.310) - 2502

= 0,8

II Determinar o valor do Parmetro a

a = 289 - 0,8. 250


10
10

= 8,9

III Equao da Reta Ajustada


y = a + bx
y = 8,9 +0,8x
b) fazendo x = 24 mm temos: y = 8,9 +0,8x24 = 28,1.
De acordo co o modelo, podemos esperar 28,1 milhes de litros produzidos para um
ndice pluviomtrico de 24 mm.
Exerccio 02
esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa
relao, uma nutricionista selecionou 18 mulheres, com idade entre 40 e 79 anos, e
observou em cada uma delas a idade (X) e a massa muscular (Y).

Massa muscular (Y)


82.0
91.0
100.0
68.0
87.0
73.0
78.0
80.0
65.0
84.0
116.0
76.0
97.0
100.0

Idade (X)
71.0
64.0
43.0
67.0
56.0
73.0
68.0
56.0
76.0
65.0
45.0
58.0
45.0
53.0
7

105.0
77.0
73.0
78.0

49.0
78.0
73.0
68.0

(a) Construa o diagrama de disperso e interprete-o.

120

M.muscular

110
100
90
80
70
60
40

50

60

70

80

Idade

No grfico de disperso entre a varivel massa muscular e idade, pode-se observar que
h um forte indcio de relao linear decrescente entre as variveis em estudo. Nota-se
que a massa muscular das pessoas diminui medida que a idade aumenta.
(b) Calcule o coeficiente de correlao linear entre X e Y.
Denotamos as variveis: Y = Massa Muscular e X = Idade n=18
18

X 61,556
18

Y 85

S XX X i2 18 X
i 1

18

S YY Yi 2 18 Y
i 1

X i2 70362
i 1

18

Yi 2 133300
i 1

70362 18(61,556) 2 2157,460

133300 18(85) 2 3250

18

Y X
i 1

91964

18

(X
i 1

X )(Yi Y )
S XX S YY

18

X Y
i 1

18 XY

S XX S YY

91964 18(85)(61,556)
(2157,460)(3250)

-0,837

Segundo o resultado da correlao obtida, pode-se notar que h uma forte correlao
linear entre a varivel massa muscular e idade. Nota-se que medida que a idade da
pessoa aumenta a massa muscular diminui, o que coerente com o grfico de disperso
apresentada anteriormente.
(c) Ajuste uma reta de regresso para a relao entre as variveis Y: massa muscular
(dependente) e X: idade (independente).
S
91964 18(85)(61,556)
1 XY
-1,027
2157,460
S XX
e
0 Y 1 X 85 1,027(61,556) 148,218

A reta de regresso estimada da varivel Massa muscular (Y) em funo da Idade (X)

Y 148,218 1,027 X

(d) Considerando a reta estimada dada no item (c), estime a massa muscular mdia de
mulheres com 50 anos.

Y 50 0 1 X 148,218 - 1,027(50) 96,868

Exerccio 03
Os dados a seguir correspondem varivel renda familiar e gasto com alimentao (em
unidades monetrias) para uma amostra de 25 famlias.
Renda Familiar (X)
3
5
10
10
20
20
20

Gasto com Alimentao (Y)


1,5
2,0
6,0
7,0
10,0
12,0
15,0

30
40
50
60
70
70
80
100
100
100
120
120
140
150
180
180
200
200

(a)

8,0
10,0
20,0
20,0
25,0
30,0
25,0
40,0
35,0
40,0
30,0
40,0
40,0
50,0
40,0
50,0
60,0
50,0

Construa o diagrama de disperso da varivel gasto com alimentao (Y) em funo


da renda familiar (X).

Gasto com Alimentao

60
50
40
30
20
10
0
0

100

200

Renda Familiar
(b)

Calcular o coeficiente de correlao entre essas variveis.

Denotamos as variveis: Y = Gasto com Alimentao e X = Renda familiar

10

25

X 83,120

25

X i2 271934

Y 26,660

i 1

25

Y X
i 1

i 1

24899,250

80774,500

25

S XY

(c)

S X SY

X Y
i 1

25 XY

S X SY

0,954

Obtenha a equao de regresso do gasto com alimentao em funo da renda


familiar.
25

S
1 XY
S XX

X Y
i 1

i i

25 X Y

S XX

80774,5 25(83,12)( 26,66)


0,256
271934 25(83,12) 2

e
0 Y 1 X 26,66 0,256(83,120) 5,380

A reta de regresso estimada da varivel Gasto de alimentao (Y) em funo da Renda


familiar (X)

Y 5,380 0,256 X

(d)

Qual o significado prtico do valor da inclinao da reta de regresso do item (c)?

O valor 1 =0,256 significa que estima-se que para cada aumento de uma unidade
monetria da renda familiar ocorre um acrscimo em mdia de 0,256 unidades no gasto
com alimentao.

Exerccio 04
Um pesquisador deseja verificar se um instrumento para medir a concentrao de
determinada substncia no sangue est bem calibrado. Para isto, ele tomou 15 amostras
de concentraes conhecidas (X) e determinou a respectiva concentrao atravs do
instrumento (Y), obtendo:
X

2,0 2,0 2,0 4,0 4,0 4,0 6,0 6,0 6,0 8,0 8,0 8,0 10,0 10,0 10,0

2,1 1,8 1,9 4,5 4,2 4,0 6,2 6,0 6,5 8,2 7,8 7,7

11

9,6 10,0 10,1

(a) Construa o diagrama de disperso para esses dados.

Diagrama de Disperso
10,5
9,5
8,5
7,5

6,5
5,5
4,5
3,5
2,5
1,5
2

10

(b) Trace no grfico a reta com 45 de inclinao passando pela origem. Como essa reta
pode ser til na avaliao do instrumento?

10

0
0

10

Esta reta til, pois, quanto mais prximos os pontos estiverem nela, maior preciso
do instrumento, j que o ideal Y=X.

12

(c) Calcule o coeficiente de correlao entre as variveis X e Y.


15

X 6

Y 6,040

X
i 1

i 1

15

15

660

2
i

(X
i 1

663,380

X )(Yi Y )
S X SY

15

Y X
i 1

661,200

0,996

(d) Obtenha a reta de regresso da varivel Y em funo de X.

A reta de regresso estimada da varivel Y e X

Y 0,160 0,980 X

(e) Com base nos itens anteriores tire concluses sobre a eficincia do instrumento.

Com base nos itens anteriores, nota-se que, o instrumento para medir a concentrao de
determinada substncia no sangue encontra-se bem calibrado. Observa-se que
existe uma alta correlao entre as medidas feitas pelo instrumento e a
concentrao da determinada substncia, o que pode ser confirmado nos
grficos apresentados anteriormente. Alm disso, a reta de regresso obtida
bem prxima da reta Y=X, indicando grande proximidade entre as medidas. O
mtodo formal para verificar se o instrumento esta bem calibrado testar as
hipteses:(=0,05)
H 0: 1 1
H 1 : 1 1

13

Exemplo 5
Uma amostra de fbricas de uma indstria levou a:
Custo total Produo
Y
X
80
12
44
4
51
6
70
11
61
8
a) Determine a equao de regresso linear.
b) Quais os significados econmicos de "a" e "b"?
c) Encontre o coeficiente de determinao ( ou de explicao).
d) Teste a existncia da regresso a um nvel de significncia de 5%.
e) Determine um Intervalo de Predio (90%) para a mdia de Y dado X=10.
Exerccio 3

Custo
Total

Produo
80
44
51
70
61

12
4
6
11
8

RESUMO DOS
RESULTADOS
Estatstica de
regresso
R mltiplo
0,
98
89
88
R-Quadrado
0,
97
80
98
R-quadrado
0,
ajustado
97
07
97
Erro padro
2,
46
28
19
Observaes
5

14

ANOVA
Regresso
Resduo
Total

Interseo

Varivel X 1

gl
SQ
MQ
F
F de significao
1 812,6036 812,6036 133,9719 0,001385
3 18,19643 6,065476
4
830,8
C Erro
Stat t valor-P
95%
95% superiores
oe padro
inferiore
fic
s
ie
nt
es
26 3,211966 8,180904 0,003821 16,05487 36,4987
,2
76
79
4, 0,367954 11,57462 0,001385 3,087934 5,429923
25
89
29

Exemplo 6
Pretendendo estudar a relao entre o tempo necessrio a um consumidor para optar e o
nmero
de produtos substitutos alternativos expostos a ele, foi observada uma amostra aleatria
de 15
consumidores, da qual resultaram os seguintes dados,:
Y
X
5
2
8
2
8
2
7
2
9
2
7
3
9
3
8
3
9
3
10
3
10
3
11
4
10
4
12
4

15

A varivel Y refere-se ao tempo necessrio para a tomada de deciso e X o nmero de


alternativas.
a) Estime o coeficiente de correlao linear de Pearson.
b) Determine a equao de regresso para a amostra dada.
c)Interprete os valores dos coeficientes encontrados para a reta.
d)Estime e interprete o coeficiente de determinao entre X e Y.

Resposta:
Tempo
5
8
8
7
9
7
9
8
9
10
10
11
10
12
9
RESUMO DOS
RESULTADOS

Alternativas
2
2
2
2
2
3
3
3
3
3
3
4
4
4
4

Estatstica de
regresso
R
0,70907
mltiplo
R0,502781
Quadrad
o
R0,464533
quadrado
ajustado
Erro
1,27346
padro
Observa
15
es
ANOVA
16

gl
Regress
o
Resduo
Total

SQ
MQ
F
F de significao
1 21,31791 21,31791 13,14542 0,003077
13 21,08209 1,621699
14
42,4

Coeficie Erro
ntes
padro

Stat t

valor-P

95%
95% superiores
inferiore
s
Interse 4,268657 1,292327 3,303079 0,005714 1,476755 7,060558
o
Alternati 1,544776 0,426067 3,625661 0,003077 0,624313 2,465239
vas

17

Você também pode gostar