Você está na página 1de 20

Correlao e Regresso

Rui Barros

rbarros@porto.ucp.pt

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Contedos

Amostra univariada e bivariada

Correlao linear
Variveis quantitativas
Diagrama de disperso
Coeficiente de correlao de Pearson
Variveis qualitativas
Coeficiente de correlao de Spearman

Regresso linear
Parmetros do ajuste linear
Coeficiente de determinao
Previso por interpolao ou extrapolao
Cincias da Nutrio

1
Introduo Estatstica | Correlao e Regresso

Amostra univariada e bivariada

Amostra univariada constituda por valores de uma nica varivel


(quantitativa ou qualitativa)
x1 ; x2 ; x3 ; ; xi ; ; xn

Amostra bivariada constituda por pares de valores de duas variveis


(quantitativas e/ou qualitativas)
Para cada par de valores, existe sempre uma relao entre o primeiro e o
segundo valor
( x1 , y1 ) ; ( x2 , y2 ) ; ( x3 , y3 ) ; ; ( xi , yi ) ; ; ( xn , yn )

Idade gestacional e dimetro ceflico de fetos


Altura dos filhos e altura dos pais

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Caracterizao de amostra bivariada

1 Caracterizar separadamente o conjunto dos valores amostrais de cada uma


das variveis.
x1 ; x2 ; x3 ; ; xi ; ; xn
Estatstica descritiva
y1 ; y2 ; y3 ; ; yi ; ; yn

2 Verificar se existe alguma relao de associao entre as variveis e, em


caso afirmativo, caracterizar essa relao.
Correlao linear entre variveis quantitativas:
Diagrama disperso
Coeficiente correlao Pearson
Correlao linear entre variveis qualitativas:
Coeficiente correlao Spearman
Regresso linear

Cincias da Nutrio

2
Introduo Estatstica | Correlao e Regresso

Correlao entre variveis quantitativas

Diagrama disperso

Coeficiente de correlao de Pearson

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Como analisar a associao entre duas variveis quantitativas?

Diagrama de disperso
Representao grfica de pares de valores (x,y) de variveis quantitativas
A cada par ordenado de valores amostrais corresponde um ponto
Forma simples de avaliar a relao existente entre duas variveis
185
Altura
(cm) 180
175
170
165
160
155
150
145
30 40 50 60 70

Peso (kg)

Cincias da Nutrio

3
Introduo Estatstica | Correlao e Regresso

Como analisar a associao entre duas variveis quantitativas?

Diagrama de disperso
Nesta amostra bivariada, parece haver uma associao linear entre as duas
variveis Correlao linear

185
Altura
(cm) 180
175
170
165
160
155
150
145
30 40 50 60 70

Peso (kg)

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Como avaliar a correlao linear?


Coeficiente de correlao de Pearson
n
xi yi - n xm ym
rxy = i=1
n n
x i 2 - n x m2 . yi 2 - n y m2
i=1 i=1

O coeficiente de correlao de Pearson entre as variveis X e Y (rXY) uma


medida que quantifica a possvel existncia de uma associao linear entre
as duas variveis de estudo.
Esta medida apenas caracteriza a existncia de uma associao linear, nada
dizendo acerca da possibilidade de existncia de outro tipo de associao no
linear.

Cincias da Nutrio

4
Introduo Estatstica | Correlao e Regresso

Como avaliar a correlao linear?


Propriedades do coeficiente de correlao de Pearson

O valor de rxy indica o grau de associao linear entre variveis quantitativas

O rxy varia entre -1 e 1

O sinal indica se uma varivel aumenta ou diminui com o aumento da outra

Quanto mais prximo de -1 ou 1, melhor a correlao entre variveis

Quanto mais prximo de zero, pior a correlao entre variveis

A ordem entre as variveis no clculo do coeficiente indiferente

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Como avaliar a correlao linear?


Significado do coeficiente de correlao de Pearson

rxy > 0 associao linear positiva entre X e Y


o declive da recta positivo
quando X aumenta Y aumenta

rxy < 0 associao linear negativa entre X e Y


o declive da recta negativo
quando X aumenta Y diminui

rxy = 0 ausncia de associao linear

X e Y so variveis independentes associao no linear

Cincias da Nutrio

5
Introduo Estatstica | Correlao e Regresso

Como avaliar a correlao linear?

rxy = 1 associao linear perfeita positiva


no diagrama de disperso os pontos encontram-se
exactamente alinhados sobre uma recta de declive positivo

rxy = - 1 associao linear perfeita negativa


no diagrama de disperso os pontos encontram-se
exactamente alinhados sobre uma recta de declive negativo

-1 < rxy < 0 ou 0 < rxy < 1 associao linear imperfeita


no diagrama de disperso os pontos no se encontram
exactamente alinhados sobre uma recta

Na prtica, forte associao linear quando:


rxy < - 0,9 (associao negativa) ou rxy > 0,9 (associao positiva)

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Correlao entre variveis quantitativas

Y Y

X
rxy = 1 rxy = - 1 X

Associao linear perfeita positiva Associao linear perfeita negativa


Cincias da Nutrio

6
Introduo Estatstica | Correlao e Regresso

Correlao entre variveis quantitativas

Y Y

X X
0 < rxy < 1 - 1 < rxy < 0

Associao linear imperfeita positiva Associao linear imperfeita negativa


Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Correlao entre variveis quantitativas

Y Y

X X
rxy 0 rxy 0

No h associao linear; No h qualquer associao;


mas h outro tipo de associao X e Y so variveis independentes
entre X e Y

7
Introduo Estatstica | Correlao e Regresso

ATENO !
Correlao entre variveis quantitativas

rxy = - 0,91 X

Associao no linear

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Correlao entre variveis qualitativas

Coeficiente de correlao de Spearman

Cincias da Nutrio

8
Introduo Estatstica | Correlao e Regresso

Como analisar a associao entre duas variveis qualitativas?

Coeficiente de correlao de Spearman


n
6 di2
rs = 1 - i=1
(
n n2 1 )
O coeficiente de Spearman uma medida de associao da ordenao dos
valores das variveis e no dos valores em si.
Por isso:
Pode ser calculado para variveis qualitativas ordinais
No sensvel a assimetrias na distribuio, nem presena de outliers,
no exigindo portanto que os dados provenham de duas populaes
normais. Pode tambm ser calculado em variveis quantitativas que no
so normalmente distribudas

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Como avaliar a correlao entre duas variveis qualitativas ?

Propriedades do coeficiente de correlao de Spearman

O rs varia entre -1 e 1

Quanto mais prximo de -1 ou 1, melhor a associao entre variveis

Quanto mais prximo de zero, pior a associao entre variveis

A ordem entre as variveis no clculo do coeficiente indiferente

Cincias da Nutrio

9
Introduo Estatstica | Correlao e Regresso

Como avaliar a correlao entre duas variveis qualitativas ?

Procedimento ... quando NO H repetio de valores

1. Ordenar cada uma das duas variveis

2. Em cada varivel atribuir um n de ordem (posto) a cada observao

3. Tabelar os pares das variveis pelos ns de ordenao

4. Calcular a diferena (d) entre os nmeros de ordem de cada par de


observaes

5. Elevar ao quadrado essas diferenas e som-las

6. Calcular o coeficiente de correlao pela expresso

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Como avaliar a correlao entre duas variveis qualitativas ?

Procedimento ... quando H repetio de valores

1. Ordenar cada uma das duas variveis

2. A ordem (posto) dos valores que so iguais a mdia das


posies que lhe corresponderiam se no fossem iguais

3. Tabelar os pares das variveis pelos ns de ordenao

4. Calcular a diferena (d) entre os nmeros de ordem de cada par de


observaes

5. Elevar ao quadrado essas diferenas e som-las

6. Calcular o coeficiente de correlao pela expresso

Cincias da Nutrio

10
Introduo Estatstica | Correlao e Regresso

Exemplo
O atendimento no IPS foi avaliado por 20 dadores de sangue numa escala de
muito insatisfeito a muito satisfeito. Aos 20 dadores de sangue foi-lhes
igualmente perguntado a idade em anos.
As duas variveis j foram caracterizadas anteriormente.
Ser que existe uma associao entre estas duas variveis ?

Nvel de satisfao Fi fi Fa i fa i Idade Fi fi Fa i fa i


Muito satisfeito 7 0,35 7 0,35 18 2 0,1 2 0,1
Satisfeito 7 0,35 14 0,70 19 2 0,1 4 0,2
Insatisfeito 5 0,25 19 0,95 20 6 0,3 10 0,5
21 3 0,15 13 0,65
Muito Insatisfeito 1 0,05 20 1
22 2 0,1 15 0,75
total 20 1
24 3 0,15 18 0,9
25 1 0,05 19 0,95
26 1 0,05 20 1
total 20 1

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Como avaliar a correlao entre duas variveis qualitativas ?

Exemplo

Como o nvel de satisfao uma varivel qualitativa ordinal s poder ser


calculado o coeficiente de correlao de Spearman.

Procedimento
1. Ordenar cada uma das duas variveis
2. Em cada varivel atribuir um n de ordem a cada observao OU a ordem dos valores que
so iguais a mdia das posies que lhe corresponderiam se no fossem iguais

3. Tabelar os pares das variveis pelos ns de ordenao

4. Calcular a diferena (d) entre os nmeros de ordem de cada par de observaes

5. Elevar ao quadrado essas diferenas e som-las

6. Calcular o coeficiente de correlao pela expresso

Cincias da Nutrio

11
Introduo Estatstica | Correlao e Regresso

2
Dador Nvel de satisfao (x) Idade (y) xposto yposto d d
1 1 Muito Insatisfeito 25 1 19 -18 324
2 2 insatisfeito 19 4 3,5 0,5 0,25

Exemplo 3 2 insatisfeito 22 4 14,5 -10,5 110,25


4 2 insatisfeito 24 4 17 -13 169
5 2 insatisfeito 24 4 17 -13 169
6 2 insatisfeito 26 4 20 -16 256
Cdigos da varivel 7 3 Satisfeito 18 10 1,5 8,5 72,25
Nvel de satisfao (x)
8 3 Satisfeito 20 10 7,5 2,5 6,25
Muito insatisfeito 1
9 3 Satisfeito 20 10 7,5 2,5 6,25
insatisfeito 2
satisfeito 3 10 3 Satisfeito 21 10 12 -2 4
muito satisfeito 4
11 3 Satisfeito 21 10 12 -2 4
12 3 Satisfeito 22 10 14,5 -4,5 20,25
20 13 3 Satisfeito 24 10 17 -7 49
2
d
i =1
i = 1999 14
15
4
4
Muito satisfeito
Muito satisfeito
18
19
17
17
1,5
3,5
15,5
13,5
240,25
182,25
16 4 Muito satisfeito 20 17 7,5 9,5 90,25
17 4 Muito satisfeito 20 17 7,5 9,5 90,25
18 4 Muito satisfeito 20 17 7,5 9,5 90,25
19 4 Muito satisfeito 20 17 7,5 9,5 90,25
20 4 Muito satisfeito 21 17 12 5 25

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Diagrama de disperso

Clculo do rs
n
6 di2
6 1999
rs = 1 i=1
= 1 = -0.50
n(n2 1) (
20 20 2 1 )

Insatisfeito Muito satisfeito

Existe uma correlao moderada entre o nvel de satisfao e a idade dos


dadores.
Quanto maior a idade, pior a classificao em termos de satisfao com o
atendimento os dadores tornam-se mais exigentes.

Cincias da Nutrio

12
Introduo Estatstica | Correlao e Regresso

Classificao das correlaes de Spearman e Pearson

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Regresso linear

Como avaliar a relao de


dependncia linear entre duas
variveis?

Cincias da Nutrio

13
Introduo Estatstica | Correlao e Regresso

Regresso ou ajuste linear

Estabelecer ou quantificar a relao linear existente entre duas


variveis x e y

Equao matemtica de uma recta:


y = a + bx

Parmetros da equao: a (ordenada na origem)


b (declive)

Variveis: x (varivel independente)


y (varivel dependente)

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Regresso ou ajuste linear

Diagrama de disperso

30
y
25

20 y = a + bx
15

10
Estimar os valores dos
5 parmetros a e b
0
0 2 4 6 8 10
x

Cincias da Nutrio

14
Introduo Estatstica | Correlao e Regresso

Estimao dos parmetros a e b

Mtodo dos mnimos quadrados - baseado na minimizao das


distncias (na vertical) de todos os pontos recta de ajuste a
estabelecer
30
y
25
ymod ei = y mod y exp
i i
20 yexp
Resduo
15

10
Funo a minimizar:
2
5
(
SQR = y i&mod y i&exp
i
)
0
0 2 4 6 8 10
x Soma do Quadrado dos Resduos

Introduo Estatstica | Correlao e Regresso

Estimao dos parmetros a e b

Mtodo dos mnimos quadrados


n

(SQR)
(xi yi ) - n xm ym
i=1
=0 b =
n
b
y = a + bx (xi2 )- n xm2
i=1

(SQR)
=0 a = ym - b xm
a

Caso particular

d(SQR) (xi yi )
y =b x =0 b = i=1
n
db
(xi2 )
i=1

15
Introduo Estatstica | Correlao e Regresso

Estimao dos parmetros a e b

Pressupostos da regresso linear


Existe uma relao linear entre X e Y

Os valores so independentes

Para cada valor de X a distribuio de Y Normal

O desvio padro de Y igual para todos os valores de X

Introduo Estatstica | Correlao e Regresso

Como avaliar a qualidade do ajuste linear entre duas variveis ?

Coeficiente de determinao

Medida que nos permite quantificar uma qualquer possvel relao


entre as duas variveis
2

R 2 ## = ##
Varincia#de#Y#explicada#pelo#modelo
## = ##
( )
# #y i5modelo 5#y m # #
##
2
Varincia#total#de#Y
( )
#y# i #5#y m # #
No caso da anlise de um ajuste linear do tipo y = a + b X, R2 vem dado
por: 2 2 2 R = rxy = ( rxy )

Cincias da Nutrio

16
Introduo Estatstica | Correlao e Regresso

Propriedades do coeficiente de determinao

Varia entre 0 e 1
Quanto mais prximo de 1 maior o poder explicativo do ajuste linear
Quanto mais prximo de zero menor o poder explicativo do ajuste
linear
Adimensional; pode ser traduzido em percentagem

Introduo Estatstica | Correlao e Regresso

Exemplo

Foram determinadas as alturas de 20 pais e filhos de forma a avaliar a


evoluo da altura aps uma gerao.
Altura pai Altura filho
(cm) (cm)
152 155
Determine se existe associao entre 153 161
estas duas variveis Diagrama de disperso 155 159
155 164
159 168
160 170
Quantifique a associao linear entre 162 165
estas duas variveis Coeficiente correlao Pearson 166 170
168 167
170 175
Existe dependncia entre 171 179
175 181
variveis? Altura filho depende altura pai 177 178
179 175
181 183
Quantifique a dependncia linear entre 185 183
186 185
estas duas variveis Regresso linear 189 190
190 183
192 187
Avalie a qualidade do ajuste linear Coeficiente de
determinao

17
Introduo Estatstica | Correlao e Regresso

Exemplo

Diagrama de disperso
Altura filho 200

(cm) 195

190

185

180

175

170

165

160

155

150
150 160 170 180 190 200

Altura pai (cm)

Existe uma associao linear positiva entre a altura do filho e a altura do pai

Introduo Estatstica | Correlao e Regresso

Exemplo

Coeficiente de correlao de Pearson x y x2 y2 x.y


152 155 23104 24025 23560

xm =
x i
=
3425
= 171,25 ym =
y i
=
3478
= 173,9
153 161 23409 25921 24633
n 20 n 20 155 159 24025 25281 24645
155 164 24025 26896 25420

rxy =
x .yi i - n xm . ym
=
159 168 25281 28224 26712
2 2 160 170 25600 28900 27200
x i
2
- n . xm . y i
2
- n . ym 162 165 26244 27225 26730
166 170 27556 28900 28220
168 167 28224 27889 28056
598013 - 20 x 171,25 x 173,9 170 175 28900 30625 29750
= =
589871 - 20 x 171,25 2 x 14915,73 - 20 x 173,9 2 171 179 29241 32041 30609
175 181 30625 32761 31675
177 178 31329 31684 31506
= 0,95 179 175 32041 30625 31325
181 183 32761 33489 33123
185 183 34225 33489 33855
186 185 34596 34225 34410
Existe uma correlao linear positiva 189 190 35721 36100 35910
190 183 36100 33489 34770
muito forte entre as duas variveis 192 187 36864 34969 35904
soma 3425 3478 589871 606758 598013

18
Introduo Estatstica | Correlao e Regresso

Exemplo

Regresso linear Altura filho 200


(cm) y = 0,7203x + 50,555
195
R = 0,89595

b =
x y i i - n x y
=
190

2 2 185
x i - n x
180
598013 - 20 x 171, 25 x 173, 9
= =175
589871 - 20 x 171, 25 2
= 0, 720 170

165

160
a = ym - bx m =
155
= 173, 9 - 0, 720 x 171, 25 =
= 50, 6 150
150 160 170 180 190 200

Altura pai (cm)

Y = 50,6 + 0,720 . X

Introduo Estatstica | Correlao e Regresso

Exemplo

Coeficiente de determinao

2 2
R 2 = (rxy ) = (0,95 ) = 0,896

89,6% da variao de Y explicada pelo ajuste linear.

10,4% da variao de Y no explicada pelo ajuste linear; que se deve


a outros factores que no esto a ser avaliados neste estudo.

Cincias da Nutrio

19
Introduo Estatstica | Correlao e Regresso

Como utilizar a relao de dependncia linear entre duas


variveis para prever resultados?

Prever y a partir de um valor conhecido de x

y = a + bx
Previso por interpolao
Valor conhecido de x a partir do qual se pretende prever y est dentro da
gama de valores da amostra

Previso por extrapolao


Valor conhecido de x a partir do qual se pretende prever y est fora da
gama de valores da amostra

Cincias da Nutrio

Introduo Estatstica | Correlao e Regresso

Exemplo

Preveja a altura de um filho cujo pai tenha altura de 155 cm

Y = 50,6 + 0,720 X
Y = 50,6 + 0,720 x 155
Y = 162,2 cm

Previso por interpolao

Preveja a altura de um filho cujo pai tenha altura de 195 cm

Y = 50,6 + 0,720 X
Y = 50,6 + 0,720 x 195
Y = 191,0 cm

Previso por extrapolao

Cincias da Nutrio

20

Você também pode gostar