Você está na página 1de 32

Correlao e regresso

linear simples

Daniela Benzano
Dr. Mrio B. Wagner, PhD
Servio de Epidemiologia e
Bioestatstica/HCPA

Correlao linear
O desenvolvimento da correlao linear recebeu uma importante
contribuio a partir de 1893 com os estudos de Karl Pearson.

Karl Pearson
1857, Londres, Inglaterra
 1936, Londres, Inglaterra

Pearson formou-se em matemtica em Cambridge, 1879 e atuou


como professor de Matemtica Aplicada no University College,
London durante a maior parte do tempo de sua carreira acadmica.

Correlao linear
Para avaliar se existe associao linear entre
duas variveis quantitativas comum a
utilizao do coeficiente de correlao
(produto-momento) de Pearson (r)
O coeficiente de Pearson avalia o quanto
duas sries numricas repousam sobre uma
linha reta, indicando assim o grau de sua
associao linear.

Correlao linear

O coeficiente de Pearson (r) varia entre 1 e +1.


Valores negativos indicam relao inversa: x e y
Valores positivos indicam relao direta: x e y
Os valores mnimo (-1) e mximo (+1) de r ocorrem
quando todos os pontos esto sobre a reta.

r = 1

r = +1

Grficos de disperso de pontos


relao no linear
1.2

1.0

0.8

0.6

0.4

0.2

0.0
0

10

20

30

40

50

60

70

80

90

100 110 120 130 140 150

r = 0,76

r = 0,42

r=0

r = - 0,82

Correlao linear
A frmula do coeficiente de Pearson (r)

r=

covxy
sx s y

onde

cov xy

(x x )( y y )

=
(n 1)

Quando x e y no esto associados eles no covariam,


a covarincia (covxy) pequena, e o r pequeno.
Quando x e y esto associados a covarincia tende a
ser to grande quanto (sx sy) e assim o valor de
r torna-se grande (prximo de 1).

Correlao linear
A frmula mais conhecida do coeficiente de
Pearson (r)

r=

(
x )( y )

xy
n

2
2

(
)
(
)
x
y

x 2
y 2
n
n

Correlao linear
O coeficiente de Pearson como toda estatstica
obtida em amostra sofre variao aleatria,
devendo ser testado estatisticamente.
O r populacional representado por r ().
O procedimento clssico testar o desvio de r em
relao ao populacional

Teste de significncia do
coeficiente de correlao (r)

=0

+1

Teste t de Student para o


coeficiente de correlao

Dados da amostra
r = 0,58 e n=8

10
9
8
7
6

Ho: = 0

5
4

Nota na prova

3
2
1
0
0

Estudo (horas)

Ha: 0
= 0,05
gl=n de pares-2=6
t;gl = t0,05;6 = 2,447

Teste t de Student para o


coeficiente de correlao*

r
r
t=
=
2
EPr
1 r
n2

t=

0,58
1 0,58
82

= 1,74

Como |tcalc| = 1,74 < t0,05;6 = 2,447, no h evidncia de


correlao uma vez que o desvio de r em relao a =0 no
foi significativo.
* possvel obter-se, tambm, o intervalo de confiana para o r

Intervalo de 95% confiana para a


por aproximao t

r t; gl EPr
t 0,05;6 = 2,447

Li = 0,58 ( 2,447 0,33) = 0,23


Ls = 0,58 + (2,447 0,33) = 1,39 1
IC 95%assinttico (): 0,23 a 1,0
IC 95%exato (): 0,22 a 0,91

Uma escala de magnitudes


Trivial

Pequena

Moderada

Grande

Mt. Grande

Q Prf

TEP
f dif.

Adaptada de Will Hopkins, http://www.sportsci.org/resource/stats/effectmag.html

Correlao linear
Coeficiente de determinao

O quadrado do coeficiente de correlao (r2)


conhecido como coeficiente de determinao e
representa a varincia explicada, ou seja, qual a
proporo da variabilidade de y que pode ser
explicada pela variabilidade de x.

Galton e a reverso
Francis Galton
1822, Birmingham, Inglaterra
 1911, Surrey, Inglaterra
Explorador e antropologista, Galton tornou-se famoso por
seus estudos pioneiros sobre hereditariedade da inteligncia.
Galton descobriu a regresso linear (a qual chamou
inicialmente de reverso) estudando ervilhas, provavelmente
influenciado por seu no menos famoso primo, o bilogo
Charles Darwin. Apesar de no ser matemtico, Galton
influenciou o pensamento estatstico da poca tendo como
um de seus seguidores o jovem matemtico Karl Pearson.

Regresso linear
Tcnica de anlise de dados que permite
quantificar o efeito de x sobre y partindo de
um modelo linear (reta).
Com regresso linear possvel estimar o
valor de y (varivel dependente) a partir de
um valor de x (varivel independente).

A reta de regresso linear


altura peso
152
55
153
56
160
63
163
60
165
61
171
64
172
70
178
71
180
73
181
85
185
80
186
89
186
75

Peso
(Kg)

Altura (cm)

A reta de regresso linear

y = a + bx

Peso
(Kg)

y: peso (v. dependente)


Altura (cm)
x: altura (v. independente)
b: coeficiente angular. Efeito de x em y, ou seja, para cada
alterao de uma unidade em x, y altera-se em b unidades.
a: coeficiente linear. Ponto em y quando x for igual a zero.

Regresso linear
y = a + bx

a = y bx
b=

(
x )( y )

xy
n
2
(
x)

2
x n

Regresso linear

b=

(
x )( y )

xy
n
2
(
)
x

2
x n

a = y bx

Assim, no exemplo da altura (cm) e do peso (kg) temos

y = 69 ,53 + 0 ,81 x
peso = 69 ,53 + 0 ,81 altura

Teste de significncia do
coeficiente angular (b)

=0

Teste t de Student para o


coeficiente angular
altura peso
152
55
153
56
160
63
163
60
165
61
171
64
172
70
178
71
180
73
181
85
185
80
186
89
186
75

Ho: = 0

Ha: 0
= 0,05
gl=n de pares-2=11
t;gl = t0,05;11 = 2,201

Teste t de Student para o


coeficiente angular (b)

bB
b
t=
=
EPb
EPb

EPb =

onde

a y b xy

(
x)

(n 2) x
n

Teste t de Student para o


coeficiente angular (b)*
SPSS output
Coefficientsa

Model
1

(Constant)
ALTURA

Unstandardized
Coefficients
B
Std. Error
-69.527
19.070
.809
.111

Standardized
Coefficients
Beta
.910

t
-3.646
7.301

a. Dependent Variable: PESO

peso(y) = 69 ,53 + 0 ,81 altura(x)

Sig.
.004
.000

Teste t de Student para o


coeficiente angular (b)*
SPSS output
Coefficientsa

Model
1

(Constant)
ALTURA

Unstandardized
Coefficients
B
Std. Error
-69.527
19.070
.809
.111

Standardized
Coefficients
Beta
.910

t
-3.646
7.301

Sig.
.004
.000

a. Dependent Variable: PESO

Como |tcalc| = 7,30 > t0,05;11 = 2,201, o b


significativamente diferente de zero,
havendo regresso do peso sobre a altura.
* possvel obter-se o IC para o b.

Intervalo de 95% de confiana para a

B = b t; gl EPb
t 0,05;11= 2,201

Li = 0,81 ( 2,201 0,11) = 0,57


Ls = 0,81 + (2,201 0,11) = 1,05
IC 95%assinttico (): 0,57 a 1,05

Tema
Ex: 60
64

Tema: soluo do exerccio 60


E: igual nmero de acidentes nos 6 dias da
semana. 180/6=30 por dia
2 calculado = 23.7 > 20,01;5 = 15,09, rej.
Ho.
Acidentes no ocorrem com igual
freqncia nos seis dias da semana.

Tema: soluo do exerccio 64 (cont)


Associao idade incio vida sexual com
cncer uterino

Casos
Controles

Idade incio vida sexual


<16
17-20
>20
19
22
2 43
16
33
14 63
35

55

16

E: TC x TL/TG em cada casela


ex: 35 x 43/106 na primera casela

106

Tema: soluo do exerccio 64


Testes de associao da idade de incio da vida
sexual com cncer uterino
2 calculado = 7,97 > 20,05;2 = 5,99, rej. Ho.
H associao entre idade de incio da vida sexual
e cncer da crvice uterina.

Tema: soluo do exerccio 64 (cont)


Associao com alelo DQB1*03
DQB1*03

Outro

Casos

33

10

Controles

24

39

Como uma tabela 2x2, usar correo de Yates.


2 Yates = 13,84 > 20,001;1 = 10,83,

rej. Ho.

Mulheres portadoras do alelo DQB1*03 tm maior risco.

Tema: soluo do exerccio 64 (cont)


Associao cncer uterino com alelo DQB1*03
Como uma tabela 2x2, usar correo de Yates.
2 Yates = 13,84 > 20,001;1 = 10,83, rej. Ho.
Mulheres portadoras do alelo DQB1*03 tm maior
risco.

Você também pode gostar