Você está na página 1de 31

Estatstica

amintas paiva
afonso

Correlao e Regresso

Associao &Variveis Quantitativas


Situao 1: Deseja-se realizar uma investigao sobre a
ocorrncia de anemia e infeco em uma comunidade. Seria
interessante poder estimar a concentrao de hemoglobina e a
contagem de eritrcitos e leuccitos no sangue pela medida do
hematcrito. Para verificar a possibilidade de se usar tal
procedimento, conduzido um estudo-piloto a partir dos
resultados da rotina de um laboratrio de hematologia.

Como verificar se essas variveis esto


associadas?

Testes de Hipteses?
Estabelecem se existe associao entre duas
variveis, mas...
No quantificam a fora da associao; e
No permitem representar a relao existente
sob uma forma funcional.

Associao &Variveis Quantitativas


Exame
1
2
3
4
5
6
7
8
9
10
11
12
13
...
138
139
140
141
142
143
144
145
147
148

Leuccito
(103/mm3)
6.8
9.7
4.3
7.9
7.4
7.6
2.8
7.8
5.5
4.6
8.0
7.0
7.1
...
10.5
6.9
13.5
8.3
7.0
4.3
2.7
11.2
5.9
12.3

Eritrcito
(106/mm3)
4.50
5.20
4.55
4.65
4.40
4.40
4.30
4.60
4.90
4.10
5.00
5.17
4.20
...
4.50
4.50
4.45
3.70
4.30
4.67
4.40
4.40
4.40
4.24

Hemoglobina
(g/dl)
14.6
15.6
14.4
14.4
13.8
14.0
13.6
13.8
15.2
13.0
17.0
16.0
11.7
...
13.4
14.2
13.6
11.0
12.7
14.0
12.7
13.3
11.9
10.0

Hematcrito
(% )
41
47
41
41
40
40
40
42
44
39
46
47
35
...
39
40
40
33
38
43
39
38
37
31

possvel fazer um
grfico das variveis
de interesse e analisar
a existncia de uma
relao a partir da
anlise desse grfico.

Associao &Variveis Quantitativas


Diagrama de Disperso
Representao grfica que permite a visualizao do
comportamento conjunto das duas variveis.
grfico sobre o qual cada medida individual
representada por um ponto, sendo que a posio de cada
ponto determinada pelos valores observados em um
indivduo, para as duas caractersticas medidas (por
exemplo, hematcrito e hemoglobina). denominado,
tambm, de grfico XY.

Diagrama de Disperso

Anlise
Parece no haver uma
relao entre o valor do
hematcrito e o valor do
leuccito.

Diagrama de Disperso

Anlise
H uma relao crescente entre o
valor do hematcrito e o valor de
hemoglobina.
Esta relao parece ser linear.

Diagrama de Disperso

Anlise
H uma relao crescente entre
o valor do hematcrito e o valor
do eritrcito.
Esta relao parece ser linear.

Diagramas
de Disperso
A anlise no alterada, se
trocamos as variveis X e Y,
ou seja, a existncia ou no
da relao no depende de
qual varivel considerada
independente.
O modelo matemtico,
porm, ser alterado a
depender de quem X.

Associao &Variveis Quantitativas


Coeficiente de correlao linear de Pearson
Valor numrico que mede a intensidade da associao
linear existente entre as duas variveis, medida a partir de
uma srie de observaes.

Karl Pearson
(1857 1936)

Coeficiente de Correlao Linear


Medindo a Fora da Associao

x y

xy

2
x

n

Coeficiente de Correlao Linear


Interpretando o valor de r
r - assume valores entre 1 e + 1 inclusive.

x y
r1
r0
r+1

associao linear negativa;


ausncia de associao linear;
associao linear positiva;

x y

Coeficiente de Correlao Linear


20

20

15

15

10

10

60
50
40
30
20

r = +1
Relao
perfeita
r - 0,80

10

10
0
0

10

r0

r + 0,80
30

30

25

25

20

20

15

15

10

10

10

10

Relao
perfeita
r=-1
0

10

Teste de Hipteses sob o Coeficiente


de Correlao Linear
Testamos a hiptese nula:

H 0 : r 0 (bicaudal)

A estatstica do teste dada por:

n2
tr
2
1 r
e sob H0 , t tem distribuio t-Student com (n - 2) graus
de liberdade.

Coeficiente de Correlao Linear


Teste de Hipteses
Exemplo 1: Vamos calcular o coeficiente de Pearson entre as
variveis hemoglobina e hematcrito.

r 0,88, n 148
t 21,98
Para = 0,05 temos:

tcrtico2,5% 1,96 t tcrtico2,5%


Rejeita se H 0 .

H
correlao
entre hematcrito
e hemoglobina.

Coeficiente de Correlao Linear


Teste de Hipteses
Exemplo 2: Vamos calcular o coeficiente de Pearson entre as
variveis leuccito e hematcrito.

r 0,0289, n 148
t 0,3492
Para = 0,05 temos:

tcrtico2,5% 1,96 t tcrtico2,5%


Aceita se H 0 .

No h correlao entre
hematcrito e leuccito.

Associao &Variveis
Quantitativas

Modelos de Regresso
Modelo matemtico para a relao linear analisada.
Permite a predio de uma varivel em funo de outra.

Modelos Lineares
Situao 2: Uma vez verificada a existncia de uma relao
entre a quantidade de hemoglobina e o nmero de
hematcritos, desejamos desenvolver um modelo para estimar
a medida de hemoglobina (varivel y) a partir da medida de
hematcrito (varivel x).

hemoglobina

14,00
12,00

Qual a reta que


melhor se ajusta
a estes dados?

10,00
8,00
6,00
4,00
200

400

600

800

hematcrito

1000

1200

Modelos Lineares
Equao da Reta
Intercepto y
a

y a bx

25
20
15

a e b - parmetros da
reta

10
5

Inclinao da reta

0
0

Regresso Linear Simples


Mtodo dos Mnimos Quadrados
O objetivo
minimizar a soma
do quadrado dos
erros:

12

y 10
8
6

erro

( yi $
yi )

2
0
0

10

SQR y y

Obtendo os valores
de b0 e b1 que
minimizam
a
equao acima.

Regresso Linear Simples


Mtodo dos Mnimos Quadrados
y a bx
Podemos utilizar a reta de
regresso para estimar os
y.
valores de $

x y

xy
n
2

x
2

x n

a y b x

Reta de Regresso & Estimativa


Estimativa da Medida de Hemoglobina
Hb 4,2327 0,2434 Ht

14,00

Se Ht 40%

hemoglobina

12,00
10,00

Hb 13,97( g / dl )

8,00

Anlise

6,00

O valor de homoglobina
mdia estimada, para um
valor
observado
de
hematcrito igual a 40%,
de 13,97 g/dl.

4,00
200

400

600

800

hematcrito

1000

1200

Reta de Regresso & Estimativa


Estimativa da Medida de Hematcrito
Suponha que desejemos considerar o hematcrito como
varivel dependente. Neste caso, podemos calcular outra reta
de regresso, pelo mtodo dos mnimos quadrados,
considerando a hemoglobina como varivel x (independente) e
o hematcrito como varivel y (dependente).
O valor de hematcrito mdio
Ht 0,00073 2,9017 Hb estimado, para um valor observado de
hemoglobina Hb = 13,97 g/dl, de
Se Hb 13,97( g / dl )
40,54%. Note que a reta, para Ht, no
Ht 40,54%
a inversa da obtida para Hb.

Exemplo 1:
Encontre a linha de regresso dos mnimos quadrados para os dados sobre renda e
gasto com alimentao nos sete domiclios apresentados na tabela abaixo. Utilize
renda como uma varivel independente e gasto com alimentao como uma varivel
dependente.

Renda
x

Gasto com Alimentao


y

xy

x2

35

315

1225

49

15

735

2401

21

147

441

39

11

429

1521

15

75

225

28

224

784

25

225

625

212

64

2150

7222

x 212
y 64
xy 2150
x 7222
x 212

30,2857
2

y 64

9,1429


212 64
2150

7
b
2

212
7222
7
b 0,2642

a 9,1429 (0,2642).(30,2857) 1,1414


^

y 1,1414 0,2642 x

Qualidade do Ajuste na Regresso


Coeficiente de Determinao
R2 = proporo da variabilidade de y que
explicada pelo modelo (reta de regresso)

0 R 1
2

Se R2 = 0,90 significa que 90% da variao em y pode ser


explicada pela equao obtida.

Qualidade do Ajuste na Regresso


Coeficiente de Determinao
Quando fazemos uma regresso linear, os valores observados
(x,y) esto espalhados ao redor da reta de regresso. Quanto
menor for este espalhamento, melhor a reta de regresso
representa o conjunto de valores observados. A varincia
amostral total, como estimador do espalhamento, pode ser
decomposta da seguinte forma:

r2

x y

xy

Qualidade do Ajuste na Regresso


Coeficiente de Determinao
Exemplo 2:
Para os dados da tabela do exemplo 1, sobre rendas mensais e gastos mensais
com alimentao de sete domiclios, calcule o coeficiente de determinao.
b=0,2642
SQxy=211,7143
SQyy=60,8571

0,2642 211,7143

0,92
60,8571

www.matematiques.com.br
amintas paiva
afonso