Você está na página 1de 46

MESTRADO SAUDE PUBLICA

MÓDULO BIOESTATISTICA

FACILITADOR MSC. ARTURO NUNEZ


MESTRADO EM SAUDE PUBLICA

CORRELAÇÃO E REGRESSÃO LINEAR


Objetivo
Estudar a relação entre duas variáveis quantitativas.

Exemplos:
Idade e altura das crianças
Tempo de prática de esportes e ritmo cardíaco
Tempo de estudo e nota na prova
Taxa de desemprego e taxa de criminalidade
Expectativa de vida e taxa de analfabetismo
Investigaremos a presença ou ausência de
relação linear sob dois pontos de vista:

a) Quantificando a força dessa relação:


correlação.
b) Explicitando a forma dessa relação:
regressão.

Representação gráfica de duas variáveis


quantitativas: Diagrama de dispersão
Exemplo 1: nota da prova e tempo de estudo
X : tempo de estudo (em horas)
Y : nota da prova

Pares de observações (Xi , Yi) para cada estudante


Tempo(X) Nota(Y)
Diagrama de Dispersão
3,0 4,5
9,5
7,0 6,5
8,5
2,0 3,7 7,5
1,5 4,0
Nota

6,5

12,0 9,3 5,5

4,5

3,5
0 5 10
Tempo
Coeficiente de correlação linear
É uma medida que avalia o quanto a “nuvem de pontos”
no diagrama de dispersão aproxima-se de uma reta.

O coeficiente de correlação linear de Pearson é dado por:

sendo que,
X e Y s ã o a s m é d ia s a m o s tr a is d e X e Y , r e s p e c tiv am e n te
S X e S Y s ã o o s d e s v io s p a d r ã o d e X e Y , r e s p e c tiv am e n te .
Formula Alternativa

σ𝑥 σ𝑦
σ 𝑥 𝑖 𝑦 𝑖 −( 𝑖 𝑖 )
𝑛
r=
2 2
൫ ൯
ඨ (σ 𝑥𝑖 2 −(σ 𝑖 )((σ 𝑦𝑖 2 −(σ (𝑦 𝑖 ) ))
𝑥
𝑛 𝑛
No exemplo:
- - - -
Tempo (X) Nota (Y) (X - X ) (Y - Y ) (X - X ) (Y - Y )
3,0 4,5 -2,1 -1,1 2,31
7,0 6,5 1,9 0,9 1,71
2,0 3,7 -3,1 -1,9 5,89
1,5 4,0 -3,6 -1,6 5,76
12,0 9,3 6,9 3,7 25,53
25,5 28,0 0 0 41,2
- -
X  5 ,1 Y  5 ,6

2
(-2,1)  ...  (6,9) 2 78,2
S 2x    19,55  S x  4,42
4 4

2 (-1,1) 2  ...  (3,7) 2 21,9


Sy    5,47  S y  2,34
4 4

En tã o ,
41,2
r   0,9959
4 . 4,42 . 2,34
UTILIZANDO A FORMULA ALTERNATIVA
Propriedade: -1  r  1

Casos particulares:

r = 1  correlação linear positiva e perfeita


r = -1  correlação linear negativa e perfeita
r = 0  inexistência de correlação linear
r = 1, correlação linear positiva e perfeita

r = -1, correlação linear negativa e perfeita


r 0

40

30

Y
20

10

10 20 30 40 50
X
r 1 r -1
Exemplo 2: criminalidade e analfabetismo

Considere as duas variáveis observadas em 50


estados norte-americanos.

Y: taxa de criminalidade
X: taxa de analfabetismo
Diagrama de dispersão

Podemos notar que, conforme aumenta a taxa de


analfabetismo (X), a taxa de criminalidade (Y) tende
a aumentar. Nota-se também uma tendência linear.
Cálculo da correlação
_
Y= 7,38 (média de Y) e SY = 3,692 (desvio padrão de Y)
_
X= 1,17 (média de X) e Sx = 0,609 (desvio padrão de X)
XiYi = 509,12

Correlação entre X e Y:
Exemplo 3: expectativa de vida e
analfabetismo

Considere as duas variáveis observadas em 50


estados norte-americanos.

Y: expectativa de vida
X: taxa de analfabetismo
Diagrama de dispersão

Podemos notar que, conforme aumenta a taxa de


analfabetismo (X), a expectativa de vida (Y) tende a
diminuir. Nota-se também uma tendência linear.
Cálculo da correlação
_
_ 70,88 (média de Y) e SY = 1,342 (desvio padrão de Y)
Y=
X= 1,17 (média de X) e Sx = 0,609 (desvio padrão de X)
XiYi = 4122,8

Correlação entre X e Y:
Reta ajustada:

O que são a e b?
a: intercepto
b: inclinação

Interpretação de b:
Para cada aumento de uma unidade em X, temos
um aumento médio de b unidades em Y.
Reta ajustada
(método de mínimos quadrados)

Os coeficientes a e b são calculados da seguinte maneira:


No exemplo 2,
a reta ajustada é:

^
Y : v alo r p re d ito p ara a taxa d e crim in alid ad e
X : taxa d e an alfab e tism o

Interpretação de b:
Para um aumento de uma unidade na taxa do
analfabetismo (X), a taxa de criminalidade (Y)
aumenta, em média, 4,257 unidades.
Graficamente, temos

Como desenhar a reta no gráfico?


No exemplo 3,
a reta ajustada é:

^
Y : v alo r p re d ito p ara a e xp e ctativ a d e v id a
X : taxa d e an alfab e ti sm o
Interpretação de b:
Para um aumento de uma unidade na taxa do
analfabetismo (X), a expectativa de vida (Y)
diminui, em média, 1,296 anos.
Graficamente, temos
Exemplo 4: consumo de cerveja e
temperatura

Y: consumo de cerveja diário por mil habitantes, em litros.


X: temperatura máxima (em ºC).

As variáveis foram observadas em nove


localidades com as mesmas características
demográficas e sócio-econômicas.
Dados:
Localidade Temperatura Consumo
(X) (Y)
1 16 290
2 31 374
3 38 393
4 39 425
5 37 406
6 36 370
7 36 365
8 22 320
9 10 269
Diagrama de dispersão

400
Consumo

350

300

10 20 30 40
Temperatura

A correlação entre X e Y é r = 0,962.


A reta ajustada é:

Qual a interpretação de b?
Aumentando-se um grau
de temperatura (X), o
consumo de cerveja (Y)
aumenta, em média, 4,74
litros por mil habitantes.

Qual o consumo previsto para uma temperatura de 25ºC?


^

Y  217,37  4,74.25  335,87 litros


EXEMPLO

Uma fabrica de montagem de peças de carro está


interessada em verificar se existe uma
associação entre as variáveis X (peso da peça
em Kg) e Y (preço da peça em meticais). Os
dados colhidos foram os seguintes:
EXEMPLO
EXEMPLO
EXEMPLO
EXEMPLO
r = ___ 119646 – (297,4328) / 12 ________
(8671 – (297)2) ( 1710224 – (4328)2

12 12
r = _______ 12528 _____ = 0,892
(1320,25) (149258,7)

C. L. Positiva Forte
REGRESSÃO LINEAR
Recta de Ajuste
Y = bo + b1x
• Em regressão, temos dois tipos de variáveis:
Explicativa (independente): a variável x do
modelo é aquela que se conhece e é
facilmente medida.
• Resposta (dependente): a variável y do
modelo é a que se deseja prever.
REGRESSÃO LINEAR
REGRESSÃO LINEAR
REGRESSÃO LINEAR
• Logo, a recta de regressão ajustada é:
y =126 + 9,49x

Para uma observação de xi , assumindo o valor de


23 Kg, teríamos uma
estimativa para yi de yi = 126 + 9,49x
yi =344,27.
TESTE DA SIGNIFICÂNCIA C.L
Se tivéssemos todas as observações da
população, tanto da variável X, como da
variável Y, saberíamos qual seria o coeficiente
de correlação verdadeiro (denotado por p ).
Mas, como não o conhecemos, utilizamos o
coeficiente de correlação amostral (r) para
estimar p
Para verificar se a correlação entre TODAS AS
VARIAVEIS QUE CONSTITUEM A POPULACAO é
significativa ou não, precisamos adoptar um
procedimento de tomada de decisão. Este
procedimento é um TESTE DE HIPÓTESE.
TESTE DA SIGNIFICÂNCIA C.L
TESTE DA SIGNIFICÂNCIA C.L
TESTE DA SIGNIFICÂNCIA C.L
EXEMPLO #2
Um coeficiente de correlação baseado em uma
amostra de tamanho 18 foi calculado como 0.32.
Podemos concluir que aos níveis de significância
de (a) 0.05 e (b) 0.01 a correspondente correlação
populacional supera a zero?
RESPOSTA EXEMPLO #2
Ho: ρ = 0
H1: ρ > 0.
Teste Unilateral a Direita n = 18, n – 2 = 16 grau de
liberdade, ∝ = 0,05

t tab = 1,746

a)tcal = 1,35
tcal < ttab ; 1,35 < 1,746. Ao nível se significância
de 0,05 aceito Ho : p = 0, logo não existe uma
correlação linear significativa entre as variáveis em
estudo
RESPOSTA EXEMPLO #2
b) Para ∝ = 0,01 16 grau de liberdades
t tab = 2,9208

tcal < t tab ; 1,35 < 2,583. Própria conclusão ( Não


tinha que fazer o calculo porque o para um nível de
significância maior se aceito Ho, significa que para
o menor também se aceita, para um maior se deve
calcular-se porque pode mudar a conclusão

Você também pode gostar