Você está na página 1de 40

Correlação

Baseado em “CSUN, PSY 427”


Pontos principais - Correlação
 Questões respondidas pela correlação
 Gráficos de dispersão (Scatterplots)

 Exemplo

 Coeficiente de correlação

 Outros tipos de correlação

 Factores que afetam as correlações

 Testes de significância
Questões
 Duas variáveis estão relacionadas entre
si?
Será que uma aumenta quando a outra
aumenta?
 p. e. competências e salários
Será que uma decresce quando a outra
aumenta?
 p. e. problemas de saúde e nutrição
 Como podemos obter uma medida
numérica do grau de inter-relação?
Diagramas de dispersão

 TB Scatterplots, diagramas XY.


 Representação gráfica a duas dimensões
da relação entre duas variáveis.
Relação direta
Scatterplot:Video Jogos e consumo de alcóol

20
Número médio de bebidas alcoolicas por semana

18

16

14

12

10

0
0 5 10 15 20 25

Númeo médio de horas nos video jogos por semana


Relação Inversa
Scatterplot: Video Jogos e Resultados no Exames

100

90

80

70
Resultados nos Exames

60

50

40

30

20

10

0
0 2 4 6 8 10 12 14 16 18

Número médio de horas por semana nos videojogos


Exemplo

 Fumar aumenta a pressão (sistólica) do


sangue?
 Representar o nro. de cigarros por dia
versus a pressão (sistólica) do sangue
Relação bastante moderada
Relação é positiva
Tendência?
Fumar e PS

 Note que a relação é moderada mas


real.
 Porque nos interessa esta relação?

O que se poderia concluir se não existisse


relação?
E se a relação fosse quase perfeita?
E se a relação fosse negativa?
Doenças do coração e Cigarros

 Dados de doenças de coração e consumo


de cigarros para 21 países desenvolvidos
(Landwehr and Watkins, 1987)
 Dados foram arredondados por
conveniência de cálculo.
Os resultados não são afetados.
País Cigarros DAC
1 11 26
Dados 2
3
9
9
21
24
4 9 21
5 8 19
6 8 13
7 8 19
De forma 8 6 11
9 6 23
surpreendente, os 10 5 15
EUA são o 11 5 13
12 5 4
primeiro país da 13 5 18
lista—o país com 14
15
5 12
5 3
o consume mais 16 4 11
17 4 15
alto e a mais alta 18 4 6
mortalidade. 19 3 13
20 3 4
21 3 14
Scatterplot de Doenças do Coração

 Mortalidade por DAC aparece em


ordenadas (eixo Y)
Porquê?
 Consumo de cigarros aparece em
abcissas (eixo X)
Porquê?
 O que representa cada ponto?
 A reta de melhor ajuste adicionada para

melhor leitura
{X = 6, Y = 11}
O que mostra o Scatterplot?

 À medida que aumenta o consume, assim


aumenta a mortalidade por doença
coronária.
 A relação parece forte

 Nem todos os pontos estão em cima da


linha.
Isto dá-nos os “resíduos” ou “erros de
previsão”
 Discutidos mais tarde
Correlação

 Relação ou dependência mútua


 A relação entre DUAS variáveis

 Medida por UM coeficiente de


correlação
 O mais popular é: Coeficiente de
Correlação de Pearson (Produto-
Momento)
Tipos de correlação
 Correlação Positiva
Valores elevados de X tendem a a estar
associados a valores elevados de Y.
Se X aumenta, Y aumenta
 Correlação Negativa
Valores elevados de X tendem a estar
associados a valores baixos de Y.
Se X aumenta, Y diminui
 SEM correlação
 Tendência não consistente de aumento ou
diminuição dos valores de Y com aumento
de X
Coeficiente de Correlação
 Uma medida do grau de relação mútua.
 Varia entre 1 e -1
 O sinal indica a direção.
 Baseia-se na COVARIÂNCIA
Mede o grau em que valores altos de X se
relacionam com valores altos de Y e valores
baixos de X se relacionam com valores
baixos de Y
Pensa como se fosse variância, mas com duas
variáveis em vez de 1 (O que significa isso??)
18
Covariância:
 Lembrem-se que a variância é:
( X  X ) 2
( X  X )( X  X )
VarX  
N 1 N 1
 A fórmula para a co-variância é:

( X  X )(Y  Y )
Cov XY 
N 1
 Como funciona e porquê?
 Quando poderá a covXY ser grande e

positiva? Grande e negativa?


País X (Cig.) Y (DAC) (X  X ) (Y  Y ) ( X  X ) * (Y  Y )
1 11 26 5.05 11.48 57.97
2 9 21 3.05 6.48 19.76
3 9 24 3.05 9.48 28.91
4 9 21 3.05 6.48 19.76
5 8 19 2.05 4.48 9.18
6 8 13 2.05 -1.52 -3.12
7 8 19 2.05 4.48 9.18
8 6 11 0.05 -3.52 -0.18
9 6 23 0.05 8.48 0.42
10 5 15 -0.95 0.48 -0.46
Exemplo 11
12
5
5
13
4
-0.95
-0.95
-1.52
-10.52
1.44
9.99
13 5 18 -0.95 3.48 -3.31
14 5 12 -0.95 -2.52 2.39
15 5 3 -0.95 -11.52 10.94
16 4 11 -1.95 -3.52 6.86
17 4 15 -1.95 0.48 -0.94
18 4 6 -1.95 -8.52 16.61
19 3 13 -2.95 -1.52 4.48
20 3 4 -2.95 -10.52 31.03
21 3 14 -2.95 -0.52 1.53
Média 5.95 14.52
DP 2.33 6.69
Soma 222.44
Exemplo
21

( X  X )(Y  Y ) 222.44
Covcig .& DAC    11.12
N 1 21  1
 Mas afinal o que é uma covariância?
 Pensei que estávamos a falar de

correlação…(?)
Coeficiente de Correlação
 Correlação do (momento do produto) de
Pearson
 Simbolizado por r
 Covariância ÷ (produto dos dois DPs)

Cov XY
r
s X sY
 Correlação é uma covariância
normalizada
Cálculo para o Exemplo

 CovXY = 11.12
 sX = 2.33

 sY = 6.69

cov XY 11.12 11.12


r    .713
s X sY (2.33)(6.69) 15.59
Exemplo

 Correlação = .713
 Sinal é positivo

Porquê?
 Se o sinal fosse negativo
O que significaria?
Não iria alterar o grau de relação mútua.
Outros métodos de cálculo de r
25

 Método dos Z
r
 z z x y

N 1
 Método computacional de cálculo

N  XY   X  Y
r
 N  X 2  ( X ) 2   N  Y 2  ( Y ) 2 
Outras medidas de Correlação
 Coeficiente de correlação de Spearman
(posição ordenada) (rsp)
usado com 2 variáveis ordenadas/tabeladas
usa a formula de Pearson (adaptada)
Atratividade Simetria
3 2
4 6
1 1
2 3
5 4
6 5 26
rsp = 0,77
Outras medidas de Correlação
 Coeficiente de correlação Biserial Pontual
(rpb)
Usado com uma escala contínua e uma escala
nominal, ordinal ou dicotómica.
usa a fórmula de Pearson (adaptada)
Atratividade Encontro?
3 0
4 0
1 1
2 1
5 1 27
6 0
rpb = -0,49
Outras medidas de correlação
 Coeficiente Phi ()
Usado com duas escalas dicotómicas.
Usa a formula de Pearson (adaptada)
Attractiveness Date?
0 0
1 0
1 1
1 1
0 0
1 1
 = 0.71 28
Factores que afectam r
 Restrições intervalares
Olhar apenas para uma pequena parte do
gráfico total (olhar para uma parte menor da
variabilidade dos dados) diminui r.
Reduzir a variabilidade reduz r
 Não linearidade
O r de Pearson (e os seus parentes) mede o
grau de relação linear entre duas variáveis
Se existir uma forte relação não linear, o r
dará uma medida pequena, ou pelo menos
incorreta, da verdadeira relação mútua.
Factores que afectam o r
 Sub-amostras heterogéneas
Exemplos de todos os dias (p.e. Altura e peso
usando homens e mulheres)
 Outliers
Sobre-estimação da correlação
Sub-estimação da correlação
Países com baixos consumos
Dados com intervalos restritos

Truncado em 5 Cigarros por Dia


20

18
Mortalidade DAC por 10,000

16

14

12

10

4
2
2.5 3.0 3.5 4.0 4.5 5.0 5.5

Consumo de cigarros por Adulto e por Dia


Dados Truncados
32
Não-linearidade
33
Amostras heterogéneas
34
Outliers
35
Testando Correlações
36

 Ok, temos uma correlação. E agora?


 Em termos de magnitude, quão grande é?
Pequenas correlações em amostras grandes
são “grandes” (“big”).
Grandes correlações em pequenas amostras
nem sempres são “grandes” (“big”).
 Depende da magnitude do coeficiente de
correlação
E
 Do tamanho da amostra
Testando r

 Parâmetro da população = 
 Hipótese nula H0:  = 0

Teste de independência linear


Qual o significado de um verdadeiro nulo
aqui?
Qual o significado de um falso nulo aqui?
 Hipótese alternativa (H1)   0
Duas “caudas” da distribuição (two-tailed)
Tabelas de Significância
 Podemos converter r em t e testar a sua
significância:

N 2
tr
1 r 2

 Onde “graus de liberdade” = N-2


Tabelas de Significância
 No nosso exemplo r era 0.71
 N-2 = 21 – 2 = 19

N 2 19 19
tr  .71*  .71*  6.90
1 r 2
1  .712
.4959

 T-crítico (19) = 2.09


 Como 6.90 é maior do que 2.09 rejeitamos a
hipótese H0 ( = 0) (aceitamos H1, ou  ≠ 0).
Resultados do Computador (SPSS)
 “Printout” dá o teste de significância
Correlations

CIGARET CHD
CIGARET Pearson Correlation 1 .713**
Sig. (2-tailed) . .000
N 21 21
CHD Pearson Correlation .713** 1
Sig. (2-tailed) .000 .
N 21 21
**. Correlation is significant at the 0.01 level (2-tailed).

Você também pode gostar