Você está na página 1de 10

INÉS TORIBIO ARGÜELLES CURSO 2021-2022

Correlação Linear
Pontos Principais

● O problema da correlação
● Diagramas de dispersão
● Tipos de correlações
● Um exemplo de uma investigação
● O coeficiente de correlação de Pearson
● Testar a significância estatística de uma correlação • Fatores que afetam
as correlações.
● Matriz de correlações

A que tipo de problemas se aplica?


Estarão duas variáveis relacionadas?

Será que quando uma aumenta a outra aumenta também? e.g., competências
profissionais e salário

Será que quando uma diminui a outra aumenta? e.g., qualidade da nutrição e
problemas de saúde?

Como podemos obter uma medida numérica do grau de relação?

Um exemplo da literatura psicológica (Aron et al.,


2000)
Cento e treze pessoas casadas residindo na cidade universitária de Santa Cruz
(Califórnia, EUA), responderam a um questionário, publicado num periódico local,
acerca de experiências relativas ao casamento.

Nesse questionário era-lhes perguntado (entre outras questões) ‘Quão excitantes


são as coisas que faz em conjunto com o/a seu/sua parceiro/a?’ Respondiam
usando uma escala de 1 “não emocionante de todo” a 5 “extremamente
emocionante”

O questionário também incluía um conjunto de questões sobre a satisfação marital


(incluindo itens como: ‘Em geral, quão frequentemente pensa que as coisas entre si
e o seu parceiro vão bem?’)
INÉS TORIBIO ARGÜELLES CURSO 2021-2022

Estudo de Aron et al. -- continuação


Os investigadores pretendiam conhecer que tipo de relação há entre fazer coisas
excitantes (emocionantes) com o cônjuge e o nível de satisfação com a relação
matrimonial;

O gráfico (denominado diagrama de dispersão) mostra a relação entre os dois


conjuntos de scores (ver lateral);

Os autores relataram ter encontrado “uma forte associação positiva entre as


respostas à questão sobre atividades excitantes e a a qualidade da relação (r = .51,
p < .001)” (p. 276).

Depois de ter estudado correlação será capaz de obter estatísticas como as


mencionadas no excerto e interpretar o seu real significado.

Diagramas de Dispersão
Diagramas (gráficos) que representam a relação entre duas variáveis, como o que
apresentamos para o estudo de Aron et al (2000), são uma ferramenta importante
para apreendermos o tipo de relação entre duas variáveis;

Para desenhar um diagrama de dispersão (scatterplot) a propriedade (numérica) de


uma das variáveis é representada no eixo do X (abscissa) e a outra no eixo do Y
(ordenada).

Também podemos obter, na mesma apresentação, matrizes combinando diagramas


de dispersão e os respetivos r’s (coeficientes de correlação) (ver próximo slide).

Combinando diagramas de dispersão e r’s (Fonte: Wikipedia)

Um ou vários tipos de correlação?


Na realidade não há uma única técnica de correlação, mas sim múltiplos tipos de
correlação que podem calculados para aferir o grau de relação entre duas
variáveis...

No próximo slide mostramos uma seleção de alguns tipos de correlação mais


comuns; Neste curso apenas estudaremos um deles; afinal o mais frequentemente
usado na Psicologia – o coeficiente de correlação de Pearson.
INÉS TORIBIO ARGÜELLES CURSO 2021-2022

Diferentes tipos de coeficientes de correlação

O coeficiente produto-momento de Pearson


Provavelmente o mais conhecido de todos os coeficientes de correlação;

Muitas vezes abreviado para coeficiente correlação de Pearson, já que K. Pearson
foi o estatístico que mais contribui para o seu desenvolvimento.

Caraterísticas do coeficiente de correlação de Pearson


INÉS TORIBIO ARGÜELLES CURSO 2021-2022

Coeficiente de Correlação, r
- O sinal (+ ou -) revela a direcção da relação (positiva, negativa).
- O valor numérico indexa a magnitude/força da relação
- O grau/magnitude da relação situa-se num intervalo específico (i.e., -1 r 1).

Coeficiente de Correlação de Pearson

Cálculo do r de Pearson

Cálculo do r (usando a fórmula de definição)


INÉS TORIBIO ARGÜELLES CURSO 2021-2022

Interpretação do r
Correlação, r = .71

O sinal é positivo, isso significa que quando X (tabagismo) aumenta, Y (doença


coronária) também aumenta (e vice-versa).

A correlação não permite inferir que X causa Y; conclua que as duas variáveis
variam conjuntamente.

(Não esqueça que relações de causa-efeito dependem da validade de várias


alegações; a correlação é apenas uma delas. Ou seja, é um fator necessário, mas
não suficiente, para afirmar uma relação de causalidade entre duas variáveis.)

Como interpretar o r [obtido]?


- Utilize um sistema de classificação convencional para a magnitude do r
- Calcule o coeficiente de determinação: r2 (ou r2%)
- Calcule a significância estatística do r

Utilize um esquema de classificação convencional


Cohen (1988) propôs um sistema bastante usado na prática [neste sentido pode
considerar o r como uma medida do tamanho do efeito]

- 0.1 é um efeito pequeno


- 0.3 é um efeito médio
- 0.5 é um efeito grande

Uma escala mais alargada foi proposta por W. G. Hopkins (2013) in

Calcule o coeficiente de determinação: r2 (ou o r2%)


INÉS TORIBIO ARGÜELLES CURSO 2021-2022

Testar o r de Pearson quanto à significância


estatística

Aplicação ao exemplo

Tabela t (extracto)
INÉS TORIBIO ARGÜELLES CURSO 2021-2022

Fatores que afetam o r de Pearson


Restrições na amplitude (variação) numa, ou em ambas as variáveis
- Ver o próximo slide incluindo dados apenas para os países com baixo
consumo tabágico

Não linearidade: e.g. idade e quantidade do vocabulário da criança. Subamostras


muito heterogéneas: relação entre peso e altura (combinando ambos os géneros)

Se restringir (truncar) a amostra aos países com


consumos baixos – o efeito do r é subestimado

Assunções (seleção)
Dados intervalares/razão.

Relações lineares. Assume-se que os pontos x-y no diagrama de dispersão para


as duas variáveis que estão em análise serão melhor descritos por uma linha reta
do que por uma outra qualquer função curvilínea. A linearidade pode ser verificada
INÉS TORIBIO ARGÜELLES CURSO 2021-2022

visualmente através de um gráfico (scatterplot) dos dados.

Homoscedasticidade. Assume-se que a variância dos erros seja a mesma para


qualquer ponto ao longo da relação linear. De outro modo o coeficiente de
correlação será uma medida tendenciosa da média dos pontos mais elevados e
mais baixos de correlação.

Distribuição normal bivariada (com o propósito de testar a significância da


correlação). O teorema do limite central demonstra, contudo, que para grandes
amostras, os índices usados no teste de significância estarão distribuídos
normalmente mesmo quando as variáveis em si mesmas não estão distribuídas
normalmente, e portanto o teste de hipóteses (t de Student) pode ser empregue.

Matriz de Intercorrelações
Uma matriz com as correlações entre todas as variáveis estudadas é
frequentemente usada na apresentação dos resultados de um estudo

Exemplo: Silva, Ramos, & Miguel (2021):

- Amostra: 259 alunos do 9.o ano de escolaridade


- Mediram-se as dificuldades de tomada de decisão de carreira em 10
dimensões, e.g.: -Falta de motivação; Crenças disfuncionais, Falta de
informação sobre o self, etc.
- As 45 correlações possíveis foram apresentadas numa tabela (matriz de
correlações) como se segue (ver próximo slide)
INÉS TORIBIO ARGÜELLES CURSO 2021-2022

O problema da terceira variável


A expressão refere-se a um tipo de elemento confundidor no qual uma terceira
variável conduz à afirmação errónea de uma relação de causalidade entre outras
duas variáveis;

Por exemplo, cidades com um grande número de igrejas têm uma taxa de crime
mais elevada. Como explica esta relação?

Três hipóteses plausíveis:

O problema da terceira variável (continuação)


Na verdade, não será o maior número de igrejas que leva ao maior número de
crimes (as pessoas aprendem a conhecer nas igrejas os diferentes tipos de pecados
e depois vão praticá-los); nem certamente será o maior número de crimes que
levará a construir mais igrejas (para as pessoas que cometem os pecados se
confessarem), mas antes uma terceira variável, a população residente na cidade,
que aumentando conduz, quer ao maior número de igrejas, quer à maior taxa de
crime.

Este tipo de relação (e.g., entre ‘igrejas’ e ‘crime’), em estatística, denomina- se de


espúria.

Há sítios na Internet que se dedicam a coleccionar exemplos deste tipo de relações
(enfim, há gostos para tudo!). Os dois slides que se seguem ilustram relações
espúrias documentadas no site.
INÉS TORIBIO ARGÜELLES CURSO 2021-2022

Correlações Espúrias - 1

Correlações Espúrias - 2

O problema da terceira variável (conclusão)


Para destrinçar o papel de uma terceira variável na correlação observada entre
quaisquer outras duas variáveis habitualmente calcula-se um outro coeficiente de
correlação, denominado de coeficiente de correlação parcial (de Pearson),𝑟

Este coeficiente vai desempenhar um papel muito importante em modelos


estatísticos avançados (e.g., correlação/regressão múltipla, análise fatorial).

Para além de ajudar a controlar (remover) estatisticamente o efeito de uma (ou


mais) variável(eis) e, portanto, ajudar a identificar relações espúrias, a correlação
parcial também nos obriga a lembrar o seguinte mantra (ver próximo slide)

“Correlation Does Not Imply Causation”

Você também pode gostar