Você está na página 1de 18

BIOESTATÍSTICA

Correlações
Cristiane da Silva

OBJETIVOS DE APRENDIZAGEM

> Definir o que é um teste de correlação.


> Diferenciar as correlações: positiva, negativa e nula.
> Identificar a partir da correlação o grau de associação entre as variáveis.

Introdução
A maior parte dos problemas do nosso cotidiano envolve a interação entre
pelos menos duas variáveis. Medir a relação entre elas ajuda a compreender o
comportamento dos dados e o que essa relação significa. Para isso, utiliza-se
o coeficiente de correlação, que permite mensurar o grau de relacionamento
entre duas variáveis. Ao gerar um gráfico de dispersão, caso os pontos das
variáveis apresentem uma distribuição ao longo de uma reta imaginária, diz-se
que os dados apresentam uma correlação linear.
Uma medida para avaliar o grau e o sinal da correlação linear entre duas
variáveis (x, y) é dada pelo coeficiente de correlação linear de Pearson.
Essa medida é relevante nas mais diversas áreas do conhecimento. Pode haver
interesse, por exemplo, em saber se existe e como é a relação entre: i) o peso e
a altura dos indivíduos; ii) o preço do vinho e o montante da colheita em cada
ano; iii) a receita das vendas e os descontos fornecidos; iv) a renda e a despesa
das famílias. Entre tantas outras.
Neste capítulo, você vai conhecer o teste de correlação, os tipos e subtipos
de correlações existentes, bem como a utilidade de um teste de correlação.
Além disso, a resolução de problemas aplicados utilizando o teste de correlação
e os diagramas de dispersão permitirão avaliar cada situação particular.
2 Correlações

Propósito de um teste de correlação


A análise de correlação tem por propósito estudar o comportamento conjunto
de duas ou mais variáveis. Em outras palavras, ela é uma técnica estatística
que permite verificar se duas ou mais variáveis estão relacionadas umas
com as outras. Tomando como exemplo a área da saúde, podemos saber se
pessoas com índice de massa corporal (IMC) relativamente alto teriam uma
frequência cardíaca maior, ou, se quanto maior a frequência cardíaca, maior o
IMC. Neste caso, o coeficiente de correlação é bastante útil (MARTINEZ, 2015).
Por meio do teste de correlação é possível determinar o sentido e a
intensidade da relação entre as variáveis, tópicos que serão abordados e
aprofundados nas seções seguintes.
Antes de partir para o teste de correlação, pode-se realizar uma análise
preliminar graficamente. Isso significa que, partindo de uma amostra de n
elementos, conhecidos os valores x e y de duas variáveis — que geram pa-
res como pontos em um gráfico conhecido como diagrama de dispersão —,
é possível identificar algum padrão de comportamento. Assim, temos alguma
ideia sobre a relação entre as duas variáveis. Trata-se de uma inspeção visual
dos dados (RAUPP, 2013). A Figura 1 apresenta diagramas de dispersão que
permitem a realização dessa análise gráfica.

Figura 1. Diagramas de dispersão.


Fonte: Adaptada de zizou7/Shutterstock.com.

Para compreender melhor, considere o Quadro 1 e analise os gráficos de


dispersão nas Figuras 2 e 3, em que temos dados fictícios que se referem aos
percentuais de gordura corporal de 13 homens adultos.
Correlações 3

Quadro 1. Percentuais de gordura corporal de homens conforme a idade

Idade Percentual

25 10,5

27 14,0

31 16,5

36 15,5

38 15,0

41 18,0

45 17,0

48 18,5

52 19,0

53 20,5

56 20,0

67 20,5

70 21,0

Figura 2. Diagrama de dispersão entre duas variáveis quantitativas.


4 Correlações

Figura 3. Diagrama de dispersão com linha de tendência linear.

A inspeção visual desses dados significa que existe uma relação positiva
(direta) entre o percentual de gordura corporal (y) e a idade (x) dos homens
que fazem parte da amostra investigada. Também pode-se dizer que a relação
é linear. No entanto, apenas a inspeção visual não é suficiente. É necessária
uma forma mais objetiva de fazer essa análise, utilizando o coeficiente de
variação de Pearson.
Esse coeficiente foi elaborado para avaliar uma forma específica de relação
entre duas variáveis contínuas, que é o grau de relação linear existente entre
elas. Ele é conhecido como coeficiente de correlação de Pearson, coeficiente de
correlação produto-momento ou, simplesmente, r de Pearson (BLAIR; TAYLOR,
2013). O coeficiente de correlação é uma medida numérica da “força” da relação
ou associação entre duas variáveis quantitativas contínuas (MARTINEZ, 2015).
Existem diversas equações para o cálculo do r de Pearson, mas algebrica-
mente elas são todas idênticas (BLAIR; TAYLOR, 2013). Aqui vamos representar
o coeficiente de correlação de Pearson por meio da Equação 1:

(∑ )(∑ )
∑ −
= (1)
2 (∑ )2 2 (∑ )2
∑ − ∑ −
Correlações 5

Em que n é o número de pares de dados, e a quantidade r mede a força e


a direção de uma relação linear entre duas variáveis. Embora a fórmula seja
extensa, atualmente o cálculo de r é facilmente realizado pelo computador,
com o Excel (VIEIRA, 2018). Confira os exemplos a seguir.
Archaeopteryx é uma fera extinta que tinha penas, como um pássaro,
mas tinha dentes e uma longa cauda de ossos, como um réptil. Apenas
alguns espécimes de fóssil são conhecidos. Como eles diferem bastante em
tamanho, alguns cientistas pensam que pertencem a espécies diferentes.
Examinaremos alguns dados.
Se alguns pertencem à mesma espécie e diferem em tamanho porque
são mais jovens do que outros, deve haver uma relação linear entre os com-
primentos de pares de ossos de todos os indivíduos. Um valor atípico nessa
relação sugeriria uma espécie diferente. Confira no quadro abaixo os dados
dos comprimentos, em centímetros, do fêmur (osso da perna) e do úmero
(osso da parte superior do braço) para cinco espécimes que preservaram
ambos os ossos.

Fêmur 38 56 59 64 74

Úmero 41 63 70 72 84

Vamos calcular o coeficiente de correlação de Pearson por meio da fór-


mula e verificar como isso pode ser rapidamente calculado usando o Excel.
Utilizando a fórmula, temos:

(∑ )(∑ )
∑ −
=
2 (∑ )2 2 (∑ )2
∑ − ∑ −

X Y XY X2 Y2

38 41 1558 1444 1681

56 63 3528 3136 3969

59 70 4130 3481 4900


(Continua)
6 Correlações

(Continuação)

X Y XY X2 Y2

64 72 4608 4096 5184

74 84 6216 5476 7056

∑X = 291 ∑Y = 330 ∑XY = 20040 ∑X 2 = 17633 ∑Y2 = 22790

Portanto, substituindo-se na fórmula, teremos:

(291)(330)
20040 −
= 5
84681 108900
17633 − 22790 −
5 5

20040 − 19206
=
[696,80][1010]

834
=
√703768

0,9941

No Excel, para obter o coeficiente de correlação r, clicamos na “barra de


ferramentas”, em “dados” e, depois, em “análise de dados”. Abrirá uma tela
como a que vemos na Figura 4. Caso não esteja aparecendo a ferramenta de
dados, leia as instruções ao final deste exemplo.
Correlações 7

Figura 4. Tela para obter a análise de correlação no Excel.

Nessa tela, selecionamos a ferramenta de correlação e clicamos em OK.


Teremos a tela apresentada na Figura 5.

Figura 5. Tela para obter a análise de correlação no Excel.


8 Correlações

Na tela apresentada na Figura 5, devemos informar o intervalo de entrada


dos dados (valores atribuídos a Fêmur e Úmero), incluindo toda a área em
que se encontram os dados das duas variáveis. A seguir, devemos informar
o formato em que os dados foram agrupados na nossa planilha; neste caso,
em colunas. Devemos informar se selecionamos os rótulos, ou seja, os nomes
das variáveis (Fêmur e Úmero). Além disso, escolhemos o local em que serão
apresentados os resultados da análise. Preenchidas essas informações,
clicamos em OK e obtemos o resultado apresentado na Figura 6.

Figura 6. Tela de resultados da análise de correlação no Excel.

O resultado da análise aparece em uma matriz de correlação. A diagonal


principal dessa matriz é preenchida com números 1, pois ali estão coeficientes
de correlação de cada variável com ela mesma. O Excel só preenche a parte de
baixo da matriz, uma vez que ela é simétrica, ou seja, a correlação entre fêmur e
úmero é a mesma correlação entre úmero e fêmur. Observamos que o coeficiente
de correlação entre fêmur e úmero é de aproximadamente 0,9941. Nas seções
seguintes, veremos como interpretar esses resultados (BALDI; MOORE, 2014).

Para fazer o teste de correlação no Excel, clique em “Dados” na barra


de ferramentas e, depois, em “Análise de dados”. Para que dê certo,
as “Ferramentas de análise” precisam estar selecionadas, na aba “Arquivo”, em
“Opções” e “Suplementos”. Assim, uma caixa de diálogo será aberta.
Correlações 9

Nesta seção, você conheceu a definição de correlação e o que é correlação


linear simples. Além disso, com uma inspeção visual dos dados, foi possível
identificar a correlação entre variáveis antes mesmo de calcular o coeficiente
de correlação. O cálculo do coeficiente de correlação foi introduzido tanto por
meio da fórmula matemática quanto pelo Excel. A seguir, você vai estudar os
tipos de correlação (positiva, negativa e nula), bem como a sua intensidade:
fraca, regular, forte, muito forte e perfeita.

Tipos de correlação
O coeficiente de correlação (r) assume valores que podem variar entre –1 e
+1. A partir dos valores e sinais observados para o coeficiente, definimos o
tipo de correlação e a sua intensidade. Valores negativos de r indicam uma
correlação do tipo inversa: na medida em que x aumenta, y em média diminui,
e vice-versa. Já valores positivos de r indicam uma correlação do tipo direta:
na medida em que x aumenta, y em média aumenta, e vice-versa (BALDI;
MOORE, 2014; CALLEGARI-JACQUES, 2003; VIEIRA, 2018).
Quando todos os pontos do diagrama de dispersão estiverem em uma
linha reta inclinada, significa que o valor de r será igual a –1 ou +1, o que se
denomina correlação perfeita. Observe a Figura 7, que evidencia essa situação
(BALDI; MOORE, 2014; CALLEGARI-JACQUES, 2003; VIEIRA, 2018).

–1 1
A B

Figura 7. Correlações perfeitas: (a) negativa; (b) positiva.


Fonte: Adaptada de zizou7/Shutterstock.com.

Já quando não existe correlação entre x e y, os pontos se distribuem em


nuvens circulares, como mostra a Figura 8.
10 Correlações

0
Figura 8. Correlação nula.
Fonte: Adaptada de zizou7/Shutterstock.com.

As associações com grau intermediário, em que o r está entre zero e |1|,


apresentam-se como nuvens inclinadas de forma elíptica, sendo mais estreitas
quanto maior for a correlação, como mostra a Figura 9.

A B

Figura 9. Correlações (a) r = 0,8 (maior correlação positiva) e (b) r = 0,6 (menor correlação
positiva).
Fonte: Adaptada de Callegari-Jacques (2003).

Nos casos em que os pontos formam uma nuvem cujo eixo principal é uma
curva, o valor de r não mede corretamente a associação entre as variáveis.
Isso ocorre porque a técnica para calcular esse coeficiente supõe que os
pontos do gráfico formam nuvens elípticas, cujo eixo principal é uma reta.
Observe a Figura 10.
Correlações 11

Figura 10. Ausência de correlação linear.


Fonte: Adaptada de Callegari-Jacques (2003).

Podemos avaliar o grau de correlação entre duas variáveis quanto à sua


intensidade usando o critério apresentado no Quadro 2.

Quadro 2. Avaliação qualitativa do grau de correlação entre duas variáveis

|r| A correlação é dita:

0 nula

0 — 0,3 fraca

0,3| — 0,6 regular

0,6| — 0,9 forte

0,9 |— 1 muito forte

1 plena/perfeita

Fonte: Adaptado de Callegari-Jacques (2003, p. 90).

Nesta seção, conhecemos os tipos de correlação (inversa, direta e nula),


os valores que o coeficiente de correlação (r) pode assumir e vimos como
avaliar o grau de correlação entre duas variáveis quanto à sua intensidade.
Vimos que r pode ser positivo, negativo ou nulo, e seu módulo pode ser de
intensidade fraca, regular, forte, muito forte ou plena. Na próxima seção,
apresentaremos problemas aplicados que envolvem a identificação do grau
de correlação a partir do cálculo de r e/ou da construção do diagrama de
dispersão.
12 Correlações

Grau de associação entre as variáveis


Retomando os exemplos da primeira seção deste capítulo, que tratam dos
percentuais de gordura corporal de homens conforme a idade e da análise de
correlação entre o fêmur (osso da perna) e o úmero (osso da parte superior do
braço) do Archaeopteryx, podemos avaliar o tipo e o grau de correlação entre
as variáveis envolvidas em cada caso. Além desses exemplos, apresentaremos
outra situação, em que o coeficiente de correlação pode ser utilizado na área
de gestão e negócios.

Exemplo 1
Ao calcular o coeficiente de correlação para os percentuais de gordura corporal
de homens conforme a idade, chegamos ao resultado apresentado na Figura 11.

Figura 11. Coeficiente de correlação para os percentuais de gordura corporal de homens


conforme a idade.

O diagrama de dispersão evidencia uma tendência linear positiva, o que


significa que existe uma correlação direta. O sinal do coeficiente de correlação
positivo entre a idade e o percentual de gordura corporal dos homens da
amostra reforça a observação feita por meio da inspeção visual gráfica. Além
disso, essa correlação pode ser classificada como de muito forte intensidade,
uma vez que r = 0,9000316. Isso porque, para valores do 0,9 ≤ |r| < 1, tem-se
uma correlação muito forte.
Correlações 13

Exemplo 2
Ao analisar o coeficiente de correlação entre o fêmur (osso da perna) e o úmero
(osso da parte superior do braço) do Archaeopteryx, chegamos ao resultado
apresentando na Figura 12.

Figura 12. Coeficiente de correlação entre o fêmur e o úmero do Archaeopteryx.

Pelo diagrama de dispersão da Figura 12, vemos uma tendência linear


positiva O que significa dizer que existe uma correlação direta. Perceba que o
sinal do coeficiente de correlação é positivo entre fêmur e úmero. Além disso,
essa correlação pode ser classificada como de muito forte intensidade, uma
vez que r = 0,994149 e, para valores do 0,9 ≤ |r| < 1, tem-se uma correlação
muito forte.

Exemplo 3
Considere que o preço de duas ações é registrado no fechamento todas as
sextas-feiras durante oito semanas, como mostra o Quadro 3.
14 Correlações

Quadro 3. Preço das ações

Empresa 1 2 3 4 5 6 7 8

X (AardCo) 41,87 47,87 43,26 37,76 45,86 45,22 46,83 46,49

Y (Zymurgy) 9,11 8,07 11,02 13,24 9,14 12,04 6,96 9,27

Fonte: Adaptado de Doane e Seward (2014, p. 149).

O gráfico de dispersão que representa esses dados pode ser observado


na Figura 13.

Figura 13. Gráfico de dispersão dos preços de duas ações (n = 8).


Fonte: Doane e Seward (2014, p. 149).

Pela Figura 13 podemos observar que os preços dessas duas ações tendem a
caminhar em direções opostas. Para nos certificarmos do que está ocorrendo,
calculamos o coeficiente de variação de Pearson, como mostra a Figura 14.
Correlações 15

Figura 14. Coeficiente de correlação dos preços de duas ações (n = 8).

De fato, observa-se uma relação inversa (negativa) entre os preços das


duas ações. Além disso, pode-se dizer que esta relação é de forte intensidade.
Essa informação auxiliar o analista financeiro a construir um portfólio cujo
valor total seja mais estável, uma vez que ele sabe que os preços dessas ações
tendem a caminhar em direções opostas. A diversificação, investimento em
diferentes tipos de fundos, ajuda a minimizar o impacto que algumas ações
possam ter no portfólio.

Perceba que existe mais de uma maneira de calcular o coeficiente


de correlação, como a ferramenta “Análise de dados” do Excel,
a fórmula “CORREL” do Excel, a fórmula matemática estudada na seção anterior,
entre outras possibilidades.
16 Correlações

Nesta seção, aprofundamos o cálculo do coeficiente de correlação por


meio de problemas aplicados que envolveram a identificação do grau de
correlação a partir do cálculo de r e da construção do diagrama de dispersão.
Os tópicos tratados neste capítulo contribuem significativamente para análises
estatísticas, especialmente no que diz respeito ao grau de correlação entre
duas ou mais variáveis. O uso do Excel como um recurso para a realização dos
cálculos viabiliza uma análise simples e eficiente. Sugere-se a continuidade
dos estudos e consulta às obras referenciadas no capítulo.

Referências
BALDI, B.; MOORE, D. S. A prática da estatística nas ciências da vida. 2. ed. Rio de
Janeiro: LTC, 2014.
BLAIR, R. C.; TAYLOR, R. A. Bioestatística para ciências da saúde. São Paulo: Pearson, 2013.
CALLEGARI-JACQUES, S. M. Bioestatística: princípios e aplicações. Porto Alegre: Artmed,
2003.
DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed.
Porto Alegre: AMGH, 2014.
MARTINEZ, E. Z. Bioestatística para os cursos de graduação da área da saúde. São
Paulo: Blucher, 2015.
RAUPP, C. A. F. Método quantitativo com o uso de software. São Leopoldo: Unisinbos, 2013.
VIEIRA, S. Estatística básica. 2. ed. São Paulo: Cengage, 2018.

Você também pode gostar