Você está na página 1de 30

CURSO DE ANÁLISE DE DADOS EM R

Aula 5 – Correlação

Maio/2018
Análise de dados em R

Relações entre variáveis

Duas variáveis podem se relacionar, essencialmente,


de duas formas:

• Relação funcional; ou

• Relação estatísica/estocástica

2 UFC
Análise de dados em R

Relação funcional

Uma relação é dita funcional quando a relação entre


as duas variáveis tem seu comportamento exato
descrito por uma função matemática.

Sendo X uma variável independente e Y uma variável


dependente, a relação funcional dessas variáveis pode
ser descrita por:
Y = f(X)

3 UFC
Análise de dados em R

Relação funcional

Imagine que existe uma loja que vende apenas um


tipo de produto por um preço fixo de R$ 5,00 por
unidade. Podemos definir a receita (Y) da loja a partir
do número de unidades vendidas desse produto (X).
Y = 5X

Unidades vendidas (X) Receita (Y)


20 100
40 200
60 300
120 600

4 UFC
Análise de dados em R

Relação funcional

5 UFC
Análise de dados em R

Relação funcional
600
Receita (Y)

400
200
0

0 50 100 150

Unidades vendidas (X)

6 UFC
Análise de dados em R

Relação estatística ou estocástica

Uma relação estatística (ou estocástica), diferente da relação


funcional, não é perfeita.
Dado o contexo entre duas variáveis, muitas vezes é possível
inferir o tipo de relação que elas possuem (positiva, negativa
ou independente).
Apesar disso, nenhuma linha que possa ser utilizada para
descrever a relação entre as duas variáveis, irá contemplar
todos os pontos desta relação.
Uma das formas mais comuns de representar a relação
estatística entre duas variáveis é por meio do gráfico de
dispersão

7 UFC
Análise de dados em R

Relação estatística ou estocástica

Independência
Relação positiva Relação negativa
(Sem relação)

8 UFC
Análise de dados em R

Relação estatística ou estocástica

Como as variáveis “Taxa de


Fertilidade” e “Taxa de
Alfabetização” se relacionam?

9 UFC
Análise de dados em R

Relação estatística ou estocástica

10 UFC
Análise de dados em R

Relação estatística ou estocástica


5
Fertilidade

4
3
2

60 70 80 90

Alfabetização

11 UFC
Análise de dados em R

Relação estatística ou estocástica

É possível incluir no gráfico de dispersão uma reta vertical para


representar a média da taxa de alfabetização e uma reta
horizontal para representar a média da taxa de fertilidade.

12 UFC
Análise de dados em R

Relação estatística ou estocástica


5
Fertilidade

4
3
2

60 70 80 90

Alfabetização

13 UFC
Análise de dados em R

Relação estatística ou estocástica

Essas retas definem quatro quadrantes no gráfico de dispersão.

Podemos ainda calcular o desvio de cada observação em


relação as variáveis x e y.
• 𝑥 − 𝑥 desvio das observações em relação a variável x
• (𝑦 − 𝑦) desvio das observações em relação a variável y
Com base nessas informações, podemos calcular o produto
desses desvios e relacioná-los com os quadrantes formados.
• 𝑥 − 𝑥 × (𝑦 − 𝑦) produto dos desvios

14 UFC
Análise de dados em R

Relação estatística ou estocástica


10

𝑥−𝑥 <0𝑒 𝑦−𝑦 >0→ 𝑥−𝑥 𝑒 𝑦−𝑦 >0→


(𝑥 − 𝑥 ) × 𝑦 − 𝑦 > 0 (𝑥 − 𝑥 ) × 𝑦 − 𝑦 > 0
8

– +
6

𝑥−𝑥 >0𝑒 𝑦−𝑦 <0→


𝑥−𝑥 𝑒 𝑦−𝑦 <0→
4

(𝑥 − 𝑥 ) × 𝑦 − 𝑦 > 0
(𝑥 − 𝑥 ) × 𝑦 − 𝑦 > 0

+ –
2

2 4 6 8 10

15 UFC
Análise de dados em R

Covariância

Definimos como Covariância de x e y como sendo

𝑛
𝑖=1(𝑥 − 𝑥)(𝑦 − 𝑦)
𝐶𝑜𝑣 𝑋, 𝑌 =
𝑛−1

Indica a direção da relação entre as duas variáveis x e y. Desta


forma, quando Cov(X, Y) > 0, conclui-se que há uma relação
positiva. Se Cov(X, Y) < 0, conclui-se que há uma relação
negativa. Caso Cov(X, Y) = 0, não há relação entre as variáveis.

16 UFC
Análise de dados em R

Covariância

17 UFC
Análise de dados em R

Correlação

A covariância no entanto, não é uma boa medida para revelar


a intensidade da relação entre x e y, pois dependen das
unidades em que as variáveis estão expressas.
Para contornar esse problema, podemos recorrer à
padronização das variáveis, de modo semelhante à
padronização da distribuição normal, isto é, subtraímos cada
valor da sua média e dividimos pelo desvio padrão:
𝑥𝑖 − 𝑥
𝑍𝑖 =
𝑠𝑥

18 UFC
Análise de dados em R

Correlação de Pearson

Quando a covariância é calculada com as variáveis


padronizadas, ela recebe o nome de coeficiente de correlação
de Pearson. Esse coeficiente pode ser obtido por meio da
fórmula
𝐶𝑜𝑣 𝑋, 𝑌
𝐶𝑜𝑟 𝑋, 𝑌 = 𝑟𝑥𝑦 =
𝑠𝑥 𝑠𝑦
• O coeficiente de correlação varia entre -1 e 1.
• Quanto mais próximo de 1, mais positivamente correlacionadas estão as
variáveis
• Quanto mais próximo de -1, mais negativamente correlacionadas estão
as variáveis
• Quanto mais próximo de 0, menor é a relação de dependência entre
duas variáveis

19 UFC
Análise de dados em R

Correlação de Pearson

20 UFC
Análise de dados em R

Correlação de Pearson

No R, podemos calcular a correlação para mais de duas variáveis. Para isso, basta
informar as colunas do banco de dados que devem ser usadas.

21 UFC
Análise de dados em R

Correlação de Pearson

22 UFC
Análise de dados em R

Correlação de Pearson

23 UFC
Análise de dados em R

Teste de Significância para a Correlação de Pearson

Além de calcular o coeficiente de correlação de


Pearson, deve-se testar se o valor obtido é
estatisticamente diferente de zero.

𝐻0 : 𝑟 = 0

𝐻1 : 𝑟 ≠ 0 Estatística de teste:

𝑛−2
𝑡=𝑟
1 − 𝑟2
Em que r é o coeficiente de correlação e n
o tamanho amostral.
Distribuição utilizada: t de Student
24 UFC
Análise de dados em R

Teste de Significância para a Correlação de Pearson

25 UFC
Análise de dados em R

Coeficientes de Correlação não-paramétricos

Como o coeficiente de correlação de Pearson baseia-se na


média e no desvio padrão da amostra utilizada, também está
sujeito a imprecisões, caso a hipótese de normalidade não seja
observada.

Para contornar esse problema, assim como nos testes de


hipótese, existem versões não-paramétricas para calcular a
correlação entre duas variáveis, sendo o rho de Spearman e o
tau de Kendall, os dois métodos mais populares.

26 UFC
Análise de dados em R

Coeficientes de Correlação não-paramétricos

Ambos os coeficientes são calculados a partir dos postos das


observações das duas variáveis.

Na correlação de Spearman, aplica-se a fórmula de Pearson às


variáveis ranqueadas.

No R, basta acrescentar o argumento method=“spearman”

27 UFC
Análise de dados em R

Coeficientes de Correlação não-paramétricos

Ambos os coeficientes são calculados a partir dos postos das


observações das duas variáveis.

Na correlação de Kendall, após o ranqueamento das variáveis,


observa-se os pares concordantes e discordantes

No R, basta acrescentar o argumento method=“kendall


𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑎𝑟𝑒𝑠 𝑐𝑜𝑛𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒𝑠 − 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑎𝑟𝑒𝑠 𝑑𝑖𝑠𝑐𝑜𝑟𝑑𝑎𝑛𝑡𝑒𝑠
𝑟=
𝑛 𝑛−1
2

28 UFC
Análise de dados em R

Teste de Significância para as correlações não-paramétricos

Assim como na correlação, para executar o teste para o


coeficiente de correlação de Spearman, basta acrescentar o
argumento method=“spearman” ao comando cor.test(). As
hipóteses permanecem as mesmas do teste anterior.

29 UFC
Análise de dados em R

Teste de Significância para as correlações não-paramétricos

Assim como na correlação, para executar o teste para o


coeficiente de correlação de Kendall, basta acrescentar o
argumento method=“kendall” ao comando cor.test(). As
hipóteses permanecem as mesmas do teste anterior.

30 UFC

Você também pode gostar