Você está na página 1de 46

Análise bivariada de dados

com métodos inferenciais


Preparatório para o teste ANPAD
Professor Paulo R. A. Nacaratti
Análise de Correlação
Análise de Correlação
Será que estão correlacionadas?

Mortalidade infantil e PIB.

Escolaridade e renda per capita.

Saneamento básico e mortalidade infantil.

Preparatório do teste ANPAD 3


Correlação
Existe uma correlação entre duas variáveis
quando uma delas está, de alguma forma,
relacionada com a outra. [1]

Uma correlação é uma relação entre duas


variáveis. Os dados podem ser representados por
pares ordenados (x, y), sendo x a variável
independente (ou explanatória) e y a variável
dependente (ou resposta). [2]

Preparatório do teste ANPAD 4


Correlação

Para facilitar o entendimento, podemos dizer que


a correlação estuda o comportamento conjunto de
duas, ou mais, variáveis sem que se estabeleça
uma ideia de causa e consequência entre elas.

A correlação apenas mede a intensidade e a


direção da associação entre duas variáveis.

Preparatório do teste ANPAD 5


Correlação
A correlação estuda quão consistentemente duas
variáveis mudam em conjunto, mas não faz
julgamento sobre se uma é causa ou
consequência da outra.

Causa ou consequência?
A correlação não julga se o aumento de uma
variável resulta no aumento, ou diminuição, da
outra variável.

Preparatório do teste ANPAD 6


Correlação
Somente experimentos adequadamente
controlados permitem que você determine se uma
relação é causal.

Preparatório do teste ANPAD 7


Diagrama de Dispersão
Visualizar a relação entre duas variáveis.
Observar o comportamento conjunto de duas
variáveis quantitativas.

https://support.minitab.com/pt-br/minitab/18/help-and-how-
to/graphs/how-to/scatterplot/before-you-start/overview/
Preparatório do teste ANPAD 8
Diagrama de Dispersão
Exemplos [1].

Correlação linear Não há correlação


entre x e y. entre x e y.
Correlação não linear
entre x e y.

Preparatório do teste ANPAD 9


Exemplo
Um inspetor de segurança quer determinar se
existe relação entre o número de horas de
treinamento para um funcionário e o número de
acidentes envolvendo este funcionário.

Variável 1: número de horas de treinamento.


Variável 2: número de acidentes.
Ele vai avaliar se existe correlação entre essas
duas variáveis.

Preparatório do teste ANPAD 10


Correlação
Observações:

Vamos estudar a correlação linear, mas é possível


que duas variáveis tenham correlação não linear.

Também é possível estudar a correlação entre


mais de duas variáveis.

Preparatório do teste ANPAD 11


Correlação de Pearson
Coeficiente de correlação linear (r) ou Coeficiente
de Correlação de Pearson.

Mede o grau de relacionamento linear entre os


valores emparelhados x e y em uma amostra.

Preparatório do teste ANPAD 12


Correlação de Pearson
Como r é calculado com base em dados
amostrais, é uma estatística amostral usada para
medir o grau de correlação linear entre x e y. Se
tivéssemos todos os pares de valores (x,y) para a
população calcularíamos um parâmetro
populacional representado pela letra grega ρ (rô).

Preparatório do teste ANPAD 13


Correlação de Pearson
Propriedades do Coeficiente de Correlação r.
1) É um valor entre – 1 e 1: –1 ≤ r ≤ 1.

2) O valor de r não varia se todos os valores de


qualquer uma das variáveis são convertidos para
uma escala diferente (de quilogramas para libras
por exemplo).

Preparatório do teste ANPAD 14


Correlação de Pearson
Propriedades do Coeficiente de Correlação r.
3) O valor de r não é afetado pela escolha de x ou
y. Permutando os valores de x e y, não altera o
valor de r.

4) O coeficiente de correlação r mede a


intensidade, ou grau, de um relacionamento linear.
Não serve para medir a intensidade de um
relacionamento não linear.

Preparatório do teste ANPAD 15


Tipos de Correlação
Correlação Positiva: Nesse caso temos r > 0 ou
 > 0. Indica que y tende a crescer com o
crescimento de x (variam no mesmo sentido).

Correlação Negativa: Nesse caso temos r < 0 ou


 < 0. Indica que y tende a decrescer com valores
crescentes de x (variam em sentidos contrários).

Preparatório do teste ANPAD 16


Tipos de Correlação
Se r = 0 ou  = 0, as variáveis não estão
correlacionadas linearmente.

Se as variáveis não estão correlacionadas, nada


se pode afirmar sobre o comportamento
conjunto dessas variáveis.

Preparatório do teste ANPAD 17


Tipos de Correlação
Importante:

Lembre-se que a correlação mede o grau de


relacionamento entre duas variáveis, porém, não
indica se uma é causa ou consequência da outra.

A correlação indica uma tendência.

Preparatório do teste ANPAD 18


Tipos de Correlação

Correlação positiva: há uma tendência em se


obter maiores valores de y à medida que x
aumenta.

“Para facilitar”, podemos dizer que na população


encontraremos os maiores valores de y “juntos”
com os maiores valores de x.

Preparatório do teste ANPAD 19


Correlação e Diagramas
de Dispersão
Correlação positiva[2].

Preparatório do teste ANPAD 20


Tipos de Correlação

Correlação negativa: há uma tendência em se


obter menores valores de y à medida que x
aumenta.

“Para facilitar”, podemos dizer que na população


encontraremos os menores valores de y “juntos”
com os maiores valores de x.

Preparatório do teste ANPAD 21


Correlação e Diagramas
de Dispersão
Correlação negativa[2].

Preparatório do teste ANPAD 22


Coeficiente de correlação
de Pearson (r)
Correlação Correlação
Não existe Correlação
perfeita negativa perfeita positiva

-1 0 1
Coeficiente de correlação
de Pearson (r)
Correlação Correlação
Não existe Correlação
perfeita negativa perfeita positiva

-1 - 0,75 - 0,50 - 0,25 0 0,25 0,50 0,75 1

Moderada
Pequena

Pequena

Fraca

Forte
Moderada
Forte

Fraca
Teste de correlação
(Pearson)
Condições:

1. Dados com nível intervalar ou de razão de


mensuração.
2. Amostras com distribuição normal.

Preparatório do teste ANPAD 25


Teste de correlação
(Pearson)
Hipóteses (teste bilateral):
H0:  = 0 (Não há correlação linear significativa.)
H1:  ≠ 0 (Correlação linear significativa.)

H0: r = 0 (Não há correlação linear significativa.)


H1: r ≠ 0 (Correlação linear significativa.)

Preparatório do teste ANPAD 26


Teste de correlação
(Pearson)
Hipóteses (teste unilateral à esquerda):
H0:  ≥ 0.
H1:  < 0 (Correlação negativa significativa).

Hipóteses (teste unilateral à direita):


H0:  ≤ 0.
H1:  > 0 (Correlação positiva significativa).

Preparatório do teste ANPAD 27


Exemplo
Um economista quer determinar se existe relação
linear entre o produto interno bruto (PIB) de países
e as respectivas emissões de dióxido de carbono
(CO2).
(Fonte: World Bank e U.S. Energy Information
Administration.)

Preparatório do teste ANPAD 28


Exemplo
Hipóteses:

H0: Não existe correlação entre as variáveis.


H1: Existe correlação entre as emissões de dióxido
de carbono (CO2) e o produto interno bruto (PIB)
de países.

α = 0,05 (5%).

Preparatório do teste ANPAD 29


Exemplo
Diagrama de dispersão.

Correlação positiva?
Preparatório do teste ANPAD 30
Exemplo
Coeficiente de correlação (r) = 0,912.
Valor p < 0,001.

Como p < 0,05, rejeita-se H0, existem evidências


suficientes para afirmar que existe correlação
entre as emissões de dióxido de carbono (CO2) e
o produto interno bruto (PIB) de países.

Preparatório do teste ANPAD 31


Exemplo
Correlação linear positiva (r > 0).

Há uma tendência em se obter maiores valores de


emissões de dióxido de carbono (CO2) à medida
que o PIB aumenta.

A correlação é significativa e forte (r = 0,912).

Preparatório do teste ANPAD 32


Observações
O coeficiente de correlação de Pearson é muito
sensível a valores extremos de dados. Um valor
único que é muito diferente dos outros valores de
um conjunto de dados pode alterar
significativamente o valor do coeficiente.

Um coeficiente de correlação de Pearson baixo


não significa que não existe nenhuma relação
entre as variáveis. As variáveis podem ter uma
relação não linear.

Preparatório do teste ANPAD 33


Covariância
Mede a relação linear entre duas variáveis.
É semelhante à correlação entre duas variáveis.
Coeficientes de Correlação Valores de Covariância
São padronizados. Não são padronizados.
Em um relacionamento linear O valor da relação linear ideal
perfeito o coeficiente de correlação depende dos dados.
é igual a 1.
Mede a força e a direção da relação Como os dados não são
linear entre duas variáveis. padronizados, é difícil determinar a
força da relação entre as variáveis.

Preparatório do teste ANPAD 34


Covariância
O coeficiente de correlação é uma função da
covariância.
𝐶𝑜𝑣 𝑋, 𝑌
𝜌𝑋,𝑌 =
𝜎𝑋 𝜎𝑌

Onde 𝜌𝑋,𝑌 é o coeficiente de correlação entre as


variáveis X e Y, Cov(X,Y) é a covariância, 𝜎𝑋 é o
desvio padrão de X e 𝜎𝑌 é o desvio padrão de Y.

Preparatório do teste ANPAD 35


Covariância

Uma covariância positiva sempre resulta em uma


correlação positiva e uma covariância negativa
sempre resulta em uma correlação negativa.

Preparatório do teste ANPAD 36


Correlação de Spearman
Também conhecida como Correlação por postos,
é a correspondente não paramétrica da correlação
de Pearson.

Deve ser usada nos casos em que as variáveis


são ordinais ou quando nenhuma das variáveis
em análise tem distribuição normal.

Preparatório do teste ANPAD 37


Correlação de Spearman
Pode ser usado em um variedade mais ampla de
circunstâncias do que a Correlação de Pearson.

Pode ser usada para detectar algumas relações


que não são lineares.

Tem taxa de eficiência menor que a abordagem


paramétrica.

Preparatório do teste ANPAD 38


Teste de Correlação
de Spearman
Hipóteses:
H0: rs = 0 (Não há correlação significativa).
H1: rs ≠ 0 (Correlação significativa).

rs - Coeficiente de correlação por postos de


Spearman.

Preparatório do teste ANPAD 39


Exemplo
Suponha que uma das amostras do exemplo visto
não tenha distribuição normal. Devemos usar a
Correlação de Spearman.

Hipóteses:
H0: Não existe correlação entre as variáveis.
H1: Existe correlação entre as emissões de dióxido
de carbono (CO2) e o produto interno bruto (PIB)
de países.
α = 0,05 (5%).

Preparatório do teste ANPAD 40


Exemplo
Coeficiente de Spearman: rs = 0,673 (moderada).

Valor p = 0,033.

Como p < 0,05, rejeita-se H0, existem evidências


suficientes para afirmar que existe correlação
entre as emissões de dióxido de carbono (CO2) e
o produto interno bruto (PIB) de países.

Preparatório do teste ANPAD 41


Outro exemplo
Dez estudantes prepararam-se para um teste; a
tabela a seguir mostra o número de horas de
estudo (x) e o correspondente número de
respostas corretas (y). [1]

x 5 9 17 1 2 21 3 29 7 100
y 6 16 18 1 3 21 7 20 15 22

Preparatório do teste ANPAD 42


Outro exemplo
Testes de correlação com significância de 0,05.

Hipóteses:
H0: Não existe correlação entre o número de
respostas corretas e as horas de estudo.

H1: Existe correlação entre o número de respostas


corretas e as horas de estudo.

Preparatório do teste ANPAD 43


Outro exemplo
Correlação de Pearson:
Valor-p = 0,051 e r = 0,629.
Como p > 0,05, não se rejeita H0.
Conclusão: sem evidência de correlação.

Correlação de Spearman:
Valor-p < 0,001 e r = 0,976.
Como p < 0,05, rejeita-se H0, encontramos
evidências de que existe correlação.

Preparatório do teste ANPAD 44


Outro exemplo
Gráfico de Dispersão.
Correlação não linear.

Preparatório do teste ANPAD 45


Referências
[1] TRIOLA, M. Introdução à Estatística. 12. ed.,
Rio de Janeiro: LTC, 2017.
[2] LARSON, R., FARBER, B. Estatística Aplicada.
São Paulo: Pearson Education do Brasil, 2015.
[3] BUSSAB, W. O.; MORETTIN, P. A. Estatística
básica. 6. ed. São Paulo: Atual/Saraiva, 2009.

Preparatório do teste ANPAD 46

Você também pode gostar