Você está na página 1de 20

MÉTODOS DE PREVISÃO

2022/2023

Correlação Linear
Correlação e Regressão

ANÁLISE DE CORRELAÇÃO Instrumento estatístico


frequentemente utilizado para medir
o grau de associação entre duas
Resultado: Valor
variáveis e para tirar conclusões
numérico que mede o
grau de sobre a forma de relação entre
relacionamento fenómenos. (Relação em dois
sentidos)

Permite a estimação (previsão) dos ANÁLISE DE REGRESSÃO


valores de uma variável – VARIÁVEL
DEPENDENTE – a partir do conhecimento
dos valores de outra – VARIÁVEL
INDEPENDENTE Resultado: Equação
Variáveis
Variáveis independentes ou exógenas ou explicativas

Por Exemplo:
Rendimento das famílias…..
Idade do imóvel …
Área do imóvel …
Tempo…

Variáveis dependentes ou endógenas ou explicadas

Por Exemplo:
Vendas…
Valor de um imóvel...
Lucro…
Entre outras…
Regressão
Relação entre duas variáveis, uma dependente e outra independente →
REGRESSÃO LINEAR SIMPLES

𝑌 = 𝛼 + β𝑋
Y – Variável dependente, ou explicada
X - Variável independente, ou explicativa
 - valor da ordenada na origem
β - declive da reta
A regressão linear simples constitui uma
tentativa de estabelecer uma Nota: Quando se estima o valor da variável
equação matemática linear (linha reta) dependente com base em duas ou mais
que descreva o relacionamento entre variáveis independentes
duas variáveis. → REGRESSÃO LINEAR MÚLTIPLA
Equação Linear
A reta intersecta o eixo dos yy no ponto y= , e representa o valor de y
quando x é nulo.

β representa o
declive da recta e
𝑌 = 𝛼 + β𝑋 indica a variação de
Y por unidade de
variação de X.

𝑌=𝛼 β (𝑑𝑒𝑐𝑙𝑖𝑣𝑒)

X – Variável independente
𝑋=0
Y – Variável dependente
Diagrama de Dispersão
Importante ter presente que nem todas as
situações podem ser representadas por uma
equação linear!
É comum iniciar-se a análise da correlação entre
duas variáveis, efetuando uma representação
gráfica.

DIAGRAMA DE
DISPERSÃO

Gráfico, onde cada ponto representa um par de


valores de (𝑥𝑖 , 𝑦𝑖) , correspondentes aos valores das
variáveis independente X e dependente Y.
Exemplo
Um determinado vendedor de uma marca portuguesa de chocolates está interessado na
relação entre a percentagem de cacau presente num chocolate e o seu respetivo preço.

Assim, recolheu informação sobre 12 marcas, tendo em conta a referência de 100 gr de


cada chocolate.
% de cacau Preço
O vendedor (por 100 gr) (€ por 100 gr)

pretende 10
20
0,41
0,65
estudar o preço 30 0,47
em função da 35 1,17

percentagem 40
50
0,7
1,05
de cacau. 60 1,28
70 1,52
32 0,88
51 1,26
63 1,41

Exercício: Construir o
14 0,85

Diagrama de Dispersão!
Exemplo
% de cacau Preço
(por 100 gr) (€ por 100 gr)

10 0,41
20 0,65

30 0,47

35 1,17

40 0,7

50 1,05

60 1,28

70 1,52

32 0,88

51 1,26

63 1,41

14 0,85
Exemplo
É fácil imaginar o ajustamento
de uma reta à nuvem de
pontos obtida. Assim,
concluímos pela adequação
de uma análise de regressão.

O preço parece ser maior


quando a % de cacau no
chocolate é maior.

Para estes dados, a relação entre a % de cacau e o preço do


chocolate parece ser aproximada por uma linha reta.

Modelo de Regressão Linear Simples


Tipos de Correlação

SIMPLES – Quando se analisa o grau de associação entre 2 variáveis

MÚLTIPLA – Quando a relação envolve pelo menos 3 variáveis (uma


dependente e pelo menos 2 independentes)

Linear – quando os pontos (𝑥, 𝑦) do diagrama de dispersão


se parecem concentrar em torno de uma linha reta

Não-Linear – quando essa concentração se parece fazer


em torno de uma outra linha qualquer
Tipos de Correlação Linear
Correlação POSITIVA – as variáveis tendem a
comportar-se de forma semelhante – aos aumentos
ou diminuições de uma variável, correspondem
variações de sinal idêntico na outra variável – isto é,
variam no mesmo sentido.
Declive
positivo

Correlação NEGATIVA – as variáveis


tendem a evoluir em sentido contrário; quando
Declive
Negativo
uma aumenta a outra diminui, e vice-versa – as
variações são de sinal contrário
Tipos de Correlação Linear

Ausência de Correlação Linear

Quando as variáveis não


apresentam qualquer relação no
seu comportamento….
Coeficiente de Correlação Linear
Apesar do diagrama de dispersão ser um indicador da intensidade da correlação,
não fornece, no entanto, uma medida exata do grau de associação linear que
existe entre as variáveis.

Coeficiente de Correlação Linear


também designado por
Coeficiente r de Pearson

Quando a correlação é medida a partir


de uma amostra para cada uma das 𝑟
variáveis
Se se considerarem todos os valores
(população) que as variáveis X e Y 𝜌
podem assumir
Coeficiente de Correlação Linear
𝑛 σ 𝑥𝑦 − σ 𝑥 ∙ σ 𝑦
𝑟=
𝑛 σ 𝑥2 − σ 𝑥 2 ∙ 𝑛 σ 𝑦2 − σ 𝑦 2

Valor do
Significado
coeficiente
𝑟 = −1 A correlação linear é negativa e perfeita.
A correlação linear é negativa (forte: ≤-0,8; moderada: entre
−1 < 𝑟 < 0
-0,8 e -0,5; fraca:>-0,5).
A correlação linear é nula, não havendo relação linear entre
𝑟=0
as variáveis.
A correlação linear é positiva (forte: ≥0,8; moderada: entre
0<𝑟< 1
0,5 e 0,8; fraca: <0,5).
𝑟 = +1 A correlação linear é positiva e perfeita.
Coeficiente de Correlação Linear

Nota: A análise de correlação deve sempre começar pela


representação gráfica das variáveis num diagrama de
dispersão! (para determinar o tipo de relação que existe
entre as variáveis)

Este passo é fundamental, pois a existir uma relação não linear, a


fórmula anterior não se adequa.

Exercício: Calcular o Coeficiente de


Correlação Linear para o Exemplo da aula!
Exemplo
Um determinado vendedor de uma marca portuguesa de chocolates está interessado na
relação entre a percentagem de cacau presente num chocolate (X) e o seu respetivo preço
(Y). Assim, recolheu informação sobre 12 marcas, tendo em conta a referência de 100 gr de
cada chocolate.

Existe uma correlação linear positiva forte (𝑟 > 0.80) entre a


% de cacau e o preço de 100gr de chocolate, i.e., à
medida que a % de cacau aumenta, aumenta também
em média o preço do chocolate.
Teste ao ρ
Os pontos da amostra lembram uma reta, mas será que se passa
o mesmo com os pontos da População?

Objetivo:

Testar se o valor do coeficiente de correlação


é estatisticamente significativo, para se poder
generalizar a relação entre as variáveis X e Y
à população de onde a amostra foi recolhida.
Teste ao ρ
Formulação das Hipóteses 𝜌<0
𝐻0 : 𝜌 = 0 𝑣𝑠 𝐻1 : 𝜌 ≠ 0
𝜌>0
Estatística do Teste
𝑛 < 30 𝑟 𝑛 ≥ 30
𝑟
𝑇= → 𝑡𝑛−2 𝑍= → 𝑁(0; 1)
1 − 𝑟2 1 − 𝑟2
𝑛−2 𝑛−2

Exercício: Supondo um nível de significância de 5%,


podemos concluir que o coeficiente de correlação, ,
correspondente à população é significativo? Ou seja, a
correlação é significativamente positiva? (exemplo da
aula)
Exemplo
𝑟 = 0.858
TH ao ρ para 𝛼 = 0,05: 𝑛 = 12

Hipóteses: 𝐻0 : 𝜌 = 0 vs 𝐻1 : 𝜌 > 0 (teste unilateral direito)


𝑟
Estatística teste: 𝑛 = 12 < 30 𝑇= → 𝑡10
1−𝑟2
𝑛−2
Região crítica: RA RC

0,95 0,05

𝒕𝒄𝒓𝒊𝒕𝒊𝒄𝒐 =1,812

0,858
Valor observado da estatística teste: 𝑡𝑜𝑏𝑠 = = 5,282 pertence à RC (5,282 > 1,812)
1−0,8582
12−2

Rejeita-se a hipótese nula, há evidências a favor da hipótese alternativa ao nível de


significância de 5%. I.e., há evidências do coeficiente de correlação linear da população ser
significativamente positivo.
Falsas Correlações
À medida que as vendas de gelados aumentam, a taxa de
mortes por afogamento também aumentam drasticamente!
Por conseguinte, o consumo de gelados provoca afogamento!

Este exemplo não reconhece a importância da temperatura em relação às vendas de gelados. O


valor das vendas de gelados é maior nos meses quentes de verão do que nos meses mais frios, e é
no Verão que as pessoas participam mais em atividades aquáticas.
O aumento do número de mortes por afogamento é causado por maior exposição a atividades
aquáticas e não ao consumo de gelados. A conclusão apresentada é falsa.

Correlação não implica causalidade


A existência de uma correlação entre duas
variáveis não implica necessariamente que uma http://tylervigen.com/
causa a outra!

Você também pode gostar