Você está na página 1de 26

Correlação e regressão

Prof. Me. Osmar


Estatística para tomada de decisões
• Até o momento usamos a estatística para conclusões sobre uma variável
de cada vez, entretanto, há o interesse em estudar a relação entre duas
variáveis.

• Suponha que um inspetor de segurança queira determinar se existe uma


relação entre o número de horas de treinamento para um funcionário e o
número de acidentes envolvendo este mesmo funcionário.

• Isso implica em identificar que relação ou correlação existe entre essas


duas variáveis quantitativas e se as mesmas são relevantes.
Correlação
• É uma relação entre duas variáveis. Os dados podem ser representados
por pares ordenados (x e y), onde x é a variável independente e y é a
variável dependente.

• O gráfico que representa os pares ordenados (x e y) é o gráfico de


dispersão.

• A correção é o número que quantifica o grau de relação linear obtido para


os pares de valores de duas variáveis (x e y) que formam a amostra
analisada. Essa relação é representada por um coeficiente denominado “r
de Pearson”.
Construindo um diagrama de dispersão
• Um gerente de marketing conduziu um estudo para determinar se há uma
relação entre o dinheiro gasto com propaganda e as vendas da empresa.
Os dados são mostrados a seguir:

• Gastos com propaganda (x) = 2,4; 1,6; 2,0; 2,6; 1,4; 1,6; 2,0; 2,2.
• Vendas da empresa (y) = 225; 184; 220; 240; 180; 184; 186; 215.

• Coloque os dados em um diagrama de dispersão e determine se parece


haver uma correlação linear positiva, negativa ou se não há correlação
entre as variáveis.
Exercício
• Um estudante de enfermagem conduz um estudo para determinar se há
uma relação linear entre os pesos dos indivíduos e o consumo diário de
água. Os dados são os seguintes:

• Peso (x) = 142; 201; 119; 102; 141; 124; 220; 154.
• Água (y) = 54; 86; 32; 50; 64; 82; 39; 21.

• Organize os dados e descreva o diagrama de dispersão.


Coeficiente de correlação
• Interpretar a correlação usando um diagrama de dispersão pode ser
subjetivo. Uma maneira mais precisa de medir o tipo e a força de uma
correlação linear entre duas variáveis é calculando o coeficiente de
correlação.
Coeficiente de correlação
• O coeficiente “r” identifica o grau de ajuste de uma reta ao conjunto
dos pontos da amostra.
• Quando r = 0, não foi identificada relação numérica linear para os
pares de valores de amostra analisada.

• Quando r estiver próximo de +1, mais próximos estarão os pontos de


ajuste integral a uma reta crescente

• Quando r estiver próximo de -1, mais próximos estarão os pontos de


ajuste integral a uma reta decrescente
Coeficiente de correlação
• A correlação pode ser positiva, negativa ou nula.

• Positiva Quando x aumenta, y aumenta

• Negativa Quando x diminui, y diminui

• Nula = Quando não há relação entre x e y.


Exercício coeficiente de correlação
• Calcule o coeficiente de correlação para o nível de renda e a porcentagem
de doações conforme os dados abaixo:

• Renda (x) = 50; 65; 48; 42; 59; 72.

• Porcentagem de doação (y) = 8; 6; 10; 9; 5; 3.


Regressão
• Após verificar se a correlação linear entre duas variáveis é significante, o
próximo passo é determinar a equação da linha que melhor modela os
dados, chamada de linha de regressão.

• A regressão, identifica a relação linear de uma ou mais variáveis


independentes afetando a variável dependente.

• Uma linha de regressão é a linha para qual a soma dos quadrados dos
resíduos é um mínimo. A equação tem as seguintes fórmulas:
Regressão linear
• A regressão linear fornece uma função matemática que descreve a
relação entre duas ou mais variáveis. Tal equação pode ser usada para
estimar valores futuros de uma variável com base em valores conhecidos
de uma ou mais variáveis relacionadas.

• Y = a + b.x + e , onde y = variável dependente (explicada), x = variável


independente (explicativa), a = ordenada do intercepto da reta no eixo y, b
= coeficiente angular da reta de regressão.

• Para obter o valor das duas constantes a e b, usa-se o método estatístico


dos mínimos quadrados, determinando assim a reta estimada ou equação
de regressão.
Regressão linear
• Regressão linear simples – identificar o melhor relacionamento linear
entre uma variável dependente (y) e uma variável independente (x).
Exemplo: vendas e gastos com publicidade.

• Regressão linear múltipla - – identificar o melhor relacionamento


linear entre uma variável dependente (y) e duas ou mais variáveis
independentes (x).
Regressão linear
• Para obter o valor das duas constantes a e b, usa-se o método estatístico
dos mínimos quadrados, determinando assim a reta estimada ou equação
de regressão.

• Exemplo: Usar o métodos dos mínimos quadrados para identificar a


relação entre os gastos com publicidade e vendas durante alguns anos,
sendo vendas a variável y (dependente) e gastos com publicidade a
variável x (independente).
Regressão linear simples

Gastos com publicidade (x) Vendas (y)

3 7

4 14

8 15

12 28

14 32
Coeficiente de determinação R2
• Por meio do R2, identifica-se a relação entre a variável explicada pelo
modelo e a variação total. Quanto maior o valor de R2, maior o
percentual de variação explicada em relação à variação total.

• R2 = variação explicada/variação total. Os valores variam de 0 a 1.


Quando o R2 é 1, todos os dados da amostra estão exatamente sobre
a reta de regressão. Quando é igual a 0, não há relação linear numérica
entre as variáveis.

• Suponha o R2 = 0,83, então cerca de 83,4% de variação na variável


vendas pode ser explicada pela variável gastos com propaganda.
Modelos não lineares

• A maioria dos modelos são lineares, entretanto, se o modelo for não linear
(os pontos não ocorrerem sob a forma de uma reta)...

• ... pode-se usar o logaritmo com base decimal ou neperiano para


converter uma equação para a forma de uma reta, ou seja, transformar a
equação em linear.
Premissas da Regressão
• Cuidados necessários na análise de regressão:

Multicolinearidade = podem conduzir a conclusões erradas, caso as


variáveis exógenas (independentes) apresentem altas correlações
cruzadas, pois o R2 pode ser alto e os coeficientes não estatisticamente
significantes. Teste VIF

Cointegração = quando as variáveis estão relacionadas com valores


anteriores, com tendência ao longo do tempo, associações espúrias
podem levar a altos valores de R2.
Premissas da Regressão
• Cuidados necessários na análise de regressão:

Heterocedasticidade = os modelos de regressão exigem que as


variâncias dos resíduos seja constantes ou homocedásticas. Quando as
variâncias não são uniformes, existe a heterocedasticidade. Teste
Bresch Pagan

Intervalo/razão = se a variável dependente for nominal, devem ser


usados modelos probit ou logit. Para variáveis independentes não
numéricas (não intervalares ou razão) usa-se variáveis binárias
(dummy)
Premissas da Regressão
• Cuidados necessários na análise de regressão:

Autocorrelação = os resíduos das regressões devem estar dispersos


aleatoriamente ao longo da regressão. A existência de padrões nos
resíduos indica a existência de autocorrelação - que pode ser
ocasionada um função da imposição de um linear a uma relação não
linear ou da omissão de variáveis relevantes. Teste Durbin- Watson.
Premissas da Regressão
• Cuidados necessários na análise de regressão:

Linearidade = as relações precisam ser linearizadas para a aplicação


dos mínimos quadrados. Aplicações de logaritmos, podem permitir a
linearização das relações.

Defasagens = os efeitos das variáveis independentes podem ter


múltiplos períodos. A depender das variáveis, o pesquisador pode
construir modelos defasados e testar sua propriedade.
Usando a tecnologia

• Pesquisa e apresentação dos alunos:

• Demonstra o uso do cálculo da correlação e da regressão por meio da


tecnologia (excel).
E-VIEWS

• Estrutura dos dados:

Dated-regular-frequency – para dados em séries temporais

Unstructured / Undated – para dados em cross-section

Balanced panel – para dados em painel

Você também pode gostar