Você está na página 1de 13

REGRESSÃO LINEAR

SIMPLES E
MÚLTIPLA
RESUMÃO DA AULA 04
Nesse resumo da Aula 5, vamos abordar o tema da regressão linear simples e

múltipla.

O que é uma regressão linear?

Técnica de análise de dados que explica o quanto uma ou mais variáveis

preditoras (VIs) explicam um desfecho (VD) .

Existem dois tipos de regressões lineares

Regressão linear simples: Uma variável dependente e uma variável

independente

Regressão linear múltipla: Uma variável dependente e várias variáveis

independentes .

Diferentemente da correlação, a regressão tem uma direcionalidade. Veja as

imagens abaixo:
COMO SE CALCULA A REGRESSÃO?

Vamos apresentar, rapidamente, o cálculo da regressão. Começaremos pela


regressão linear simples.

Vestir em propaganda, espera-se que as vendas saiam dessa quantidade inicial e


cresçam.

A fórmula da regressão é:

Y = B0 + BxX + E

Onde:
Y = variável dependente.
B0 = intercepto (constante).
Bx = o grau sobre o quanto X impacta Y
X = variável independente
E = erro aleatório.

Um empresário quer saber o quanto o investimento em propagandas aumentou


as suas vendas ao longo do mês.
Y = o desfecho (vendas)
B0 = intercepto (constante) - o escore no desfecho quando o preditor tem valor
= 0 (quando ele não investia em propaganda, qual era o valor de y (vendas)
X = o nível do preditor (o quanto foi investido em propaganda)
Bx = o grau sobre o quanto o investimento em propaganda (X) impacta nas
vendas (Y)
E = a porção de variância não explicada pela variável independente (o quanto a
propaganda não foi útil para aumentar a venda).
Uma das grandes dificuldades em interpretar a regressão é o conceito de
intercepto.

Intercepto nada mais é do quanto já existia da variável Y, antes de X entrar no


modelo. Ou seja, antes do empresário investir em propaganda, ele já vendia uma
certa quantidade, certo? Essa quantidade que ele já vendia é justamente o ponto
inicial do modelo (intercepto).

Quando ele passa a investir em propaganda, espera-se que as vendas saiam dessa
quantidade inicial e cresçam.

Veja a imagem a baixo:

A regressão irá traçar a linha que explica a influência da variável preditora no


desfecho. As variações se dão por razões externas que explicam a venda (para
além da propaganda). Devido às influências externas, nenhum modelo é perfeito
(livre de erro), e por isso nenhum preditor é capaz de prever 100% o desfecho.
Veja algumas das principais informações que a regressão traz:

Sabemos o quanto Y (desfecho) aumenta para cada valor de X (variável preditora).

Para cada um real investido em propaganda, as vendas aumentaram xR$


Essa informação é o B
Sabemos o quanto (em %) Y aumenta quando da presença da variável X;

No total, o investimento em propaganda aumentou as vendas em X%


Essa informação é o R2 = poder explicativo do modelo.

Como toda e qualquer análise estatística, a regressão linear simples apresenta


alguns pressupostos:
Principais pressupostos
Linearidade
Variância não nula
Homocedasticidade dos resíduos
Independência dos resíduos
Distribuição normal dos resíduos.

REGRESSÃO LINEAR MÚLTIPLA A

Regressão Linear Múltipla é equivalente à regressão linear simples, com a


diferença de que são adicionados vários preditores.

Vamos pensar no nosso exemplo anterior. Além da propaganda, o empresário


investiu em várias outras áreas
Propaganda
Variedade dos produtos
Vagas no estacionamento
Preços
Veja algumas das principais informações que a regressão traz:

Sabemos o quanto Y (desfecho) aumenta para cada valor de X (variável preditora).

Para cada um real investido em propaganda, as vendas aumentaram xR$


Essa informação é o B
Sabemos o quanto (em %) Y aumenta quando da presença da variável X;

No total, o investimento em propaganda aumentou as vendas em X%


Essa informação é o R2 = poder explicativo do modelo.

Como toda e qualquer análise estatística, a regressão linear simples apresenta


alguns pressupostos:
Principais pressupostos
Linearidade
Variância não nula
Homocedasticidade dos resíduos
Independência dos resíduos
Distribuição normal dos resíduos.

REGRESSÃO LINEAR MÚLTIPLA A

Regressão Linear Múltipla é equivalente à regressão linear simples, com a


diferença de que são adicionados vários preditores.

Vamos pensar no nosso exemplo anterior. Além da propaganda, o empresário


investiu em várias outras áreas
Propaganda
Variedade dos produtos
Vagas no estacionamento
Preços
Entendendo a fórmula da regressão linear múltipla.

Na regressão linear simples, temos: Y = B0 + BxX + E Já na regressão linear

múltipla, a fórmula se estende: Y = B0 + B1X1 + B2X2 + ... + BnXn + E

Veja que, o que muda é uma estimativa de B, para cada variável do modelo.

Na regressão linear múltipla, podemos inserir as variáveis preditoras no modelo de

diferentes formas. A isso, dá-se o nome métodos de entrada. Basicamente,

existem 5 tipos de entrada. Veja as características deles abaixo:


Quais tipos de variáveis podem ser utilizadas na regressão

Na regressão, a variável dependente precisa ser sempre contínua (ordinal,


escalar, de razão)

Já a variável independente pode ser contínua ou categórica. Caso a variável


categórica possua várias categorias (ex: estado civil  solteiro, namorando/
noivo, casado, divorciado, viúvo), faz-se necessário utilizar variáveis ‘dummy’.
Problemas na Regressão Linear Múltipla

Durante a execução da Regressão linear múltipla, você pode se deparar com uma
série de pequenos problemas.

Para fins didáticos, vamos dividir esses problemas em “problemas das variáveis” e
“problemas da amostra”.

Problemas das Variáveis

Multicolinearidade

Um dos problemas mais comuns na regressão linear múltipla é a


multicolinearidade.

A multicolinearidade acontece quando há forte redundância entre as variáveis


preditoras. Nesses casos, as estimativas obtidas perdem confiança, já que as
variáveis independentes do modelo se influenciam mutuamente.

Como se avalia a Multicolinearidade


Índice de tolerância: 1 – R².
Deve ficar o mais próximo de 1,0 possível.
Variance Inflation Factor (VIF)
Para cada preditor, valores de VIF > 10 indicam multicolinearidade
Se média de VIF for substancialmente > 1, Modelo tendencioso.

Outro pressuposto que precisa ser testado é o da independência entre os


resíduos. Isso significa que o erro das variáveis preditoras são independentes uns
dos outros.

Para avaliar a independência dos resíduos, solicite o coeficiente de Durbin-


Watson. Valor perfeito: 2 (devendo variar entre 1,5 e 2,5)
Problemas da amostra.

As estimativas da regressão linear (simples e múltipla) podem sofrer influência de


outliers (que são casos atípicos do modelo).

Como se detecta outliers?

Existem diferentes formas de se avaliar outliers em um modelo de regressão.


Iremos apresentar três: resíduos padronizados, Distância de Cook e Distância de
Mahalanobis.

Resíduos padronizados: Resíduos em valores Z, para que todas as variáveis sejam


igualmente consideradas
Acima de 3 --> Outlier
Se 1% da amostra apresentar Resíduo padronizado acima de 2,5, --> Problemas
no modelo
Se 5% da amostra apresentar Resíduo padronizado acima de 2 --> Problemas
no modelo.

Distância de Cooks
Avalia o efeito de um único caso no modelo como um todo. Valores maiores
que 1 merecem atenção!

Distancia de Mahalanobis:

O critério de avaliação de Distância de Mahalanobis muda, de acordo com o


tamanho da sua amostra

N = 500; 5 Vis --> Mahalanobis = 25 valor problemático


N = 100; 3 Vis --> Mahalanobis = 15 valor problemático
N = 30; 2 Vis --> Mahalanobis = 11 valor problemático;
Tamanho amostral.

Uma das maiores dúvidas dos alunos quando realizam regressão linear múltipla é
sobre o tamanho amostral.

Tamanho amostral.

Uma regra geral, proposta por Tabachnick e Fidell (2019) é considerar: 50 + 8k,
sendo k o número de variáveis preditoras Por exemplo: modelo com 6 variáveis
preditoras  50+8*6 = 98 casos.

Embora essa regra seja aceita, ela não leva em consideração o tamanho do efeito
esperado. Desse modo é mais confiável calcular o tamanho amostral necessário
no G*Power (https://www.psychologie.hhu.de/arbeitsgruppen/allgemeine-
psychologie-und-arbeitspsychologie/gpower)

Referências:

Delacre, M., Lakens, D., & Leys, C. (2017). Why psychologists should by default use
Welch’s t-test instead of student’s t-test. International Review of Social Psychology,
30(1), Article 92-101.

Field, A. (2018). Discovering Statistics Using SPSS (5th Ed.), SAGE: London. Huberty,
C. J, & Morris, J. D. (1988). A single contrast test procedure. Educational and
Psychological Measurement, 48, 567-578.

West, R. M. (2021). Best practice in statistics: Use the Welch t -test when testing the
difference between two groups. Annals of Clinical Biochemistry: International
Journal of Laboratory Medicine, 58(4), 267–269.

https://doi.org/10.1177/0004563221992088
VEJA O CRONOGRAMA

DO NOSSO EVENTO
Dia 09/05 - Aula 01:

A análise certa para os seus dados.



Dia 10/05 - Aula 02:

Segredos da correlação.

Dia 11/05 - Aula 03:

Teste T e ANOVA com dados problemáticos.



Dia 12/05 - Aula 04:

Regressão linear simples e Múltipla.

Dia 13/05 - Aula 05:

As portas que se abrem quando você domina Análise


de Dados.

Como vai funcionar?

Nos dias 09 a 13 de Maio as aulas serão liberadas para você


assistir no seu tempo!

Mas não procrastine, hein?! Elas ficarão no ar por poucos dias!


Iremos enviar os links por e-mail e pelos grupos de WhatsApp.
Fique atento(a)!
QUEM SOU

BRUNO FIGUEIREDO DAMÁSIO

Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à


Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os


anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da
Sociedade Brasileira de Psicologia (SBP) eEditor-Associado da Spanish
Journal of Psychology, na sub-seção Psicometri e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 3000 citações, nas


melhores revistas nacionais e internacionais. Atualmente, me dedico a
formação de novos pesquisadores, através da Psicometria Online Academy.
Minha missão é ampliar a formação em Psicometria no Brasil e lhe auxiliar
a conquistar os seus objetivos profissionais.

instagram.com/psicometriaonline

facebook.com/psicometrionline

youtube.com/c/psicometriaonline

Você também pode gostar