Você está na página 1de 9

EST AV PSI Regressão Linear DMat 2022

1 Regressão Linear

Um modelo de regressão consiste numa relação matemática que relaciona os valores de uma

resposta quantitativa (variável dependente) em função dos valores de preditores quantitativos

ou qualitativos (variáveis independentes).

Fala-se em regressão linear quando a resposta Y se escreve como uma combinação linear dos

preditores X1 , X2 , . . . , Xp .

No caso em que p = 1, fala-se em regressão simples e, caso p > 1, o modelo diz-se de regressão

linear múltipla.

Em termos genéricos, modelar tem como objetivos principais:

1. Descrever – usar o modelo para descrever a relação entre a variável resposta e um ou

mais preditores.

2. Prever – usar o modelo para prever valores da variável resposta (não observados, não

registados) a partir da observação dos preditores, de modo a que o erro de previsão

seja o menor possı́vel.

Usar um modelo com o objetivo de descrever a relação entre resposta e preditores, implica

ser possı́vel interpretar os resultados obtidos em termos do significado dos preditores.

1.1 Modelo de Regressão Linear Simples

Num modelo de regressão linear simples, existe apenas um preditor x. Tem-se que cada

observação da variável dependente Y se escreve como:

yi = β0 + β1 xi + ϵi , com n número de observações

O modelo é a soma de uma quantidade sistemática, determinı́stica, (β0 + β1 xi ) com uma

quantidade aleatória, ϵi , designada por erro. Este erro corresponde à parte não explicada

DMat 2022 1 cecilia castro


EST AV PSI Regressão Linear

pela componente determinı́stica do modelo. As variáveis aleatórias, ϵi , i = 1, . . . , n devem

ser idependentes de Yi , i = 1, . . . , n, não correlacionadas entre si, corr(ϵi , ϵj ) = 0, ∀i ̸= j, com

valor médio 0, variância constante e Normalmente distribuı́das.

As variáveis aleatórias erro não são observadas pois dependem dos parâmetros desconhecidos

do modelo. Substituindo esses parâmetros pelas suas estimativas, obtêm-se as predições

da resposta Y , Ybi = βb0 + βb1 xi . Os resı́duos, definidos por Ei = Ybi − Yi , preditores do

erros, podem ser calculados. As suposições sobre os erros do modelo são verificadas usando

os resı́duos. Assim, os resı́duos devem ser normalmente distribuı́dos com valor médio 0 e

variância constante e não devem ser correlacionados.

Estas hipóteses sobre os resı́duos podem ser verificadas através de gráficos. O histograma e

o gráfico quantil-quantil dos resı́duos devem ser compatı́veis com o que se espera do modelo

Normal. Além disso, o diagrama de dispersão dos resı́duos (estandardizados: média 0 e

variância 1) em função das previsões, não deve apresentar nenhum padrão de pontos, uma

vez que estas variáveis devem ser independentes. Os pontos deste diagrama devem estar

aleatoriamente distribuı́dos em torno da reta horizontal de ordenada 0 e dentro de uma faixa

horizontal (entre -3 e 3). Qualquer observação fora do intervalo [−3, 3] é um outlier. Num

modelo Normal(0, 1) a probabilidade de uma observação ser outlier é muito baixa (menor

que 0.003).

1.2 Modelo de Regressão Linear Múltipla

Num modelo de regressão linear múltipla consideram-se p > 1 preditores:

yi = β0 + β1 x1 + β2 x2 + . . . + βp xp + ϵi

onde βi , i = 1, . . . , n representam os coeficientes dos preditores xi , i = 1, . . . , n.

DMat 2022 2 cecilia castro


EST AV PSI Regressão Linear DMat 2022

Figure 1: RLS e RLM

1.2.1 Incerteza

Existem dois tipos de incerteza no modelo – a relativa à componente aletória do modelo,ϵ,

designada por incerteza fundamental, que existe sempre, independentemente da dimensão

da amostra, e incerteza associada ao processo de estimação dos parâmetros do modelo, coe-

ficientes βi , i = 0, 1, . . . , n. Os estimadores destes parâmetros têm associada uma incerteza,

medida pelo erro padrão, SE, que deve tender para 0 quando a dimensão da amostra tende

para +∞.

1.3 Estimação dos parâmetros do modelo

Os estimadores dos parâmetros βi , i = 0, 1, . . . , p, num modelo de regressão linear, são

obtidos pelo processo de minimização de SSE (soma dos quadrados dos resı́duos).
n
X n 
X 2 n
X
min SSE = min Ei2 = Ybi − Yi = ((β0 + β1 x1 + β2 x2 + . . . + βp xp ) − Yi )2
i=1 i=1 i=1

Em termos gráficos, este método corresponde a fazer passar a reta (ou plano, ou hiperplano)

o mais próximo possı́vel dos valores observados de Y , de modo que a distância entre Ybi e Yi

seja a menor possı́vel (ver figura 1).

DMat 2022 3 cecilia castro


EST AV PSI Regressão Linear

1.4 Significância do Modelo

Obtidas as estimativas dos parâmetros do modelo, importa testar se estes são significativa-

mente diferentes de zero. Se existir pelo menos um βj , j = 1, 2, . . . , p não nulo, o modelo

ajustado é significativo, pois pelo menos uma das variáveis independentes (preditores) in-

fluencia a variável dependente (resposta). Para verificar a significância do modelo pode

considerar-se o seguinte par de hipóteses:

H0 : β1 = β2 = . . . = βp = 0 vs. H1 : βj ̸= 0, para algum j = 1, . . . , p (1)

Para testar estas hipóteses, a variabilidade total em Y , dada pela Soma dos Quadrados Total,

X
SST = (Yi − Y )2 ,

com Y média de Y , é dividida em duas componentes aditivas:

• Soma dos Quadrados dos Desvios explicada pelo ajustamento,

X
SSA = (Ybi − Y )2 ;

• Soma dos Quadrados dos Desvios não explicada pelo ajustamento, mas sim pelos erros:

X
SSE = (Yi − Ybi )2

Tem-se SST = SSA + SSE

Seja p o número de preditores no modelo e n a dimensão da amostra. Se a fração da

variância explicada pelo ajustamento, M SA = SSA/p, for maior que a fração da variância

não explicada pelo ajustamento, M SE = SSE/(n − p − 1), o modelo é significativo. Tem-se

a estatı́stica de teste (ET):


M SA
F = ∼ Fp,n−p−1
M SE

DMat 2022 4 cecilia castro


EST AV PSI Regressão Linear DMat 2022

O SPSS produz o valor p associado a esta estatı́stica de teste e resume os cálculos numa

tabela ANOVA:
Fonte de Variação SS g.l. MS F

(Yi − Y )2
P b
Regressão (Ajustamento) p M SA = SSA/p MSA/MSE

(Yi − Ybi )2
P
Erros (E) n − (p + 1) M SE = SSE/(n − p − 1)

(Yi − Y )2
P
Total (T) n−1

1.5 Testes aos coeficientes

Se o teste F descrito anteriormente for significativo (valor p ≤ α, com α nı́vel de significância

do teste), apenas podemos concluir que pelo menos um dos preditores βi , i = 1, . . . , p é

significativamente diferente de 0. Para averiguar que preditores são significativos, tem que

se proceder a testes para cada um dos preditores. Estes testes são teste t de Student, com ET

Tβi ∼ tn−p−1 , obtida para cada βi , assumindo que apenas a variável independente associada

a βi entra no modelo, ou seja, mantendo todas as outras variáveis constantes. Para testar a

influência de uma das variáveis independente na variável dependente, sem ignorar a infuência

que as outras variáveis independentes teriam sobre a resposta, deve considerar-se um nı́vel

de significância α/p (correção de Bonferroni) e não α para decidir sobre a significância do

preditor na resposta.

1.6 Coeficiente de determinação

O coeficiente de determinação R2 é uma medida da qualidade do ajustamento.

SSA
R2 =
SST

Com o R2 mede-se a proporção da variabilidade total que é explicada pelo ajustamento. Os

valores de R2 estão em [0, 1], com 0 a significar que o modelo não se ajusta aos dados e 1 a

significar um ajustamento perfeito do modelo.

DMat 2022 5 cecilia castro


EST AV PSI Regressão Linear

De notar que sempre que se inclui mais uma variável independente no modelo, o valor de

R2 aumenta, mesmo que a sua influência sobre a resposta seja diminuta. Assim, é costume

usar-se o coeficiente de determinação ajustado que aumenta apenas se a adição da nova

variável conduzir a um melhor ajustamento do modelo aos dados, ou seja, se a variância dos

erros (M SE) diminuir relativamente à variância total (M ST )

M SE n−1 p(1 − R2 )
Ra2 = 1 − =1− (1 − R2 ) = R2 −
M ST n−p−1 n−p−1

A ET
R2 n−p−1
F = 2
×
1−R p
pode ser usada para testar a significância do modelo, uma vez que a sua expressão é equiva-

lente a M SA/M SE. Assim, testar H0 : R2 = 0 vs. R2 > 0 é equivalente a testar as hipóteses

definidas em (1).

1.6.1 Interpretação dos parâmetros do modelo com preditores quantitativos

Se todos os preditores são quantitativos, β0 corresponde ao valor esperado na resposta quando

todos os preditores são nulos. Muitas vezes, este valor não tem significado no contexto do

problema, podendo centrar-se as variáveis para se interpretar este coeficiente. Se as variáveis

estiverem centradas, todas têm média 0. Nesse caso, β0 representa a média da variação na

resposta quando todos os preditores são iguais à sua média.

1.7 Validação das hipóteses do Modelo e Análise dos resı́duos

Os resı́duos do modelo servem quer para estimar os coeficientes de regressão, ou parâmetros

de regressão, quer para validar os pressupostos do modelo.

A inferência só é válida se os resı́duos

(1) forem Normais com média nula e variância constante;

DMat 2022 6 cecilia castro


EST AV PSI Regressão Linear DMat 2022

(2) forem não correlacionados, isto é, Cov(Ei , Ej ) = 0 para todo i ̸= j.

Além destas condições sobre os resı́duos, tem-se ainda que

(3) existem relações lineares entre a resposta e cada um dos preditores;

(4) os preditores não podem estar muito correlacionados entre si.

Como já se disse anteriormente, para avaliar a condição (1), os pontos no gráfico de dispersão

dos resı́duos (estandardizados) em função das estimativas da resposta não devem apresen-

tar qualquer padrão, devendo distribuir-se aleatoriamente en torno de Ei = 0. Quando se

vislumbram relações entre os pontos (lineares ou não) e um crecimento (ou decrescimento)

da variabilidade em função das estimativas da resposta, o modelo de regressão linear não é

válido. Além disso quer o histograma, quer o gráfico quantil-quantil dos resı́duos deve ser

compatı́vel com o que se espera num modelo Normal.

Para avaliar a segunda condição, condição (2), independência dos resı́duos, o SPSS

devolve o resultado da Estatı́stica de Durbin-Watson, d, associada a um teste de inde-

pendência serial de resı́duos, cujo resultado é um número de 0 a 4. De uma forma mais ou

menos empı́rica, não rejeitamos a hipótese de independência dos resı́duos se d = 2 ± 0.5. Se

d < 1.5, existe auto-correlação positiva entre os resı́duos; se d > 2.5, existe auto-correlação

negativa.

A condição (3) pode ser avaliada através de diagramas de dispersão da variável dependente

sobre cada um dos preditores. Se algum destes diagramas revelar uma relação não linear

entre as variáveis, o modelo linear poderá não ser adequado.

Relativamente à condição (4), quando as variáveis independentes estão fortemente

correlacionadas entre si - multicolinearidade - a análise do modelo ajustado pode ser

desprovida de significado. Assim, se duas variáveis estão muito associadas entre si, não

devem ser incluı́das no mesmo modelo. Para avaliar a multicolinearidade, o SPSS devolve

o indicador VIF (variance infaction factor) para cada coeficiente de regressão. Se o valor

DMat 2022 7 cecilia castro


EST AV PSI Regressão Linear

deste indicador for superior a 10, então, existem problemas na estimação do respetivo coefi-

ciente, devido a colinearidade entre essa variável e pelo menos uma das restantes variáveis.

Além do valor do VIF, é também devolvido o valor da tolerância. A tolerância é o inverso

do VIF. Assim, se a tolerância for inferior a 0.1, o VIF é superior a 10, pelo que existe

multicolinearidade nas variáveis independentes.

1.8 Preditores qualitativos

Quando o modelo, com variável dependente quantitativa, tem apenas um preditor qualitativo

(fator), com duas classes ou nı́veis, é possı́vel usar o teste t de Student para testar o efeito

do fator na variável dependente. Se todos os preditores são qualitativos (fatores), fala-se

em Análise da Variância – ANOVA. No caso do preditor ter mais de duas classes ou nı́veis,

tem-se a ANOVA unifatorial; se existirem k(k > 1) preditores qualitativos com dois ou mais

nı́veis, tem-se a ANOVA k-fatorial.

Os modelos ANOVA e os modelos de regressão são casos particulares dos modelos

lineares gerais.

2 Exercı́cios: Regressão Linear

Sempre que possı́vel, os exercı́cios devem ser efetuados com recurso ao SPSS.

1. Um psicólogo organizacional está interessado em prevêr as necessidades associadas

a aconselhamento psico-emocional (medidas em número de horas por psicólogo, por

dia, variável NHHD), facultada quer a pacientes, quer a familiares, que recorrem a um

banco de urgências de um grande hospital. As variáveis independentes disponı́veis são

média de acidentes traumatizantes por dia, ATD, média da duração do atendimento no

serviço de urgência (em min.), DASU, média da duração do primeiro atendimento psico-

emocional (em min.), DAPE, número de meios de diagnóstico complementares, NRX e

DMat 2022 8 cecilia castro


EST AV PSI Regressão Linear DMat 2022

mês do ano, MES. Os dados encontram-se no ficheiro aconselhamento.sav.

(a) Indique a expressão do modelo de RLM que se obtém com o ajustamento de NHHD

em função das restantes variáveis.

(b) Indique os valores, produzidos pelo SPSS, de SSE, da estimativa da variância dos

resı́duos e da estimativa da variância explicada pela regressão.

(c) Indique o valor do coeficiente de correlação entre os valores da variável NHHD e os

valores previstos pelo modelo de RLM.

(d) Indique os valores de R2 e de Ra2 e diga como pode obter estes valores a partir da

tabela ANOVA produzida pelo SPSS. Faça a leitura adequada de Ra2 .

(e) O modelo obtido é significativo? Todas as variáveis independentes contribuem de

igual forma (magnitude) para o modelo? Justifique completamente.

(f) Os resı́duos do modelo encontram-se correlacionados? Justifique.

(g) Existe correlação forte entre as variáveis independentes, isto é, existem problemas

de multicolinearidade?

DMat 2022 9 cecilia castro

Você também pode gostar