EstPsicMASTER Regress o

EST AV PSI Regressão Linear DMat 2022
1 Regressão Linear
Um modelo de regressão consiste numa relação matemática que relaciona os valores de uma
resposta quantitativa (variável dependente) em função dos valores de preditores quantitativos
ou qualitativos (variáveis independentes).
Fala-se em regressão linear quando a resposta Y se escreve como uma combinação linear dos
preditores X1 , X2 , . . . , Xp .
No caso em que p = 1, fala-se em regressão simples e, caso p > 1, o modelo diz-se de regressão
linear múltipla.
Em termos genéricos, modelar tem como objetivos principais:
1. Descrever – usar o modelo para descrever a relação entre a variável resposta e um ou
mais preditores.
2. Prever – usar o modelo para prever valores da variável resposta (não observados, não
registados) a partir da observação dos preditores, de modo a que o erro de previsão
seja o menor possı́vel.
Usar um modelo com o objetivo de descrever a relação entre resposta e preditores, implica
ser possı́vel interpretar os resultados obtidos em termos do significado dos preditores.
1.1 Modelo de Regressão Linear Simples
Num modelo de regressão linear simples, existe apenas um preditor x. Tem-se que cada
observação da variável dependente Y se escreve como:
yi = β0 + β1 xi + ϵi , com n número de observações
O modelo é a soma de uma quantidade sistemática, determinı́stica, (β0 + β1 xi ) com uma
quantidade aleatória, ϵi , designada por erro. Este erro corresponde à parte não explicada
DMat 2022 1 cecilia castro

EST AV PSI Regressão Linear
pela componente determinı́stica do modelo. As variáveis aleatórias, ϵi , i = 1, . . . , n devem
ser idependentes de Yi , i = 1, . . . , n, não correlacionadas entre si, corr(ϵi , ϵj ) = 0, ∀i ̸= j, com
valor médio 0, variância constante e Normalmente distribuı́das.
As variáveis aleatórias erro não são observadas pois dependem dos parâmetros desconhecidos
do modelo. Substituindo esses parâmetros pelas suas estimativas, obtêm-se as predições
da resposta Y , Ybi = βb0 + βb1 xi . Os resı́duos, definidos por Ei = Ybi − Yi , preditores do
erros, podem ser calculados. As suposições sobre os erros do modelo são verificadas usando
os resı́duos. Assim, os resı́duos devem ser normalmente distribuı́dos com valor médio 0 e
variância constante e não devem ser correlacionados.
Estas hipóteses sobre os resı́duos podem ser verificadas através de gráficos. O histograma e
o gráfico quantil-quantil dos resı́duos devem ser compatı́veis com o que se espera do modelo
Normal. Além disso, o diagrama de dispersão dos resı́duos (estandardizados: média 0 e
variância 1) em função das previsões, não deve apresentar nenhum padrão de pontos, uma
vez que estas variáveis devem ser independentes. Os pontos deste diagrama devem estar
aleatoriamente distribuı́dos em torno da reta horizontal de ordenada 0 e dentro de uma faixa
horizontal (entre -3 e 3). Qualquer observação fora do intervalo [−3, 3] é um outlier. Num
modelo Normal(0, 1) a probabilidade de uma observação ser outlier é muito baixa (menor
que 0.003).
1.2 Modelo de Regressão Linear Múltipla
Num modelo de regressão linear múltipla consideram-se p > 1 preditores:
yi = β0 + β1 x1 + β2 x2 + . . . + βp xp + ϵi
onde βi , i = 1, . . . , n representam os coeficientes dos preditores xi , i = 1, . . . , n.

Figure 1: RLS e RLM
1.2.1 Incerteza
Existem dois tipos de incerteza no modelo – a relativa à componente aletória do modelo,ϵ,
designada por incerteza fundamental, que existe sempre, independentemente da dimensão
da amostra, e incerteza associada ao processo de estimação dos parâmetros do modelo, coe-
ficientes βi , i = 0, 1, . . . , n. Os estimadores destes parâmetros têm associada uma incerteza,
medida pelo erro padrão, SE, que deve tender para 0 quando a dimensão da amostra tende
para +∞.
1.3 Estimação dos parâmetros do modelo
Os estimadores dos parâmetros βi , i = 0, 1, . . . , p, num modelo de regressão linear, são
obtidos pelo processo de minimização de SSE (soma dos quadrados dos resı́duos).
n
X n
X 2 n
X
min SSE = min Ei2 = Ybi − Yi = ((β0 + β1 x1 + β2 x2 + . . . + βp xp ) − Yi )2
i=1 i=1 i=1
Em termos gráficos, este método corresponde a fazer passar a reta (ou plano, ou hiperplano)
o mais próximo possı́vel dos valores observados de Y , de modo que a distância entre Ybi e Yi
seja a menor possı́vel (ver figura 1).

1.4 Significância do Modelo
Obtidas as estimativas dos parâmetros do modelo, importa testar se estes são significativa-
mente diferentes de zero. Se existir pelo menos um βj , j = 1, 2, . . . , p não nulo, o modelo
ajustado é significativo, pois pelo menos uma das variáveis independentes (preditores) in-
fluencia a variável dependente (resposta). Para verificar a significância do modelo pode
considerar-se o seguinte par de hipóteses:
H0 : β1 = β2 = . . . = βp = 0 vs. H1 : βj ̸= 0, para algum j = 1, . . . , p (1)
Para testar estas hipóteses, a variabilidade total em Y , dada pela Soma dos Quadrados Total,
X
SST = (Yi − Y )2 ,
com Y média de Y , é dividida em duas componentes aditivas:
• Soma dos Quadrados dos Desvios explicada pelo ajustamento,
X
SSA = (Ybi − Y )2 ;
• Soma dos Quadrados dos Desvios não explicada pelo ajustamento, mas sim pelos erros:
X
SSE = (Yi − Ybi )2
Tem-se SST = SSA + SSE
Seja p o número de preditores no modelo e n a dimensão da amostra. Se a fração da
variância explicada pelo ajustamento, M SA = SSA/p, for maior que a fração da variância
não explicada pelo ajustamento, M SE = SSE/(n − p − 1), o modelo é significativo. Tem-se
a estatı́stica de teste (ET):

M SA
F = ∼ Fp,n−p−1
M SE

O SPSS produz o valor p associado a esta estatı́stica de teste e resume os cálculos numa
tabela ANOVA:
Fonte de Variação SS g.l. MS F
(Yi − Y )2
P b
Regressão (Ajustamento) p M SA = SSA/p MSA/MSE
(Yi − Ybi )2
P
Erros (E) n − (p + 1) M SE = SSE/(n − p − 1)
(Yi − Y )2
P
Total (T) n−1
1.5 Testes aos coeficientes
Se o teste F descrito anteriormente for significativo (valor p ≤ α, com α nı́vel de significância
do teste), apenas podemos concluir que pelo menos um dos preditores βi , i = 1, . . . , p é
significativamente diferente de 0. Para averiguar que preditores são significativos, tem que
se proceder a testes para cada um dos preditores. Estes testes são teste t de Student, com ET
Tβi ∼ tn−p−1 , obtida para cada βi , assumindo que apenas a variável independente associada
a βi entra no modelo, ou seja, mantendo todas as outras variáveis constantes. Para testar a
influência de uma das variáveis independente na variável dependente, sem ignorar a infuência
que as outras variáveis independentes teriam sobre a resposta, deve considerar-se um nı́vel
de significância α/p (correção de Bonferroni) e não α para decidir sobre a significância do
preditor na resposta.
1.6 Coeficiente de determinação
O coeficiente de determinação R2 é uma medida da qualidade do ajustamento.
SSA
R2 =
SST
Com o R2 mede-se a proporção da variabilidade total que é explicada pelo ajustamento. Os
valores de R2 estão em [0, 1], com 0 a significar que o modelo não se ajusta aos dados e 1 a
significar um ajustamento perfeito do modelo.

De notar que sempre que se inclui mais uma variável independente no modelo, o valor de
R2 aumenta, mesmo que a sua influência sobre a resposta seja diminuta. Assim, é costume
usar-se o coeficiente de determinação ajustado que aumenta apenas se a adição da nova
variável conduzir a um melhor ajustamento do modelo aos dados, ou seja, se a variância dos
erros (M SE) diminuir relativamente à variância total (M ST )
M SE n−1 p(1 − R2 )
Ra2 = 1 − =1− (1 − R2 ) = R2 −
M ST n−p−1 n−p−1
A ET
R2 n−p−1
F = 2
×
1−R p
pode ser usada para testar a significância do modelo, uma vez que a sua expressão é equiva-
lente a M SA/M SE. Assim, testar H0 : R2 = 0 vs. R2 > 0 é equivalente a testar as hipóteses
definidas em (1).
1.6.1 Interpretação dos parâmetros do modelo com preditores quantitativos
Se todos os preditores são quantitativos, β0 corresponde ao valor esperado na resposta quando
todos os preditores são nulos. Muitas vezes, este valor não tem significado no contexto do
problema, podendo centrar-se as variáveis para se interpretar este coeficiente. Se as variáveis
estiverem centradas, todas têm média 0. Nesse caso, β0 representa a média da variação na
resposta quando todos os preditores são iguais à sua média.
1.7 Validação das hipóteses do Modelo e Análise dos resı́duos
Os resı́duos do modelo servem quer para estimar os coeficientes de regressão, ou parâmetros
de regressão, quer para validar os pressupostos do modelo.
A inferência só é válida se os resı́duos
(1) forem Normais com média nula e variância constante;

(2) forem não correlacionados, isto é, Cov(Ei , Ej ) = 0 para todo i ̸= j.
Além destas condições sobre os resı́duos, tem-se ainda que
(3) existem relações lineares entre a resposta e cada um dos preditores;
(4) os preditores não podem estar muito correlacionados entre si.
Como já se disse anteriormente, para avaliar a condição (1), os pontos no gráfico de dispersão
dos resı́duos (estandardizados) em função das estimativas da resposta não devem apresen-
tar qualquer padrão, devendo distribuir-se aleatoriamente en torno de Ei = 0. Quando se
vislumbram relações entre os pontos (lineares ou não) e um crecimento (ou decrescimento)
da variabilidade em função das estimativas da resposta, o modelo de regressão linear não é
válido. Além disso quer o histograma, quer o gráfico quantil-quantil dos resı́duos deve ser
compatı́vel com o que se espera num modelo Normal.
Para avaliar a segunda condição, condição (2), independência dos resı́duos, o SPSS
devolve o resultado da Estatı́stica de Durbin-Watson, d, associada a um teste de inde-
pendência serial de resı́duos, cujo resultado é um número de 0 a 4. De uma forma mais ou
menos empı́rica, não rejeitamos a hipótese de independência dos resı́duos se d = 2 ± 0.5. Se
d < 1.5, existe auto-correlação positiva entre os resı́duos; se d > 2.5, existe auto-correlação
negativa.
A condição (3) pode ser avaliada através de diagramas de dispersão da variável dependente
sobre cada um dos preditores. Se algum destes diagramas revelar uma relação não linear
entre as variáveis, o modelo linear poderá não ser adequado.
Relativamente à condição (4), quando as variáveis independentes estão fortemente
correlacionadas entre si - multicolinearidade - a análise do modelo ajustado pode ser
desprovida de significado. Assim, se duas variáveis estão muito associadas entre si, não
devem ser incluı́das no mesmo modelo. Para avaliar a multicolinearidade, o SPSS devolve
o indicador VIF (variance infaction factor) para cada coeficiente de regressão. Se o valor

deste indicador for superior a 10, então, existem problemas na estimação do respetivo coefi-
ciente, devido a colinearidade entre essa variável e pelo menos uma das restantes variáveis.
Além do valor do VIF, é também devolvido o valor da tolerância. A tolerância é o inverso
do VIF. Assim, se a tolerância for inferior a 0.1, o VIF é superior a 10, pelo que existe
multicolinearidade nas variáveis independentes.
1.8 Preditores qualitativos
Quando o modelo, com variável dependente quantitativa, tem apenas um preditor qualitativo
(fator), com duas classes ou nı́veis, é possı́vel usar o teste t de Student para testar o efeito
do fator na variável dependente. Se todos os preditores são qualitativos (fatores), fala-se
em Análise da Variância – ANOVA. No caso do preditor ter mais de duas classes ou nı́veis,
tem-se a ANOVA unifatorial; se existirem k(k > 1) preditores qualitativos com dois ou mais
nı́veis, tem-se a ANOVA k-fatorial.
Os modelos ANOVA e os modelos de regressão são casos particulares dos modelos
lineares gerais.
2 Exercı́cios: Regressão Linear
Sempre que possı́vel, os exercı́cios devem ser efetuados com recurso ao SPSS.
1. Um psicólogo organizacional está interessado em prevêr as necessidades associadas
a aconselhamento psico-emocional (medidas em número de horas por psicólogo, por
dia, variável NHHD), facultada quer a pacientes, quer a familiares, que recorrem a um
banco de urgências de um grande hospital. As variáveis independentes disponı́veis são
média de acidentes traumatizantes por dia, ATD, média da duração do atendimento no
serviço de urgência (em min.), DASU, média da duração do primeiro atendimento psico-
emocional (em min.), DAPE, número de meios de diagnóstico complementares, NRX e

mês do ano, MES. Os dados encontram-se no ficheiro aconselhamento.sav.
(a) Indique a expressão do modelo de RLM que se obtém com o ajustamento de NHHD
em função das restantes variáveis.
(b) Indique os valores, produzidos pelo SPSS, de SSE, da estimativa da variância dos
resı́duos e da estimativa da variância explicada pela regressão.
(c) Indique o valor do coeficiente de correlação entre os valores da variável NHHD e os
valores previstos pelo modelo de RLM.
(d) Indique os valores de R2 e de Ra2 e diga como pode obter estes valores a partir da
tabela ANOVA produzida pelo SPSS. Faça a leitura adequada de Ra2 .
(e) O modelo obtido é significativo? Todas as variáveis independentes contribuem de
igual forma (magnitude) para o modelo? Justifique completamente.
(f) Os resı́duos do modelo encontram-se correlacionados? Justifique.
(g) Existe correlação forte entre as variáveis independentes, isto é, existem problemas
de multicolinearidade?

EstPsicMASTER Regress o

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

EstPsicMASTER Regress o

Enviado por

Direitos autorais:

Formatos disponíveis

EST AV PSI Regressão Linear DMat 2022

resposta quantitativa (variável dependente) em função dos valores de preditores quantitativos

ou qualitativos (variáveis independentes).

Em termos genéricos, modelar tem como objetivos principais:

1. Descrever – usar o modelo para descrever a relação entre a variável resposta e um ou

registados) a partir da observação dos preditores, de modo a que o erro de previsão

seja o menor possı́vel.

ser possı́vel interpretar os resultados obtidos em termos do significado dos preditores.

1.1 Modelo de Regressão Linear Simples

observação da variável dependente Y se escreve como:

yi = β0 + β1 xi + ϵi , com n número de observações

O modelo é a soma de uma quantidade sistemática, determinı́stica, (β0 + β1 xi ) com uma

DMat 2022 1 cecilia castro

pela componente determinı́stica do modelo. As variáveis aleatórias, ϵi , i = 1, . . . , n devem

ser idependentes de Yi , i = 1, . . . , n, não correlacionadas entre si, corr(ϵi , ϵj ) = 0, ∀i ̸= j, com

valor médio 0, variância constante e Normalmente distribuı́das.

do modelo. Substituindo esses parâmetros pelas suas estimativas, obtêm-se as predições

da resposta Y , Ybi = βb0 + βb1 xi . Os resı́duos, definidos por Ei = Ybi − Yi , preditores do

variância constante e não devem ser correlacionados.

Normal. Além disso, o diagrama de dispersão dos resı́duos (estandardizados: média 0 e

aleatoriamente distribuı́dos em torno da reta horizontal de ordenada 0 e dentro de uma faixa

1.2 Modelo de Regressão Linear Múltipla

Num modelo de regressão linear múltipla consideram-se p > 1 preditores:

onde βi , i = 1, . . . , n representam os coeficientes dos preditores xi , i = 1, . . . , n.

DMat 2022 2 cecilia castro

Figure 1: RLS e RLM

Existem dois tipos de incerteza no modelo – a relativa à componente aletória do modelo,ϵ,

designada por incerteza fundamental, que existe sempre, independentemente da dimensão

da amostra, e incerteza associada ao processo de estimação dos parâmetros do modelo, coe-

ficientes βi , i = 0, 1, . . . , n. Os estimadores destes parâmetros têm associada uma incerteza,

1.3 Estimação dos parâmetros do modelo

Os estimadores dos parâmetros βi , i = 0, 1, . . . , p, num modelo de regressão linear, são

seja a menor possı́vel (ver figura 1).

DMat 2022 3 cecilia castro

1.4 Significância do Modelo

mente diferentes de zero. Se existir pelo menos um βj , j = 1, 2, . . . , p não nulo, o modelo

fluencia a variável dependente (resposta). Para verificar a significância do modelo pode

considerar-se o seguinte par de hipóteses:

H0 : β1 = β2 = . . . = βp = 0 vs. H1 : βj ̸= 0, para algum j = 1, . . . , p (1)

com Y média de Y , é dividida em duas componentes aditivas:

• Soma dos Quadrados dos Desvios explicada pelo ajustamento,

Tem-se SST = SSA + SSE

Seja p o número de preditores no modelo e n a dimensão da amostra. Se a fração da

não explicada pelo ajustamento, M SE = SSE/(n − p − 1), o modelo é significativo. Tem-se

a estatı́stica de teste (ET):

DMat 2022 4 cecilia castro

1.5 Testes aos coeficientes

Se o teste F descrito anteriormente for significativo (valor p ≤ α, com α nı́vel de significância

do teste), apenas podemos concluir que pelo menos um dos preditores βi , i = 1, . . . , p é

de significância α/p (correção de Bonferroni) e não α para decidir sobre a significância do

1.6 Coeficiente de determinação

O coeficiente de determinação R2 é uma medida da qualidade do ajustamento.

Com o R2 mede-se a proporção da variabilidade total que é explicada pelo ajustamento. Os

significar um ajustamento perfeito do modelo.

DMat 2022 5 cecilia castro

usar-se o coeficiente de determinação ajustado que aumenta apenas se a adição da nova

erros (M SE) diminuir relativamente à variância total (M ST )

1.6.1 Interpretação dos parâmetros do modelo com preditores quantitativos

Se todos os preditores são quantitativos, β0 corresponde ao valor esperado na resposta quando

problema, podendo centrar-se as variáveis para se interpretar este coeficiente. Se as variáveis

resposta quando todos os preditores são iguais à sua média.

1.7 Validação das hipóteses do Modelo e Análise dos resı́duos

Os resı́duos do modelo servem quer para estimar os coeficientes de regressão, ou parâmetros