Você está na página 1de 25

Regressão Múltipla

Baseado (parcialmente) em:


Statistical Methods for the
Behavioral Sciences, 3rd edition
David C. Howell

© 2004-2005 Tradução e adaptação, Tomás da Silva

Regressão Múltipla 2

Pontos Principais
• O problema da Regressão Múltipla
• Um exemplo
• Correlação Múltipla
• Equação de Regressão
• Predições

Cont.

1
Regressão Múltipla 3

Pontos Principais--cont.
• Resíduos
• Teste de Hipóteses
• Questões para Revisão
• Referências bibliográficas essenciais

Regressão Múltipla 4

O Problema
• Utilizar vários preditores para predizer a
variável dependente
• Determinar uma medida do grau de
ajustamento global
• Ponderar cada preditor e determinar a sua
importância

2
Regressão Múltipla 5

O que é a regressão múltipla?


•A Regressão/Correlação Múltipla (RCM) é um
procedimento analítico de dados baseado no
critério dos mínimos quadrados, que determina
as relações lineares entre um conjunto de
preditores e um único critério e determina qual
a melhor combinação do conjunto de preditores
para predizer esse critério singular (Licht).
•A RCM é a simples extensão da regressão
bivariada a duas ou mais variáveis preditoras.

Regressão Múltipla 6

O modelo de regressão múltipla


•O modelo de regressão que será testado
é representado pela seguinte equação de
regressão múltipla:
Y' = a +b1X1 + b2 X2 +L+bk Xk (fórmula não estandardizada; Licht)

zY' =β1z1 +β2z2 +L+βkzk (fórmula estandardizada; Licht)

3
Regressão Múltipla 7

Quantas variáveis usar?


•Os programas de regressão múltipla
permitem a inclusão de um grande
número de variáveis X. (todavia, esta
prática deve ser evitada);
• ver recomendações nos slides 8 e 9

Regressão Múltipla 8

Quantas variáveis usar?


•Quando as variáveis entram na regressão
como um único bloco a rácio dos casos
para as variáveis deve ser pelo menos de
20:1 (Tabachnick e Fidell)
•Nos modelos de regressão Stepwise e
Hierárquica são precisas amostras de
maior dimensão, pelo menos de 40:1
(Tabachnick e Fidell)

4
Regressão Múltipla 9

Quantas variáveis usar?


Newton e Rudestam (1999) recomendam:
•Quando calcula o R2 o n deverá ser pelo
menos 50+8k, onde k é o número de
variáveis independentes.
•Quando calcula as estimações de regressão
para cada das variáveis deverá ter um n de
104+k.

Regressão Múltipla 10

Métodos de Entrada de Variáveis


Explicando a sobreposição da variância:
• As estimativas de regressão podem ser
calculadas num único passo ou através de um
processo multi sequencial (multi-passos)
•Neste caso o “passo” refere-se ao ponto na
análise em que uma ou mais variáveis X
entram nos cálculos da regressão.

5
Regressão Múltipla 11

Métodos de Entrada de Variáveis


Assim:
• Podemos fazer entrar todas as variáveis
num único passo (bloco ou etapa) e examinar
o R2.
•Alternativamente, podemos fazer entrar uma
única variável e verificar quanta variância esta
variável explica, depois adicionar outra
variável e ver quanta variância extra esta
variável explica, etc.

Regressão Múltipla 12

Métodos de Entrada de Variáveis


Existem três métodos principais de regressão
linear, que diferem quanto ao método usado
para fazer entrar as variáveis na análise:
•Standard, simultâneo, directo, “all in”;
•Sequencial:
✸ Hierárquico.
✸ Stepwise
• Forward, Backward, Stepwise;

6
Regressão Múltipla 13

Métodos de Entrada de Variáveis


• Standard ou simultâneo. TODAS as variáveis
entram ao mesmo tempo
•Stepwise. Uma variável é adicionada de cada
vez de acordo com um critério
preestabelecido. Depois do critério ter sido
definido o investigador não tem controlo
sobre quais as variáveis que entram ou sobre
a ordem em que estas entram

Regressão Múltipla 14

Métodos de Entrada de Variáveis


• Hierárquico. A ordem em que as variáveis
entram é determinada pelo investigador. As
variáveis podem entrar uma a uma, em
blocos ou por uma combinação de ambos os
procedimentos.

7
Regressão Múltipla 15

Um Exemplo – MRLM Standard


• Estudo realizado por Kliewer et al. (1998) sobre
o efeito da violência no comportamento de
internalização
✸ Comportamento de internalização (vide Achenbach)

• Preditores
✸ Grau em que o sujeito foi testemunha de violência
✸ Medida do grau de stress na sua vida actual
✸ Medida do suporte social

Regressão Múltipla 16

Violência e Internalização
• Os sujeitos são crianças com 8-12 anos
✸ Viviam em áreas muito violentas
✸ Hipótese: violência e stress conduzem à
internalização do comportamento.
✸ Os dados estão disponíveis em:
www.duxbury.com/dhowell/StatPages/
More_Stuff/Kliewer.dat

8
Regressão Múltipla 17

Matriz de Intercorrelações
Correlations
Statistics

Amount Internalizing
violenced Current Social symptoms on
witnessed stress support CBCL
Amount violenced
witnessed
Current stress .050
Social support .080 -.080
Internalizing symptoms
.200* .270** -.170
on CBCL
*. Correlation is significant at the 0.05 level (2-tailed).
**. Correlation is significant at the 0.01 level (2-tailed).

Regressão Múltipla 18

Considerações Preliminares
• Constatamos que tanto Stress como
Witnessing Violence estão
significativamente correlacionadas com
Internalizing.
• Notamos, ainda, que os preditores são
francamente independentes uns dos
outros.

9
Regressão Múltipla 19

Correlação Múltipla (Coeficiente de)


• Directamente análogo ao r (simples)
• Sempre em letra maiúscula (e.g. R)
• Sempre positivo
✸ É a correlação de Y’ com Y observado
• onde Y’ é calculado a partir da equação de
regressão
✸ Frequentemente reporta-se o R 2, em vez de
R
Nota: Yˆ ≡ Y ′

Regressão Múltipla 20

Coeficientes de Regressão
• Teremos (a) dois ou mais declives e (b) um
ponto de intercepção.
• Cada variável é ajustada por todas as outras
incluídas no modelo.
• Estes coeficientes são apenas uma extenção do
declive e do ponto de intercepção que
encontrámos na regressão simples.
• Output do SPSS no próximo slide

10
Regressão Múltipla 21

R2

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,368a ,136 ,108 2,2174
a. Predictors: (Constant), Social support, Current stress,
Amount violenced witnessed

Regressão Múltipla 22

Declives e Ponto de Intercepção


Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) ,517 1,288 ,401 ,689
Amount violenced
,038 ,018 ,202 2,111 ,037
witnessed
Current stress ,272 ,106 ,245 2,560 ,012
Social support -,076 ,043 -,170 -1,766 ,081
a. Dependent Variable: Internalizing symptoms on CBCL

11
Regressão Múltipla 23

Equação de Regressão
Yˆ = b1 X 1 + b2 X 2 + b3 X 3 + b0
= 0.038Wit + 0.272Stress − 0.076SocSupp + 0.517

• Um coeficiente único para cada variável


✸ Os bi’s (b1,…,bi) são os declives

• Um ponto de intercepção (aqui


designado b0 em vez de a)

Regressão Múltipla 24

Interpretação
• Note que o declive para Witness e Stress
é positivo, mas que o declive para o
Social Support é negativo.
✸ Este dado faz sentido?

• Se tivesse sujeitos com Stress e SocSupp


idênticos, uma unidade de aumento de
Witness produziria 0.038 unidades de
aumento na variável Internal.

Cont.

12
Regressão Múltipla 25

Interpretação--cont.
• O mesmo é verdadeiro para os outros preditores.
• Os testes t, para dois dos declives, são significativos
✸ Todavia, SocSupp não é significativo.
✸ O que quer isto dizer?
• O R 2 pode interpretar-se do mesmo modo que r 2

(correlação), ou seja:
✸ 13.6% da variabilidade em Internal é explicada pela
variabilidade em Witness, Stress, e SocSupp.

Regressão Múltipla 26

Interpretação--cont.
• O ponto de Intercepção habitualmente
não tem significado.
✸ É a predição que efectuamos quando todos
os preditores são 0.0
✸ Já agora, com dois preditores (regressão
trivariada), não existe uma recta de
regressão, mas um plano de regressão.

13
Regressão Múltipla 27

Regressão Múltipla 28

Predições
• Assuma que Witness = 20, Stress = 5, e
SocSupp = 35: Então qual o valor de Y’?

Yˆ = .038 *Wit + .272 * Stress − .076 * SocSupp + 0.517


= .038(20) + .272(5) − .076(35) + 0.517
= −.023

14
Regressão Múltipla 29

Teste de Hipóteses
• O teste sobre o R 2 é dado na tabela da
Análise da Variância:
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 73,320 3 24,440 4,971 ,003a
Residual 467,090 95 4,917
Total 540,410 98
a. Predictors: (Constant), Social support, Current stress, Amount violenced witnessed
b. Dependent Variable: Internalizing symptoms on CBCL

Cont.

Regressão Múltipla 30

Teste de Hipóteses
• O testes do R 2 (usando as estatísticas da
ANOVA)
Sendo SQR SQT − SQE SQE
RY2.12 = = = 1−
SQT SQT SQT
• então testa-se
RY2.12 = 0

com F =
MQR
=
SQR 2
=
(n − 2 − 1)R 2
MQE SQE (n − 2 − 1 ) 1 − R 2 (2 ) ( )
Cont.

15
Regressão Múltipla 31

Teste--cont.
• Os testes sobre os coeficientes de
regressão são oferecidos, no SPSS num
segundo quadro (cf. rácios t de student)
• Ver o próximo slide
• Aprecie os testes sobre cada coeficiente.

Regressão Múltipla 32

Testes sobre os Declives e


Ponto de Intercepção
Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) ,517 1,288 ,401 ,689
Amount violenced
,038 ,018 ,202 2,111 ,037
witnessed
Current stress ,272 ,106 ,245 2,560 ,012
Social support -,076 ,043 -,170 -1,766 ,081
a. Dependent Variable: Internalizing symptoms on CBCL

16
Regressão Múltipla 33

Testes sobre os Declives e


Ponto de Intercepção
• Os coeficientes de regressão, Bi
H 0 : B i = 0
versus
H 1 : B i ≠ 0 Estas hipóteses são testadas
por:
bi − 0
t n − 2 −1 =
EP ( b i )
MQE
EP ( b i ) =
(
ns i2 1 − r122 )

Regressão Múltipla 34

Questões para Revisão


• Em que diferem a regressão múltipla e a
regressão simples?
• O R 2 pode decrescer quando adiciona
preditores?
• O que quer dizer fazer o “controlo de?”
• Como calculamos uma predição?

Cont.

17
Regressão Múltipla 35

Questões para Revisão--cont.


• É provável que o declive seja significante
quando o R global não é estatisticamente
significativo?
• Dê um exemplo onde a regressão
múltipla possa ajudá-lo a compreender o
comportamento.

Regressão Múltipla 36

Referências bibliográficas essenciais

• Bryman e Cramer (2003), vide pp. 276-288


(leitura complementar).
• Pestana e Gageiro (2003), vide pp. 576-654
(leitura essencial).
• Wampold, B. E. & Freund, R. D. (1987). Use of
multiple regression in counseling psychology
research: A flexible data-analytic strategy.
Journal of Counseling Psychology, 34, 372-382.
(Leitura altamente recomendada)

18
Regressão Múltipla 37

EXEMPLO TPC

Regressão Múltipla 38

EXEMPLO — cont.
Com base nos dados do ficheiro anterior calcule?
• apoio = b0 + b1idade + b2rendimento
•R, R2, R2 ajustado e EPestimativa
•O teste da hipótese nula (R2 (populacional) = 0)
•Os coeficientes de regressão não estandardizados bo, b1
e b2, bem como os respectivos coeficientes Beta
(estandardizados)
•As rácios t e a sua significância estatística.
•Y’, para idade = 56 anos e rendimento = 13500 libras

19
Regressão Múltipla 39

EXEMPLO — cont.

Regressão Múltipla 40

EXEMPLO — cont.

Y ' = 6.319 + (.218 * 56) + (−.000067592 *13500) = 17.434

20
Regressão Múltipla 41

Apêndice
Assunções relativas ao MRLM
Há um certo número de assunções que devem ser
verificadas, antes dos resultados da regressão
serem considerados para interpretação.
Assim, o analista de dados deverá avaliar:
. Se as assunções foram preenchidas;
. Se as violações são graves;
. O que fazer acerca dessas violações.

Regressão Múltipla 42

Assunções dos MRLM – Cont.


Existem sete assunções principais na análise de regressão
ordinária:
1. A variável Y é medida ao nível intervalar;
2. As variáveis X são medidas, predominantemente, ao nível
intervalar. Se uma variável independente (VI) não é de
tipo intervalar então deverá ser dicotómica;
3. As VI`s não devem estar (altamente) correlacionadas (esta
é a assunção da ausência de multicolinearidade);
4. Não devem existir “outliers” que possam distorcer os
resultados;

21
Regressão Múltipla 43

Assunções dos MRLM – Cont.

5. As variáveis estão relacionadas de um modo linear;


6. As variáveis estão distribuídas normalmente. O fracasso na
normalidade pode conduzir a estimações de coeficientes de
regressão instáveis e à distorção da taxa de erro de Tipo I;
7. As relações entre as variáveis deverão exibir
homocedasticidade. Ou seja, a variância numa variável
deverá ser consistente para todos os valores da outra
variável.

Regressão Múltipla 44

Assunções dos MRLM – Cont.

Como testamos os dados para verificar se as assunções se


encontram preenchidas?
• Detecção da multicolinearidade
Existem várias estratégias, por exemplo:
1. Examine as correlações bivariadas;
2. Faça uma análise de correlação múltipla (v.g., cada VI é
considerada, à vez, como variável dependente (VD) e todas
as outras VI’s são usadas como preditores);
3. Diagnóstico da multicolinearidade dentro dos
procedimentos de regressão múltipla (ver slide seguinte):

22
Regressão Múltipla 45

Assunções dos MRLM – Cont.

Utilize duas estatísticas de diagnóstico


- variable inflator factor (VIF)
- medidas de Tolerância (semelhante ao procedimento
relatado em 2, no slide anterior).
Como interpretar:
- Em geral, variáveis com tolerância abaixo de 0.20
(baixa tolerância) e/ou VIF maior ou igual a 5 (alguns
autores usam 10) podem querer indicar problemas de
multicolinearidade.

Regressão Múltipla 46

Assunções dos MRLM – Cont.

• Verificação da normalidade
A principal maneira de verificar as violações da
normalidade é examinar a distribuição de cada uma das
variáveis. Vários métodos são possíveis, p. ex.:
 Examinar as estatísticas de assimetria e de curtose;
 Inspeccionar histogramas com a curva normal
sobreposta;
 Usar testes específicos (v.g., o teste z de Kolmogorov-
Smirnov);
 Examinar a distribuição de variáveis dicotómicas.

23
Regressão Múltipla 47

Assunções dos MRLM – Cont.

• Verificação da normalidade (cont.)


As violações da normalidade multivariada podem ser
identificadas examinando o padrão dos resíduos.
Dois tipos de gráficos de resíduos são especialmente
úteis:
- Standardized predicted values (inserir no eixo
horixontal) vs. Standardized residual values (inserir
no eixo vertical);
- Histogramas dos resíduos estandardizados (devem
ter uma forma aproximadamente normal).

Regressão Múltipla 48

Assunções dos MRLM – Cont.

• Verificação da linearidade
 A não linearidade bivariada pode ser examinada através
de um diagrama de dispersão envolvendo duas variáveis
de cada vez;
 Numa análise multivariada, o exame dos resíduos
estandardizados de Y vs. os valores residuais preditos
estandardizados de Y, pode ser usado para detectar
padrões de não linearidade.

24
Regressão Múltipla 49

Assunções dos MRLM – Cont.


• Verificação da homocedasticidade
Mais uma vez vamos recorrer aos gráficos com o
cruzamento dos resíduos estandardizados de Y com os
de valores estandardizados de Y’.
• Como verificar se os outliers são um problema?
Um outlier pode aparecer numa análise uni-, bi- ou
multivariada. Os principais métodos para a sua detecção
são:
Examinar as distribuições de frequências e os desvios padrão (univariada);
Inspeccionar scattergrams ou gráficos dos resíduos (análise bivariada e
multivariada).

25