s6 RLM

24-04-2019
Docente : Elisete Correia

(ecorreia@utad.pt)
Regressão linear múltipla
Em muitas situações as observações dependem de várias

variáveis em simultâneo e é necessário incluir todas as
variáveis de interesse na análise.
Se incluirmos k regressores (var. independentes) na análise

teremos a seguinte expressão para o modelo:
Yi'  b0  b1 X1,i  b2 X 2,i  ...  bk X k ,i   i i  1,...n
1
24-04-2019
Pressupostos:
1- os valores de Xj,i dizem respeito às variáveis
independedentes ;
2- Os erros são independentes e identicamente
distribuídos com distribuição normal de média 0 e
variância constante s2.
A análise de um modelo de regressão linear múltipla é

análoga à do modelo de regressão linear simples, sendo as
analogias mais fáceis de identificar se usarmos notação
matricial.
Assim, o modelo anterior pode ser escrito como
Yi'  bˆ0  bˆ1x1  bˆ2 x2  ...  bˆk xk
E as estimativas dos p parâmetros da regressão (b0, b1, …,bk) são

dadas pelas soluções da minimização da soma dos quadrados
dos erros n
L    i2 4
i 1
2
24-04-2019
Tabela de regressão
Ao efectuar uma análise de regressão linear múltipla através de um
software de estatística obtém-se uma tabela como semelhante à seguinte:
A 1ª coluna identifica as variáveis (constante) respetivas aos coeficientes;

A 2ª coluna apresenta as estimativas dos coeficientes do modelo;
O valor de t (t observado) e o respetivo p-value indicam se de acordo com o(s)
teste(s) ao(s) coeficiente(s), sendo a hipótese nula a de que o coeficiente (em
causa) é nulo, se rejeita essa hipótese nula ou não.
A lei em que se baseiam os testes é uma T-Student com n-p (g.l) com (p=k+1 parâmetros a
5
estimar).
Coeficientes da Regressão
Num modelo de regressão linear múltipla, os coeficientes de regressão
têm o seguinte significado:
b0-representa o valor esperado da variável resposta Y quando as

variáveis preditoras são todas nulas.
bi, i= 1, …., k expressa a variação média da variável resposta Y, por

cada variação unitária de xi , mantendo todas as demais variáveis fixas.
Nota: os coeficientes bi, não permitem quantificar a importância relativa de

Xi na explicação de Y quando as variáveis preditoras se apresentam em diferentes
unidades de medida. Neste caso, a importância relativa de cada variável Xi na
explicação da variação de Y mede-se com coeficientes beta
3
24-04-2019
ANOVA da regressão
A tabela da ANOVA é a seguinte:
SSR
R2  % de variância
SST
devida à regressão
Nesta tabela as somas de quadrados são definidas como na

regressão simples. A ANOVA dá resposta ao teste
Rejeita-se a hipótese nula para valores elevados da

estatística de teste F ou seja valores de prova (p-value)
menores que o valor de significância delimitado (usualmente 5%)
7
Avaliação da qualidade e significado da regressão
Métodos gráficos
Habitualmente constroem-se diagramas de dispersão para
visualizar a relação entre Y e cada um dos regressores
individualmente.
Coeficiente de determinação
Gráficos para os resíduos e verificação dos pressupostos;

( aleatoriedade e variância constante)
Teste ao “significado” da regressão.

8
4
24-04-2019
Medidas de qualidade do modelo
Coeficiente de determinação
mede a proporção da variação (total) de Y que é explicada pelo

modelo de
regressão múltiplo ajustado.
Coeficiente de determinação ajustado
penaliza ajustamentos baseados num número de observações n não

muito superior ao número de parâmetros k.
Validação dos pressupostos da regressão-análise

de resíduos
1- Para averiguar se os erros são normais é usual traçar

um QQ-plot ou um PP-plot para os resíduos e testar a
normalidade por testes à Normalidade (Teste K-S).
2- Para averiguar se os erros são aleatórios (independentes)

e se a variância é constante constroem-se, usualmente,
gráficos de resíduos versus valores preditos (ou observados
se possível estandardizados), e esses gráficos devem
apresentar manchas de pontos aleatórios de dispersão
(constante) em torno do eixo das abcissas.
10
5
24-04-2019
Selecção de variáveis na regressão múltipla

Existem diversos procedimentos para selecionar um conjunto
de variáveis (regressores) tidas como fundamentais ou mais
Importantes em cada problema.
Backward: Neste método começa-se com todas as variáveis e

eliminam-se as menos importantes uma a uma. Começa-se
por calcular as estatísticas F para cada um dos regressores.
As estatísticas de teste F com valores inferiores a um certo
limiar pré-estabelecido, retira-se a variável com menor valor
de F. Voltam-se a calcular os valores das estatísticas F com
base no novo conjunto de regressores, repete-se o
Procedimento até que nenhuma estatística F seja inferior ao
valor pré-estabelecido.
11
Forward: Neste método as variáveis são introduzidas uma a

uma. A primeira a ser introduzida é aquela que tiver maior
coeficiente de correlação (em módulo) com a variável
dependente Y. Nos passos seguintes são introduzidas de
forma sequencial as variáveis com maior coeficiente de
correlação parcial entre a variável dependente e a variável que
se pretende introduzir tendo em conta as variáveis já
introduzidas. Em cada passo é avaliado o valor da estatística F
correspondente ao novo parâmetro de regressão introduzido.
Se o valor de F for inferior a um determinado valor pré
estabelecido a variável que se acabou de introduzir é eliminada
e considera-se uma nova variável …..
12
6
24-04-2019
Stepwise: Este método combina os anteriores. Basicamente é

um procedimento forward pois vai adicionando variáveis uma
a uma. No entanto, em cada passo é feita uma análise das
variáveis já introduzidas até aí, por forma a garantir que
permanecem relevantes após a introdução de uma nova
variável. Este método é o mais completo dos três
apresentados.
Exemplo: Consideremos o conjunto de dados referentes a

diversas características num conjunto de 109 países
Entre essas características encontram-se as seguintes que
iremos considerar: esperança de vida feminina, mortalidade
infantil, taxa de mortalidade, literacia feminina, consumo diário
de calorias e produto interno bruto (em escala logaritmica).
Será que podemos relacionar a esperança de vida feminina (Y)
com as restantes variáveis através de um modelo de regressão
linear múltipla? 13
Uma análise preliminar dos gráficos de dispersão da variável

dependente Y versus cada uma das variáveis permite-nos
dizer que entre os vários regressores em causa, o consumo
diário de calorias, o produto interno bruto e a literacia feminina
não parecem estar relacionadas com a esperança de vida
feminina.
14
7
24-04-2019
15
Ao efectuar uma análise de regressão múltipla com as variáveis

independentes (Calorias ingeridas, Taxa de mortalidade, Mulheres que
lêem, Mortalidade infantil e log do PIB), e usando a Esperança de vida
feminina para variável dependente :
16
8
24-04-2019
Ao efectuar uma análise de regressão com todas as variáveis

obtêm-se as seguintes tabelas de resultados:
6817.181
R2   0.958
7118.305
Obs: os g.l do total (59-1) correspondem ao total de países sem

valores omissos em todas as variáveis estudadas. 17
Yi'  63,864  0,002 X1,i  0,774 X 2,i  0,051X 3,i  2,472 X 4,i  0,124 X 5,i
Predictors: (Constant), X1=Calorias ingeridas diariamente; X2=Taxa de

mortalidade por 1000 pessoas; X3= Mulheres que lêem (%); X4=Log
(base 10) do PIB_CAP; X5=Mortalidade infantil (mortes por 1000
nascimentos).
18
9
24-04-2019
• Utilizando o método stepwise de selecção de variáveis

obtêm-se os seguintes resultados:
19
20
10
24-04-2019
Yi'  71,866  0,696 X 2,i  3,479 X 4,i  0,174 X 5,i
Predictors: (Constant), X2=Taxa de mortalidade por 1000 pessoas; X4=Log

(base 10) do PIB_CAP; X5=Mortalidade infantil (mortes por 1000 nascimentos). 21
Yi'  71,866  0,696 X 2,i  3,479 X 4,i  0,174 X 5,i
B2=-0,696 - em média um aumento (acréscimo) na taxa de

mortalidade de um por 1000 pessoas leva a uma diminuição de
0,696 anos na esperança de vida feminina (mantendo
constante os valores das outras variáveis) ;
B4=3,479 - em média um aumento de 1 valor no resultado do

Log (base 10) do PIB_CAP leva a um aumento de 3,479 anos
na esperança de vida feminina (mantendo constante os valores
das outras variáveis) ;
B5=-0,174 - em média um aumento de 10 mortes infantis(por

1000 nascimentos) leva a uma diminuição de 1,74 anos na
esperança de vida feminina (mantendo constante os valores
das outras variáveis) .
22
11
24-04-2019
23
Pelo método stepwise podemos concluir que apenas as

variáveis mortalidade infantil, taxa de mortalidade e produto
interno bruto contribuem de forma significativa para explicar
possíveis variações na esperança de vida feminina.
• Os valores dos coeficientes de determinação (ajustado

(0.949) ou não ajustado (0.951)) permitem considerar válido o
modelo de regressão linear múltipla para este conjunto de
dados.
E que pode ser confirmado através da ANOVA que produz um

p-value nulo para o teste ao significado da regressão.
24
12
24-04-2019
O gráfico de dispersão dos valores observados versus valores

previstos também dá indicação de que o modelo de regressão
tem significado, já que os pontos se dispõem em torno de uma
reta.
25
Por forma a validar os pressupostos da regressão construiu-se

um PP-plot (Normal) dos resíduos e um gráfico de dispersão
dos resíduos estandardizados versus preditos.
26
13
24-04-2019
O PP-plot não dá muito boas indicações quanto à normalidade

dos resíduos. No entanto, a análise de resíduos não põe em
causa a independência e igualdade de variâncias dos mesmos.
27
Usando o teste de Kolmogorov-Smirnov, ao nível de

significância de 5%, p-value =0.07 (>5%), aceitamos a
hipótese nula de que a lei inerente aos resíduos
estandardizados é Normal.
28
14
24-04-2019
Podemos concluir que apenas as variáveis mortalidade

infantil, taxa de mortalidade e produto interno bruto contribuem
de forma significativa para explicar possíveis variações na
esperança de vida feminina.
• Os valores dos coeficientes de determinação (ajustado

(0.949) ou não ajustado (0.951)) permitem considerar
válido o modelo de regressão linear múltipla para este
conjunto de dados.
• Comparando a estimativa do desvio padrão da variável Y

(11.411) com a estimativa do desvio padrão dos erros (St.
Error of the Estimate na tabela dos coeficientes de
determinação=2.513), pode-se observar uma diminuição
significativa da variabilidade das observações.
29
15

s6 RLM

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

s6 RLM

Enviado por

Direitos autorais:

Formatos disponíveis

24-04-2019

Docente : Elisete Correia

Regressão linear múltipla

Em muitas situações as observações dependem de várias

Se incluirmos k regressores (var. independentes) na análise

Yi'  b0  b1 X1,i  b2 X 2,i  ...  bk X k ,i   i i  1,...n

A análise de um modelo de regressão linear múltipla é

Yi'  bˆ0  bˆ1x1  bˆ2 x2  ...  bˆk xk

E as estimativas dos p parâmetros da regressão (b0, b1, …,bk) são

A 1ª coluna identifica as variáveis (constante) respetivas aos coeficientes;

b0-representa o valor esperado da variável resposta Y quando as

bi, i= 1, …., k expressa a variação média da variável resposta Y, por

Nota: os coeficientes bi, não permitem quantificar a importância relativa de

Nesta tabela as somas de quadrados são definidas como na

Rejeita-se a hipótese nula para valores elevados da

Avaliação da qualidade e significado da regressão

Gráficos para os resíduos e verificação dos pressupostos;

Teste ao “significado” da regressão.

Medidas de qualidade do modelo

mede a proporção da variação (total) de Y que é explicada pelo

Coeficiente de determinação ajustado

penaliza ajustamentos baseados num número de observações n não

Validação dos pressupostos da regressão-análise

1- Para averiguar se os erros são normais é usual traçar

2- Para averiguar se os erros são aleatórios (independentes)

Selecção de variáveis na regressão múltipla

Backward: Neste método começa-se com todas as variáveis e

Forward: Neste método as variáveis são introduzidas uma a

Stepwise: Este método combina os anteriores. Basicamente é

Exemplo: Consideremos o conjunto de dados referentes a

Uma análise preliminar dos gráficos de dispersão da variável

Ao efectuar uma análise de regressão múltipla com as variáveis

Ao efectuar uma análise de regressão com todas as variáveis

Obs: os g.l do total (59-1) correspondem ao total de países sem

Predictors: (Constant), X1=Calorias ingeridas diariamente; X2=Taxa de

• Utilizando o método stepwise de selecção de variáveis

Yi'  71,866  0,696 X 2,i  3,479 X 4,i  0,174 X 5,i

Predictors: (Constant), X2=Taxa de mortalidade por 1000 pessoas; X4=Log

Yi'  71,866  0,696 X 2,i  3,479 X 4,i  0,174 X 5,i

B2=-0,696 - em média um aumento (acréscimo) na taxa de

B4=3,479 - em média um aumento de 1 valor no resultado do

B5=-0,174 - em média um aumento de 10 mortes infantis(por

Pelo método stepwise podemos concluir que apenas as

• Os valores dos coeficientes de determinação (ajustado

E que pode ser confirmado através da ANOVA que produz um

O gráfico de dispersão dos valores observados versus valores

Por forma a validar os pressupostos da regressão construiu-se

O PP-plot não dá muito boas indicações quanto à normalidade

Usando o teste de Kolmogorov-Smirnov, ao nível de

Podemos concluir que apenas as variáveis mortalidade

• Os valores dos coeficientes de determinação (ajustado

• Comparando a estimativa do desvio padrão da variável Y

Você também pode gostar