Regressão Linear Multipla Teoria

Docente : Elisete Correia
(ecorreia@utad.pt)
Regressão linear múltipla
Em muitas situações as observações dependem de várias

variáveis em simultâneo e é necessário incluir todas as
variáveis de interesse na análise.
Se incluirmos k regressores (var. independentes) na análise

teremos a seguinte expressão para o modelo:
Yi'  b0  b1 X1,i  b2 X 2,i  ...  bk X k ,i   i i  1,...n
2
Pressupostos:
1- os valores de Xj,i dizem respeito às variáveis independentes ;

2- Os erros são independentes e identicamente distribuídos com
distribuição normal de média 0 e variância constante σ2.
A análise de um modelo de regressão linear múltipla é análoga à do modelo de

regressão linear simples, sendo as analogias mais fáceis de identificar se usarmos
notação matricial.
Assim, o modelo anterior pode ser escrito como
3
Yi'  bˆ0  bˆ1x1  bˆ2 x2  ...  bˆk xk
E as estimativas dos p parâmetros da regressão (b0, b1, …,bk) são dadas pelas
soluções da minimização da soma dos quadrados dos erros
n
L    i2
i 1
4
Tabela de regressão
Ao efetuar uma análise de regressão linear múltipla através de um software
de estatística obtém-se uma tabela como semelhante à seguinte:
A 1ª coluna identifica as variáveis (constante) respetivas aos coeficientes;

A 2ª coluna apresenta as estimativas dos coeficientes do modelo;
O valor de t (t obs) e o respetivo p-value indicam se de acordo com o(s) teste(s)
ao(s) coeficiente(s), sendo a hipótese nula a de que o coeficiente (em causa) é nulo, se rejeita essa
hipótese nula ou não.
A lei em que se baseiam os testes é uma t-Student com (n-p) g.l. com (p=k+1 parâmetros a
estimar).
5
ANOVA da regressão
A tabela da ANOVA é a seguinte:
SSR
R2  % de variância
S YY
devida à regressão
Nesta tabela as somas de quadrados são definidas como na regressão simples. A

ANOVA dá resposta ao teste:
Rejeita-se a hipótese nula para valores elevados da estatística de teste F ou seja

valores de prova (p-value) menores que o valor de significância delimitado
(usualmente 5%)
6
Avaliação da qualidade e significado da regressão
-Métodos gráficos
Habitualmente constroem-se diagramas de dispersão para visualizar a

relação entre Y e cada um dos regressores individualmente.
-Coeficiente de determinação
-Gráficos para os resíduos e verificação dos pressupostos;

( aleatoriedade e variância constante)
-Testes ao “significado” da regressão.
7
Medidas de qualidade do modelo
Coeficiente de determinação
mede a proporção da variação (total) de Y que é explicada pelo modelo de

regressão múltiplo ajustado.
Coeficiente de determinação ajustado
penaliza ajustamentos baseados num número de observações n não muito

superior ao número de parâmetros k (p).
8
Validação dos pressupostos da regressão-análise
de resíduos
1- Para averiguar se os erros são normais é usual traçar um QQ-plot

ou um PP-plot para os resíduos e testar a normalidade por testes à
Normalidade (Teste K-S).
2- Para averiguar se os erros são aleatórios (independentes) e se a

variância é constante constroem-se, usualmente, gráficos de resíduos
versus valores preditos (ou observados se possível estandardizados),
e esses gráficos devem apresentar manchas de pontos aleatórios de
dispersão (constante) em torno do eixo das abcissas.
9
Seleção de variáveis na regressão múltipla
Existem diversos procedimentos para selecionar um conjunto de variáveis tidas como
fundamentais ou mais importantes em cada problema.
Backward: Neste método começa-se com todas as variáveis e eliminam-se as menos importantes uma a
uma. Começa-se por calcular as estatísticas F para cada um dos regressores. As estatísticas de teste F
com valores inferiores a um certo limiar pré estabelecido, retira-se a variável com menor valor de F.
Voltam-se a calcular os valores das estatísticas F com base no novo conjunto de regressores, repete-se o
procedimento até que nenhuma estatística F seja inferior ao valor pré estabelecido.
Forward: Neste método as variáveis são introduzidas uma a uma. A primeira a ser introduzida é aquela
que tiver maior coeficiente de correlação (em módulo) com a variável dependente Y. Nos passos seguintes
são introduzidas de forma sequencial as variáveis com maior coeficiente de correlação parcial entre a
variável dependente e a variável que se pretende introduzir tendo em conta as variáveis já introduzidas.
Em cada passo é avaliado o valor da estatística F correspondente ao novo parâmetro de regressão
introduzido. Se o valor de F for inferior a um determinado valor pré estabelecido a variável que se acabou
ed introduzir é eliminada e considera-se uma nova variável …..
Stepwise: Este método combina os anteriores. Basicamente é um procedimento forward pois vai
adicionando variáveis uma a uma. No entanto, em cada passo é feita uma análise das variáveis já
introduzidas até aí, por forma a garantir que permanecem relevantes após a introdução de uma nova
variável. Este método é o mais completo dos três apresentados.
10
Exemplo: Considere as seguintes características: esperança de vida feminina,
mortalidade infantil, taxa de mortalidade, literacia feminina, consumo diário
de calorias e produto interno bruto (em escala logaritmica). Será que podemos
relacionar a esperança de vida feminina (Y) com as restantes variáveis através de
um modelo de regressão linear múltipla?
Gráficos de dispersão da variável dependente Y versus cada uma das

Variáveis:
11
12
Análise de regressão línear multipla
variável dependente: Esperança de vida feminina

variáveis independentes: Calorias ingeridas, Taxa de mortalidade, Mulheres que
lêem, Mortalidade infantil e log do PIB
13
tabelas de resultados:
6817.181
  0.954
2
Ra
7118.305
valor de prova=0,000, rej Ho, ou seja existe pelo menos um coeficiente diferente de
zero. 14
Yi'  63,864  0,002 X1,i  0,774 X 2,i  0,051 X 3,i  2,472 X 4,i  0,124 X 5,i
Preditores: (Constant), X1=Calorias ingeridas diariamente; X2=Taxa de mortalidade por 1000

pessoas; X3= Mulheres que lêem (%); X4=Log (base 10) do PIB_CAP; X5=Mortalidade
infantil (mortes por 1000 nascimentos).
15
Utilizando o método stepwise de seleção de variáveis obtêm-se os seguintes resultados:
16
Yi'  71,866  0,696 X 2,i  3,479 X 4,i  0,174 X 5,i
Preditores: (Constant), X2=Taxa de mortalidade por 1000 pessoas; X4=Log (base 10) do
PIB_CAP; X5=Mortalidade infantil (mortes por 1000 nascimentos).
17
Yi'  71,866  0,696 X 2,i  3,479 X 4,i  0,174 X 5,i
B2=-0,696 - em média um aumento (acréscimo) na taxa de mortalidade de um por 1000

pessoas leva a uma diminuição de 0,696 anos na esperança de vida feminina (mantendo
constante os valores das outras variáveis) ;
B4=3,479 - em média um aumento de 1 valor no resultado do Log (base 10) do PIB_CAP

leva a um aumento de 3,479 anos na esperança de vida feminina (mantendo constante os
valores das outras variáveis) ;
B5=-0,174 - em média um aumento de 10 mortes infantis(por 1000 nascimentos) leva a uma

diminuição de 1,74 anos na esperança de vida feminina (mantendo constante os valores das
outras variáveis) .
Pelo método stepwise podemos concluir que apenas as variáveis mortalidade infantil, taxa de
mortalidade e produto interno bruto contribuem de forma significativa para explicar possíveis
variações na esperança de vida feminina.
Os valores dos coeficientes de determinação (ajustado (0.949) ou não ajustado (0.951))

permitem considerar válido o modelo de regressão linear múltipla para este conjunto de dados.
E que pode ser confirmado através da ANOVA que produz um p-value <0.001 nulo para o teste
ao significado da regressão. 18
O gráfico de dispersão dos valores observados versus valoresmprevistos também dá
indicação de que o modelo de regressão tem significado, já que os pontos se dispõem
em torno de uma reta.
19
Por forma a validar os pressupostos da regressão construiu-se um PP-plot
(Normal) dos resíduos e um gráfico de dispersão dos resíduos
estandardizados versus preditos.
20
O PP-plot não dá muito boas indicações quanto à normalidade dos resíduos.
No entanto, a análise de resíduos não põe em causa a independência e
igualdade de variâncias dos mesmos.
21
Usando o teste de Kolmogorov-Smirnov, ao nível de significância de 5%,
p-value =0.07 (>5%), aceitamos a hipótese nula de que a lei inerente aos
resíduos estandardizados é Normal.
22

Regressão Linear Multipla Teoria

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Regressão Linear Multipla Teoria

Enviado por

Direitos autorais:

Formatos disponíveis

Docente : Elisete Correia

Em muitas situações as observações dependem de várias

Se incluirmos k regressores (var. independentes) na análise

Yi'  b0  b1 X1,i  b2 X 2,i  ...  bk X k ,i   i i  1,...n

1- os valores de Xj,i dizem respeito às variáveis independentes ;

A análise de um modelo de regressão linear múltipla é análoga à do modelo de

Assim, o modelo anterior pode ser escrito como

A 1ª coluna identifica as variáveis (constante) respetivas aos coeficientes;

A tabela da ANOVA é a seguinte:

Nesta tabela as somas de quadrados são definidas como na regressão simples. A

Rejeita-se a hipótese nula para valores elevados da estatística de teste F ou seja

Habitualmente constroem-se diagramas de dispersão para visualizar a

-Gráficos para os resíduos e verificação dos pressupostos;

-Testes ao “significado” da regressão.

mede a proporção da variação (total) de Y que é explicada pelo modelo de

Coeficiente de determinação ajustado

penaliza ajustamentos baseados num número de observações n não muito

1- Para averiguar se os erros são normais é usual traçar um QQ-plot

2- Para averiguar se os erros são aleatórios (independentes) e se a

Gráficos de dispersão da variável dependente Y versus cada uma das

variável dependente: Esperança de vida feminina

Preditores: (Constant), X1=Calorias ingeridas diariamente; X2=Taxa de mortalidade por 1000

B2=-0,696 - em média um aumento (acréscimo) na taxa de mortalidade de um por 1000

B4=3,479 - em média um aumento de 1 valor no resultado do Log (base 10) do PIB_CAP

B5=-0,174 - em média um aumento de 10 mortes infantis(por 1000 nascimentos) leva a uma

Os valores dos coeficientes de determinação (ajustado (0.949) ou não ajustado (0.951))

Você também pode gostar