Você está na página 1de 22

Docente : Elisete Correia

(ecorreia@utad.pt)
Regressão linear múltipla

Em muitas situações as observações dependem de várias


variáveis em simultâneo e é necessário incluir todas as
variáveis de interesse na análise.

Se incluirmos k regressores (var. independentes) na análise


teremos a seguinte expressão para o modelo:

Yi'  b0  b1 X1,i  b2 X 2,i  ...  bk X k ,i   i i  1,...n

2
Pressupostos:

1- os valores de Xj,i dizem respeito às variáveis independentes ;


2- Os erros são independentes e identicamente distribuídos com
distribuição normal de média 0 e variância constante σ2.

A análise de um modelo de regressão linear múltipla é análoga à do modelo de


regressão linear simples, sendo as analogias mais fáceis de identificar se usarmos
notação matricial.

Assim, o modelo anterior pode ser escrito como

3
Yi'  bˆ0  bˆ1x1  bˆ2 x2  ...  bˆk xk

E as estimativas dos p parâmetros da regressão (b0, b1, …,bk) são dadas pelas
soluções da minimização da soma dos quadrados dos erros
n
L    i2
i 1
4
Tabela de regressão
Ao efetuar uma análise de regressão linear múltipla através de um software
de estatística obtém-se uma tabela como semelhante à seguinte:

A 1ª coluna identifica as variáveis (constante) respetivas aos coeficientes;


A 2ª coluna apresenta as estimativas dos coeficientes do modelo;
O valor de t (t obs) e o respetivo p-value indicam se de acordo com o(s) teste(s)
ao(s) coeficiente(s), sendo a hipótese nula a de que o coeficiente (em causa) é nulo, se rejeita essa
hipótese nula ou não.
A lei em que se baseiam os testes é uma t-Student com (n-p) g.l. com (p=k+1 parâmetros a
estimar).
5
ANOVA da regressão

A tabela da ANOVA é a seguinte:

SSR
R2  % de variância
S YY
devida à regressão

Nesta tabela as somas de quadrados são definidas como na regressão simples. A


ANOVA dá resposta ao teste:

Rejeita-se a hipótese nula para valores elevados da estatística de teste F ou seja


valores de prova (p-value) menores que o valor de significância delimitado
(usualmente 5%)
6
Avaliação da qualidade e significado da regressão

-Métodos gráficos

Habitualmente constroem-se diagramas de dispersão para visualizar a


relação entre Y e cada um dos regressores individualmente.

-Coeficiente de determinação

-Gráficos para os resíduos e verificação dos pressupostos;


( aleatoriedade e variância constante)

-Testes ao “significado” da regressão.

7
Medidas de qualidade do modelo

Coeficiente de determinação

mede a proporção da variação (total) de Y que é explicada pelo modelo de


regressão múltiplo ajustado.

Coeficiente de determinação ajustado

penaliza ajustamentos baseados num número de observações n não muito


superior ao número de parâmetros k (p).

8
Validação dos pressupostos da regressão-análise
de resíduos

1- Para averiguar se os erros são normais é usual traçar um QQ-plot


ou um PP-plot para os resíduos e testar a normalidade por testes à
Normalidade (Teste K-S).

2- Para averiguar se os erros são aleatórios (independentes) e se a


variância é constante constroem-se, usualmente, gráficos de resíduos
versus valores preditos (ou observados se possível estandardizados),
e esses gráficos devem apresentar manchas de pontos aleatórios de
dispersão (constante) em torno do eixo das abcissas.

9
Seleção de variáveis na regressão múltipla
Existem diversos procedimentos para selecionar um conjunto de variáveis tidas como
fundamentais ou mais importantes em cada problema.

Backward: Neste método começa-se com todas as variáveis e eliminam-se as menos importantes uma a
uma. Começa-se por calcular as estatísticas F para cada um dos regressores. As estatísticas de teste F
com valores inferiores a um certo limiar pré estabelecido, retira-se a variável com menor valor de F.
Voltam-se a calcular os valores das estatísticas F com base no novo conjunto de regressores, repete-se o
procedimento até que nenhuma estatística F seja inferior ao valor pré estabelecido.

Forward: Neste método as variáveis são introduzidas uma a uma. A primeira a ser introduzida é aquela
que tiver maior coeficiente de correlação (em módulo) com a variável dependente Y. Nos passos seguintes
são introduzidas de forma sequencial as variáveis com maior coeficiente de correlação parcial entre a
variável dependente e a variável que se pretende introduzir tendo em conta as variáveis já introduzidas.
Em cada passo é avaliado o valor da estatística F correspondente ao novo parâmetro de regressão
introduzido. Se o valor de F for inferior a um determinado valor pré estabelecido a variável que se acabou
ed introduzir é eliminada e considera-se uma nova variável …..

Stepwise: Este método combina os anteriores. Basicamente é um procedimento forward pois vai
adicionando variáveis uma a uma. No entanto, em cada passo é feita uma análise das variáveis já
introduzidas até aí, por forma a garantir que permanecem relevantes após a introdução de uma nova
variável. Este método é o mais completo dos três apresentados.
10
Exemplo: Considere as seguintes características: esperança de vida feminina,
mortalidade infantil, taxa de mortalidade, literacia feminina, consumo diário
de calorias e produto interno bruto (em escala logaritmica). Será que podemos
relacionar a esperança de vida feminina (Y) com as restantes variáveis através de
um modelo de regressão linear múltipla?

Gráficos de dispersão da variável dependente Y versus cada uma das


Variáveis:

11
12
Análise de regressão línear multipla

variável dependente: Esperança de vida feminina


variáveis independentes: Calorias ingeridas, Taxa de mortalidade, Mulheres que
lêem, Mortalidade infantil e log do PIB

13
tabelas de resultados:

6817.181
  0.954
2
Ra
7118.305

valor de prova=0,000, rej Ho, ou seja existe pelo menos um coeficiente diferente de
zero. 14
Yi'  63,864  0,002 X1,i  0,774 X 2,i  0,051 X 3,i  2,472 X 4,i  0,124 X 5,i

Preditores: (Constant), X1=Calorias ingeridas diariamente; X2=Taxa de mortalidade por 1000


pessoas; X3= Mulheres que lêem (%); X4=Log (base 10) do PIB_CAP; X5=Mortalidade
infantil (mortes por 1000 nascimentos).
15
Utilizando o método stepwise de seleção de variáveis obtêm-se os seguintes resultados:

16
Yi'  71,866  0,696 X 2,i  3,479 X 4,i  0,174 X 5,i

Preditores: (Constant), X2=Taxa de mortalidade por 1000 pessoas; X4=Log (base 10) do
PIB_CAP; X5=Mortalidade infantil (mortes por 1000 nascimentos).

17
Yi'  71,866  0,696 X 2,i  3,479 X 4,i  0,174 X 5,i

B2=-0,696 - em média um aumento (acréscimo) na taxa de mortalidade de um por 1000


pessoas leva a uma diminuição de 0,696 anos na esperança de vida feminina (mantendo
constante os valores das outras variáveis) ;

B4=3,479 - em média um aumento de 1 valor no resultado do Log (base 10) do PIB_CAP


leva a um aumento de 3,479 anos na esperança de vida feminina (mantendo constante os
valores das outras variáveis) ;

B5=-0,174 - em média um aumento de 10 mortes infantis(por 1000 nascimentos) leva a uma


diminuição de 1,74 anos na esperança de vida feminina (mantendo constante os valores das
outras variáveis) .
Pelo método stepwise podemos concluir que apenas as variáveis mortalidade infantil, taxa de
mortalidade e produto interno bruto contribuem de forma significativa para explicar possíveis
variações na esperança de vida feminina.

Os valores dos coeficientes de determinação (ajustado (0.949) ou não ajustado (0.951))


permitem considerar válido o modelo de regressão linear múltipla para este conjunto de dados.

E que pode ser confirmado através da ANOVA que produz um p-value <0.001 nulo para o teste
ao significado da regressão. 18
O gráfico de dispersão dos valores observados versus valoresmprevistos também dá
indicação de que o modelo de regressão tem significado, já que os pontos se dispõem
em torno de uma reta.

19
Por forma a validar os pressupostos da regressão construiu-se um PP-plot
(Normal) dos resíduos e um gráfico de dispersão dos resíduos
estandardizados versus preditos.

20
O PP-plot não dá muito boas indicações quanto à normalidade dos resíduos.
No entanto, a análise de resíduos não põe em causa a independência e
igualdade de variâncias dos mesmos.
21
Usando o teste de Kolmogorov-Smirnov, ao nível de significância de 5%,
p-value =0.07 (>5%), aceitamos a hipótese nula de que a lei inerente aos
resíduos estandardizados é Normal.

22

Você também pode gostar