Escolar Documentos
Profissional Documentos
Cultura Documentos
(ecorreia@utad.pt)
Regressão linear múltipla
2
Pressupostos:
3
Yi' bˆ0 bˆ1x1 bˆ2 x2 ... bˆk xk
E as estimativas dos p parâmetros da regressão (b0, b1, …,bk) são dadas pelas
soluções da minimização da soma dos quadrados dos erros
n
L i2
i 1
4
Tabela de regressão
Ao efetuar uma análise de regressão linear múltipla através de um software
de estatística obtém-se uma tabela como semelhante à seguinte:
SSR
R2 % de variância
S YY
devida à regressão
-Métodos gráficos
-Coeficiente de determinação
7
Medidas de qualidade do modelo
Coeficiente de determinação
8
Validação dos pressupostos da regressão-análise
de resíduos
9
Seleção de variáveis na regressão múltipla
Existem diversos procedimentos para selecionar um conjunto de variáveis tidas como
fundamentais ou mais importantes em cada problema.
Backward: Neste método começa-se com todas as variáveis e eliminam-se as menos importantes uma a
uma. Começa-se por calcular as estatísticas F para cada um dos regressores. As estatísticas de teste F
com valores inferiores a um certo limiar pré estabelecido, retira-se a variável com menor valor de F.
Voltam-se a calcular os valores das estatísticas F com base no novo conjunto de regressores, repete-se o
procedimento até que nenhuma estatística F seja inferior ao valor pré estabelecido.
Forward: Neste método as variáveis são introduzidas uma a uma. A primeira a ser introduzida é aquela
que tiver maior coeficiente de correlação (em módulo) com a variável dependente Y. Nos passos seguintes
são introduzidas de forma sequencial as variáveis com maior coeficiente de correlação parcial entre a
variável dependente e a variável que se pretende introduzir tendo em conta as variáveis já introduzidas.
Em cada passo é avaliado o valor da estatística F correspondente ao novo parâmetro de regressão
introduzido. Se o valor de F for inferior a um determinado valor pré estabelecido a variável que se acabou
ed introduzir é eliminada e considera-se uma nova variável …..
Stepwise: Este método combina os anteriores. Basicamente é um procedimento forward pois vai
adicionando variáveis uma a uma. No entanto, em cada passo é feita uma análise das variáveis já
introduzidas até aí, por forma a garantir que permanecem relevantes após a introdução de uma nova
variável. Este método é o mais completo dos três apresentados.
10
Exemplo: Considere as seguintes características: esperança de vida feminina,
mortalidade infantil, taxa de mortalidade, literacia feminina, consumo diário
de calorias e produto interno bruto (em escala logaritmica). Será que podemos
relacionar a esperança de vida feminina (Y) com as restantes variáveis através de
um modelo de regressão linear múltipla?
11
12
Análise de regressão línear multipla
13
tabelas de resultados:
6817.181
0.954
2
Ra
7118.305
valor de prova=0,000, rej Ho, ou seja existe pelo menos um coeficiente diferente de
zero. 14
Yi' 63,864 0,002 X1,i 0,774 X 2,i 0,051 X 3,i 2,472 X 4,i 0,124 X 5,i
16
Yi' 71,866 0,696 X 2,i 3,479 X 4,i 0,174 X 5,i
Preditores: (Constant), X2=Taxa de mortalidade por 1000 pessoas; X4=Log (base 10) do
PIB_CAP; X5=Mortalidade infantil (mortes por 1000 nascimentos).
17
Yi' 71,866 0,696 X 2,i 3,479 X 4,i 0,174 X 5,i
E que pode ser confirmado através da ANOVA que produz um p-value <0.001 nulo para o teste
ao significado da regressão. 18
O gráfico de dispersão dos valores observados versus valoresmprevistos também dá
indicação de que o modelo de regressão tem significado, já que os pontos se dispõem
em torno de uma reta.
19
Por forma a validar os pressupostos da regressão construiu-se um PP-plot
(Normal) dos resíduos e um gráfico de dispersão dos resíduos
estandardizados versus preditos.
20
O PP-plot não dá muito boas indicações quanto à normalidade dos resíduos.
No entanto, a análise de resíduos não põe em causa a independência e
igualdade de variâncias dos mesmos.
21
Usando o teste de Kolmogorov-Smirnov, ao nível de significância de 5%,
p-value =0.07 (>5%), aceitamos a hipótese nula de que a lei inerente aos
resíduos estandardizados é Normal.
22