Você está na página 1de 15

24-04-2019

Docente : Elisete Correia


(ecorreia@utad.pt)

Regressão linear múltipla

Em muitas situações as observações dependem de várias


variáveis em simultâneo e é necessário incluir todas as
variáveis de interesse na análise.

Se incluirmos k regressores (var. independentes) na análise


teremos a seguinte expressão para o modelo:

Yi'  b0  b1 X1,i  b2 X 2,i  ...  bk X k ,i   i i  1,...n

1
24-04-2019

Pressupostos:
1- os valores de Xj,i dizem respeito às variáveis
independedentes ;
2- Os erros são independentes e identicamente
distribuídos com distribuição normal de média 0 e
variância constante s2.

A análise de um modelo de regressão linear múltipla é


análoga à do modelo de regressão linear simples, sendo as
analogias mais fáceis de identificar se usarmos notação
matricial.
Assim, o modelo anterior pode ser escrito como

Yi'  bˆ0  bˆ1x1  bˆ2 x2  ...  bˆk xk

E as estimativas dos p parâmetros da regressão (b0, b1, …,bk) são


dadas pelas soluções da minimização da soma dos quadrados
dos erros n
L    i2 4
i 1

2
24-04-2019

Tabela de regressão
Ao efectuar uma análise de regressão linear múltipla através de um
software de estatística obtém-se uma tabela como semelhante à seguinte:

A 1ª coluna identifica as variáveis (constante) respetivas aos coeficientes;


A 2ª coluna apresenta as estimativas dos coeficientes do modelo;
O valor de t (t observado) e o respetivo p-value indicam se de acordo com o(s)
teste(s) ao(s) coeficiente(s), sendo a hipótese nula a de que o coeficiente (em
causa) é nulo, se rejeita essa hipótese nula ou não.
A lei em que se baseiam os testes é uma T-Student com n-p (g.l) com (p=k+1 parâmetros a
5
estimar).

Coeficientes da Regressão
Num modelo de regressão linear múltipla, os coeficientes de regressão
têm o seguinte significado:

b0-representa o valor esperado da variável resposta Y quando as


variáveis preditoras são todas nulas.

bi, i= 1, …., k expressa a variação média da variável resposta Y, por


cada variação unitária de xi , mantendo todas as demais variáveis fixas.

Nota: os coeficientes bi, não permitem quantificar a importância relativa de


Xi na explicação de Y quando as variáveis preditoras se apresentam em diferentes
unidades de medida. Neste caso, a importância relativa de cada variável Xi na
explicação da variação de Y mede-se com coeficientes beta

3
24-04-2019

ANOVA da regressão
A tabela da ANOVA é a seguinte:
SSR
R2  % de variância
SST
devida à regressão

Nesta tabela as somas de quadrados são definidas como na


regressão simples. A ANOVA dá resposta ao teste

Rejeita-se a hipótese nula para valores elevados da


estatística de teste F ou seja valores de prova (p-value)
menores que o valor de significância delimitado (usualmente 5%)
7

Avaliação da qualidade e significado da regressão

Métodos gráficos
Habitualmente constroem-se diagramas de dispersão para
visualizar a relação entre Y e cada um dos regressores
individualmente.

Coeficiente de determinação

Gráficos para os resíduos e verificação dos pressupostos;


( aleatoriedade e variância constante)

Teste ao “significado” da regressão.


8

4
24-04-2019

Medidas de qualidade do modelo

Coeficiente de determinação

mede a proporção da variação (total) de Y que é explicada pelo


modelo de
regressão múltiplo ajustado.

Coeficiente de determinação ajustado

penaliza ajustamentos baseados num número de observações n não


muito superior ao número de parâmetros k.

Validação dos pressupostos da regressão-análise


de resíduos

1- Para averiguar se os erros são normais é usual traçar


um QQ-plot ou um PP-plot para os resíduos e testar a
normalidade por testes à Normalidade (Teste K-S).

2- Para averiguar se os erros são aleatórios (independentes)


e se a variância é constante constroem-se, usualmente,
gráficos de resíduos versus valores preditos (ou observados
se possível estandardizados), e esses gráficos devem
apresentar manchas de pontos aleatórios de dispersão
(constante) em torno do eixo das abcissas.

10

5
24-04-2019

Selecção de variáveis na regressão múltipla


Existem diversos procedimentos para selecionar um conjunto
de variáveis (regressores) tidas como fundamentais ou mais
Importantes em cada problema.

Backward: Neste método começa-se com todas as variáveis e


eliminam-se as menos importantes uma a uma. Começa-se
por calcular as estatísticas F para cada um dos regressores.
As estatísticas de teste F com valores inferiores a um certo
limiar pré-estabelecido, retira-se a variável com menor valor
de F. Voltam-se a calcular os valores das estatísticas F com
base no novo conjunto de regressores, repete-se o
Procedimento até que nenhuma estatística F seja inferior ao
valor pré-estabelecido.

11

Forward: Neste método as variáveis são introduzidas uma a


uma. A primeira a ser introduzida é aquela que tiver maior
coeficiente de correlação (em módulo) com a variável
dependente Y. Nos passos seguintes são introduzidas de
forma sequencial as variáveis com maior coeficiente de
correlação parcial entre a variável dependente e a variável que
se pretende introduzir tendo em conta as variáveis já
introduzidas. Em cada passo é avaliado o valor da estatística F
correspondente ao novo parâmetro de regressão introduzido.
Se o valor de F for inferior a um determinado valor pré
estabelecido a variável que se acabou de introduzir é eliminada
e considera-se uma nova variável …..

12

6
24-04-2019

Stepwise: Este método combina os anteriores. Basicamente é


um procedimento forward pois vai adicionando variáveis uma
a uma. No entanto, em cada passo é feita uma análise das
variáveis já introduzidas até aí, por forma a garantir que
permanecem relevantes após a introdução de uma nova
variável. Este método é o mais completo dos três
apresentados.

Exemplo: Consideremos o conjunto de dados referentes a


diversas características num conjunto de 109 países
Entre essas características encontram-se as seguintes que
iremos considerar: esperança de vida feminina, mortalidade
infantil, taxa de mortalidade, literacia feminina, consumo diário
de calorias e produto interno bruto (em escala logaritmica).
Será que podemos relacionar a esperança de vida feminina (Y)
com as restantes variáveis através de um modelo de regressão
linear múltipla? 13

Uma análise preliminar dos gráficos de dispersão da variável


dependente Y versus cada uma das variáveis permite-nos
dizer que entre os vários regressores em causa, o consumo
diário de calorias, o produto interno bruto e a literacia feminina
não parecem estar relacionadas com a esperança de vida
feminina.

14

7
24-04-2019

15

Ao efectuar uma análise de regressão múltipla com as variáveis


independentes (Calorias ingeridas, Taxa de mortalidade, Mulheres que
lêem, Mortalidade infantil e log do PIB), e usando a Esperança de vida
feminina para variável dependente :

16

8
24-04-2019

Ao efectuar uma análise de regressão com todas as variáveis


obtêm-se as seguintes tabelas de resultados:

6817.181
R2   0.958
7118.305

Obs: os g.l do total (59-1) correspondem ao total de países sem


valores omissos em todas as variáveis estudadas. 17

Yi'  63,864  0,002 X1,i  0,774 X 2,i  0,051X 3,i  2,472 X 4,i  0,124 X 5,i

Predictors: (Constant), X1=Calorias ingeridas diariamente; X2=Taxa de


mortalidade por 1000 pessoas; X3= Mulheres que lêem (%); X4=Log
(base 10) do PIB_CAP; X5=Mortalidade infantil (mortes por 1000
nascimentos).
18

9
24-04-2019

• Utilizando o método stepwise de selecção de variáveis


obtêm-se os seguintes resultados:

19

20

10
24-04-2019

Yi'  71,866  0,696 X 2,i  3,479 X 4,i  0,174 X 5,i

Predictors: (Constant), X2=Taxa de mortalidade por 1000 pessoas; X4=Log


(base 10) do PIB_CAP; X5=Mortalidade infantil (mortes por 1000 nascimentos). 21

Yi'  71,866  0,696 X 2,i  3,479 X 4,i  0,174 X 5,i

B2=-0,696 - em média um aumento (acréscimo) na taxa de


mortalidade de um por 1000 pessoas leva a uma diminuição de
0,696 anos na esperança de vida feminina (mantendo
constante os valores das outras variáveis) ;

B4=3,479 - em média um aumento de 1 valor no resultado do


Log (base 10) do PIB_CAP leva a um aumento de 3,479 anos
na esperança de vida feminina (mantendo constante os valores
das outras variáveis) ;

B5=-0,174 - em média um aumento de 10 mortes infantis(por


1000 nascimentos) leva a uma diminuição de 1,74 anos na
esperança de vida feminina (mantendo constante os valores
das outras variáveis) .

22

11
24-04-2019

23

Pelo método stepwise podemos concluir que apenas as


variáveis mortalidade infantil, taxa de mortalidade e produto
interno bruto contribuem de forma significativa para explicar
possíveis variações na esperança de vida feminina.

• Os valores dos coeficientes de determinação (ajustado


(0.949) ou não ajustado (0.951)) permitem considerar válido o
modelo de regressão linear múltipla para este conjunto de
dados.

E que pode ser confirmado através da ANOVA que produz um


p-value nulo para o teste ao significado da regressão.

24

12
24-04-2019

O gráfico de dispersão dos valores observados versus valores


previstos também dá indicação de que o modelo de regressão
tem significado, já que os pontos se dispõem em torno de uma
reta.

25

Por forma a validar os pressupostos da regressão construiu-se


um PP-plot (Normal) dos resíduos e um gráfico de dispersão
dos resíduos estandardizados versus preditos.

26

13
24-04-2019

O PP-plot não dá muito boas indicações quanto à normalidade


dos resíduos. No entanto, a análise de resíduos não põe em
causa a independência e igualdade de variâncias dos mesmos.

27

Usando o teste de Kolmogorov-Smirnov, ao nível de


significância de 5%, p-value =0.07 (>5%), aceitamos a
hipótese nula de que a lei inerente aos resíduos
estandardizados é Normal.
28

14
24-04-2019

Podemos concluir que apenas as variáveis mortalidade


infantil, taxa de mortalidade e produto interno bruto contribuem
de forma significativa para explicar possíveis variações na
esperança de vida feminina.

• Os valores dos coeficientes de determinação (ajustado


(0.949) ou não ajustado (0.951)) permitem considerar
válido o modelo de regressão linear múltipla para este
conjunto de dados.

• Comparando a estimativa do desvio padrão da variável Y


(11.411) com a estimativa do desvio padrão dos erros (St.
Error of the Estimate na tabela dos coeficientes de
determinação=2.513), pode-se observar uma diminuição
significativa da variabilidade das observações.
29

15

Você também pode gostar