Você está na página 1de 23

Análise de Regressão

(aula 2)

Profa Alcione Miranda dos Santos


Departamento de Saúde Pública
UFMA
Seleção de Variáveis na Regressão Múltipla

 Um problema importante em muitas aplicações da análise de


regressão envolve selecionar o conjunto de variáveis
independentes ou preditoras a ser usado no modelo.

 Algumas vezes, experiência prévia ou considerações teóricas em


foco podem ajudar o analista a especificar o conjunto de preditoras.

 Uma grande quantidade de julgamento e de experiência com o


fenômeno sendo modelado é geralmente necessária para
selecionar um conjunto apropriado de variáveis preditoras para um
modelo de regressão múltipla.
Procedimentos Computacionais para a
Seleção de Variáveis

 Regressão Stepwise

 Regressão Forward
Regressão Stepwise

 Provavelmente, é a técnica mais utilizada de seleção de variáveis.

 O procedimento constrói iterativamente uma seqüência de modelos


de regressão pela adição ou remoção de variáveis em cada etapa.

 O critério para adicionar ou remover uma variável em qualquer


etapa é geralmente expresso em termos de um teste parcial F.

 A regressão stepwise começa formando um modelo com uma


variável, usando a variável preditora que tenha a mais alta
correlação com a variável de resposta.
O comando sw é usado para regressão stepwise.

• sw regress y x1 x2 x3 x4, pr(.05)


• sw regress y x1 x2 x3 x4, pe(.05)
•sw regress y x1 x2 x3 x4, pe(.05) pr(.1)

A opção pr é a probabilidade para remover uma variável.


A opção pe é a probabilidade para a entrada de uma variável.

Exemplo: Considere o exemplo 2.


sw regress tempo idade sexo acuidade, pr(0.1) pe(0.05)
begin with full model
p = 0.1152 >= 0.1000 removing sexo

Source | SS df MS Number of obs = 20


-------------+------------------------------ F( 2, 17) = 41.38
Model | 1139.02973 2 569.514867 Prob > F = 0.0000
Residual | 233.970266 17 13.7629568 R-squared = 0.8296
-------------+------------------------------ Adj R-squared = 0.8095
Total | 1373 19 72.2631579 Root MSE = 3.7098

------------------------------------------------------------------------------
tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
idade | .6503912 .1279417 5.08 0.000 .3804578 .9203247
acuidade | -.4538341 .0928187 -4.89 0.000 -.6496644 -.2580038
_cons | 126.5642 10.09118 12.54 0.000 105.2736 147.8547
------------------------------------------------------------------------------
Regressão Forward

 O procedimento de seleção forward é uma variação da regressão


stepwise, e está baseado no princípio de que as variáveis preditoras
devem ser adicionadas ao modelo uma de cada vez até que não
haja mais variáveis preditoras.

 A seleção progressiva é uma simplificação da regressão stepwise


que omite o teste parcial F de remoção do modelo das variáveis que
foram adicionadas em etapas prévias.

 Essa é uma potencial fraqueza da seleção forward.


Suposições do Modelo de Regressão

 Todo modelo probabilístico requer o estabelecimento de


premissas sob as quais o mesmo deve funcionar.
 Muitas vezes, no entanto, tais premissas são violadas e o
pesquisador deve proceder de modo a fazer as alterações
necessárias.

 As premissas básicas para o modelo de regressão são:


 Linearidade do fenômeno medido
 Variância constante dos termos de erro (Homoscedasticidade)
 Normalidade dos erros
 Erros independentes
 Ausência de colinearidade
 Ausência de observações aberrantes
Testando as suposições
 Predizer y e os resíduos
 predict yest, xb (valores preditos serão armazenados na variável yest)

 predict res, resid (resíduos serão armazenados na variável res)

 Fazer os gráficos dos resíduos versus valores


preditos
 linear?
 variância constante?
 independentes?
Linearidade
 Linearidade significa que a
relação entre as variáveis
independentes e dependente é
linear.

 A linearidade é facilmente
examinada utilizando:
 Gráficos de Dispersão
 Gráfico de resíduos

 O gráfico de resíduos é
facilmente construído no
Não linearidade
STATA:
rvfplot, yline(0)
 Se uma relação não-linear é encontrada, a abordagem mais direta é
transformar uma ou as duas variáveis de modo a ter linearidade.

 Várias transformações podem ser usadas:

TIPO EQUAÇÃO TRANSFORMAÇÃO VARIÁVEL X VARIÁVEL Y

Linear Y = a + bx Y = a + bx x y
Exponencial Y = a.ebx ln y = ln a + bx x ln Y
Logarítmica Y = a + b.ln x Y = a + b.ln x ln x y

Potência Y = a.xb ln y = ln a + b.ln x ln x ln y


Homoscedasticidade
 A presença de variâncias desiguais
(heteroscedasticidade) é uma das
violações mais comuns das
suposições.
Gráfico nulo
 O diagnóstico é feito com gráficos de
resíduos ou testes estatísticos.

 A representação gráfica dos resíduos


(estudantizados) versus os valores
previstos e a sua comparação com o
gráfico nulo mostra um padrão
consistente se a variância não for
constante.
heteroscedasticidade
Vários programas estatísticos disponibilizam testes estatísticos
para heteroscedasticidade. Por exemplo, o STATA fornece o
teste Cook-Weisberg (testa se a variância dos erros é constante).
Comando: hettest

Exemplo: Considerando o exemplo 1, temos:

hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of tempo

chi2(1) = 0.14
Prob > chi2 = 0.7089
Se ocorrer heteroscedasticidade, duas ações corretivas
são possíveis:
 Transformações para estabilização da variância;
 Se for possível atribuir a violação a uma única
variável dependente, usar o métodos dos mínimos
quadrados ponderados poderá ser empregado.

Algumas transformações que estabilizam a variância:


1) y
2) log y
3) arcsen y
Normalidade
 Talvez a violação mais freqüentemente
encontrada seja a não normalidade da
variáveis independentes e dependentes
ou ambas
 O diagnóstico mais simples para o
conjunto de variáveis independentes é um
histograma de resíduos.
 Um método mais eficiente é o uso de
gráficos de probabilidade normal.
Também pode ser utilizado o Teste
Shapiro Wilk. Distribuição normal
Exemplo: Retornemos ao exemplo 1. Vamos verificar se
os resíduos são normalmente distribuídos.

Primeiramente, vamos construir o gráfico de probabilidade normal.

regress tempo idade

10
predict res, resid
qnorm res

5
Residuals
0-5
-10

-10 -5 0 5 10
Inverse N ormal
Realizando o teste Shapiro Wilk, obtemos o seguinte resultado:

swilk res

Shapiro-Wilk W test for normal data


Variable | Obs W V z Prob>z
-----------+-------------------------------------------------
res | 20 0.93816 1.464 0.768 0.22126

Podemos concluir que os resíduos são normalmente distribuídos.


Colinearidade
 Colinearidade significa que as variáveis independentes são
correlacionadas

 A colinearidade pode ser detectada, dentre outros modos, através da


matriz de correlação entre as varáveis.

 Outra técnica usada é o fator de inflação de variação (variance inflator


factor), cujos altos valores indicam a sua existência .

sendo Rj resulta da regressão de Xj com as outras variáveis.

 Sugere-se, no entanto, quando ocorrer colinearidade, que algumas


variáveis explicativas sejam retiradas do estudo e/ou que se tente obter
maior número de observações.
Erros Independentes

 A correlação de resíduos é um problema que pode


surgir quando as observações são efetuadas ao longo
do tempo.

 Neste caso, é conveniente utilizar a estatística de teste


de Durbin-Watson.
Exemplo: Considere o exemplo 2. Você diria que as
variáveis independentes são correlacionadas?

Vamos calcular o fator de inflação de variação, no STATA

regress tempo idade sexo acuidade


VIF tolerância

Variable | VIF 1/VIF


-------------+----------------------
acuidade | 1.34 0.746053
idade | 1.21 0.824128
sexo | 1.13 0.887324
-------------+----------------------
Mean VIF | 1.23

NOTA: Valores VIF acima de 4, indicam variáveis correlacionadas.


Identificação de Observações Influentes

 Quando usamos regressão


múltipla, ocasionalmente se
encontra que algum subconjunto
de observações influentes.

 Algumas vezes, essas


observações que influenciam
estão relativamente longe da
vizinhança onde o resto dos
dados foi coletado

Se esses pontos que influenciam forem pontos ″ruins″, ou errôneos de algum


modo, então eles devem ser eliminados.
Vários métodos de detecção de observações influentes são propostos.
Entre eles, citamos a medida da distância Cook.

MEDIDA DA DISTÂNCIA COOK

É uma medida da distância ao quadrado entre a estimativa usual de


mínimos quadrados de β, baseada em todas n observações, e a
estimativa obtida quando o i -ésimo ponto for removido.

Para cada observação i, é calculada a distância Di, valor de Di > 4/ n


indica que o ponto exerce influência.
Exemplo: Considere o exemplo 2, acrescido de observação
discrepante.
regress tempo idade sexo acuidade

Source | SS df MS Number of obs = 21


-------------+------------------------------ F( 3, 17) = 0.94
Model | 868.222607 3 289.407536 Prob > F = 0.4435
Residual | 5238.34882 17 308.138166 R-squared = 0.1422
-------------+------------------------------ Adj R-squared = -0.0092
Total | 6106.57143 20 305.328571 Root MSE = 17.554

------------------------------------------------------------------------------
tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
idade | .0951472 .5941671 0.16 0.875 -1.158436 1.34873
sexo | -9.944194 8.144006 -1.22 0.239 -27.12654 7.238157
acuidade | -.2873334 .4653876 -0.62 0.545 -1.269215 .6945486
_cons | 147.2193 47.56397 3.10 0.007 46.8681 247.5705
------------------------------------------------------------------------------
Vamos identificar a existência de informações influentes.

180
160
140
tempo
120
100

20 25 30 35 40
idade

Calculando a medida de distância:


predict d1, cooksd
list d1 if d1>4/4.58,clean

Você também pode gostar