Step Wise

Análise de Regressão
(aula 2)
Profa Alcione Miranda dos Santos

Departamento de Saúde Pública
UFMA
Seleção de Variáveis na Regressão Múltipla
Um problema importante em muitas aplicações da análise de

regressão envolve selecionar o conjunto de variáveis
independentes ou preditoras a ser usado no modelo.
Algumas vezes, experiência prévia ou considerações teóricas em

foco podem ajudar o analista a especificar o conjunto de preditoras.
Uma grande quantidade de julgamento e de experiência com o

fenômeno sendo modelado é geralmente necessária para
selecionar um conjunto apropriado de variáveis preditoras para um
modelo de regressão múltipla.
Procedimentos Computacionais para a
Seleção de Variáveis
Regressão Stepwise
Regressão Forward
Regressão Stepwise
Provavelmente, é a técnica mais utilizada de seleção de variáveis.
O procedimento constrói iterativamente uma seqüência de modelos

de regressão pela adição ou remoção de variáveis em cada etapa.
O critério para adicionar ou remover uma variável em qualquer

etapa é geralmente expresso em termos de um teste parcial F.
A regressão stepwise começa formando um modelo com uma

variável, usando a variável preditora que tenha a mais alta
correlação com a variável de resposta.
O comando sw é usado para regressão stepwise.
• sw regress y x1 x2 x3 x4, pr(.05)

• sw regress y x1 x2 x3 x4, pe(.05)
•sw regress y x1 x2 x3 x4, pe(.05) pr(.1)
A opção pr é a probabilidade para remover uma variável.

A opção pe é a probabilidade para a entrada de uma variável.
Exemplo: Considere o exemplo 2.

sw regress tempo idade sexo acuidade, pr(0.1) pe(0.05)
begin with full model
p = 0.1152 >= 0.1000 removing sexo
Source | SS df MS Number of obs = 20

-------------+------------------------------ F( 2, 17) = 41.38
Model | 1139.02973 2 569.514867 Prob > F = 0.0000
Residual | 233.970266 17 13.7629568 R-squared = 0.8296
-------------+------------------------------ Adj R-squared = 0.8095
Total | 1373 19 72.2631579 Root MSE = 3.7098
------------------------------------------------------------------------------
tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
idade | .6503912 .1279417 5.08 0.000 .3804578 .9203247
acuidade | -.4538341 .0928187 -4.89 0.000 -.6496644 -.2580038
_cons | 126.5642 10.09118 12.54 0.000 105.2736 147.8547
------------------------------------------------------------------------------
Regressão Forward
O procedimento de seleção forward é uma variação da regressão

stepwise, e está baseado no princípio de que as variáveis preditoras
devem ser adicionadas ao modelo uma de cada vez até que não
haja mais variáveis preditoras.
A seleção progressiva é uma simplificação da regressão stepwise

que omite o teste parcial F de remoção do modelo das variáveis que
foram adicionadas em etapas prévias.
Essa é uma potencial fraqueza da seleção forward.

Suposições do Modelo de Regressão
Todo modelo probabilístico requer o estabelecimento de

premissas sob as quais o mesmo deve funcionar.
Muitas vezes, no entanto, tais premissas são violadas e o
pesquisador deve proceder de modo a fazer as alterações
necessárias.
As premissas básicas para o modelo de regressão são:

Linearidade do fenômeno medido
Variância constante dos termos de erro (Homoscedasticidade)
Normalidade dos erros
Erros independentes
Ausência de colinearidade
Ausência de observações aberrantes
Testando as suposições
Predizer y e os resíduos
predict yest, xb (valores preditos serão armazenados na variável yest)
predict res, resid (resíduos serão armazenados na variável res)
Fazer os gráficos dos resíduos versus valores

preditos
linear?
variância constante?
independentes?
Linearidade
Linearidade significa que a
relação entre as variáveis
independentes e dependente é
linear.
A linearidade é facilmente
examinada utilizando:
Gráficos de Dispersão
Gráfico de resíduos
O gráfico de resíduos é
facilmente construído no
Não linearidade
STATA:
rvfplot, yline(0)
Se uma relação não-linear é encontrada, a abordagem mais direta é
transformar uma ou as duas variáveis de modo a ter linearidade.
Várias transformações podem ser usadas:
TIPO EQUAÇÃO TRANSFORMAÇÃO VARIÁVEL X VARIÁVEL Y
Linear Y = a + bx Y = a + bx x y
Exponencial Y = a.ebx ln y = ln a + bx x ln Y
Logarítmica Y = a + b.ln x Y = a + b.ln x ln x y
Potência Y = a.xb ln y = ln a + b.ln x ln x ln y

Homoscedasticidade
A presença de variâncias desiguais
(heteroscedasticidade) é uma das
violações mais comuns das
suposições.
Gráfico nulo
O diagnóstico é feito com gráficos de
resíduos ou testes estatísticos.
A representação gráfica dos resíduos

(estudantizados) versus os valores
previstos e a sua comparação com o
gráfico nulo mostra um padrão
consistente se a variância não for
constante.
heteroscedasticidade
Vários programas estatísticos disponibilizam testes estatísticos
para heteroscedasticidade. Por exemplo, o STATA fornece o
teste Cook-Weisberg (testa se a variância dos erros é constante).
Comando: hettest
Exemplo: Considerando o exemplo 1, temos:
hettest
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
Ho: Constant variance
Variables: fitted values of tempo
chi2(1) = 0.14
Prob > chi2 = 0.7089
Se ocorrer heteroscedasticidade, duas ações corretivas
são possíveis:
Transformações para estabilização da variância;
Se for possível atribuir a violação a uma única
variável dependente, usar o métodos dos mínimos
quadrados ponderados poderá ser empregado.
Algumas transformações que estabilizam a variância:

1) y
2) log y
3) arcsen y
Normalidade
Talvez a violação mais freqüentemente
encontrada seja a não normalidade da
variáveis independentes e dependentes
ou ambas
O diagnóstico mais simples para o
conjunto de variáveis independentes é um
histograma de resíduos.
Um método mais eficiente é o uso de
gráficos de probabilidade normal.
Também pode ser utilizado o Teste
Shapiro Wilk. Distribuição normal
Exemplo: Retornemos ao exemplo 1. Vamos verificar se
os resíduos são normalmente distribuídos.
Primeiramente, vamos construir o gráfico de probabilidade normal.
regress tempo idade
10
predict res, resid
qnorm res
5
Residuals
0-5
-10
-10 -5 0 5 10
Inverse N ormal
Realizando o teste Shapiro Wilk, obtemos o seguinte resultado:
swilk res
Shapiro-Wilk W test for normal data

Variable | Obs W V z Prob>z
-----------+-------------------------------------------------
res | 20 0.93816 1.464 0.768 0.22126
Podemos concluir que os resíduos são normalmente distribuídos.

Colinearidade
Colinearidade significa que as variáveis independentes são
correlacionadas
A colinearidade pode ser detectada, dentre outros modos, através da

matriz de correlação entre as varáveis.
Outra técnica usada é o fator de inflação de variação (variance inflator

factor), cujos altos valores indicam a sua existência .
sendo Rj resulta da regressão de Xj com as outras variáveis.
Sugere-se, no entanto, quando ocorrer colinearidade, que algumas

variáveis explicativas sejam retiradas do estudo e/ou que se tente obter
maior número de observações.
Erros Independentes
A correlação de resíduos é um problema que pode

surgir quando as observações são efetuadas ao longo
do tempo.
Neste caso, é conveniente utilizar a estatística de teste

de Durbin-Watson.
Exemplo: Considere o exemplo 2. Você diria que as
variáveis independentes são correlacionadas?
Vamos calcular o fator de inflação de variação, no STATA
regress tempo idade sexo acuidade

VIF tolerância
Variable | VIF 1/VIF

-------------+----------------------
acuidade | 1.34 0.746053
idade | 1.21 0.824128
sexo | 1.13 0.887324
-------------+----------------------
Mean VIF | 1.23
NOTA: Valores VIF acima de 4, indicam variáveis correlacionadas.

Identificação de Observações Influentes
Quando usamos regressão

múltipla, ocasionalmente se
encontra que algum subconjunto
de observações influentes.
Algumas vezes, essas

observações que influenciam
estão relativamente longe da
vizinhança onde o resto dos
dados foi coletado
Se esses pontos que influenciam forem pontos ″ruins″, ou errôneos de algum

modo, então eles devem ser eliminados.
Vários métodos de detecção de observações influentes são propostos.
Entre eles, citamos a medida da distância Cook.
MEDIDA DA DISTÂNCIA COOK
É uma medida da distância ao quadrado entre a estimativa usual de

mínimos quadrados de β, baseada em todas n observações, e a
estimativa obtida quando o i -ésimo ponto for removido.
Para cada observação i, é calculada a distância Di, valor de Di > 4/ n

indica que o ponto exerce influência.
Exemplo: Considere o exemplo 2, acrescido de observação
discrepante.
regress tempo idade sexo acuidade
Source | SS df MS Number of obs = 21

-------------+------------------------------ F( 3, 17) = 0.94
Model | 868.222607 3 289.407536 Prob > F = 0.4435
Residual | 5238.34882 17 308.138166 R-squared = 0.1422
-------------+------------------------------ Adj R-squared = -0.0092
Total | 6106.57143 20 305.328571 Root MSE = 17.554
------------------------------------------------------------------------------
tempo | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
idade | .0951472 .5941671 0.16 0.875 -1.158436 1.34873
sexo | -9.944194 8.144006 -1.22 0.239 -27.12654 7.238157
acuidade | -.2873334 .4653876 -0.62 0.545 -1.269215 .6945486
_cons | 147.2193 47.56397 3.10 0.007 46.8681 247.5705
------------------------------------------------------------------------------
Vamos identificar a existência de informações influentes.
180
160
140
tempo
120
100
20 25 30 35 40
idade
Calculando a medida de distância:

predict d1, cooksd
list d1 if d1>4/4.58,clean

Step Wise

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Step Wise

Enviado por

Direitos autorais:

Formatos disponíveis

Análise de Regressão

Profa Alcione Miranda dos Santos

Um problema importante em muitas aplicações da análise de

Algumas vezes, experiência prévia ou considerações teóricas em

Uma grande quantidade de julgamento e de experiência com o

Provavelmente, é a técnica mais utilizada de seleção de variáveis.

O procedimento constrói iterativamente uma seqüência de modelos

O critério para adicionar ou remover uma variável em qualquer

A regressão stepwise começa formando um modelo com uma

• sw regress y x1 x2 x3 x4, pr(.05)

A opção pr é a probabilidade para remover uma variável.

Exemplo: Considere o exemplo 2.

Source | SS df MS Number of obs = 20

O procedimento de seleção forward é uma variação da regressão

A seleção progressiva é uma simplificação da regressão stepwise

Essa é uma potencial fraqueza da seleção forward.

Todo modelo probabilístico requer o estabelecimento de

As premissas básicas para o modelo de regressão são:

predict res, resid (resíduos serão armazenados na variável res)

Fazer os gráficos dos resíduos versus valores

Várias transformações podem ser usadas:

TIPO EQUAÇÃO TRANSFORMAÇÃO VARIÁVEL X VARIÁVEL Y

Potência Y = a.xb ln y = ln a + b.ln x ln x ln y

A representação gráfica dos resíduos

Exemplo: Considerando o exemplo 1, temos:

Algumas transformações que estabilizam a variância:

Primeiramente, vamos construir o gráfico de probabilidade normal.

regress tempo idade

Shapiro-Wilk W test for normal data

Podemos concluir que os resíduos são normalmente distribuídos.

A colinearidade pode ser detectada, dentre outros modos, através da

Outra técnica usada é o fator de inflação de variação (variance inflator

sendo Rj resulta da regressão de Xj com as outras variáveis.

Sugere-se, no entanto, quando ocorrer colinearidade, que algumas

A correlação de resíduos é um problema que pode

Neste caso, é conveniente utilizar a estatística de teste

Vamos calcular o fator de inflação de variação, no STATA

regress tempo idade sexo acuidade

Variable | VIF 1/VIF

NOTA: Valores VIF acima de 4, indicam variáveis correlacionadas.

Quando usamos regressão

Algumas vezes, essas

Se esses pontos que influenciam forem pontos ″ruins″, ou errôneos de algum

MEDIDA DA DISTÂNCIA COOK

É uma medida da distância ao quadrado entre a estimativa usual de

Para cada observação i, é calculada a distância Di, valor de Di > 4/ n

Source | SS df MS Number of obs = 21

Calculando a medida de distância:

Você também pode gostar