Análise de Regressão

Análise de Regressão
1
A análise de regressão é uma ferramenta
fundamental em análise de dados, servindo como
referência para outras técnicas
Tem origem nos trabalhos de Galton em 1886
Trata-se do estudo da explicação da variabilidade de
uma variável (chamada dependente) pelas
variabilidades de outras variáveis (chamadas
independentes)
“Análise de regressão é um processo poderoso e flexível
para a análise de relações associativas entre uma variável
métrica dependente e uma ou mais variáveis
independentes”. (MALHOTRA, 2001, p.458)
2
Regressão Múltipla
Utilizada para:
Determinar se existe uma relação;
Determinar a intensidade da relação;
Determinar a estrutura ou a forma da relação;
Predizer os valores da variável dependente;
Controlar outras variáveis independentes.
Genericamente, a relação matemática entre as
variáveis é expressa por Y = f(X), onde Y
representa a variável dependente e XT = [X1,
..., Xp] é um vetor de variáveis independentes
Se p = 1, o modelo é dito modelo de regressão
simples, se p > 1, é dito múltiplo
4
Regressão linear simples
A equação de regressão linear simples toma a forma
yr = 0 + 1xr, onde yr representa a r-ésima
observação da variável dependente Y, xr a r-ésima
observação da variável independente X, 0 o
coeficiente linear, ou termo independente (ordenada
da reta na origem), e 1 o coeficiente angular da reta
(tangente do ângulo formado pela reta e o eixo
horizontal)
A relação raramente é exata, tratando-se em geral de
uma aproximação da realidade, em que outras
variáveis de importância menor talvez tenham sido
omitidas; a equação, portanto, merece ser escrita
como yr = 0 + 1xr + er, onde er representa um
termo de erro, ou perturbação aleatória 5
Regressão linear simples (cont.)
Em termos matriciais, a equação pode ser escrita
como Y = 01+ 1X + e, onde
 y1   x1   e1 
y  x  e 
Y =  2 , X =  2 , e e =  2 
  
     
 yn   xn  en 
O problema fundamental da análise de regressão
simples consiste em estimar, a partir de observações
empíricas, os valores dos parâmetros 0 e 1
6
Estimação dos Parâmetros
Se a relação de dependência entre as variáveis fosse
exata, todas as observações se alinhariam
perfeitamente
Y
Neste caso er = 0, e as estimativas mais adequadas

para 0 e 1 seriam, respectivamente, a ordenada na
origem da reta e a tangente trigonométrica do ângulo
7
da reta com o eixo horizontal
Se entretanto a relação entre as variáveis for
estocástica, em geral as observações não estarão
perfeitamente alinhadas, mas formarão uma nuvem
de pontos
Y
yr
^yr er
xr X
8
Usando a notação ̂ 0 e ˆ1 para designar estimativas
de 0 e 1, respectivamente, a reta será equacionada
por yˆ = ˆ0 + ˆ1 x
O problema é encontrar estimadores ̂ 0 e ˆ1 tais que
a reta se ajuste aos pontos (xr, yr) da melhor forma
possível
A diferença entre o valor observado da variável
dependente e o valor estimado denomina-se erro ou
resíduo er = yr − yˆ r = yr − ˆ0 − ˆ1 xr
9
Dentre os vários critérios disponíveis para o ajuste
da reta, o mais utilizado é o critério de mínimos
quadrados, segundo o qual a melhor reta é aquela
que minimize a soma dos quadrados dos resíduos
e = ( )
n n
yr − ˆ0 − ˆ1 xr
2
2
r
r =1 r =1
É preciso notar que as “variáveis” desta expressão

são os coeficientes ̂ 0 e ˆ1 , pois os valores de X e
de Y são os observados empiricamente
10
Interpretação
Os coeficientes do modelo representam as derivadas
parciais de Y com respeito a cada uma das variáveis
independentes
Suas estimativas podem então ser interpretadas
como variações marginais esperadas em Y quando a
variável independente correspondente aumenta uma
unidade, supondo que as demais variáveis
independentes permaneçam constantes
11
Hipóteses Básicas
As hipóteses básicas do modelo são:
A forma funcional é linear nos parâmetros
As variáveis independentes são independentes (não
correlacionadas) dos erros e entre si
Os erros têm distribuição Normal, com média 0 e
variância constante e igual a 2, sendo não
correlacionados entre si
 i ~ NID( 0 ,  2 )
12
Passos para a Análise
de Regressão
13
1º Passo
Definir o problema e os objetivos
Selecionar as variáveis:
principalmente a partir de modelos teóricos;
variável dependente: relacionada ao problema de pesquisa;
Erros possíveis:
Erro de medida: variável é uma medida precisa do conceito estudado?
Erro de especificação: inclusão de variáveis irrelevantes e omissão de
variáveis relevantes
Criação de variáveis
“dummy” (maneira de incorporar variável não-métrica)
Efeitos de interação ou moderadores
Exemplo: tamanho da família: interfere no nº de cartões de crédito
mas também na renda familiar
Transformação de variáveis
1º Passo
Transformação de variáveis: “regras práticas” para
tentativa e erro.
Assimetria positiva: logaritmo
Assimetria negativa: raiz quadrada
Curtose positiva: potência, logaritmo
Curtose negativa: inversa
BOX e COX (1964) artigo “famoso” sobre transformação.

Outras dicas de transformação: Hair et. al e Gujarati
Exemplo de Dummy
Categorias Código Dummys
D1 D2 D3
Não Usuários 1 1 0 0
Usuários 2 0 1 0
eventuais
Usuários 3 0 0 1
Médios
Usuários 4 0 0 0
Freqüentes
2º Passo
Selecionar a amostra:
Tamanho da amostra: regra prática
Amostra mínima de 50 casos mas desejavél pelo menos 100 na
maioria das situações;
Nunca menos que 5 casos para cada variável independente;
Desejável entre 15 e 20 casos por variável independente;
Stepwuise: recomenda-se 50 casos por variável;
Amostra maiores que 1000 casos as estatísticas ficam muito
sensíveis.
Definição da técnica de estimação:
Simples (enter)
passo a passo (stepwise)
adição forward (inclusão em avanço)
Eliminação backward (eliminação retroativa)
3º Passo: estimação e teste do modelo
1-Estimação do modelo:
Y = β 0 + β 1 X1 + β 2 X 2 +  + β k X k + 
ˆ = a + b X + b X ++ b X + 
Y 1 1 2 2 k k
Método dos Mínimos Quadrados

Ordinários:MELNV (melhor estimador linear não
enviesado)
2- Teste de significância dos coeficientes
individuais da regressão:
hipóteses:
H 0 : i = 0
H1 :  i  0
estatística do teste:
ˆ −

t= i
( )
i
ˆ
i
distribuição t com n-k graus de liberdade

Somas de quadrados
 ( yˆ − Y ) é chamada soma de
n
2
A estatística r
r =1
quadrados explicada (SQE)

n
A estatística  r é chamada soma de quadrados
e 2
r =1
residual (SQR)
 (y − Y ) é chamada soma de
n
2
A estatística r
r =1
quadrados total (SQT)
20
Em geral tem-se que SQT = SQE + SQR
3- Teste de significância global da regressão:

hipóteses: H :  =  =  = 
0 1 2 k
estatística do teste:
SQE k − 1
F=
SQR n − k
distribuição F com k-1 graus de liberdade no numerador
e n-k graus de liberdade no denominador.
4-Coeficiente de Determinação:
Mede a porcentagem da variação da variável
dependente, que pode ser explicada pela regressão.
Fórmula: SQE
R =
2
SQT
Fórmula ajustada:
R 2
ajust.

(
= 1−  1− R 2
) n −1 
n − k − 1

4º Passo:pressupostos do modelo
1- Análise dos resíduos:

A regressão linear múltipla pressupõe:
2
 i ~ N (0,  )
Normalidade
correlação igual a zero
homocedasticidade
Normalidade:
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-4
-1
-3.4
-2.8
-2.2
-1.6
-0.4
0.2
0.8
1.4
2
2.6
3.2
3.8
Teste de Normalidade Preliminar: gráfico de
probabilidade normal.
Gráfico Q-Q: Variável resíduo padronizado

Teste de Normalidade: Kolmogorov Smirnov
Hipóteses:
H 0 : F ( x) = G ( x) para -  x  
H 1 : F ( x)  G ( x)
Estatística:
Dn = sup Fn (x ) − G(x )
− x 
Decisão: rejeitar H0 se: n * Dn  a
onde a é um valor tabelado

Homocedasticidade: variância constante
2 2
Ŷ Ŷ
2
Ŷ
Testes de Homocedasticidade:
✓Testes formais:
Goldfeld e Quandt,
Park,
Glejser,
White
Teste de Spearman de correlação da ordem.
Pesaran Pesaran
❖Para detalhes de como fazer estes testes veja GUJARATI.
Teste de Homocedasticidade: Pesaran Pesaran
Ao estimar a regressão salvar os resíduos (Zre)
padronizados e os valores estimados padronizados (Zpr)
Criar as variáveis ao quadrado usando transform,
compute.
estimar uma regressão simples tendo como variável
dependente o Zre2 e como variável independente o Zpr2
Se o teste F for significativo (sig<0,05) rejeita a hipótese
nula de que que os resíduos são homocedásticos. Neste
caso há problemas de heterocedasticidade já que os
resíduos são influenciados pela váriável dependente, não
tendo um comportamento aleatório em relação as
variáveis independentes.
Homocedasticidade: Medidas Corretivas
Usar MQO Ponderados (para grandes amostras)
Transformar as variáveis e aplicar MQO
Variância do erro proporcional a X2: 1/x
Variância do erro proporcional a X: raiz quadrada
Usar a correção de heterocedasticidade de White:
Essa correção não está disponível no SPSS mas tem em
outros softwares como por exemplo o eviews.
Esse procedimento não resolve a heterocedasticidade,
calcula variâncias e erros-padrão robustos, tornando as
estatísticas assintoticamente válidas.
Livro do Corrar et al. ensina como fazer!
Autocorrelação: correlação entre os erros

 , ˆ  , ˆ
t t
 , ˆ
t
Teste de Autocorrelação:
Para detectar a autocorrelação aconselha-se
inicialmente a visualização gráfica dos resíduos
padronizados para verificar se eles exibem algum
padrão sistemático.
Testes formais:
Mais utilizado é Durbin Watson
t =n 2
H0 : r = 0  (uˆ t − uˆ t −1 )
d= t =2
H1 : r  0 t =n
 t
ˆ
u 2
t =2
Regra de Decisão: Durbin Watson
Regra prática:valor próximo de 2 não há autocorrelação
Regra mais precisa:
Hipótese Nula Decisão Se
Ausência de Autocorrelação Rejeitar 0  d  di
Positiva
Ausência de Autocorrelação Nenhuma di  d  ds
Positiva decisão
Ausência de Autocorrelação Rejeitar 4 − di  d  4
Negativa
Ausência de Autocorrelação Nenhuma 4 − ds  d  4 − di
Negativa Decisão
Ausência de Autocorrelação Não Rejeitar ds  d  4 − ds
Positiva ou negativa
Autocorrelação: Medidas Corretivas
inserção de nova variável independente
usar uma dummy para representar efeito sazonal
Transformar as variáveis originais (dependentes e
independentes) usando um modelo autoregressivo antes
de estimar a regressão.
Yt = Yt − rYt −1
X t = X t − rX t −1
OBS: maiores detalhes sobre medidas corretivas veja
NETER et al.
Ausência de Multicolinearidade: não há

correlação entre as variáveis independentes
Y Y
X1
X2 X2 X1
Testes de Multicolinearidade:
Avaliação preliminar:correlação entre variáveis independentes
Tolerância e Fator de Inflação da Variância
TOL = 1 − R 2j
Regra prática : TOL menor que 0,1 e FIV maior que 10
Índice de Condição:
autovalor máximo
IC =
autovalor mínimo
Regra prática: Para Pestana & Gageiro (2000), um índice de condição maior
do que 15 indica um possível problema de multicolinearidade, enquanto que
um valor superior a 30 levanta sérios problemas de multicolinearidade. Já
Gujarati (2000) afirma que para um valor entre 10 e 30, há
multicolinearidade moderada, e se exceder 30, há multicolinearidade forte.
Índice de condição alto, examinar a proporção da variância: proporção maior
que 0,9 para dois ou mais coeficientes, problema de multicolinearidade!
Multicolinearidade: Ações Corretivas
Omitir uma ou mais variáveis independentes
Usar o modelo com variáveis independentes altamente
correlacionadas apenas para previsão
Usar um método mais sofisticado de análise
OBS: pensar em usar fatorial mais regressão!!!

5º e 6º Passo
5º -Interpretação dos valores da
regressão
6º Validação do modelo:
Obtenção de outra amostra
Divisão da amostra em sub-amostras
Estimação Stepwise
Procedimento que procura encontrar “o
melhor” modelo de regressão
O critério para adicionar ou retirar uma
variável é estabelecido em termos de
somatório dos erros ao quadrado, correlação
parcial, estatística t ou estatística F.
Para maiores detalhes sobre o procedimento veja
NETER et. al, 199, pg 347 -353.
Regressão Logística
Utilizada quando a variável dependente é
qualitativa, e geralmente binária.
Aplicada quando se deseja identificar o grupo ao
qual um objeto ou indivíduo pertence:
Empresas solvente ou insolvente
Cliente ou não cliente
Variáveis independentes são métricas.
Quando a variável dependente é qualitativa mas
tem mais de dois grupos, geralmente se usa
Análise Discriminante:
Consumo alto, normal, baixo
Fazendo a Análise de
Regressão no
SPSS:estimação e análise
41
Passos básicos para estimação:
síntese
Definir as variáveis: dependentes e independentes
Estimar o modelo inicial
Avaliar o teste F:
Se não for significativo: termina a análise
Se for significativo: continua a analisar o modelo.
Identificar os coeficientes significativos e analisar sinal,
magnitude, comportamento teórico esperado.
Apresentar informações sobre o coeficiente de
determinação.
Testar os pressupostos do modelo (mais comum):
Multicolinearidade: FIV próximos a um
Autocorrelação: Durbin Watson próximo de 2
Teste de normalidade: KS não significativo
Homocedasticidade :Pesaram-Pesaram não significativo
42

Análise de Regressão

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Análise de Regressão

Enviado por

Direitos autorais:

Formatos disponíveis

Análise de Regressão

Neste caso er = 0, e as estimativas mais adequadas

resíduo er = yr − yˆ r = yr − ˆ0 − ˆ1 xr

É preciso notar que as “variáveis” desta expressão

BOX e COX (1964) artigo “famoso” sobre transformação.

Método dos Mínimos Quadrados

distribuição t com n-k graus de liberdade

quadrados explicada (SQE)

3- Teste de significância global da regressão:

1- Análise dos resíduos:

Gráfico Q-Q: Variável resíduo padronizado

Decisão: rejeitar H0 se: n * Dn  a

onde a é um valor tabelado

Autocorrelação: correlação entre os erros

Ausência de Multicolinearidade: não há

OBS: pensar em usar fatorial mais regressão!!!

Você também pode gostar