Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Análise de Regressão
A análise de regressão é uma ferramenta
fundamental em análise de dados, servindo como
referência para outras técnicas
Tem origem nos trabalhos de Galton em 1886
Trata-se do estudo da explicação da variabilidade de
uma variável (chamada dependente) pelas
variabilidades de outras variáveis (chamadas
independentes)
“Análise de regressão é um processo poderoso e flexível
para a análise de relações associativas entre uma variável
métrica dependente e uma ou mais variáveis
independentes”. (MALHOTRA, 2001, p.458)
2
Regressão Múltipla
Utilizada para:
Determinar se existe uma relação;
Determinar a intensidade da relação;
Determinar a estrutura ou a forma da relação;
Predizer os valores da variável dependente;
Controlar outras variáveis independentes.
Análise de Regressão
Genericamente, a relação matemática entre as
variáveis é expressa por Y = f(X), onde Y
representa a variável dependente e XT = [X1,
..., Xp] é um vetor de variáveis independentes
Se p = 1, o modelo é dito modelo de regressão
simples, se p > 1, é dito múltiplo
4
Regressão linear simples
A equação de regressão linear simples toma a forma
yr = 0 + 1xr, onde yr representa a r-ésima
observação da variável dependente Y, xr a r-ésima
observação da variável independente X, 0 o
coeficiente linear, ou termo independente (ordenada
da reta na origem), e 1 o coeficiente angular da reta
(tangente do ângulo formado pela reta e o eixo
horizontal)
A relação raramente é exata, tratando-se em geral de
uma aproximação da realidade, em que outras
variáveis de importância menor talvez tenham sido
omitidas; a equação, portanto, merece ser escrita
como yr = 0 + 1xr + er, onde er representa um
termo de erro, ou perturbação aleatória 5
Regressão linear simples (cont.)
Em termos matriciais, a equação pode ser escrita
como Y = 01+ 1X + e, onde
y1 x1 e1
y x e
Y = 2 , X = 2 , e e = 2
yn xn en
O problema fundamental da análise de regressão
simples consiste em estimar, a partir de observações
empíricas, os valores dos parâmetros 0 e 1
6
Estimação dos Parâmetros
Se a relação de dependência entre as variáveis fosse
exata, todas as observações se alinhariam
perfeitamente
Y
Y
yr
^yr er
xr X
8
Estimação dos Parâmetros
Usando a notação ̂ 0 e ˆ1 para designar estimativas
de 0 e 1, respectivamente, a reta será equacionada
por yˆ = ˆ0 + ˆ1 x
O problema é encontrar estimadores ̂ 0 e ˆ1 tais que
a reta se ajuste aos pontos (xr, yr) da melhor forma
possível
A diferença entre o valor observado da variável
dependente e o valor estimado denomina-se erro ou
9
Estimação dos Parâmetros
Dentre os vários critérios disponíveis para o ajuste
da reta, o mais utilizado é o critério de mínimos
quadrados, segundo o qual a melhor reta é aquela
que minimize a soma dos quadrados dos resíduos
e = ( )
n n
yr − ˆ0 − ˆ1 xr
2
2
r
r =1 r =1
10
Interpretação
Os coeficientes do modelo representam as derivadas
parciais de Y com respeito a cada uma das variáveis
independentes
Suas estimativas podem então ser interpretadas
como variações marginais esperadas em Y quando a
variável independente correspondente aumenta uma
unidade, supondo que as demais variáveis
independentes permaneçam constantes
11
Hipóteses Básicas
As hipóteses básicas do modelo são:
A forma funcional é linear nos parâmetros
As variáveis independentes são independentes (não
correlacionadas) dos erros e entre si
Os erros têm distribuição Normal, com média 0 e
variância constante e igual a 2, sendo não
correlacionados entre si
i ~ NID( 0 , 2 )
12
Passos para a Análise
de Regressão
13
1º Passo
Definir o problema e os objetivos
Selecionar as variáveis:
principalmente a partir de modelos teóricos;
variável dependente: relacionada ao problema de pesquisa;
Erros possíveis:
Erro de medida: variável é uma medida precisa do conceito estudado?
Erro de especificação: inclusão de variáveis irrelevantes e omissão de
variáveis relevantes
Criação de variáveis
“dummy” (maneira de incorporar variável não-métrica)
Efeitos de interação ou moderadores
Exemplo: tamanho da família: interfere no nº de cartões de crédito
mas também na renda familiar
Transformação de variáveis
1º Passo
Transformação de variáveis: “regras práticas” para
tentativa e erro.
Assimetria positiva: logaritmo
Assimetria negativa: raiz quadrada
Curtose positiva: potência, logaritmo
Curtose negativa: inversa
Usuários 2 0 1 0
eventuais
Usuários 3 0 0 1
Médios
Usuários 4 0 0 0
Freqüentes
2º Passo
Selecionar a amostra:
Tamanho da amostra: regra prática
Amostra mínima de 50 casos mas desejavél pelo menos 100 na
maioria das situações;
Nunca menos que 5 casos para cada variável independente;
Desejável entre 15 e 20 casos por variável independente;
Stepwuise: recomenda-se 50 casos por variável;
Amostra maiores que 1000 casos as estatísticas ficam muito
sensíveis.
Definição da técnica de estimação:
Simples (enter)
passo a passo (stepwise)
adição forward (inclusão em avanço)
Eliminação backward (eliminação retroativa)
3º Passo: estimação e teste do modelo
1-Estimação do modelo:
Y = β 0 + β 1 X1 + β 2 X 2 + + β k X k +
ˆ = a + b X + b X ++ b X +
Y 1 1 2 2 k k
ˆ −
t= i
( )
i
ˆ
i
r =1
residual (SQR)
(y − Y ) é chamada soma de
n
2
A estatística r
r =1
quadrados total (SQT)
20
Em geral tem-se que SQT = SQE + SQR
3º Passo: estimação e teste do modelo
estatística do teste:
SQE k − 1
F=
SQR n − k
distribuição F com k-1 graus de liberdade no numerador
e n-k graus de liberdade no denominador.
3º Passo: estimação e teste do modelo
4-Coeficiente de Determinação:
Mede a porcentagem da variação da variável
dependente, que pode ser explicada pela regressão.
Fórmula: SQE
R =
2
SQT
Fórmula ajustada:
R 2
ajust.
(
= 1− 1− R 2
) n −1
n − k − 1
4º Passo:pressupostos do modelo
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
-4
-1
-3.4
-2.8
-2.2
-1.6
-0.4
0.2
0.8
1.4
2
2.6
3.2
3.8
4º Passo:pressupostos do modelo
Teste de Normalidade Preliminar: gráfico de
probabilidade normal.
Ŷ Ŷ
2
Ŷ
4º Passo:pressupostos do modelo
Testes de Homocedasticidade:
✓Testes formais:
Goldfeld e Quandt,
Park,
Glejser,
White
Teste de Spearman de correlação da ordem.
Pesaran Pesaran
❖Para detalhes de como fazer estes testes veja GUJARATI.
Teste de Homocedasticidade: Pesaran Pesaran
Ao estimar a regressão salvar os resíduos (Zre)
padronizados e os valores estimados padronizados (Zpr)
Criar as variáveis ao quadrado usando transform,
compute.
estimar uma regressão simples tendo como variável
dependente o Zre2 e como variável independente o Zpr2
Se o teste F for significativo (sig<0,05) rejeita a hipótese
nula de que que os resíduos são homocedásticos. Neste
caso há problemas de heterocedasticidade já que os
resíduos são influenciados pela váriável dependente, não
tendo um comportamento aleatório em relação as
variáveis independentes.
4º Passo:pressupostos do modelo
Homocedasticidade: Medidas Corretivas
Usar MQO Ponderados (para grandes amostras)
Transformar as variáveis e aplicar MQO
Variância do erro proporcional a X2: 1/x
Variância do erro proporcional a X: raiz quadrada
Usar a correção de heterocedasticidade de White:
Essa correção não está disponível no SPSS mas tem em
outros softwares como por exemplo o eviews.
Esse procedimento não resolve a heterocedasticidade,
calcula variâncias e erros-padrão robustos, tornando as
estatísticas assintoticamente válidas.
Livro do Corrar et al. ensina como fazer!
4º Passo:pressupostos do modelo
t t
, ˆ
t
4º Passo:pressupostos do modelo
Teste de Autocorrelação:
Para detectar a autocorrelação aconselha-se
inicialmente a visualização gráfica dos resíduos
padronizados para verificar se eles exibem algum
padrão sistemático.
Testes formais:
Mais utilizado é Durbin Watson
t =n 2
H0 : r = 0 (uˆ t − uˆ t −1 )
d= t =2
H1 : r 0 t =n
t
ˆ
u 2
t =2
4º Passo:pressupostos do modelo
Regra de Decisão: Durbin Watson
Regra prática:valor próximo de 2 não há autocorrelação
Regra mais precisa:
Hipótese Nula Decisão Se
Ausência de Autocorrelação Rejeitar 0 d di
Positiva
Ausência de Autocorrelação Nenhuma di d ds
Positiva decisão
Ausência de Autocorrelação Rejeitar 4 − di d 4
Negativa
Ausência de Autocorrelação Nenhuma 4 − ds d 4 − di
Negativa Decisão
Ausência de Autocorrelação Não Rejeitar ds d 4 − ds
Positiva ou negativa
4º Passo:pressupostos do modelo
Autocorrelação: Medidas Corretivas
inserção de nova variável independente
usar uma dummy para representar efeito sazonal
Transformar as variáveis originais (dependentes e
independentes) usando um modelo autoregressivo antes
de estimar a regressão.
Yt = Yt − rYt −1
X t = X t − rX t −1
OBS: maiores detalhes sobre medidas corretivas veja
NETER et al.
4º Passo:pressupostos do modelo
Y Y
X1
X2 X2 X1
4º Passo:pressupostos do modelo
Testes de Multicolinearidade:
Avaliação preliminar:correlação entre variáveis independentes
Tolerância e Fator de Inflação da Variância
TOL = 1 − R 2j
Regra prática : TOL menor que 0,1 e FIV maior que 10
Índice de Condição:
autovalor máximo
IC =
autovalor mínimo
Regra prática: Para Pestana & Gageiro (2000), um índice de condição maior
do que 15 indica um possível problema de multicolinearidade, enquanto que
um valor superior a 30 levanta sérios problemas de multicolinearidade. Já
Gujarati (2000) afirma que para um valor entre 10 e 30, há
multicolinearidade moderada, e se exceder 30, há multicolinearidade forte.
Índice de condição alto, examinar a proporção da variância: proporção maior
que 0,9 para dois ou mais coeficientes, problema de multicolinearidade!
4º Passo:pressupostos do modelo
Multicolinearidade: Ações Corretivas
Omitir uma ou mais variáveis independentes
Usar o modelo com variáveis independentes altamente
correlacionadas apenas para previsão
Usar um método mais sofisticado de análise
6º Validação do modelo:
Obtenção de outra amostra
Divisão da amostra em sub-amostras
Estimação Stepwise
Procedimento que procura encontrar “o
melhor” modelo de regressão
O critério para adicionar ou retirar uma
variável é estabelecido em termos de
somatório dos erros ao quadrado, correlação
parcial, estatística t ou estatística F.
Para maiores detalhes sobre o procedimento veja
NETER et. al, 199, pg 347 -353.
Regressão Logística
Utilizada quando a variável dependente é
qualitativa, e geralmente binária.
Aplicada quando se deseja identificar o grupo ao
qual um objeto ou indivíduo pertence:
Empresas solvente ou insolvente
Cliente ou não cliente
Variáveis independentes são métricas.
Quando a variável dependente é qualitativa mas
tem mais de dois grupos, geralmente se usa
Análise Discriminante:
Consumo alto, normal, baixo
Fazendo a Análise de
Regressão no
SPSS:estimação e análise
41
Passos básicos para estimação:
síntese
Definir as variáveis: dependentes e independentes
Estimar o modelo inicial
Avaliar o teste F:
Se não for significativo: termina a análise
Se for significativo: continua a analisar o modelo.
Identificar os coeficientes significativos e analisar sinal,
magnitude, comportamento teórico esperado.
Apresentar informações sobre o coeficiente de
determinação.
Testar os pressupostos do modelo (mais comum):
Multicolinearidade: FIV próximos a um
Autocorrelação: Durbin Watson próximo de 2
Teste de normalidade: KS não significativo
Homocedasticidade :Pesaram-Pesaram não significativo
42