Escolar Documentos
Profissional Documentos
Cultura Documentos
e
Regressão
2
Correlação e Regressão
• Conceitos ao nível descritivo:
– Nuvem de n pontos (xi,yi) no plano (diagrama de dispersão)
– Reta que passa o mais possível no meio da nuvem (reta de regressão)
– Contribuição de cada ponto para a construção da reta (alavanca)
– Sentido e força da relação linear entre as variáveis X e Y (coef. correlação)
3
Correlação
Covariância
• É a média dos produtos dos desvios de um par de variáveis x e y, em
relação às suas médias:
1 n 1 n
Cov( x, y ) = sxy =
n i =1
( xi − x )( yi − y ) = xi yi − x y
n i =1
Coeficiente de correlação linear de Pearson
R=
sxy
=
( x − x )( y − y )
i i
sx s y (x − x ) ( y − y)
i
2
i
2
Coeficiente de determinação
• É o quadrado do coeficiente de correlação amostral e representa a
proporção da variação dos dados y que é explicada pela variação dos
dados x. 2
sxy
R =
2
sx 2 s y 2
4
• A covariância e a correlação são medidas
do grau de relacionamento linear entre duas
variáveis.
• Enquanto a covariância é uma medida
dependente das unidades de medida em
que as variáveis são expressas, a
correlação não tem esta limitação e
corresponde à covariância das variáveis
após serem padronizadas.
Propriedades do coeficiente de correlação :
• O valor de R está contido no intervalo [-1,1]
• Quanto maior for R (em módulo), maior
será o grau de associação linear existente
entre x e y
• R > 0 – as duas variáveis variam no mesmo
sentido
• R < 0 – as duas variáveis variam em
sentido contrário
• R = 0 – não há relação linear entre as
variáveis 5
Correlação
Correlação não significa causalidade!
0
inverso. -0,1 -0,05
-0,05
0 0,05 0,1
-0,15
mede-se com a correlação. S&P500 Return Rate
10
Exemplo
IntelSP500.xlsx
SP500_INTC.xlsx
rt =
0,1
0,05
St −1 0
-0,1 -0,05 0 0,05 0,1
-0,05
b) Represente as duas taxas de retorno num -0,1
diagrama de dispersão e comente. -0,15
S&P500 Return Rate
0,2
0,15
0,1
0,05
0
-0,1 -0,05 -0,05 0 0,05 0,1
-0,1
-0,15 Cerca de 28% da variação da
S&P500 Return Rate taxa de retorno da Intel deve-se
às flutuações do mercado. 12
Regressão linear no Excel
Análise de regressão mais completa
• Separador Dados > Análise de dados > Regressão
• Selecione uma variável quantitativa Y como variável dependente, e uma ou mais
variáveis X 1 , X 2 ,..., X k como variáveis independentes.
13
Regressão linear no Excel
Análise de regressão mais completa
• Separador Dados > Análise de dados > Regressão
• Selecione uma variável quantitativa Y como variável dependente, e uma ou mais
variáveis X 1 , X 2 ,..., X k como variáveis independentes.
Coeficiente de
correlação
Coeficiente de
determinação
p-valor do
Teste F da
regressão
Ordenada na origem
da reta de regressão
Declive da reta de
regressão
Testes marginais I.C. p/ coeficientes 14
Regressão linear no Excel
Análise de regressão mais completa
• Separador Dados > Análise de dados > Regressão
• Selecione uma variável quantitativa Y como variável dependente, e uma ou mais
variáveis X 1 , X 2 ,..., X k como variáveis independentes.
0,05
16
Diagrama de dispersão no SPSS
• Um diagrama de dispersão é uma representação gráfica para dados
bivariados, em que cada par de dados (xi,yi) é representado por um ponto
num sistema de eixos coordenados.
• No SPSS: Graphs > Legacy Dialogs > Scatter/dot > Simple Scatter
Exercício:
1. Utilize a base de dados Mundo95_15.sav, onde se encontram dados
demográficos de 15 países selecionados, para analisar se a esperança de vida
feminina (espvidaf) está relacionada com a taxa de nascimentos por 1000
pessoas (tx_nasc). Represente num diagrama de dispersão as variáveis taxa
de nascimentos (eixo dos xx) e esperança de vida feminina (eixo dos yy), com
as seguintes particularidades:
✓ Coloque a variável país em Label cases by.
✓ Usando o botão Titles escreva como título “Esperança de vida feminina Vs.
Taxa de Nascimentos” e como nota de rodapé (Footnote) “Dados de 15 países
(1995)”.
✓ Fazendo duplo clique no gráfico para abrir o Chart Editor, adicione a reta de
regressão (selecione a nuvem de pontos e clique no botão Add Fit Line at
Total; escolha a opção Linear) e coloque etiquetas nos pontos do gráfico
(selecione a nuvem de pontos e vá ao menu Elements > Show Data Labels) 17
Diagrama de dispersão no SPSS
Esperança de vida vs. Taxa de nascimentos
mundo95_15.sav
R Sq Linear = 0,918
Holanda
França
80 Cuba
Esperança de vida feminina
Coreia N.
Tailândia Turquia
Equador Marrocos
70 China
Botswana
X=“Taxa de nascimentos
por 1000 pessoas”
60 Camarões
Somália
Y=“Esperança de vida
50
Burkina Faso feminina (em anos)”
Tanzânia
Zâmbia
18
Regressão linear no SPSS
• Analyze > Regression > Linear.
• Coloque uma variável quantitativa Y como variável dependente e uma
ou mais variáveis X 1 , X 2 ,..., X k como variáveis independentes.
• Caso pretenda regressões separadas por grupos, transporte a variável
que define os grupos para Selection Variable e defina uma regra no
botão Rule.
mundo95_15.sav
Coeficiente de
correlação (em
valor absoluto)
Coefficientsa
Coeficiente de
Unstandardized Standardized
determinação Coefficients Coefficients
Model B Std. Error Beta t Sig.
Ordenada na origem 1 (Constant) 94,206 2,527 37,278 ,000
da reta de regressão Taxa de nascimento
-,949 ,079 -,958 -12,051 ,000
por 1000 pessoas
a. Dependent Variable: Esperança de vida feminina
Declive da reta de Testes marginais
regressão Equação do Y = 94, 206 − 0,949 X i + i
modelo: i 19
Regressão linear no SPSS
• Interpretação do coeficiente de determinação:
– O modelo consegue explicar 91,8% da variação da esperança de vida feminina,
ficando 8,2% por explicar, que se devem a outros fatores.
• Interpretação dos coeficientes do modelo:
– Só devemos interpretar os coeficientes em que o teste t tenha p-valor inferior a 0,05
– Por cada aumento de 1 nascimento na taxa de nascimentos por 1000 pessoas, a
esperança de vida feminina diminui 0,949 anos
Coefficientsa
Coeficiente de
Unstandardized Standardized
determinação Coefficients Coefficients
Model B Std. Error Beta t Sig.
Ordenada na origem 1 (Constant) 94,206 2,527 37,278 ,000
da reta de regressão Taxa de nascimento
-,949 ,079 -,958 -12,051 ,000
por 1000 pessoas
a. Dependent Variable: Esperança de vida feminina
Declive da reta de Testes marginais
regressão Equação do Y = 94, 206 − 0,949 X i + i
modelo: i 20
Regressão linear múltipla
Modelo de Regressão Linear Múltipla (OLS):
Yi = b 0 + b1 X 1i + b 2 X 2i + ... + b k X ki + i i = 1,..., n
Indivíduos,
observações
Variável dependente, Parâmetros, Variáveis independentes, Erros,
explicada ou exógena coeficientes explicativas, endógenas, termo de perturbação,
de regressão regressores, covariáveis resíduos
Graus de liberdade: n-k-1
Pressupostos dos Modelos de Regressão Linear:
• Os erros i têm uma distribuição normal
i ~ N 0, 2 ( )
com média zero e variância constante
2 var( Y i ) = var( i ) = 2
bˆ j bˆ j
Testes marginais ou testes t E.T .: = ~ tn − k −1
S m jj s ( bˆ j ) onde m é o elemento diagonal
• H 0: b j = 0 ii
de ordem i da matriz (XTX)-1
• H1: b j 0 onde b j é o coeficiente da variável X j no modelo.
• Executa-se um teste t para cada variável independente Xj, para verificar se
há diminuição da qualidade do modelo quando é suprimida cada variável.
• Estes testes indicam quais as variáveis que são significativas no modelo.
• Para testar outro valor para o coeficiente: (Por exemplo, testar se o coeficiente é 1)
ˆ
b j −1
H0: b j = 1 E.T .: ~ tn − k −1
H1: b j 1 s ( bˆ )
j 23
Regressão linear no SPSS
mundo95_15.sav
Pretende-se usar os dados do ficheiro
mundo95_15.sav para estimar um modelo de
regressão linear múltipla para a Mortalidade
infantil em função de Percentagem de pessoas
que leem, PIB per capita e Casos de SIDA.
a) Analise a matriz de coeficientes de
correlação e os diagramas de dispersão
entre as variáveis envolvidas.
b) Escreva a equação do modelo.
Y = 138.482 − 1.166 X 1 − 0.002 X 2 + 0.001X 3 +
onde Y = Mortalidade infantil, X1 = Percentagem de pessoas que leem,
X2 = PIB per capita, X3 = Casos de SIDA e = termo de erro
25
Regressão linear múltipla
• Como escolher quais as variáveis explicativas a
incluir no modelo?
• Experimentar várias combinações de variáveis independentes
• Pretende-se encontrar um modelo com elevado R2adj e com todos
os coeficientes significativos e interpretáveis
Métodos para selecção de variáveis explicativas:
• Backward: inicialmente todas as variáveis são inseridas no modelo, e
depois são removidas uma a uma sequencialmente, enquanto satisfaçam
o critério de eliminação (remover a que tiver pior desempenho nos testes
marginais, ou que tiver menor correlação parcial com a variável
dependente…)
• Forward: as variáveis são inseridas no modelo sequencialmente,
começando pela que tiver maior correlação parcial, desde que satisfaça o
critério de inserção.
• Stepwise: combinação dos dois processos anteriores.
26
Análise de Resíduos
Normalidade dos resíduos:
• Histograma e Gráfico de Probabilidade Normal
• Teste Shapiro-Wilk ou K-S para os resíduos
– H0: Os resíduos têm distribuição normal
27
Análise de Resíduos
Homocedasticidade (variância 2 constante):
• Não deve haver padrões nos seguintes gráficos:
– Resíduos vs. valores preditos pelo modelo ( yˆi , i )
– Resíduos vs. cada variável independente ( xi , i )
28
Análise de Resíduos
Independência dos resíduos:
• Gráfico dos Resíduos vs. Índice (i, i )
29
Análise de Resíduos
Multicolinearidade
• VIF (Variance Inflation Factor) deve ser inferior a 3 (ou no máximo 10)
30
Outliers e observações influentes
• Outlier: observação com elevado resíduo
• Alavanca elevada: observações afastadas da maioria
• Influentes: influenciam os coeficientes do modelo
• Alavanca (leverage) da observação i
– São os valores da diagonal da matriz hat: hii = X i ( X T X )−1 X iT
• Distância de Mahalanobis
– Mede a distância a que uma observação se encontra da média das outras observações
n(n − 2) (hii − 1) / n
Mi =
(n − 1) 1 − hii
– Uma distância de Mahalanobis elevada indica elevada alavanca
• Distância de Cook
– Mede a influência que a observação tem nos coeficientes i
ri 2 h onde ri é o resíduo studentizado ri =
Ci = ii ˆ 1 − hii
k + 1 1 − hii
– Considera-se elevada se Ci 4 / (n − k − 1)
• DFITS
– mede a influência que a observação tem nos valores estimados da variável dependente
hii
DFITSi = ri Considera-se elevada se DFITS >2* (k+1)/(n-k-1)
1 − hii 31
Variáveis Categóricas
• Uma variável categórica ou variável qualitativa representa a informação
que identifica alguma qualidade, categoria ou característica, não suscetível
de medida, mas de classificação, assumindo várias modalidades.
• Uma variável categórica toma valores dentro de um número limitado de
categorias, geralmente fixas à partida.
– Variável Qualitativa Nominal - Dados identificados apenas pela atribuição de um nome
que designa uma classe, sem existir uma relação de ordem entre as classes
– Variável Qualitativa Ordinal - É possível estabelecer uma ordenação das classes
segundo algum critério relevante e indiscutível.
Exemplos:
Variável Categorias
– Sexo Feminino = 1, Masculino = 2
– Cor Azul = 1, Verde = 2, Amarelo = 3, Laranja = 4, Vermelho = 5
– Satisfação Insatisfeito = 1, Satisfeito = 2, Muito Satisfeito = 3
– Peça defeituosa Sim = 1, Não = 0
• As categorias podem ser representadas numa base de dados por um código
numérico, sem que isso signifique que seja uma variável quantitativa.
• Quando há apenas duas categorias possíveis, a variável diz-se binária.
32
Regressão com
variáveis categóricas
• A regressão linear é adequada quando as variáveis explicativas e a
variável explicada são quantitativas. Para efetuar uma regressão com
variáveis qualitativas há que utilizar modelos especiais.
• Num modelo de regressão podemos estar interessados em usar uma
variável categórica como variável independente, X, ou como variável
dependente, Y.
– Variável dependente Y é quantitativa,
– variável independente X é categórica
---> regressão linear com variáveis dummy
33
Regressão linear com
variáveis dummy
• Para incluir num modelo de regressão linear os efeitos de uma variável
explicativa qualitativa X numa variável dependente quantitativa Y normalmente
distribuída, usam-se variáveis “dummy”.
• Se a variável X tem k categorias, escolhe-se uma categoria de referência e
criam-se k-1 variáveis auxiliares binárias (dummy) que atuam de forma
exclusiva.
Variável Variável Variável
qualitativa dummy dummy Y = b 0 + b1 X +
X=Satisfação D1 D2
Insatisfeito 0 0 Categ.refª
Satisfeito 1 0
Muito Satisfeito 0 1 Y = b 0 + b11D1 + b12 D2 +
• Os coeficientes de cada dummy no modelo indicam qual o impacto em Y, caso a
variável X caia nesta categoria em vez de cair na categoria de referência.
34
Regressão linear com
variáveis dummy
• Em modelos sem a constante b0 criam-se tantas dummy quantas as
categorias e a interpretação dos coeficientes já é absoluta (e não relativa à
categoria de referência).
• Os coeficientes de cada dummy no modelo funcionam como constantes b0
iniciais diferenciadas para cada categoria, e indicam qual o impacto em Y, caso
a variável X caia nesta categoria.
Variável Variável Variável Variável
qualitativa dummy dummy dummy
X=Satisfação D1 D2 D3
Insatisfeito 1 0 0 Y = b1 X +
Satisfeito 0 1 0
Muito Satisfeito 0 0 1
37
Exercício 3
Importe para o SPSS a base de dados imoveis.csv que contém dados sobre o preço
(em €) e áreas (em m2) de imóveis novos (estado=0) e usados (estado=1) à venda nos
concelhos de Póvoa de Varzim (concelho=1), Vila do Conde (2), e Porto (3).
1. Calcule a média, mediana, desvio padrão para todas as variáveis quantitativas.
2. Analise a relação entre o preço e a tipologia de um imóvel, através do coeficiente
de correlação de Spearman.
3. Apresente uma matriz de correlações de Pearson que relacione as variáveis nº de
quartos, área e preço. Analise os coeficientes de correlação obtidos.
4. Desenhe diagramas de dispersão que relacionem o preço, a área e o nº de
quartos do imóvel.
5. Estime um modelo de regressão linear para o preço de um imóvel em função da
sua área e do seu nº de quartos.
a) Escreva a equação do modelo de regressão.
b) Calcule e interprete o coeficiente de determinação.
c) Teste a significância dos coeficientes do modelo.
d) Interprete os coeficientes do modelo.
e) Calcule o preço predito pelo modelo para um imóvel com 120 m2 e três
quartos.
f) Analise os pressupostos do modelo de regressão através de gráficos e testes
de hipótese adequados. 38