TAD 6 Correlacao e Regressao

Correlação
e
Regressão
Tratamento e Análise de Dados

Textos elaborados por:
MGO
Cristina Lopes, Cristina Torres e Isabel Vieira
1
CORRELAÇÃO
E
REGRESSÃO
2
Correlação e Regressão
• Conceitos ao nível descritivo:
– Nuvem de n pontos (xi,yi) no plano (diagrama de dispersão)
– Reta que passa o mais possível no meio da nuvem (reta de regressão)
– Contribuição de cada ponto para a construção da reta (alavanca)
– Sentido e força da relação linear entre as variáveis X e Y (coef. correlação)
• Conceitos ao nível inferencial:

– Modelo que traduz a relação linear entre X e Y (equação de regressão)
– Estimação dos parâmetros do modelo (método mínimos quadrados)
– Verificação da existência de relação linear (teste ANOVA)
– Seleção das variáveis regressoras a incluir no modelo (testes t)
– Poder explicativo do modelo (coef. determinação)
– Confirmação da adequação do modelo (análise dos resíduos)
– Previsão de valores de Y para valores de X fixos (intervalos de previsão)
3
Correlação
Covariância
• É a média dos produtos dos desvios de um par de variáveis x e y, em
relação às suas médias:
1 n 1 n
Cov( x, y ) = sxy = 
n i =1
( xi − x )( yi − y ) =  xi yi − x y
n i =1
Coeficiente de correlação linear de Pearson
R=
sxy
=
 ( x − x )( y − y )
i i
sx s y  (x − x )  ( y − y)
i
2
i
2
Coeficiente de determinação
• É o quadrado do coeficiente de correlação amostral e representa a
proporção da variação dos dados y que é explicada pela variação dos
dados x. 2
sxy
R =
2
sx 2 s y 2
4
• A covariância e a correlação são medidas
do grau de relacionamento linear entre duas
variáveis.
• Enquanto a covariância é uma medida
dependente das unidades de medida em
que as variáveis são expressas, a
correlação não tem esta limitação e
corresponde à covariância das variáveis
após serem padronizadas.
Propriedades do coeficiente de correlação :
• O valor de R está contido no intervalo [-1,1]
• Quanto maior for R (em módulo), maior
será o grau de associação linear existente
entre x e y
• R > 0 – as duas variáveis variam no mesmo
sentido
• R < 0 – as duas variáveis variam em
sentido contrário
• R = 0 – não há relação linear entre as
variáveis 5
Correlação
Correlação não significa causalidade!
• A existência de correlação forte entre duas variáveis X e Y

não implica uma relação de causa e efeito entre ambas;
apenas significa que pode acontecer uma das seguintes
situações:
– X é causa de Y
– Y é causa de X
– uma terceira variável é a causa simultânea de X e de Y
– https://www.tylervigen.com/spurious-correlations
• Quando o coeficiente de correlação é nulo, o grau de
relacionamento linear entre as variáveis será nulo, mas isso
nem sempre significa que as variáveis sejam
independentes, dado que podem existir relações não
lineares entre elas.
6
Correlação
• Quando parece existir uma associação não linear entre as variáveis, ou
quando uma das variáveis é qualitativa ordinal, usa-se o coeficiente de
correlação de Spearman.
Coeficiente de correlação de Spearman (r)
• Consiste em calcular o coeficiente de correlação de Pearson, não entre as
observações originais, mas sim entre as respetivas ordens.
Teste de correlação de Pearson

• Testa a significância do coeficiente de correlação
• H0: R=0 vs. H1: R≠0
Teste de correlação de Spearman
• H0: r = 0 vs. H1: r ≠0
Matriz de correlações
• Apresenta os coeficientes de correlação entre várias variáveis e pode ser
complementado com
asteriscos indicativos do
resultado dos testes de
correlação. 7
Regressão linear simples
Modelo de regressão linear simples Yi = b 0 + b1 X i +  i
• Descreve uma relação entre uma variável independente X e uma
variável dependente Y a partir das observações (Xi ,Yi), onde
• b 0 , b1 são constantes a estimar (os coeficientes do modelo)
•  i = Yi − Yî diz-se o resíduo, ou o erro aleatório associado ao valor
observado Yi
S XY  ( xi − x )( yi − y )
Yî = b 0 + b1 X i bˆ1 =
=
Reta de Regressão SX 2  ( xi − x )2
onde b1 = declive e b0 = ordenada na origem bˆ0 = y − bˆ1 x
• É a reta que melhor se ajusta aos pontos (Xi ,Yi) observados.
• A reta de regressão passa pelo ponto médio ( x , y ) .
• Quando a correlação entre as duas variáveis é elevada, a reta de
regressão permite prever valores de Y em função dos valores X, mas
apenas dentro do intervalo em que os valores de X foram observados
originalmente.
8
Diagrama de dispersão
• Um diagrama de dispersão é uma representação gráfica para dados
bivariados, em que cada par de dados (xi,yi) é representado por um ponto
num sistema de eixos coordenados.
• A representação em diagrama de INTEL vs. S&P500
dispersão pode mostrar a existência 0,25
y = 1,185x + 0,0037
0,2 R² = 0,2849
INTEL Return Rate

de uma certa relação de associação 0,15
entre as duas variáveis, que pode ser 0,1
linear ou não, em sentido direto ou 0,05
0
inverso. -0,1 -0,05
-0,05
0 0,05 0,1
• A intensidade desta relação estatística -0,1
-0,15
mede-se com a correlação. S&P500 Return Rate
Diagrama de Dispersão no Excel:

Inserir > Gráfico de Dispersão
Clicando com o botão direito sobre o gráfico:
Editar dados > Adicionar
Selecionar os dados para o eixo horizontal e vertical > OK
Clicando com o botão direito sobre os pontos:
Adicionar Linha de Tendência > Linear > Mostrar equação
> Mostrar o valor de R ao quadrado 9
REGRESSÃO
NO
EXCEL
10
Exemplo
IntelSP500.xlsx
SP500_INTC.xlsx
Considere as cotações de fecho ajustadas

mensais do índice S&P500 e da empresa Intel.
INTEL vs. S&P500
a) Determine as taxas de retorno mensais de 0,25
y = 1,185x + 0,0037
ambos os índices, através da fórmula: 0,2 R² = 0,2849
INTEL Return Rate

St − St −1
0,15
rt =
0,1
0,05
St −1 0
-0,1 -0,05 0 0,05 0,1
-0,05
b) Represente as duas taxas de retorno num -0,1
diagrama de dispersão e comente. -0,15
S&P500 Return Rate
Diagrama de Dispersão no Excel:

Inserir > Gráfico de Dispersão
Clicando com o botão direito sobre o gráfico:
Editar dados > Adicionar
Selecionar os dados para o eixo horizontal e vertical > OK
Clicando com o botão direito sobre os pontos:
Adicionar Linha de Tendência > Linear > Mostrar equação
> Mostrar o valor de R ao quadrado 11
Regressão linear no Excel
Funções para Regressão linear simples:
• Covariância
= COVARIÂNCIA.S(valores X; valores Y)
• Coeficiente de correlação
= PEARSON(valores X; valores Y) ou = CORREL(valores X; valores Y)
• Declive da reta de regressão Neste exemplo,
b é o risco
= DECLIVE (valores Y; valores X)
sistemático, ou
• Ordenada na origem exposição aos
movimentos de
= INTERCETAR (valores Y; valores X) mercado.
As ações
IntelSP500.xlsx tecnológicas têm
tipicamente um
INTEL vs. S&P500
risco sistemático
0,25 y = 1,185x + 0,0037
R² = 0,2849 maior que a média.
INTEL Return Rate
0,2
0,15
0,1
0,05
0
-0,1 -0,05 -0,05 0 0,05 0,1
-0,1
-0,15 Cerca de 28% da variação da
S&P500 Return Rate taxa de retorno da Intel deve-se
às flutuações do mercado. 12
Análise de regressão mais completa
• Separador Dados > Análise de dados > Regressão
• Selecione uma variável quantitativa Y como variável dependente, e uma ou mais
variáveis X 1 , X 2 ,..., X k como variáveis independentes.
13
Coeficiente de
correlação
Coeficiente de
determinação
p-valor do
Teste F da
regressão
Ordenada na origem
da reta de regressão
Declive da reta de
regressão
Testes marginais I.C. p/ coeficientes 14
Variável X 1 Desenho de residuais Os resíduos devem estar distribuídos

0,2 aleatoriamente acima e abaixo de zero e
0,15 não devem apresentar qualquer padrão
0,1 nem qualquer relação com X ou Y
Residuais
0,05
-0,05 Desenho de probabilidade

-0,1 normal
-0,15 0,25
-0,08 -0,06 -0,04 -0,02 0 0,02 0,04 0,06 0,08 0,1 0,2
Variável X 1 0,15
0,1
Se os resíduos seguissem uma distribuição normal, estes 0,05
Y
pontos estariam alinhados. 0

-0,05 0 20 40 60 80 100 120
Nota-se aqui um desvio relativamente à distrib. normal. -0,1

-0,15
Percentil da amostra 15
REGRESSÃO
NO
SPSS
16
Diagrama de dispersão no SPSS
• Um diagrama de dispersão é uma representação gráfica para dados
bivariados, em que cada par de dados (xi,yi) é representado por um ponto
num sistema de eixos coordenados.
• No SPSS: Graphs > Legacy Dialogs > Scatter/dot > Simple Scatter
Exercício:
1. Utilize a base de dados Mundo95_15.sav, onde se encontram dados
demográficos de 15 países selecionados, para analisar se a esperança de vida
feminina (espvidaf) está relacionada com a taxa de nascimentos por 1000
pessoas (tx_nasc). Represente num diagrama de dispersão as variáveis taxa
de nascimentos (eixo dos xx) e esperança de vida feminina (eixo dos yy), com
as seguintes particularidades:
✓ Coloque a variável país em Label cases by.
✓ Usando o botão Titles escreva como título “Esperança de vida feminina Vs.
Taxa de Nascimentos” e como nota de rodapé (Footnote) “Dados de 15 países
(1995)”.
✓ Fazendo duplo clique no gráfico para abrir o Chart Editor, adicione a reta de
regressão (selecione a nuvem de pontos e clique no botão Add Fit Line at
Total; escolha a opção Linear) e coloque etiquetas nos pontos do gráfico
(selecione a nuvem de pontos e vá ao menu Elements > Show Data Labels) 17
Diagrama de dispersão no SPSS
Esperança de vida vs. Taxa de nascimentos
mundo95_15.sav
R Sq Linear = 0,918
Holanda
França
80 Cuba
Esperança de vida feminina
Coreia N.
Tailândia Turquia
Equador Marrocos
70 China
Botswana
X=“Taxa de nascimentos
por 1000 pessoas”
60 Camarões
Somália
Y=“Esperança de vida
50
Burkina Faso feminina (em anos)”
Tanzânia
Zâmbia
10,0 20,0 30,0 40,0 50,0

Taxa de nascimento por 1000 pessoas
Dados de 15 países (1995)
• A intensidade desta relação estatística mede-se com a

correlação.
• No SPSS: Analyse > Correlate> Bivariate
18
Regressão linear no SPSS
• Analyze > Regression > Linear.
• Coloque uma variável quantitativa Y como variável dependente e uma
ou mais variáveis X 1 , X 2 ,..., X k como variáveis independentes.
• Caso pretenda regressões separadas por grupos, transporte a variável
que define os grupos para Selection Variable e defina uma regra no
botão Rule.
mundo95_15.sav
Coeficiente de
correlação (em
valor absoluto)
Coefficientsa
Coeficiente de
Unstandardized Standardized
determinação Coefficients Coefficients
Model B Std. Error Beta t Sig.
Ordenada na origem 1 (Constant) 94,206 2,527 37,278 ,000
da reta de regressão Taxa de nascimento
-,949 ,079 -,958 -12,051 ,000
por 1000 pessoas
a. Dependent Variable: Esperança de vida feminina
Declive da reta de Testes marginais
regressão Equação do Y = 94, 206 − 0,949 X i +  i
modelo: i 19
• Interpretação do coeficiente de determinação:
– O modelo consegue explicar 91,8% da variação da esperança de vida feminina,
ficando 8,2% por explicar, que se devem a outros fatores.
• Interpretação dos coeficientes do modelo:
– Só devemos interpretar os coeficientes em que o teste t tenha p-valor inferior a 0,05
– Por cada aumento de 1 nascimento na taxa de nascimentos por 1000 pessoas, a
esperança de vida feminina diminui 0,949 anos
Coefficientsa
Coeficiente de
Unstandardized Standardized
determinação Coefficients Coefficients
Model B Std. Error Beta t Sig.
Ordenada na origem 1 (Constant) 94,206 2,527 37,278 ,000
da reta de regressão Taxa de nascimento
-,949 ,079 -,958 -12,051 ,000
por 1000 pessoas
a. Dependent Variable: Esperança de vida feminina
Declive da reta de Testes marginais
regressão Equação do Y = 94, 206 − 0,949 X i +  i
modelo: i 20
Regressão linear múltipla
Modelo de Regressão Linear Múltipla (OLS):
Yi = b 0 + b1 X 1i + b 2 X 2i + ... + b k X ki +  i i = 1,..., n
Indivíduos,
observações
Variável dependente, Parâmetros, Variáveis independentes, Erros,
explicada ou exógena coeficientes explicativas, endógenas, termo de perturbação,
de regressão regressores, covariáveis resíduos
Graus de liberdade: n-k-1
Pressupostos dos Modelos de Regressão Linear:
• Os erros  i têm uma distribuição normal
 i ~ N 0,  2 ( )
com média zero e variância  constante
2 var( Y i ) = var(  i ) =  2
(homocedasticidade). E (Yi ) = b 0 + b1 X 1i + ... + b k X ki

• Os erros  i são mutuamente independentes
cov(Yi , Y j ) = cov( i ,  j ) = 0
(autocorrelação nula)
• Se o modelo inclui múltiplas variáveis explicativas, car ( X ) = k  n
elas devem ser linearmente independentes, isto é,
não deve existir multicolinearidade. 21
• Coeficiente de determinação (caso regressão linear múltipla)
– Representa a proporção da variação explicada pelo modelo em relação à
variação total
– Tem o inconveniente de aumentar sempre que se aumenta uma variável
independente ao modelo, qualquer que ela seja.
n
 i 2 n
SST =  (Yi − Y )2
SSE SSR
R2 = = 1− = 1 − i =1 i =1
SST SST n n
 (Yi − Y )2 SSE =  (Yî − Y ) 2
i =1 i =1
n n
• Coeficiente de determinação ajustado SSR =  (Yi − Yî )2 =   i 2
SSR i =1 i =1
n −1
R 2adj = 1 − n − k − 1 = 1 − (1 − R 2 )
SST n − k −1 SST = SSE + SSR
Variação Variação Variação
n −1 total explicada residual
pela
• Aumenta quando S2 diminui; regressão
• Tem o inconveniente de acontecer ser negativo, quando R2<k/(n-1)
22
SSE / k
Teste global (ANOVA) ou teste F E.T .: ~ F( k , n − k −1)
SSR / ( n − k − 1)
• H0: 1b = ... = b k = 0
• H1: Existe pelo menos um j tal que b j  0
• onde b j é o coeficiente da variável Xj no modelo.
• Quando se rejeita H0, a relação global entre a variável dependente Y e o
conjunto de variáveis independentes Xj é significativa.
bˆ j bˆ j
Testes marginais ou testes t E.T .: = ~ tn − k −1
S  m jj s ( bˆ j ) onde m é o elemento diagonal
• H 0: b j = 0 ii
de ordem i da matriz (XTX)-1
• H1: b j  0 onde b j é o coeficiente da variável X j no modelo.
• Executa-se um teste t para cada variável independente Xj, para verificar se
há diminuição da qualidade do modelo quando é suprimida cada variável.
• Estes testes indicam quais as variáveis que são significativas no modelo.
• Para testar outro valor para o coeficiente: (Por exemplo, testar se o coeficiente é 1)
ˆ
b j −1
H0: b j = 1 E.T .: ~ tn − k −1
H1: b j  1 s ( bˆ )
j 23
mundo95_15.sav
Pretende-se usar os dados do ficheiro
mundo95_15.sav para estimar um modelo de
regressão linear múltipla para a Mortalidade
infantil em função de Percentagem de pessoas
que leem, PIB per capita e Casos de SIDA.
a) Analise a matriz de coeficientes de
correlação e os diagramas de dispersão
entre as variáveis envolvidas.
b) Escreva a equação do modelo.
Y = 138.482 − 1.166 X 1 − 0.002 X 2 + 0.001X 3 + 
onde Y = Mortalidade infantil, X1 = Percentagem de pessoas que leem,
X2 = PIB per capita, X3 = Casos de SIDA e  = termo de erro
c) Interprete o coeficiente de determinação.

d) Quais das variáveis são significativas no
modelo, a 5% de significância?
e) Analise os seguintes pressupostos do
modelo de regressão através de gráficos
e de testes de hipóteses adequados.
i. normalidade dos resíduos
ii. homocedasticidade
iii. independência dos resíduos
iv. ausência de multicolinearidade
24
Regressão linear
• Como interpretar os coeficientes bi da
regressão linear? Y = b0 + b1 X 1 + b 2 X 2 + ... + bi X i + ... + b k X k + 
– Se Xi é quantitativa: dY
= bi
• O coeficiente bi representa a variação em Y por dX i
cada unidade que Xi aumente, mantendo
Preço
constantes as restantes variáveis do modelo. (€)
2779,50 €
– Se Xi é qualitativa (variável dummy): 1 m2
• O coeficiente bi representa a variação em Y, caso Área (m2)
a variável Xi se encontre nessa categoria em vez

de se situar na categoria de referência. Para um imóvel com
mais 1 m2 e com igual
nº quartos, o preço
– Nunca se deve interpretar um coeficiente de tem tendência a
aumentar 2779,50€
regressão de uma variável que não é
significativa!
(analisar primeiro os testes t dos coeficientes)
25
• Como escolher quais as variáveis explicativas a
incluir no modelo?
• Experimentar várias combinações de variáveis independentes
• Pretende-se encontrar um modelo com elevado R2adj e com todos
os coeficientes significativos e interpretáveis
Métodos para selecção de variáveis explicativas:
• Backward: inicialmente todas as variáveis são inseridas no modelo, e
depois são removidas uma a uma sequencialmente, enquanto satisfaçam
o critério de eliminação (remover a que tiver pior desempenho nos testes
marginais, ou que tiver menor correlação parcial com a variável
dependente…)
• Forward: as variáveis são inseridas no modelo sequencialmente,
começando pela que tiver maior correlação parcial, desde que satisfaça o
critério de inserção.
• Stepwise: combinação dos dois processos anteriores.
26
Análise de Resíduos
Normalidade dos resíduos:
• Histograma e Gráfico de Probabilidade Normal
• Teste Shapiro-Wilk ou K-S para os resíduos
– H0: Os resíduos têm distribuição normal
2º passo: Analyse > Explore

> Teste normalidade
27
Homocedasticidade (variância 2 constante):
• Não deve haver padrões nos seguintes gráficos:
– Resíduos vs. valores preditos pelo modelo ( yî ,  i )
– Resíduos vs. cada variável independente ( xi ,  i )
Graphs > Legacy Dialogs >

Scatter/dot > Simple Scatter
28
Independência dos resíduos:
• Gráfico dos Resíduos vs. Índice (i,  i )
Analyse > Forecasting > Sequence Charts

Depois editar o gráfico, adicionando os
marcadores e pondo a linha transparente
• Teste de Durbin Watson

– H0: Os resíduos são mutuamente independentes ( r = 0)
Recorre-se a tabelas para obter os valores críticos inferior (dl) e superior (du) e
enquadra-se o valor da estatística de teste dentro de um dos seguintes intervalos
k=3, n=15, para a=5%

então dl=0.82 e du=1.75
logo 4-du=2.25 e 4-dl=3.18
Como 4-du<DW<4-dl então
o teste é inconclusivo.
29
Multicolinearidade
• VIF (Variance Inflation Factor) deve ser inferior a 3 (ou no máximo 10)
30
Outliers e observações influentes
• Outlier: observação com elevado resíduo
• Alavanca elevada: observações afastadas da maioria
• Influentes: influenciam os coeficientes do modelo
• Alavanca (leverage) da observação i
– São os valores da diagonal da matriz hat: hii = X i ( X T X )−1 X iT
– high leverage points se hii  2(k + 1) / n
• Distância de Mahalanobis
– Mede a distância a que uma observação se encontra da média das outras observações
n(n − 2) (hii − 1) / n
Mi = 
(n − 1) 1 − hii
– Uma distância de Mahalanobis elevada indica elevada alavanca
• Distância de Cook
– Mede a influência que a observação tem nos coeficientes i
ri 2 h onde ri é o resíduo studentizado ri =
Ci =  ii ˆ 1 − hii
k + 1 1 − hii
– Considera-se elevada se Ci  4 / (n − k − 1)
• DFITS
– mede a influência que a observação tem nos valores estimados da variável dependente
hii
DFITSi = ri  Considera-se elevada se DFITS >2* (k+1)/(n-k-1)
1 − hii 31
Variáveis Categóricas
• Uma variável categórica ou variável qualitativa representa a informação
que identifica alguma qualidade, categoria ou característica, não suscetível
de medida, mas de classificação, assumindo várias modalidades.
• Uma variável categórica toma valores dentro de um número limitado de
categorias, geralmente fixas à partida.
– Variável Qualitativa Nominal - Dados identificados apenas pela atribuição de um nome
que designa uma classe, sem existir uma relação de ordem entre as classes
– Variável Qualitativa Ordinal - É possível estabelecer uma ordenação das classes
segundo algum critério relevante e indiscutível.
Exemplos:
Variável Categorias
– Sexo Feminino = 1, Masculino = 2
– Cor Azul = 1, Verde = 2, Amarelo = 3, Laranja = 4, Vermelho = 5
– Satisfação Insatisfeito = 1, Satisfeito = 2, Muito Satisfeito = 3
– Peça defeituosa Sim = 1, Não = 0
• As categorias podem ser representadas numa base de dados por um código
numérico, sem que isso signifique que seja uma variável quantitativa.
• Quando há apenas duas categorias possíveis, a variável diz-se binária.
32
Regressão com
variáveis categóricas
• A regressão linear é adequada quando as variáveis explicativas e a
variável explicada são quantitativas. Para efetuar uma regressão com
variáveis qualitativas há que utilizar modelos especiais.
• Num modelo de regressão podemos estar interessados em usar uma
variável categórica como variável independente, X, ou como variável
dependente, Y.
– Variável dependente Y é quantitativa,
– variável independente X é categórica
---> regressão linear com variáveis dummy
– Variável dependente Y é categórica,

– variável independente X é quantitativa
---> modelos lineares generalizados (GLM): logit, probit
33
Regressão linear com
variáveis dummy
• Para incluir num modelo de regressão linear os efeitos de uma variável
explicativa qualitativa X numa variável dependente quantitativa Y normalmente
distribuída, usam-se variáveis “dummy”.
• Se a variável X tem k categorias, escolhe-se uma categoria de referência e
criam-se k-1 variáveis auxiliares binárias (dummy) que atuam de forma
exclusiva.
Variável Variável Variável
qualitativa dummy dummy Y = b 0 + b1 X + 
X=Satisfação D1 D2
Insatisfeito 0 0 Categ.refª
Satisfeito 1 0
Muito Satisfeito 0 1 Y = b 0 + b11D1 + b12 D2 + 
• Os coeficientes de cada dummy no modelo indicam qual o impacto em Y, caso a
variável X caia nesta categoria em vez de cair na categoria de referência.
34
Regressão linear com
variáveis dummy
• Em modelos sem a constante b0 criam-se tantas dummy quantas as
categorias e a interpretação dos coeficientes já é absoluta (e não relativa à
categoria de referência).
• Os coeficientes de cada dummy no modelo funcionam como constantes b0
iniciais diferenciadas para cada categoria, e indicam qual o impacto em Y, caso
a variável X caia nesta categoria.
Variável Variável Variável Variável
qualitativa dummy dummy dummy
X=Satisfação D1 D2 D3
Insatisfeito 1 0 0 Y = b1 X + 
Satisfeito 0 1 0
Muito Satisfeito 0 0 1
Y = b11D1 + b12 D2 + b13 D3 + 

• Em modelos sem constante e com várias variáveis qualitativas, a ordem é
importante. Só a primeira variável qualitativa obtém coeficientes absolutos para
todas as categorias. A segunda variável fica com coeficientes relativos à sua
categoria de referência. 35
Exercício 1
1. Pretende-se estudar se há uma relação linear entre as variáveis Altura
(independente) e Peso (dependente) do ficheiro peso.sav.
▪ Para todos os casos
▪ Para as mulheres
▪ Para os homens
Sugestão: Ou faz antecipadamente Data > Split File> Compare Groups, ou
então:
Ao fazer o diagrama de dispersão, transfira a variável sexo para Set
Markers by.
Ao fazer Linear Regression, transfira a variável sexo para Selection
Variable.
1. Represente graficamente o diagrama de dispersão e respetiva reta
de regressão para os três casos.
2. Escreva as equações das rectas de regressão para os três casos.
3. Qual das três retas se ajusta melhor aos dados? Porquê?
4. Considerando ambos os sexos, qual o peso previsto para a altura
1,754m?
5. Qual o peso previsto para uma mulher com altura 1,552m?
36
Exercício 2
2. O ficheiro Love.sav contém as respostas de um inquérito realizado a
recém-casados, em que é atribuída uma pontuação de 1 a 5 em cada
pergunta, onde 5 é o mais favorável. Pretende-se estudar se existe
alguma relação entre as respostas dadas à questão nº1 e à questão nº2,
usando o SPSS.
1. Represente as variáveis Questão nº1 e Questão nº 2 num diagrama de
dispersão e adicione ao diagrama as retas de regressão para o caso
dos maridos e para o caso das esposas, separadamente.
2. Calcule o coeficiente de correlação (R) relativo apenas às respostas
dos maridos e escreva a equação do modelo de regressão
correspondente.
3. Qual a resposta à questão nº2 prevista pelo modelo para um marido
que tivesse respondido menos favorável (resposta 1) à questão nº1?
4. Qual a resposta prevista à questão nº2 para um marido que tenha
respondido 4 na questão nº1?
37
Exercício 3
Importe para o SPSS a base de dados imoveis.csv que contém dados sobre o preço
(em €) e áreas (em m2) de imóveis novos (estado=0) e usados (estado=1) à venda nos
concelhos de Póvoa de Varzim (concelho=1), Vila do Conde (2), e Porto (3).
1. Calcule a média, mediana, desvio padrão para todas as variáveis quantitativas.
2. Analise a relação entre o preço e a tipologia de um imóvel, através do coeficiente
de correlação de Spearman.
3. Apresente uma matriz de correlações de Pearson que relacione as variáveis nº de
quartos, área e preço. Analise os coeficientes de correlação obtidos.
4. Desenhe diagramas de dispersão que relacionem o preço, a área e o nº de
quartos do imóvel.
5. Estime um modelo de regressão linear para o preço de um imóvel em função da
sua área e do seu nº de quartos.
a) Escreva a equação do modelo de regressão.
b) Calcule e interprete o coeficiente de determinação.
c) Teste a significância dos coeficientes do modelo.
d) Interprete os coeficientes do modelo.
e) Calcule o preço predito pelo modelo para um imóvel com 120 m2 e três
quartos.
f) Analise os pressupostos do modelo de regressão através de gráficos e testes
de hipótese adequados. 38

TAD 6 Correlacao e Regressao

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TAD 6 Correlacao e Regressao

Enviado por

Direitos autorais:

Formatos disponíveis

Correlação

Tratamento e Análise de Dados

• Conceitos ao nível inferencial:

• A existência de correlação forte entre duas variáveis X e Y

Teste de correlação de Pearson

INTEL Return Rate

entre as duas variáveis, que pode ser 0,1

linear ou não, em sentido direto ou 0,05

• A intensidade desta relação estatística -0,1

Diagrama de Dispersão no Excel:

Considere as cotações de fecho ajustadas

INTEL Return Rate

Diagrama de Dispersão no Excel:

Variável X 1 Desenho de residuais Os resíduos devem estar distribuídos

-0,05 Desenho de probabilidade

pontos estariam alinhados. 0

Nota-se aqui um desvio relativamente à distrib. normal. -0,1

10,0 20,0 30,0 40,0 50,0

• A intensidade desta relação estatística mede-se com a

• No SPSS: Analyse > Correlate> Bivariate

(homocedasticidade). E (Yi ) = b 0 + b1 X 1i + ... + b k X ki

c) Interprete o coeficiente de determinação.

– Se Xi é qualitativa (variável dummy): 1 m2

• O coeficiente bi representa a variação em Y, caso Área (m2)

a variável Xi se encontre nessa categoria em vez

2º passo: Analyse > Explore

Graphs > Legacy Dialogs >

Analyse > Forecasting > Sequence Charts

• Teste de Durbin Watson

k=3, n=15, para a=5%

– high leverage points se hii  2(k + 1) / n

– Variável dependente Y é categórica,

Y = b11D1 + b12 D2 + b13 D3 + 

Você também pode gostar