Escolar Documentos
Profissional Documentos
Cultura Documentos
– Aula 06b
Statistics for Business and Economics 7 edi..o, by Paul Newbold , William Carlson , Betty Thorne (cap.
Simple Regression)
Bussab e Morettin (Cap 16 Regress.o Linear Simples)
Statistics for Economics, Accounting and Business Studies, cap.tulo 7, Barrow (Correlation and Simple
Regression)
Marislei Nishijima
Estatística II
Visão geral dos modelos lineares
• Uma equação pode ser adequada para mostrar a melhor relação
linear entre duas variáveis:
Y = β0 + β1X
Estatística II
Regressão de Mínimos quadrados
• As estimativas para os coeficientes β0 e β1 são
encontradas usando uma técnica de regressão de
mínimos quadrados
• A linha de regressão de mínimos quadrados, com base em
dados de amostra, é
yˆ = b0 + b1x
• Sendo b1 a inclinação e b0 o intercepto em y:
Cov(x, y)
b1 = b0 = y - b1x
s2x
Estatística II
Introdução à Análise de Regressão
Estatística II
Linear Regression Model
• A relação entre X e Y é descrita por uma função
linear
• As mudanças em Y são consideradas causadas por
mudanças em X
• Modelo de equação de regressão linear
populacional
Yi = β0 + β1x i + ε i
Estatística II
Modelo de regressão linear simples
Population Random
Population Independent Error
Slope
Y intercept Variable term
Coefficient
Dependent
Variable
Yi = β0 + β1Xi + ε i
Linear component Random Error
component
Estatística II
Modelo de regressão linear simples
(continued)
Y Yi = β0 + β1Xi + ε i
Observed Value
of Y for Xi
εi Slope = β1
Intercept = β0
Xi
X
Estatística II
Equação do Modelo de regressão
linear simples
A equação de regressão linear simples fornece uma estimativa da linha de
regressão da população
Valor xi
yˆ i = b0 + b1x i observado
ei = ( y i - yˆ i ) = y i - (b0 + b1x i )
Estatística II
Estimadores de MQ
• b0 e b1 são obtidos encontrando oas valores de
b0 e b1 que minimizam a soma dos quadrados das
diferenças entre y e ŷ :
å (x - x)(y - y)
i i
Cov(x, y) sy
b1 = i=1
n
= 2
= rxy
sx sx
å i
(x
i=1
- x) 2
• E do intercepto é:
b0 = y - b1x
• A reta de regressão sempre passa por x, y
Estatística II
Obtendo as estimativas da
equação de MQ
Estatística II
Pressupostos do modelo de
regressão linear
• A verdadeira forma da relação é linear (Y é uma função linear de X, mais o erro
aleatório)
• Os termos de erro, εi são independentes dos valores x
• Os termos de erro são variáveis aleatórias com média 0 e variância constante, σ2.
(a propriedade de variância constante é chamada de homocedasticidade)
2
E[ε i ] = 0 and E[ε i ] = σ 2 for (i = 1, !, n)
• Os termos de erro aleatório, εi, não estão correlacionados uns com os outros, de
modo que
yˆ i = b0 + b1x i
• b0 é o valor médio estimado de y quando o valor
de x for zero (se x = 0 estiver na faixa dos valores x
observados)
Estatística II
Exemplo de regressão linear
simples
• Um corretor de imóveis deseja examinar a relação
entre o preço de venda de uma casa e seu tamanho
(medido em metros quadrados)
Estatística II
Amostra para o medelo de preços
de imóveis
Preços de imóvies em
Metros quadrados
$1000
(X)
(Y)
245 1400
312 1600
279 1700
308 1875
199 1100
219 1550
405 2350
324 2450
319 1425
255 1700
Estatística II
Representação Gráfica
• Modelo de preços de imóveis: scatter plot
450
400
Preço de imóvies ($1000)
350
300
250
200
150
100
50
0
0 500 1000 1500 2000 2500 3000
Metros Quadrados
Estatística II
Regressão usando Excel
• Excel will be used to generate the coefficients and
measures of goodness of fit for regression
• Data / Data Analysis / Regression
Estatística II
Regressão usando Excel
(cont.)
• Data / Data Analysis / Regression
Estatística II
Saída do Excel
Estatística II
Saída do Excel
(cont.)
Regression Statistics
Multiple R 0.76211 A regressão de regressão é:
R Square 0.58082
Adjusted R Square 0.52842 6
𝑝𝑟𝑒ç𝑜 𝑖𝑚ó𝑣𝑒𝑙 = 98.24833 + 0.10977𝑚𝑒𝑡𝑟𝑜𝑠2
Standard Error 41.33032
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Estatística II
Saída Stata
6
𝑝𝑟𝑒ç𝑜 𝑖𝑚ó𝑣𝑒𝑙 = 98.24833 + 0.10977𝑚𝑒𝑡𝑟𝑜𝑠2
reg y x
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | .1097677 .0329694 3.33 0.010 .0337401 .1857954
_cons | 98.24833 58.03348 1.69 0.129 -35.57711 232.0738
------------------------------------------------------------------------------
Estatística II
Representação Gráfica
• Modelo de preço de imóvel: gráfico de
dispersão e linha de regressão
450
400
400
350
300
250
200
Fitted values Y
Estatística II
Interpretação do
Intercepto, b0
6
𝑝𝑟𝑒ç𝑜 𝑖𝑚ó𝑣𝑒𝑙 = 98.24833 + 0.10977𝑚𝑒𝑡𝑟𝑜𝑠2
Estatística II
Interpretação do coeficiente de
inclinação, b1
6
𝑝𝑟𝑒ç𝑜 𝑖𝑚ó𝑣𝑒𝑙 = 98.24833 + 0.10977𝑚𝑒𝑡𝑟𝑜𝑠2
N +
𝑆𝑄𝑇 = M(𝑦* − 𝑦) N +
𝑆𝑄𝑅 = M(𝑦/* − 𝑦) 𝑆𝑄𝐸 = M(𝑦* − 𝑦/* )+
where:
y = Valor médio da variável dependente
yi = Valores observados da variável dependente
ŷi = Valor previsto de y para um dado valor de xi
Estatística II
Medidas de Variação
(cont.)
Estatística II
Medidas de Variação
(cont.)
Y
yi Ù
Ù
SSE = å(yi - yi )2 y
_2
SST = å(yi - y)
Ù
Ù _2
y
SSR = å(yi - y)
_ _
y y
xi X
Estatística II
Coeficiente de Determinação, R2
• O Coeficiente de Determinação é a porção da
variação total na variável dependente que é
explicada pela variação na variável independente
• O coeficiente de determinação também é chamado
de R ao quadrado e é denotado como R2
𝑆𝑄𝑅 𝑆𝑜𝑚𝑎 𝑑𝑜𝑠 𝑞𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑎 𝑅𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜
𝑅+ = =
𝑆𝑄𝑇 𝑆𝑜𝑚𝑎 𝑑𝑜𝑠 𝑞𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑡𝑜𝑡𝑎𝑙
note:
0 £R £1
2
Estatística II
Exemplos de valores de
r2
Y
r2 = 1
X
r2 =1
Estatística II
Exemplos de valores de
r2
Y
0 < r2 < 1
X
Estatística II
Exemplos de valores de
r2
r2 = 0
Y
Estatística II
Medidas de Variação
• A variação total é composta por duas partes:
N +
𝑆𝑄𝑇 = M(𝑦* − 𝑦) N +
𝑆𝑄𝑅 = M(𝑦/* − 𝑦) 𝑆𝑄𝐸 = M(𝑦* − 𝑦/* )+
where:
y = Valor médio da variável dependente
yi = Valores observados da variável dependente
ŷi = Valor previsto de y para um dado valor de xi
Estatística II
Saída do Excel
𝑆𝑄𝑅 18934.9348
Regression Statistics
𝑅+ = = = 0.58082
Multiple R 0.76211 𝑆𝑄𝑇 32600.5000
R Square 0.58082
Adjusted R Square 0.52842 58.08% é a variação do preço dos
Standard Error 41.33032 imóveis explicada pela metragem
Observations 10
quadrada
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Estatística II
Saída Stata
6
𝑝𝑟𝑒ç𝑜 𝑖𝑚ó𝑣𝑒𝑙 = 98.24833 + 0.10977𝑚𝑒𝑡𝑟𝑜𝑠2
reg y x
------------------------------------------------------------------------------
y | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
x | .1097677 .0329694 3.33 0.010 .0337401 .1857954
_cons | 98.24833 58.03348 1.69 0.129 -35.57711 232.0738
------------------------------------------------------------------------------
Estatística II
Correlação e R2
• O coeficiente de determinação, R2, para o modelo
de regressão simpels é igual ao coeficiente de
correlação simples ao quadrado.
R =r
2 2
xy
Estatística II
Estimando a Variância do Erro do
modelo
Um estimador para a variância do erro do modelo populacional é
Z +
+ +
∑ *Y4 𝑒* 𝑆𝑄𝐸
𝜎/ = 𝑆X = =
𝑛−2 𝑛−2
• A divisão por n – 2 ao invés de n – 1 ocorre porque o modelo de regressão simples estima dois
parâmetros, b0 e b1, ao invés de 1
Estatística II
Saída do Excel
Regression Statistics
Multiple R 0.76211 se = 41.33032
R Square 0.58082
Adjusted R Square 0.52842
Standard Error 41.33032
Observations 10
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Estatística II
Comparando erros padrão
se é uma medida da variação dos valores de y observados a partir
da linha de regressão
Y Y
X X
small se large se
2 2
s s
s2b1 = e
= e
å (xi - x) (n - 1)s x
2 2
sendo:
sb1 = Estimativa do erro padrão da inclinação dos MQO
𝑆𝑄𝐸
𝑆X = = Erro padrão da estimativa
𝑛−2
Estatística II
Saída do Excel
Regression Statistics
Multiple R 0.76211
R Square 0.58082
Adjusted R Square 0.52842
Standard Error
Observations
41.33032
10
sb1 = 0.03297
ANOVA
df SS MS F Significance F
Regression 1 18934.9348 18934.9348 11.0848 0.01039
Residual 8 13665.5652 1708.1957
Total 9 32600.5000
Estatística II
Comparando o Erro Padrão da
Inclinação
Sb1 é a medida de variação da inclinação da reta de regressão a partir de diferentes
amostras.
Y Y
X X
small Sb1 large Sb1
Estatística II
Inferência sobre a inclinação:
Teste t
• Teste t para a inclinação populacional
• Existe uma relação linear entre X e Y?
• Hipóteses nula e alternativa
H0: β1 = 0 (não há relação linear )
H1: β1 ¹ 0 (há relação linear )
• Estatística de Teste
sendo:
b1 - β1
t= b1 = coeficiente de inclinação da
sb1 regressão
β1 = inclinação hipotética
sb1 = erro padrão da inclinação
d.f. = n - 2
Estatística II
Inferência sobre a inclinação:
Teste t
(cont.)
Equação de Regressão Estimada:
Preço do
imóvel em m2
$1000s (x)
(y)
6
𝑝𝑟𝑒ç𝑜 𝑖𝑚ó𝑣𝑒𝑙 = 98.24833 + 0.10977𝑚𝑒𝑡𝑟𝑜𝑠2
245 1400
312 1600
279 1700 A inclinação deste modelo é 0,1098
308 1875 A metragem quadrada da casa afeta seu preço de
199 1100 venda?
219 1550
405 2350
324 2450
319 1425
255 1700
Estatística II
Inferência sobre a inclinação:
Teste t Exemplo
b1 sb1
H 0 : β1 = 0 Das saídas dos programas:
b1 - β1 0.10977t - 0
t= = = 3.32938
sb1 0.03297
Estatística II
Inferência sobre a inclinação:
Teste t Exemplo
(cont.)
Estatística de Teste: t = 3.329
b1 sb1 t
H 0 : β1 = 0 From Excel output:
t8,.025 = 2.3060
Decisão:
a/2=.025 a/2=.025 Reject H0
Conclusão:
Rejeita H0 Não rejeita H0 Rejeita H0
Há evidências suficientes de
-tn-2,α/2 0 tn-2,α/2 que a metragem quadrada
-2.3060 2.3060 3.329 afeta o preço dos imóveis
Estatística II
Inferência sobre a inclinação:
Teste t Exemplo
(cont.)
P-valor = 0.01039
P-valor
H 0 : β1 = 0 Da saída do Excel:
Estatística II
Estimativa do intervalo de confiança
para a inclinação
(continued)
Estatística II
Teste F para Significância Conjunta
• Estatística de Teste F:
𝑀𝑆𝑅
𝐹=
𝑀𝑆𝐸
sendo
𝑆𝑄𝑅
𝑀𝑆𝑅 =
𝑘
𝑆𝑄𝐸
𝑀𝑆𝐸 =
𝑛−𝑘−1
Estatística II
Teste F para Significância Conjunta
(cont.)
H 0 : β1 = 0 Estatística de Teste:
H 1 : β1 ≠ 0 MSR
a = .05
F= = 11.08
MSE
df1= 1 df2 = 8
Decisão:
Valor Rejeita H0 a a = 0.05
crítico:
Fa = 5.32
a = .05 Conclusão:
Há evidências suficientes de que o tamanho
da casa afeta o preço de venda
0 F
Não Rejeita H0
rejeita H0
F.05 = 5.32
Estatística II
Previsão
• A equação de regressão pode ser usada para
prever um valor para y, dado um x particular
Estatística II
Previsõesc usando análise de regressão
Previsão do preço de uma casa com 2.000 metros
quadrados:
6
𝑝𝑟𝑒ç𝑜 𝑖𝑚ó𝑣𝑒𝑙 = 98.24833 + 0.10977𝑚𝑒𝑡𝑟𝑜𝑠2
= 98.24833 + 0.10977 2000
= 317.85
Estatística II
Intervalo de dados relevantes
• Ao usar um modelo de regressão para previsão, apenas
preveja valores dentro do intervalo relevante de dados
450
400
House Price ($1000s)
350
300
250
200
150 Arriscado tentar
100
extrapolar muito
50
0
além da faixa dos
0 1000 2000 3000 valores de X
Estatística II Square Feet observados
Estimativa de valores médios e
previsão de valores individuais
Objetivo: formar intervalos em torno de y para expressar a
incerteza sobre o valor de y para um determinado xi
Intervalo de
confiança para o
valor esperado Y Ù
y
de y, dado xi
Ù
y = b0+b1xi
Intervalo de previsão
para um único y
observado, dado xi
Estatística II xi X
Intervalo de confiança para a media
de y, dado xi
Intervalo de confiança estimado para o valor
esperado de y, dado um particular valor de xi
é 1 (x n+1 - x)2 ù
yˆ n+1 ± t n-2,α/2 se ê + 2ú
êë n å (x i - x) úû
Estatística II
Intervalo de previsão para um valor
indivídual Y dado X
IC estimado para um verdadeiro valor observado
de y dado um particular valor de xi
é 1 (x n+1 - x)2 ù
yˆ n+1 ± t n-2,α/2 se ê1+ + 2ú
êë n å (x i - x) úû
Estatística II
Estimativa de valores médios: exemplo
Estimativa de IC para E(Yn+1|Xn+1)
1 (x i - x)2
yˆ n+1 ± t n-2,α/2 se + = 317.85 ± 37.12
n å (x i - x) 2
Estatística II
Intervalo de previsão para um valor
indivídual Y dado X: Exemplo
Ù
IC estimado para yn+1
1 (Xi - X)2
yˆ n+1 ± t n-1,α/2 se 1+ + = 317.85 ± 102.28
n å (Xi - X) 2
Estatística II
Análise de Correlação
• A análise de correlação é usada para medir a força
da associação (relação linear) entre duas variáveis
• A correlação está apenas preocupada com a força do
relacionamento
• Nenhum efeito causal está implícito na correlação
Estatística II
Análise de Correlação
O coeficiênte de correlação populacional é
denominado ρ (rho)
• O coeficiente de correlação amostral é
s xy
r=
sxsy
sendo
s xy =
å (x - x)(y - y)
i i
n -1
Estatística II
Teste de Hipótese para a Correlação
r (n - 2)
t=
(1- r )2
Estatística II
Regras de Decisão
ste de Hipótese para a Correlação
a a a/2 a/2