Escolar Documentos
Profissional Documentos
Cultura Documentos
Departamento Estat stica-IMECC Universidade Estadual de Campinas Paulo, Brasil Campinas, Sao
Objetivos
Estudar a relao linear entre duas variveis quantitativas. Veja alguns exemplos: Altura dos pais e altura dos lhos(Fig 1);
Objetivos
Estudar a relao linear entre duas variveis quantitativas. Veja alguns exemplos: Altura dos pais e altura dos lhos(Fig 1); Renda semanal e despensas de consumo;
Objetivos
Estudar a relao linear entre duas variveis quantitativas. Veja alguns exemplos: Altura dos pais e altura dos lhos(Fig 1); Renda semanal e despensas de consumo; Variao dos salarios e taxa de desemprego (Fig 2);
Objetivos
Estudar a relao linear entre duas variveis quantitativas. Veja alguns exemplos: Altura dos pais e altura dos lhos(Fig 1); Renda semanal e despensas de consumo; Variao dos salarios e taxa de desemprego (Fig 2); Demanda dos productos de uma rma e publicidade;
Objetivos
Estudar a relao linear entre duas variveis quantitativas. Veja alguns exemplos: Altura dos pais e altura dos lhos(Fig 1); Renda semanal e despensas de consumo; Variao dos salarios e taxa de desemprego (Fig 2); Demanda dos productos de uma rma e publicidade; Sob dois pontos de vista:
Explicitando a forma dessa relao: regressao. Quanticando a fora dessa relao: correlac ao.
Observaes
1) Regresso vs Causao Uma relao estatstica por s propria no implica uma causao Para atribuir causao, devemos invocar a alguma teora (p.e. econmica) 2) Regresso (AR) vs Correlao (AC) na AC h tratamento simetrico das variveis na AR a varivel explanatoria xa na AC presupe-se que as duas variaves so aleatrias
Dados Hipotticos
Os dados se referem renda semanal (X) e as despensas de consumo (Y) (em U S $), de uma populao total de 60 familias. As 60 familias foram divididas em 10 grupos de renda (Fig 3 e 4).
Y 80 55 60 65 X 70 75 Total E(Y|X) 325 65 100 65 70 74 80 85 88 462 77 120 79 84 90 94 98 445 89 140 80 93 95 103 108 113 115 707 101 160 102 107 110 116 118 125 678 113 180 110 115 120 130 135 140 750 125 200 120 136 140 144 145 685 137 220 135 137 140 152 157 160 162 1043 149 240 137 145 155 165 175 189 966 161 260 150 152 175 178 180 185 191 1211 173
razovel supor que a mdia da varivel aleatria Y , est relacionada com X pela seguinte relao E (Y |X = x) = Y |x = 0 + 1 x onde o e 1 , so respectivamente, o intercepto e a inclinao da reta e recebem o nome de coecientes de regresso.
razovel supor que a mdia da varivel aleatria Y , est relacionada com X pela seguinte relao E (Y |X = x) = Y |x = 0 + 1 x onde o e 1 , so respectivamente, o intercepto e a inclinao da reta e recebem o nome de coecientes de regresso. Cada valor individual Yi ser determinado pelo valor mdio da funo linear (Y |x ) mais um termo que representa um erro aleatrio,
razovel supor que a mdia da varivel aleatria Y , est relacionada com X pela seguinte relao E (Y |X = x) = Y |x = 0 + 1 x onde o e 1 , so respectivamente, o intercepto e a inclinao da reta e recebem o nome de coecientes de regresso. Cada valor individual Yi ser determinado pelo valor mdio da funo linear (Y |x ) mais um termo que representa um erro aleatrio, Yi = Y |x + i = 0 + 1 xi + i , onde i o erro estocstico que satisfaz E (i |xi ) = 0
Em geral, a varivel resposta pode estar relacionada com k variveis explicativas X1 , . . . Xk obedecendo equao : Y = 0 + 1 X1 + . . . + k Xk + , A equao denominada modelo de regresso linear mltipla.
Em geral, a varivel resposta pode estar relacionada com k variveis explicativas X1 , . . . Xk obedecendo equao : Y = 0 + 1 X1 + . . . + k Xk + , A equao denominada modelo de regresso linear mltipla. O adjetivo "linear" usado para indicar que o modelo linear nos parmetros 1 , . . . , k e no porque Y funo linear dos X s. Por exemplo, uma expresso da forma 3 Y = o + 1 log X1 + 2 X2 + um modelo de regresso linear mltipla, mas o mesmo no acontece com a 2 2 equao Y = 0 + 1 X1 + 3 X2 + .
Carter vago da teoria Falta de dados disponveis Varivies essenciais vs variveis perifricas Carter aleatrio da natureza Principio da parcimnia Forma funcional equivocada
A tarefa agora estimar a FRP com base em informaes amostrais Yi = Yi + i = 0 + 1 Xi + i , i = 1, . . . , n, onde 0 e 1 so estimadores de 0 e 1 , respectivamente e i = Yi Yi a componente residual (Fig 5). Precisamos formular uma regra ou mtodo que torne tal aproximao o mais prximo possvel!
Exercicio:
Suponha que tem-se n pares de observaes amostrais (x1 , y1 ), . . . , (xn , yn ). A soma de quadrados dos desvios das observaes em relao FRA :
n n
Q=
2 i =
(yi 0 1 xi )2 .
O mtodo de mnimos quadrados ordinarios (MQO) escolhe 1 e 2 (nicos) de forma que, para qualquer amostra, Q o menor possvel. Aps uma simple algebra tem-se
(1)
n
0 + 1
i=1 n
xi =
i=1 n
yi xi y i .
i=1
0
i=1
1 xi +
i=1
x2 i =
1 =
i=1
xi y i
n i=1
n
n x 2
x2 i
i=1
n x
n y
onde x =
i=1
ey =
i=1
Notaes especiais
n x
2 n
Sxx
=
i=1 n
(xi x ) =
x2 i
i=1
i=1
=
i=1 n
x2 2 , i nx
n x i n y i=1 i
Sxy
=
i=1 n
(xi x )(yi y ) = xi yi nx y ,
n
i=1
(xi x )yi =
i=1
xi yi
i=1
=
i=1 n
n y 2 yi
2 n
Syy
=
i=1
(yi y ) =
i=1
(yi y )yi =
i=1
i=1
=
i=1
2 yi ny 2 .
Os EMQ dependem s de quantidades observveis So estimadores pontuais A linha de regresso amostral facilmente obtida Yi = 0 + 1 Xi O valor mdio do resduo i zero Os residuos i so no correlacionados com Xi e Yi .
Exemplo 1
O gerente de uma cadeia de supermercados deseja desenvolver um modelo com a nalidade de estimar as vendas mdias semanais (em milhares de dlares) Y - Vendas semanais; e X - Nmero de clientes. Estas variveis foram observadas em 20 supermercados escolhidos aleatriamente.
X Y X Y 907 11,20 679 7,63 926 11,05 872 9,43 506 6,84 924 9,46 741 9,21 607 7,64 789 9,42 452 6,92 889 10,08 729 8,95 874 9,45 794 9,33 510 6,73 844 10,23 529 7,24 1010 11,77 420 6,12 621 7,41
Aplicao
= =
xi
i=1 n
yi
i=1 n
11, 20 + 11, 05 + . . . + 7, 41 = 176, 11; y = 8, 8055 (907)2 + (926)2 + . . . + (621)2 = 11.306.209 (11, 20)2 + (11, 05)2 + . . . + (7, 41)2 = 1.602, 0971
x2 i
i=1 n 2 yi i=1 n
xi yi
i=1
Sxx
=
i=1 n
x2 x)2 = 11.306.209 20(731, 15)2 = 614.603 i n( xi yi n( x)( y ) = 134.127, 90 20(8, 8055)(731, 15) = 5.365, 08
2 yi n( y )2 = 1.609, 0971 20(8, 8055) = 51, 3605.
Sxy
=
i=1 n
Syy
=
i=1
1 = Sxy = 5.365, 08 = 0, 00873; 0 = y 1 x = 8, 8055(0, 00873)(731, 15) = 2, 423 Sxx 614.603 Portanto, a linha de regresso ajustada ou estimada para esses dados so: y = 2, 423 + 0, 00873x.
Vendas semanais
6
400
10
11
500
600
700
800
900
1000
Numero de clientes
Suponha que tem-se interesse em prever as vendas semanais para um supermercado com 600 clientes. No modelo de regresso ajustado basta substituir X = 600, sto , y = 2, 423 + (0, 00873)(600) = 7, 661.
Suponha que tem-se interesse em prever as vendas semanais para um supermercado com 600 clientes. No modelo de regresso ajustado basta substituir X = 600, sto , y = 2, 423 + (0, 00873)(600) = 7, 661. A venda semanal de 7,661 mil dlares pode ser interpretada com uma estimao da venda mdia semanal verdadeira dos supermercados com X = 600 clientes,
Suponha que tem-se interesse em prever as vendas semanais para um supermercado com 600 clientes. No modelo de regresso ajustado basta substituir X = 600, sto , y = 2, 423 + (0, 00873)(600) = 7, 661. A venda semanal de 7,661 mil dlares pode ser interpretada com uma estimao da venda mdia semanal verdadeira dos supermercados com X = 600 clientes, ou como uma estimao de uma futura venda de um supermercado quando o nmero de clientes for X = 600.
(iii) A varivel explicativa X controlada pelo experimentador. (iv) o modelo de regresso esta especicado da forma correta (v) n> nmero de variveis explanatorias (iv) no ha multicolinearidade perfeita
0 ) = 0 , V ar( 0 ) = 2 E (
2 x Cov (0 , 1 ) = Sxx
1 n
x 2 Sxx
2 = .
0
Exercicio 2.
Estimao de 2
Os resduos, so empregados na estimao de 2 . A soma de quadrados residuais ou soma de quadrados dos erros, denotado por SQR :
n n
ei = y i y i
SQR =
i=1
e2 i =
i=1
(y i y i )2
Pode-se demonstrar que o valor esperado da soma de quadrados dos residuais SQR, dado por:(Exerccio 3) E (SQR) = (n 2) 2
Portanto, um estimador no viciado de 2 , SQR 2 = QM R (Quadrado medio residual), = n2 Uma frmula mais conveniente para o clculo da SQR dada por: 1 Sxy . SQR = Syy A estimativa de 2 para o exemplo 1. 2 1 Sxy SQR Syy = = n2 n2 51, 3605 (0, 00873)(5.365, 08) = = 0, 2513. 20 2
Previso
Seja xp o valor para o qual deseja-se prever (ou projetar) o valor mdio E (Y |xp ) e o valor individual de Y . - Previso mdia Yi um estimador no viciado de E [Y |xp ], dado que 0 + 1 xp ) = 0 + 1 xp = E (Y |xp ) E (Yi ) = E ( V ar(Yi ) =
1 2[ n
)2 (xi x ] sxx
)2 (xi x ] sxx
i=1
)2 = (Yi Y
i=1
i Y )2 + (Y
i=1
i )2 (Yi Y
Teorema de Gauss-Markov
Se as suposies MQO so satisfeitas, os EMQ da classe de estimadores lineares no viesados tm varincia mnima, isto , so os melhores estimadores lineares no viesados. (Prova) Para que normalidade? A estimao a metade do caminho, a outra metade teste se hipteses, para isto, suposies adicionais so necessrias. uma alternativa considerar tamanhos de amostra o sucientemente grandes (estimao de mxima verossimilhana) a outra supor que i N (0, 2 ) (O modelo de regresso normal simple clssico)
1 =
i=1
ki Yi =
i=1
ki (1 + 2 xi + i ) N (.)
2 2 0 N (0 , ), 1 N (1 , ),
0 1
Yi |Xi N (0 + 1 Xi , 2 )
tem distribuio t-Student com n 2 graus de liberdade sob H0 : 1 = 1,0 . Rejeita-se H0 se |Tobs | > t/2, n2 .
0 0,0 +
x 2 ] Sxx
que tem distribuio t-Student com n 2 graus de liberdade. Rejeitamos a hipteses nula se |Tobs | > t/2, n2 .
Exemplo
Teste de signicncia para o MRLS para os dados do exemplo 1, com = 0, 05. As hipteses so H0 : 1 = 0, vs H1 : 1 = 0 Do exemplo tem-se: 1 = 0, 00873, n = 20 Sxx = 614, 603, 2 = 0, 2512, De modo que a estatstica de teste, : Tobs = 1 2 /Sxx = 0, 00873 0, 2513/614.603 = 13, 65.
Anlise de varincia
Se a hiptese nula H0 : 1 = 0 verdadeira, a estatstica QM reg SQM/1 = F (1, n 2), F = SQR/(n 2) QM R Portanto, rejeita-se H0 se F0bs > F, 1, n2 . As quantidades QM reg = SQM , (quadrado mdio devido regresso) e 1 QM R = (SQR ( quadrado mdio residual) n2)
Tabela de ANOVA
Graus de Liberdade 1 n2 n1
Tabela de ANOVA
Fonte de Soma de Graus de Quadrado variao Quadrados Liberdade Mdio F QM reg Regresso SQM 1 QM reg QM R Residual SQR n2 QM R Total SQT n1 Exemplo: o procedimento de anlise de varincia para testar se de fato existe relao linear entre o nmero de clientes (X) e as vendas semanais (Y), no modelo proposto para os dados do exemplo 1. Relembre que 1 = 0, 00873, Sxy = 5.365, 08 e n = 20. Syy = 51, 3605,
A soma de quadrados da regresso 1 Sxy = (0, 00873)(5.365, 08) = 46, 8371 SQM = enquanto a soma de quadrados dos residuais : 1 Sxy = 51, 3605 46, 8371 = 4, 5234 SQR = SQT
A soma de quadrados da regresso 1 Sxy = (0, 00873)(5.365, 08) = 46, 8371 SQM = enquanto a soma de quadrados dos residuais : 1 Sxy = 51, 3605 46, 8371 = 4, 5234 SQR = SQT A ANOVA para testar H0 : 1 = 0. Nesse caso, a estatstica de teste F0bs = QM reg/QM R = 46, 837148/0, 2512 = 186, 4536.
A soma de quadrados da regresso 1 Sxy = (0, 00873)(5.365, 08) = 46, 8371 SQM = enquanto a soma de quadrados dos residuais : 1 Sxy = 51, 3605 46, 8371 = 4, 5234 SQR = SQT A ANOVA para testar H0 : 1 = 0. Nesse caso, a estatstica de teste F0bs = QM reg/QM R = 46, 837148/0, 2512 = 186, 4536. Como Fobs = 186, 4536 > F0,05,1,18 = 4, 41 rejeita-se H0 , ao nvel de signicncia de 5%.
Fonte de Soma de Graus de Quadrado variao Quadrados Liberdade Mdio F Regresso 46, 8371 1 46, 8371 186,45 Residual 4, 5234 18 0, 2513 Total 51, 3605 19
so variveis aleatrias com distribuio t-Student com n 2 graus de liberdade. Um intervalo de 100(1 )% de conana para 1 : IC (1 ; 1) = 1 t , n2 2 QM R ; 1 + t , n2 2 Sxx QM R Sxx
De modo similar, um intervalo de 100(1 )% de conana para 0 dado por: 1 x 2 QM R[ + ] n Sxx 1 x 2 ] QM R[ + n Sxx
IC (0 ; 1 ) =
0 t , n2 2 0 + t , n2 2
A seguir obtido um intervalo de 95% de conana para a inclinao do MRLS com os dados do exemplo 1,
1 = 0, 00873, Sxx = 614, 603 e Relembre que n = 20, QM R = 0, 2513. Para 1 = 0, 95, tem-se t0,025, 18 = 2, 101. 1 E ; 1 + E ) IC (1 ; 0, 95) = ( E = t0,025,18
QM R Sxx
= 2, 101
0,2513 614.603
= 0, 00134
)2 (x0 x Sxx
t(n 2)
(x0 x )2 ] Sxx
Suponha que tem-se interesse em construir um intervalo de 95% de conana da venda, mdia, semanal para todos supermercados com 600 clientes.
(x0 x )2 ] Sxx
Suponha que tem-se interesse em construir um intervalo de 95% de conana da venda, mdia, semanal para todos supermercados com 600 clientes. No modelo ajustado Y |x0 = 2, 423 + 0, 00873x0 . Para x0 = 600, obtm-se Y |x0 = 7, 661.
(x0 x )2 ] Sxx
Suponha que tem-se interesse em construir um intervalo de 95% de conana da venda, mdia, semanal para todos supermercados com 600 clientes. No modelo ajustado Y |x0 = 2, 423 + 0, 00873x0 . Para x0 = 600, obtm-se Y |x0 = 7, 661. Tambm, x = 731, 15, QM R = 0, 2513, Sxx = 614.603, n = 20 e 1 = 0, 95 t0,05,18 = 2, 101.
(x0 x )2 ] Sxx
Suponha que tem-se interesse em construir um intervalo de 95% de conana da venda, mdia, semanal para todos supermercados com 600 clientes. No modelo ajustado Y |x0 = 2, 423 + 0, 00873x0 . Para x0 = 600, obtm-se Y |x0 = 7, 661. Tambm, x = 731, 15, QM R = 0, 2513, Sxx = 614.603, n = 20 e 1 = 0, 95 t0,05,18 = 2, 101. E = 2, 101
1 0, 2513[ 20
(600731,15)2 ] 614.603
= 0, 292
IC (Y |x0 ; 0, 95) = (7, 661 0, 292; 7, 661 + 0, 292) = (7, 369; 7, 935)
Uma aplicao muito importante de um modelo de regresso a previso de novas ou futuras observaes de Y, (Y0 ) correspondente a um dado valor da varivel explicativa X, x0 , ento 0 + 1 x0 0 = Y o melhor estimador pontual de Y0 . Um intervalo de 100(1 )% de conana para uma futura observao dado por: E; Y + E) IC (Y0 ; 1 ) = (Y onde E = t , n2 2 QM R[1 +
1 n
(x0 x )2 ] Sxx
Exemplo
Suponha agora, tem-se interesse em encontrar um intervalo de previso de 95% das vendas semanais de um supermercado com 600 clientes. = 7, 661 e o Considerando os dados do exemplo 1, Y intervalo de predio : E = 2, 101 0, 2513[1 +
1 20
(600731,15)2 ] 614.603
= 1, 084
IC (Y0 ; 0, 95) = (7, 661 1, 084; 7, 661 + 1, 084) = (6, 577; 8, 745).
Anlise residual,
onde yi uma observao real de Y e y i o valor correspondente estimado atravs do modelo de regresso.
onde yi uma observao real de Y e y i o valor correspondente estimado atravs do modelo de regresso. Resduos padronizados ei , di = QM R i = 1, . . . , n
onde yi uma observao real de Y e y i o valor correspondente estimado atravs do modelo de regresso. Resduos padronizados ei , di = QM R i = 1, . . . , n
Para os dados dos supermercados do exemplo1, determinar R2 . Da denio tem-se: SQM 46, 8371 R = = = 0, 912 SQT 51, 3605
2
Para os dados dos supermercados do exemplo1, determinar R2 . Da denio tem-se: SQM 46, 8371 R = = = 0, 912 SQT 51, 3605
2
Esse resultado signica que o modelo ajustado explicou 91,2% da variao na varivel resposta Y (vendas semanais). Isto , 91,2% da variabilidade de Y explicada pela varivel regressora X (nmero de clientes).
Analise de Correlao
Suponha que se deseja desenvolver um modelo de regresso que relacione a resistncia ao corte dos pontos de soldadura com o dimetro dos mesmos. Neste caso, no possvel controlar o dimetro de soldadura. O que pode ser feito selecionar ao acaso n pontos de soldadura e observar o dimetro (Xi ) e a resistncia ao corte (Yi ) de cada um deles. Portanto, (Xi , Yi ) so variveis aleatrias distribudas de maneira conjunta.
Suponha que a distribuio conjunta de Xi e Yi tenha uma distribuio normal bivariada cuja funo de densidade dada por
Suponha que a distribuio conjunta de Xi e Yi tenha uma distribuio normal bivariada cuja funo de densidade dada por f (x, y ) = 1 21 2 y 2 2 1 2
2
exp
1 2(1 2 )
x 1 1
x 1 1
y 2 2
Suponha que a distribuio conjunta de Xi e Yi tenha uma distribuio normal bivariada cuja funo de densidade dada por f (x, y ) = 1 21 2 y 2 2 1 2
2
exp
1 2(1 2 )
x 1 1
x 1 1
y 2 2
A densidade condicional de Y para um valor dado X = x dado por (exercicio 5.) 2 1 1 yi 0 1 x exp f (y |x) = 2 2 Y 2Y |x |x
A densidade condicional de Y para um valor dado X = x dado por (exercicio 5.) 2 1 1 yi 0 1 x exp f (y |x) = 2 2 Y 2Y |x |x
2 onde 0 = 2 1 , 1 = 1 2 1 2 2 2 e Y = (1 ) 2 |x
A densidade condicional de Y para um valor dado X = x dado por (exercicio 5.) 2 1 1 yi 0 1 x exp f (y |x) = 2 2 Y 2Y |x |x
2 2 2 2 2 onde 0 = 2 1 , = e = (1 ) 1 2 Y |x 1 1 A distribuio condicional de Y dado X = x normal com mdia E (Y |X = x) = 0 + 1 x 2 e varincia Y |x .
Estimadores de 0 , 1 e
0 = Y 1 X
Estimadores de 0 , 1 e
0 = Y 1 X n Y (X X ) i i=1 i 1 = n (Xi X )2 =
i=1
SXY SXX
Estimadores de 0 , 1 e
0 = Y 1 X n Y (X X ) i i=1 i 1 = n (Xi X )2 =
i=1 i i i=1 i
= r = = n n )2 )2 (X X (Y Y
i i=1 i=1
n ) Y (X X
Estimadores de 0 , 1 e
0 = Y 1 X n Y (X X ) i i=1 i 1 = n (Xi X )2 =
i=1 i i i=1 i
= r = = n n )2 )2 (X X (Y Y
i i=1 i=1
n ) Y (X X
1 =
SY Y SXX
1/2
Teste de hipteses
Teste de hipteses
H0 : = 0 vs H1 : = 0 A estatstica de teste apropriada r n2 T = sob H0 t(n 2) 1 r2 A hiptese nula dever ser rejeitada se |Tobs | t/2, n2 . Esse teste equivalente ao teste de hipteses H0 : 1 = 0.
H0 : = 0 vs H1 : = 0 onde 0 = 0.
H0 : = 0 vs H1 : = 0 onde 0 = 0. Para amostras de tamanho moderado grande (n 30), a estatstica 1 1+r Zr = arctanh r = ln 2 1r tem distribuio aproximadamente normal com mdia Zr 1 1+ = arctanh = ln 2 1
2 1 e varincia Z = ( n 3) . r
A estatstica de teste apropriada : Z = (arctanh r arctanh 0 ) (n 3)1/2 . Se H0 : = 0 verdadeira, a estatstica Z tem, aproximadamente, distribuio normal padro. Portanto, H0 dever ser rejeitada se |Zobs | z/2 .
Exemplo 2
Suponha que se tenha interesse em medir a fora da relao linear de dois produtos diferentes com relao ao preo em vrias cidades do mundo. Y - Preo de uma libra de frango; e X - Preo de uma caixa de suco.
Caixa com seis Cidade sucos (X ) Frankfurt 3,27 Hong Kong 2,22 Londres 2,28 Manila 3,04 Mxico 2,33 Nova York 2,69 Pars 4,07 Sidney 2,78 Tokyo 5,97
Uma libra de frango (Y ) 3,06 2,34 2,27 1,51 1,87 1,65 3,09 2,36 4,85
n = 9;
i=1
Yi2 = 67
SY Y = 8, 3522;
i=1
SXY r= = SXX SY Y
= 0, 883.
H0 : = 0 (no relao linear entre X e Y ) H1 : = 0 (h relao linear entre X e Y ) O valor calculado para a estatstica do teste foi r n2 0, 883 9 2 = Tobs = = 4, 98. 2 2 1r 1 (0, 883) Para = 0, 05, tem-se que t0,025,7 = 2, 365 < Tobs = 4, 98, logo, rejeita-se H0 : = 0 ao nvel de signicncia de = 5%.