Escolar Documentos
Profissional Documentos
Cultura Documentos
Analise de Regressao Linear Simples
Analise de Regressao Linear Simples
Introduo
Anlise de regresso uma metodologia estatstica que utiliza a relao entre duas ou mais variveis quantitativas (ou qualitativas) de tal forma que uma varivel pode ser predita a partir da outra ou outras. Exemplos:
y A populao de bactrias pode ser predita a partir da relao entre
mdias corrigidas.
y Relao entre textura e aparncia. y Temperatura usada num processo de desodorizao de um produto e cor do
produto final.
y A porcentagem de acerto ou, ento, bytes transferidos, podem estar relacionados com o tamanho da cache (bytes), para um determinado tipo de pr-carregamento.
1
vrios programas.
y A performance de um procedimento remoto foi comparado em dois
sistemas operacionais: UNIX e ARGUS. A mtrica utilizada foi o tempo total transcorrido, o qual foi avaliado para vrios tamanhos de arquivos de dados. A anlise de regresso, assim como a anova, tambm representa os dados atravs de um modelo linear aditivo, onde o modelo inclui um componente sistemtico e um aleatrio.
Y ! f (X ) I
(1)
f descreve a relao entre e Y. I so os erros aleatrios. Y = varivel resposta ou dependente; = varivel independente, concomitante, covarivel ou varivel preditora.
O caso mais simples de regresso quando temos duas variveis e a relao entre elas pode ser representada por uma linha reta Regresso linear simples.
Cenrio
Estamos interessados na relao entre duas variveis, as quais chamaremos de X e Y. Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usalos para dizer alguma coisa sobre a relao.
Como sabemos os dados podem ser obtidos a partir de duas situaes: 1) dados experimentais: as observaes X e Y so planejadas como o resultado de um experimento, exemplo: X = tamanhos de cache e Y = porcentagem de acerto X= doses de starter (microorganismos [bactrias lcticas]) , Y= tempo de maturao do salame tipo italiano. Nesse exemplo, os valores de X esto sob controle do pesquisador, ou seja, ele escolheu as doses e observou o resultado, Y. 2) dados observacionais: observa-se os valores de X e Y, nenhuma delas sob controle, exemplo: populao de coliformes e populao de staphilococus; mdia das alturas de plantas numa rea e produo. O tempo para criptografar um registro com k-byte usando uma tcnica para este fim foi avaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.
Problema prtico: os valores observados de Y (e algumas vezes de X) no so exatos. Devido a variaes biolgicas, de amostragem e de preciso das medidas e outros fatores, s podemos observar valores de Y (e possivelmente de X) com algum erro. Assim, com base numa amostra de valores (X,Y) a exata relao entre X e Y mascarada pelos erros aleatrios. X Fixo vs Aleatrio: Dados experimentais: Geralmente X (doses, tempo, tamanho da cache) determinado pelo pesquisador p X fixo. Y est sujeito variaes fsicas, biolgicas, tipos de objetos numa pgina da Web, usurios, de amostragem, de medidas p Y uma varivel aleatria. Dados observacionais: geralmente X e Y so variveis aleatrias.
5
A distribuio normal bivariada Com dados observacionais, geralmente X e Y so v. a. e, de alguma forma, relacionadas. Lembrete: uma distribuio de probabilidades d uma descrio formal (matemtica) dos valores possveis da populao que podem ser observados para a varivel. Quando temos duas variveis a distribuio denominada bivariada. A fXY(x,y) descreve como os valores de X e Y se comportam conjuntamente. A distribuio normal freqentemente uma descrio razovel de uma populao com medidas contnuas. Quando X e Y so v. a. contnuas, uma suposio razovel que ambas sejam normalmente distribudas. Entretanto, espera-se que elas se distribuam conjuntamente. 6
A distribuio normal bivariada uma distribuio de probabilidades com uma funo densidade de probabilidade f(x,y) para X e Y, tal que: X e Y apresentam, cada uma, distribuio normal com mdias QX e QY, e varincias W2X e W2Y, respectivamente; o relacionamento entre X e Y medido pela quantidade VXY tal que -1 e VXY e 1. VXY o coeficiente de correlao entre as variveis aleatrias X e Y e mede a associao linear entre elas.
Sutileza: em situaes onde X uma varivel aleatria, muitos investigadores desejam ajustar um modelo de regresso tratando X como fixo. Isto porque, embora o coef. de correlao descreve o grau de associao entre X e Y, ele no caracteriza o relacionamento atravs de um modelo de regresso. Exemplo: um pesquisador pode desejar estimar a produo com base na mdia de alturas de plantas da unidade experimental. O coef. de correlao no permite isso. Ele, ento, prefere ajustar um modelo de regresso, mesmo X sendo aleatrio.
Isso legtimo? Se tomarmos cuidado na interpretao, sim. Se X e Y so variveis aleatrias, e ns ajustarmos um modelo de regresso para caracterizar o relacionamento, tecnicamente, todas as anlises posteriores so consideradas como sendo condicionais aos valores de X presentes no estudo. Isto significa que ns consideramos X fixo, embora ele no seja. Entretanto, vlido fazer-se previses. Dado (condicional) que se observa um particular valor de altura de planta, ele quer obter o melhor valor para produo. O pesquisador no est dizendo que ele pode controlar as alturas e, assim, influenciar as produes. Vale para os dados da amostra.
8
i. ii.
O problema, em estudos observacionais, escolher um conjunto de variveis que podem ou devem ser includas no modelo; Pode-se usar um modelo terico; Usar aproximaes por modelos polinomiais;
iii. Geralmente necessrio restringir a abrangncia do modelo para alguns valores ou regio da(s) varivel(is) preditora(s).
10
Modelo de regresso linear simples (Sem especificao da distribuio de probabilidades para o erro)
Considere o modelo com uma varivel preditora e que a funo de regresso linear. O modelo dado por:
Yi ! F 0 F1 X i I i i ! 1,2,..., n
(2)
11
Onde:
i=1,2,...,n.
Covarincia (o resultado em qualquer experimento no tem efeito no termo do erro de qualquer outro experimento) Os dados so usados para estimar F0 e F1, isto , ajustar o modelo aos dados, para: quantificar a relao entre Y e X;
usar a relao para predizer uma nova resposta Y0 para um dado valor de X0 (no includo no estudo); calibrao ou capacidade de predio de novas observaes, pode ser feita usando uma nova amostra e comparando os valores estimados com os observados. - dado um valor de Y0, para o qual o correspondente valor de X0 desconhecido, estimar o valor de X0.
12
Caractersticas do modelo:
constante aleatrio
O modelo de regresso (2) mostra que as respostas Yi so oriundas de uma distribuio de probabilidades com mdia E(Yi) = F0 +F1Xi e cujas varincias so W2, a mesma para todos os valores de X. Alm disso, quaisquer duas respostas Yi e Yj no so correlacionadas.
13
A figura mostra a distribuio de Y para vrios valores de X. Mostra onde cai a observao Y1. Mostra que o erro a diferena entre Y1 e E(Y1). Observe que as distribuies de probabilidade apresentam a mesma variabilidade.
14
Resumo da situao: para qualquer valor Xi, a mdia de Yi Qi = F0 + F1Xi. As mdias esto sobre a linha reta para todos os valores de X. Devido aos erros aleatrios, os valores de Yi se distribuem ao redor da reta.
15
Outro exemplo.
Porcentagem de acerto
44,45 42,10 44,68 46,99 46,26 48,82 50,66 47,68 52,44 53,21 51,85 55,38
16
Mdia: E(Y)=27,836+0,00006423X
Para Xi=300.000 bytes observou-se Yi=46,26. O valor estimado dado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor do termo do erro Ii=46,26-47,11=-0,845.
17
yi = F0 + F1xi
U
(y (x=1
F1 !
F0
(y (x
x+1
F0 (intercepto); quando a regio experimental inclui X=0, F0 o valor da mdia da distribuio de Y em X=0, cc, no tem significado prtico como um termo separado (isolado) no modelo; F1 (inclinao) expressa a taxa de mudana em Y, isto , a mudana em Y quando ocorre a mudana de uma unidade em X. Ele indica a mudana na mdia da distribuio de probabilidade de Y por unidade de acrscimo em X.
18
Exemplo: os dados abaixo indicam o nmero de bytes transferidos (Y) e o tamanho da cache (X). Equao de regresso:
y ! 4 ,763.107 27 ,649 x
Faa o grfico dos pontos e da reta ajustada. Voc acha que o modelo adotado razovel?
19
y=4,763e7-27,649*x+eps
4,6e7 4,4e7 4,2e7 4e7 3,8e7 3,6e7 3,4e7 3,2e7 3e7 2,2e5
O que significa o coeficiente angular neste caso? E o coeficiente linear? Faa uma predio para o nmero de bytes transferidos para tamanho de cache igual a 270.000 bytes.
BYTES TRAN
2,6e5
3e5
3,4e5
3,8e5
4,2e5
TAMANHO DA CACHE
20
x y
Equao de regresso:
10 4
13 3
5 6
7 5
20 2
y ! 6,87 0,261x
Faa o grfico dos pontos e da reta ajustada. Voc acha que o modelo adotado razovel?
O que significa o coeficiente angular neste caso? E o coeficiente linear? Faa uma previso para o valor do aluguel para idade de 13 anos.
21
Observaes:
um modelo de regresso pode conter duas ou mais variveis preditoras (X1, X2,...,Xp-1); o modelo de regresso no precisa ser uma linha reta:
Y ! F 0 F1 X F 2 X 2 I
Chama-se modelo quadrtico ou de 20 grau, cuja figura uma parbola. Esse modelo, embora no seja uma linha reta, continua sendo um modelo linear nos parmetros. O mtodo que ser discutido para o modelo de regresso linear simples aplica-se diretamente aos demais modelos lineares nos parmetros.
22
Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um particular algoritmo foi mensurado para diversos valores de heap size.
Scatterplot (G
y=1321, 600 3-2,208*
G .ST 10v*10c)
0,001* ^2+eps
500
400
300
200
100
0 400
G G
600
800
1000
1200
1400
1600
P SIZES
23
Modelo no linear nos parmetros. Exemplo: modelo de crescimento logstico, onde X o tempo.
Y ! 1 F e F3X I
2
F1
Exemplo computao: modelo potncia, y=bxa, onde X a velocidade do processador e Y a taxa I/O.
24
Yi ! F 0 X 0 F1 X 1 I i onde X 0 | 1
Uma outra alternativa usar para a v. preditora os desvios (Xi-Mdia(X)) ao invs de Xi. Para no modificarmos o modelo (2), escrevemos:
Yi ! F0 F1 ( X i X ) F1 X I i Yi ! F F1 ( X i X ) I i
* 0
F ! F0 F1 X
25
* 0
Yi ! F 0 F1 X i I i
i ! 1,.., n
Desejamos ajustar o modelo, estimando os parmetros F0 e F1. O mtodo de mnimos quadrados considera os desvios de Yi em relao ao seu valor esperado (E(Yi)):
Yi ( F 0 F1 X i )
26
Q ! Yi F 0 F1 X i
i !1
(10)
De acordo com o mtodo de mnimos quadrados, os estimadores de F0 e F1 so os valores b0 e b1, respectivamente, que minimizam o critrio Q para a amostra (X1,Y1),..,(Xn,Yn).
6,5
5,5
e3 e1 e2 e5
2 6 10 IDADE 14 18 22
4,5
3,5
VALOR
2,5
1,5
27
x xF 0
! 2 (Yi F 0 F1 X i )
i !1 n
x xF1
Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de F0 e F1que minimizam Q.
! 2 X i (Yi F 0 F1 X i )
i !1
28
2 (Yi b0 b1 X i ) ! 0
i !1 n
2 X i (Yi b0 b1 X i ) ! 0
i !1
(Y b
i i !1 n i i i !1 n
b1 X i ) ! 0
0
X (Y b Y nb
i i !1 n i !1 0
b1 X i ) ! 0
n
b1 X i ! 0
i !1 n n
X iYi b0 X i b1 X i2 ! 0
i !1 i !1
Fazendo-se as derivadas parciais de segunda ordem, indicar que um mnimo foi encontrado com os estimadores b0 e b1.
Y
i !1 n
! nb 0 b1 X
i !1 n i !1
i n i !1
i !1
X i Y i ! b 0 X i b1 X
2 i
29
( X i X )(Yi Y ) b1 ! ( X i X )2 b0 ! 1 Yi b1 X i
! Y b1 X n
Outra forma de escrevermos:
X Y XY n 2 b1 ! X 2 X
30
Exemplo: a pesquisadora deseja encontrar o modelo de regresso da porcentagem de acertos sobre o tamanho da cache.
Tamanho da cache (X) Porcentagem de acertos (Y)
(X i X )
(Yi Y )
( X i X )(Yi Y
(X i X )2
(Yi Y ) 2
584,52 48,71
2408500
37500000000
181,438
31
( X i X )( Yi Y ) ! b1 ! ( X i X )2
2408500 37500000000
! 0 ,0000642
32
33
Sada do Statistica:
34
Exemplo: a pesquisadora deseja encontrar o modelo de regresso do tempo sobre a populao de bactrias.
Tempo (X) 0 7 14 21 28 35 Total = 105 Mdia = 17,5 Populao (Y) 3,114 3,568 2,845 3,079 2,699 2,663 17,968 2,9947
(Xi X )
-17,5 -10,5 -3,5 3,5 10,5 17,5 0
(Yi Y )
0,119 0,573 -0,150 0,084 -0,296 -0,332 0
( X i X )(Yi Y ) ( X i X ) 2
-2,088 -6,020 0,524 0,295 -3,105 -5,805 -16,199 306,250 110,250 12,250 12,250 110,250 306,250 857,5
(Yi Y ) 2
,014 ,329 ,022 ,007 ,087 ,110 0,569
Sada do STATISTICA: Regression Summary for Dependent Variable: POP R= ,73274116 R= ,53690961 Adjusted R= ,42113702 F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686 St. Err. St. Err. BETA of BETA B of B t(4) p-level Intercpt 3,325238 ,185902 17,88708 ,000057 TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596
36
( X i X )(Yi Y ) ! ( X i X )Yi ! k Y b1 ! ( X i X )2 ( X i X )2 i i ki !
( Xi X )
( X i X )2
Como ki so constantes (pois Xi so constantes conhecidas), b1 uma combinao linear de Yi e, assim, um estimador linear. Da mesma forma, b0 tambm um estimador linear. Entre todos os estimadores lineares no tendenciosos, b0 e b1 tem menor variabilidade (demonstrao adiante) em repetidas amostras nas quais os nveis de X so constante.
37
E (Y ) ! F 0 F1 X
Estima-se a funo de regresso por:
Y ! b0 b1 X
Onde Y (chapu) o valor estimado da funo no nvel X da varivel preditora. A resposta mdia (E(Y)), corresponde a mdia da distribuio de probabilidade de Y no nvel X da varivel preditora. Pode-se demonstrar, como uma extenso do teorema de Gauss-Markov que Y (chapu) um estimador no tendencioso de E(Y), com varincia mnima dentro da classe dos estimadores lineares no tendenciosos. Temos:
Yi ! b0 b1 X i
i ! 1,2,..., n
38
Exemplo: para os dados de porcentagem de acerto na cache, os valores estimados da funo de regresso so dados por:
Y ! 27 ,83633 0 ,0000642 X
Suponha que estejamos interessados na porcentagem mdia de acerto na cache para X=300.000 bytes (muitas amostras com 300.000 bytes sob as mesmas condies que a equao foi estimada); a estimativa pontual vale:
Sada do Statistica:
40
Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da funo de regresso so dados por:
Y ! 3,325 0,019 X
Suponha que estejamos interessados na populao mdia (muitas amostras com 21 dias de armazenamento sob as mesmas condies que a equao foi estimada) de bactrias para X=21 dias de armazenamento; a estimativa pontual vale:c
Standard Pred. v. 1,33631 ,80178 ,26726 -,26726 -,80178 -1,33631 -1,33631 1,33631 -,00000 0,00000
Standard Residual -,822385 1,459902 -,840072 ,585718 -,378898 -,004263 -,840072 1,459902 ,000000 -,191581
Std.Err. Pred.Val ,185902 ,139567 ,109264 ,109264 ,139567 ,185902 ,109264 ,185902 ,144911 ,139567
Mahalns. Distance 1,785714 ,642857 ,071429 ,071429 ,642857 1,785714 ,071429 1,785714 ,833333 ,642857
Cook's Distance ,781146 ,633439 ,095181 ,046269 ,042668 ,000021 ,000021 ,781146 ,266454 ,070725 41
Temos:
Y ! Y b1 ( X X )
Exemplo: obter o valor ajustado para X=300.000 bytes de cache.. Exemplo: para os dados de staphilococcus aureus em frango obter o valor ajustado para X1=0 dia de armazenamento..
42
Resduos O i-simo resduo a diferena entre o valor Yi e o correspondente valor ajustado Y (chapu)i.
ei ! Yi Yi
Vemos que o resduo para o primeiro caso, exemplo de pop. de Staphilococcus, sada do statistica, dado por:
Distino:
ei ! Yi Yi
Os resduos so extremamente teis para verificar se um determinado modelo de regresso apropriado para os dados. Este assunto ser tratado mais adiante neste curso.
0,45
0,30
0,15
0,00
Resduos
-0,15
-0,30 -5 0 5 10 15 TEMPO 20 25 30 35 40
44
Raw residuals vs. TAMANHOC Raw residuals = -,0000 + 0,0000 * TAMANHOC Correlation: r = ,00000 3
RESDUOS
2,6e5
3e5
3,4e5
3,8e5
4,2e5
TAMANHO DA CACHE 45
1.
e ! ( Y b
i i i !1 n
b1 X i ) ! Yi nb0 b1 X i ! 0
e
i !1 n i !1 n
2 i
ni a (condio do todo de
n
QO)
Y ! Y
i i !1
X e
i !1
i i
! 0 (ponderados)
Y e
i !1
i i
! 0 (ponderados)
ei ! Yi Yi
n
Dois graus de liberdade so perdidos para estimar os parmetros F0 e F1. O quadrado mdio do erro dado por (QME):
QME !
SQE n 2
E (QME ) ! W 2
SQE ! 0 ,2639 com 6 - 2 ! 4 graus de liberdade, assim QME ! 0 ,2639 / 4 ! 0 ,0659 (Estimativa da varincia) Estimativa deW ! 0 ,0659 ! 0 ,2567 ufc (desvio padro) (Desvio padro da distribuio de Y para qualquer X)
Yi ! F 0 F1 X i I i
i ! 1,.., n
Yi o i-simo valor observado da varivel resposta; F0 e F1 so os parmetros; Xi o i-simo valor da varivel preditora ( uma constante conhecida, fixo). Ii o termo do erro aleatrio, independentes com distribuio N(0, W2). 49
Independentes: no sentido que eles no so relacionados de qualquer modo, por exemplo, so provenientes de diferentes cpus, diferentes indivduos, diferentes animais, etc. Os registros num banco de dados so independentes.
Como assumimos para o modelo de regresso que os erros so normalmente distribudos, a suposio que os erros Ii no so correlacionados, feita no modelo inicial, transforma-se na suposio de independncia no modelo com distribuio normal.
O modelo implica que Yi so variveis aleatrias independentemente distribudas segundo uma normal com mdia E(Yi)=F0+ F1Xi e varincia W2. Para cada valor Xi, podemos pensar em todos os valores possveis de Yi e sobre a sua variabilidade. Esta suposio diz que, seja qual for o valor de Xi, a variabilidade nos possveis valores de Y a mesma. Para cada valor Xi, podemos pensar que todos os valores assumidos por Y podem ser bem representados por uma distribuio normal.
50
fi !
1 2T W
exp
2 1 Yi F 0 F1 X i W 2
A funo de verossimilhana para n observaes Y1, Y2,...,Yn, o produto das densidades individuais ( a conjunta). Como a varincia W2 dos erros desconhecida, a conjunta uma funo de trs parmetros, F0, F1 e W2 :
51
(2
1 n 1 (Yi 2 n/ 2 exp 2 2 ) i !1
0
X i )2 1
Devemos encontrar valores de F0, F1 e W2 que maximizam a funo de verossimilhana L, calculando-se as derivadas parciais de L com respeito a F0, F1 e W2 e igualando cada derivada parcial a zero e resolvendo o sistema de equaes obtido. Podemos trabalhar com logeL ao invs de L, pois ambos so maximizadas para os mesmos valores de F0, F1 e W2 :
log e
(Y F
i i i
F1 X i )
0
X (Y F
F1 X i )
x (log e ) 1 n ! xW 2 2W 2 2W 4
(Yi F 0 F1 X i ) 2
52
Agora, fazemos as derivadas parciais iguais a zero, substituindo F0, F1 e W2 pelos estimadores
F 0 , F1 e W 2
Obtemos:
(Y F F X ) ! 0 X (Y F F X ) ! 0
i 0 1 i i i 0 1 i
2 (Yi F 0 F1 X i ) n
!W2
As duas primeiras equaes so idnticas as equaes normais encontradas pelo mtodo de mnimos quadrados. O MMV produz um estimador viesado para W2.
Parmetro Estimador de mxima verossimilhana
F0 F1 W2
F 0 ! b0 F 1 ! b1 ( Y Y ) 2 W2 ! i i
n
Os estimadores de F0, e F1 so os mesmos do mtodo de mnimos quadrados. O estimador de mxima verossimilhana de W2 viesado,ou seja,.
( n 1 )W 2 E( W ) ! n
2
53
Comentrios: 1) como os estimadores de mxima verossimilhana de F0,e F1 so os mesmos do mtodo de mnimos quadrados, eles tem as mesmas propriedades de todos os estimadores de mnimos quadrados: a) so no viesados; b) tem varincia mnima entre todos os estimadores lineares no tendenciosos; alm disso, os estimadores de mxima verossimilhana b0 e b1 para o modelo de regresso com erros normais tem outras propriedades desejveis: c) so consistentes;
n pg
d) so suficientes;
lim P (| U U |u I ) ! 0 I " 0
fY|U ( y | U ) ! no depende de U .
*** Fazer lista de exerccios nmero 1.
54
Assumimos o modelo:
Yi ! F 0 F1 X i I i
i ! 1,.., n
(3)
F0 e F1 so os parmetros;
55
Inferncias para F1
y encontrar intervalos de confiana para F1 yfazer testes de hipteses com relao a F1, por exemplo:
H 0 : F1 ! 0 H a : F1 0
No h associao entre X e Y.
Para realizar inferncias sobre F1, precisamos conhecer a distribuio amostral de b1, o estimador pontual de F1.
Distribuio amostral de b1
O estimador pontual dado por:
( X i X )(Yi Y ) b1 ! ( X i X )2
A distribuio amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos com muitas amostras para um mesmo nvel da varivel preditora X (constante).
56
Normalidade: a normalidade da distribuio amostral de b1 segue do fato de que b1 uma combinao linear dos Yi.Os Yi so independentes, com distribuio normal. Uma combinao linear de variveis aleatrias independentes, com distribuio normal, tambm tem distribuio normal. b1 como combinao linear de Yi. Mdia:
b1 ! b1 ! b1 ! b1 !
b1 ! kiYi ki !
( Xi X )
2
k ! 0 k X !1
i i i
(De onstre )
Varincia:
W (b1 ) ! W
k Y
! k W
i i 2 i 1 X i X
2
(Yi )
X X i k ! X X
2 i 2 1 ?Xi X A ki2 ! 2 2 Xi X
2 i
ki2 !
X X
i
Podemos estimar a varincia da distribuio amostral de b1 substituindo W2 pelo quadrado mdio residual (QME). O estimador s2(b1) um estimador no tendencioso de W2 (b1).
s (b1 ) !
QME
X i X 2
58
Nota: Na seo propriedades dos estimadores de mnimos quadrados dissemos que b1 tem a menor varincia entre todos os estimadores lineares no tendenciosos da forma
F1 ! ciYi
ci so constantes arbitrrias
F1 ! b1
F1 no tendencioso :
E ( F1 ) ! E ( ciYi ) ! ci E (Yi ) ! ci ( F 0 F1 X i ) ! F 0 ci F1 ci X i ! F1
Restries:
!0 e
c X
i
!1
arincia de F 1 :
W 2 ( ki d i ) ! W 2
d i2 2 k i d i
Zero (Verifique)
W 2 (b1 )
59
Finalmente, temos:
W 2 ( F1 ) ! W 2 (b1 ) W 2 d i2
2 Observamos que a menor varincia do estimador (F1 ) obtida quando d i ! 0 .Isto ocorre quando todos os di=0, isto implica que ci | ki. Assim, o estimador de mnimos quadrados b1 tem varincia mnima entre todos os estimadores lineares no tendenciosos.
b1 F1 s ( b1 )
~ t(n - 2)
b1 F1 W ( b1 )
s ( b1 ) W ( b1 )
QME
s ( b1 )
W ( b1 )
Portanto,
! W2 ! ( X i X )2
b1 F1 s ( b1 )
( X i X )2
QME
SQE n2 2
! W 2 ( n2) ~
SQE
G (2n2 ) ( n 2)
z
G 2 ( n2 ) ( n 2 )
Teorema: para o modelo (3), SQE/W2 distribudo como G2 com n-2 gl e independente de b0 e b1.
Como z e G2 so independentes pois z uma funo de b1 e b1 independente de SQE/W2 ~ G2. Assim (A definio est no apndice):
b1 F1 s ( b1 )
~ t (n 2).
61
E/2=0,25
1-E=0,50
E/2=0,25
t=-1
t=1
62
t(E/2;n-2) representa o (E/2)100 percentil da distribuio t com n-2 g.l. t(E/2;n-2) = - t(1-E/2;n-2) (devido a simetria da distribuio t) Rearranjando as desigualdades obtemos:
b1 s t (1 E / 2; n 2) s (b1 )
Exemplo: considere os dados de populao de Staphilococcus aureus, a pesquisadora deseja encontrar o intervalo para F1 com confiana de 95%.
s 2 (b1 ) !
Q R (X X )
2
s (b1 ) ! 0,008772
t (0,975;4) ! 2,776
Interpretao: estimamos que a populao de Staphilococcus cresce entre -0,0434 e 0,0623 unidade/dia.
0 , 0659 857 , 5
! 0,0000769
Usar software
Exemplo: considere os dados de porcentagem de acerto na cache, a pesquisadora deseja encontrar o intervalo para F1 com confiana de 95%.
s 2 ( b1 ) !
QMR ( X X )2
2 ,5738 37500000000
! 0 ,000000000068635
Usar software
s( b1 ) ! 0 ,0000083 t ( 0 ,975 ;10 ) ! 2 ,228 0 ,0000642 2 ,228( 0 ,0000083 ) e F1 e 0 ,0000642 2 ,228( 0 ,0000083 ) 0 ,0000457 e F1 e 0 ,0000827
Muito importante
Interpretao: estimamos que a porcentagem de acertos aumenta entre 0,0000457 e 0,0000827 % por byte do tamanho da cache.
64
Teste de hipteses para F1 Vimos que (b1-F1)/s(b1) tem distribuio t(n-2).O teste de hiptese sobre F1 pode ser feito de maneira padro usando a distribuio de Student. Teste bilateral Hipteses:
H 0 : F1 ! 0 H a :F 1{ 0
65
Exemplo: a pesquisadora deseja saber se existe regresso linear entre a porcentagem de acertos na cache e o tamanho da cache, ou seja, se F1{0 ou no. [Como o intervalo de confiana construdo anteriormente no inclui o valor 0 (o valor da hiptese nula), devemos rejeitar a hiptese nula (H0). Isto vlido quando o teste bilateral].
66
Exemplo: a pesquisadora deseja saber se existe regresso linear entre populao de bactrias e o tempo de armazenamento, ou seja, se F1{0 ou no. [Como o intervalo de confiana construdo anteriormente inclui o valor 0 (o valor da hiptese nula), devemos aceitar a hiptese nula (H0)]. Teste estatstico formal:
t* !
b1 F1 s ( b1 )
Exemplo: para os dados de porcentagem de acerto na cache, com E=0,05, b1=0,0000642 e s(b1)=0,0000083, temos:
t !
0 ,0000642 0 0 ,0000083
! 7 ,735
O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| maior do que 2,228 rejeita-se a hiptese nula e conclumos que existe uma associao linear entre a porcentagem de acertos na cache e o tamanho da cache.
68
Exemplo: para os dados de populao de Staphilococcus aureus, com E=0,05, b1=-0,019 e s(b1)=0,008772, temos:
t !
0 , 019 0 0 , 008772
! 2,166
O valor de t de tabela vale: t(0,975;4)=2,776, como |-2,166| menor do que 2,776 aceita-se a hiptese nula e conclumos que no existe uma associao linear entre a populao de Staphilococcus aureus e o tempo de armazenamento. Valor p: o menor valor de E para o qual rejeitamos a hiptese nula. Se o pesquisador fixar E=0,05, ento, para um valor p u 0,05 no rejeita-se H0, caso contrrio, rejeita-se H0. Formalmente fica:
P ( t " t * ) ! valor p
69
Sada do Statistica: dados de porcentagem de acertos na cache. As diferenas verificadas so devidas s aproximaes nos clculos.
70
* * Com o uso do Statistica, para os dados de porcentagem de acerto na cache, encontrar a probabilidade de se rejeitar a hiptese nula, quando ela verdadeira.
(| t |" 7,7525) ! 0,000015 (t 7,7525) p (t " 7,7525) $ 0,000008 0,000008 $ 0,000016
71
Sada do Statistica: dados de populaes de Staphilococcus a diferena verificada entre -2,166 e 2,15351 devido aproximaes nos clculos.
* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hiptese nula, quando ela verdadeira. (| t |e 2,166) ! 0,0962 Ateno: verificar se o software d o valor p para o teste uni ou bilateral
72
(t
Teste unilateral: O pesquisador deseja, por exemplo, testar se F1 negativo, controlando o nvel de significncia E=0,05.
H 0 : F1 u 0 H a : F1 0
Regra de deciso:
Se t* u t ( E ; n 2 ), no rejeita - se H 0 Se t* t ( E ; n 2 ), rejeita - se H 0
Exemplo: para os dados de Staphilococcus temos, para E=0,05, t(0.05;4)=-2,132. Como t*=-2,166, rejeita-se a hiptese de nulidade, portanto F1 negativo.
Valor p !
t*
73
Nas publicaes, indicar o nvel descritivo juntamente com o valor da estatstica teste. Podemos realizar o teste estatstico para qualquer nvel de significncia E, comparando o nvel descritivo com o valor desejado de E. Comentrio: pode-se testar as seguintes hipteses:
H 0 : F1 ! F10 H a : F1 { F10
Onde F10 um valor diferente de zero.
74
b 1 F 10 t ! s b 1
Critrio do teste: Se |t*| e t(1- E/2;n-2) no se rejeita H0 Se |t*| > t(1- E/2;n-2) rejeita-se H0
75
Inferncias para F0
S tem interesse quando os nveis de X incluem X=0 (o que raro).
Distribuio amostral de b0
O estimador pontual b0 dado por:
b0 ! Y b1 X
A distribuio amostral de b0 refere-se aos valores diferentes de b0 que seriam obtidos com diferentes amostras para o mesmo valor de X (constante). A distribuio amostral de b0 normal Mdia:
E (b0 ) ! F 0
Varincia:
1 X2 W (b0 ) ! W n ( X i X )2
2 2
A normalidade verificada pois b0 uma combinao linear das observaes Yi. Um estimador para W2(b0) obtido substituindo-se W2 pelo seu estimador pontual, QME.
~ t ( n 2)
76
Demonstrao:
E( b0 ) ! E( Y b1 X ) ! E( Y ) E( b1 X )
77
H0 : F 0 ! 0 Ha : F 0 { 0
78
Yh ! b0 b1 X h
79
80
Varincia Para obter W2(Y(chapu)h), primeiro mostraremos que b1 e Y no so correlacionados e sob o modelo de regresso com erros normais, independentes:
W (b1 ; Y ) ! 0
Definimos:
Y !
1 n
Yi
b1 ! kiYi
ki !
Xi X
( Xi X )
Atravs do teorema A.32 (Neter et al., pgina 668, 1996) com ai=1/n e ci=ki e lembrando que Yi so variveis aleatrias independentes:
W (Y ; b1 ) ! ( )kiW (Yi ) !
1 n
W2 n
!0
81
W 2 (Yh ) ! W 2 (Y b1 ( X h X )) W 2 (Y ) ! W 2 (Y ) ( X X ) 2 W 2 (b )
h h 1
(Y e b1 so independentes; X n e X constantes)
W (b1 ) !
W (Y ) ! 2 W2 @ W (Yh ) ! n ( X h X ) 2
2
W2 ( X h X )2
W 2 ( Yi ) n
W2 n
W2 ( X i X )2
) ! W 2 1 ( X h X )2 2 W (Yh n ( X i X )
~ t ( n 2)
Yh s t (1 E / 2; n 2) s (Yh )
82
Exemplo: vamos encontrar um intervalo com confiana de 95% para E(Yh) para tamanho de cache X=300.000 bytes. Temos:
300000
s( Y ) ! 0 ,5073263
h
45 ,9697 e E ( Y
300000
Interpretao: temos 95% de confiana que a porcentagem mdia de acertos, com 300.000 bytes de tamanho de cache, est entre 45,9697 e 48,2003%. Um intervalo com boa preciso. Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tamanho de cache X=200.000. Compare as amplitudes dos intervalos.
83
Exemplo: para os dados de populao de bactrias, vamos encontrar um intervalo com confiana de 95% para E(Yh) para tempo X=14 dias. Temos:
s(Yh ) ! 0,1091 t (0,975;4) ! 2,776 3,059 2,776(0,1091) e E (Y14 ) e 3,059 2,776(0,1091) 2,7561 e E (Y14 ) e 3,3619
Interpretao: temos 95% de confiana que a populao mdia de bactrias, com 14 dias de armazenamento, est entre 2,7561 e 3,3619 ufc (em log base e). Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tempo X=0. Compare as amplitudes dos intervalos.
84
~ t ( n 2)
Isto para o modelo de regresso com erros normais. Note que a estatstica usa Y(chapu)h no numerador ao invs de E(Yh). O desvio padro estimado, s(pred), obtido como segue: A diferena no numerador, Yh(novo) - Y(chapu)h, pode ser visto como um erro de predio, com Y(chapu)h sendo a melhor estimativa pontual do valor da nova observao, Yh(novo) . A varincia desse erro pode ser obtida considerando que a nova observao e as n observaes, sobre as quais Y(chapu)h est baseada, so independentes. Considerando o teorema A.31b (Neter et. Al., pgina 668, 1996), temos:
W 2 ( pred ) ! W 2 (Yh ( novo ) Yh ) ! W 2 (Yh ( novo ) ) W 2 (Yh ) ! W 2 W 2 (Yh ) s 2 ( pred )) ! Q E s 2 (Yh ) (esti ador no tendencioso) 1 1 ( X h X ) 2 s ( pred ) ! Q E n ( X i X )2
2
O intervalo fica:
Yh s t (1 E / 2; n 2) s ( pred )
86
Exemplo: suponha que um novo tamanho de cache seja Xh=375000 bytes,e que a pesquisadora deseja construir um intervalo de predio com 95% de confiana para Y375000(novo).
12
3750000000 0
QME ! 2 ,5738 t ( 0 ,975;10 ) ! 2 ,228 s 2 ( pred ) ! 2 ,5738 0 ,3861 ! 2 ,9599 s( pred ) ! 1,720436 51,91133 2 ,228(1,720436 ) e Y375000( novo ) e 51,91133 2 ,228( 1,720436 ) 48 ,0782 e Y375000( novo ) e 55 ,7445
Interpretao: podemos afirmar com 95% de confiana que o valor predito de porcentagem de acertos, para tamanho de cache igual a 375000 bytes, est entre 48,0782 e 55,7445%. O intervalo de predio similar ao intervalo de estimao, a diferena conceitual. Um intervalo de estimao uma inferncia sobre um parmetro e um intervalo que procura conter o valor do parmetro. O intervalo de predio, por outro lado, um conhecimento formal sobre um valor de uma varivel aleatria, a nova observao Yh(novo). 87
Exemplo: suponha que um novo tempo de armazenamento seja Xh=15 dias,e que a pesquisadora deseja construir um intervalo de predio com 95% de confiana para Y15(novo).
Y15 ! 3,325 0,019(15) ! 3,040 ) ! 0,0659 1 (1517 ,5) 2 ! 0,0115 s (Y15 6 857 , 5
2
Q E ! 0,0659 t (0,975;4) ! 2,776 s 2 ( pred ) ! 0,0659 0,0115 ! 0,0774 s ( pred ) ! 0,2782 3,040 2,776(0,2782) e Y15 ( novo ) e 3,040 2,776(0,2782) 2,2677 e Y15 ( novo ) e 3,8123
Interpretao: podemos afirmar com 95% de confiana que o valor predito de populao de bactrias, para tempo igual a 15 dias, est entre 2,2677 e 3,8123 ufc/cm2.
88
Yh s Ws (Yh ) W 2 ! 2 F (1 E ;2, n 2) Y !b b X
h 0 1 h
Distribuio de , com 2 gl no numerador e n-2 no denominador, com grau de confiana 1E
1 ( X h X )2 s (Yh ) ! Q E n ( X i X )2
2
Calcula-se os valores dos limites para diversos nveis de Xh e aps faz-se o grfico.
89
2,6e5
3e5
3,4e5
3,8e5
4,2e5
TAMANHO DA CACHE
91
Yi Y ! ( Yi Y ) ( Yi Yi )
Desvio total Desvio da equao ajustada em torno da mdia Desvio em torno da equao ajustada
Yi E T R
Y
Xi
92
Demonstrao:
n
(Y Y )
i !1 2 i
( ! Y Y ) (Y Y )
n 2 i i i i !1
( Y Y )
i !1 n 2 i
(Y Y ) (Y Y )
i !1 n i !1 n i !1 n 2 i !1 n
2 (Yi Y )(Yi Yi )
i !1 n
(Y Y ) ! (Yi Y ) (Yi Yi ) 2
i !1 i !1 n i !1
SQT ! (Yi Y ) 2
i !1
SQE ! (Yi Yi ) 2
i !1
n
SQR ! (Yi Y ) 2
i !1
93
Graus de liberdade
A SQT tem n-1 graus de liberdade; um grau de liberdade perdido devido a restrio de que a soma dos desvios em torno da mdia zero. De outra forma: um grau de liberdade perdido porque a mdia da amostra usada para estimar a mdia populacional. A SQE tem n-2 graus de liberdade. Dois graus de liberdade so perdidos pois dois parmetros so estimados para obter Y(chapu)i. A SQR tem 1 grau de liberdade. Dois g.l. esto associados com a regresso (2 parmetros); um deles perdido devido a restrio: (Yi Y ) ! 0. Os graus de liberdade so aditivos: (n-1)=1+(n-2)
Quadrados mdios
A soma de quadrados dividida pelos graus de liberdade chamada de quadrado mdio.
SQT ( n 1)
Q R!
SQR 1
QME !
SQE ( n2)
Q T!
94
Tabela da anlise de varincia para regresso linear simples ausas de variao Soma de quadrados raus de liberdade Quadrado mdio Regresso SQR 1 SQR/1 Erro SQE n-2 SQE/(n-2) Total SQT n-1 orreo para a mdia SQ(devido a mdia)=nY 1 Total no corrigido n SQT = Y
2
95
Exerccio: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR. Exerccio: obtenha para os dados de pop. de Staphilococcus a SQR e o QMR.
E(
Para encontrar a E(QMR), partimos de:
SQE W2
)!n2
96
W ( b ) ! E( b ) ( E( b )) E( b ) ! F
2 2 1 1 1 1 1
W ( b ) !
1
W2 Xi X
2
2 1 2
@ E( b ) !
2 1
W2 X i X
F
i
E( SQR ) !
@ E( SQR ) ! E( b ) ( X X )
2 1
W2 Xi X
F
(X X )
2 1 i 2 2 1 i 2 2
E( SQR ) ! W F ( X X )
2
@ E(
SQR 1
) ! E( QMR ) ! W F ( X X )
1 i
Teste F para F1
Na anlise de varincia testa-se as seguintes hipteses:
H 0 : F1 ! 0 H a : F1 { 0
F* !
QMR QME
Valores altos de F* favorecem Ha; F*=1 favorece H0; um teste unilateral. Para estabelecer uma regra de deciso do teste de hipteses devemos conhecer a distribuio amostral de F*.
97
Distribuio amostral de F*
Vamos considerar a distribuio amostral de F* quando a hiptese nula for verdadeira, isto , sob H0. Teorema de Cochran: se as n observaes Yi so identicamente distribudas de acordo com uma distribuio normal com mdia Q e varincia W2 e a soma de quadrados total decomposta em k somas de quadrados SQr , cada uma com glr graus de liberdade, ento, os termos SQr/ W2 , so variveis independentemente distribudas como G2 com glr graus de liberdade se:
k
gl
i !1
! n 1
Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e os seus graus de liberdade so aditivos. Sob H0, de modo que os Yi tem distribuio normal com a mesma mdia Q =0 e mesma varincia W2 , SQE/W2 e SQR/W2 so variveis independentemente distribudas como G2. Podemos escrever F* como:
F !
QMR QME
SQE /( n 2 )
SQR 1
SQR W2
z ( n2) !
SQE W2
G 2 (1) 1
G 2 ( n 2 ) ( n2)
98
Assim, sob H0, F* o quociente entre duas variveis independentes com distribuio de G2, portanto, a estatstica F* uma varivel aleatria com distribuio F(1,n-2) (apndicedistribuio F). Quando rejeita-se H0,pode-se mostrar que F* segue uma distribuio de F no central.
F(95%;1,10)=4,96, portanto, F*> F e, assim, rejeita-se a hiptese nula. Concluso: existe uma associao linear entre porcentagem de acerto e o tamanho da cache. Mesmo resultado do teste t.
99
F(95%;1,4)=7,71, portanto, F*< F e, assim, no rejeita-se a hiptese nula. Concluso: no existe uma associao linear entre pop. e o tempo de armazenamento. Mesmo resultado do teste t.
100
1) Modelo completo
Este modelo considerado adequado para os dados e chama-se modelo completo ou sem restrio (superparametrizado). No caso de regresso linear simples temos:
Yi ! F 0 F1 X i I i
2
Modelo completo
H 0 : F1 ! 0 H a : F1 { 0
Yi ! F 0 I i
101
3) Teste estatstico
Devemos comparar as duas somas de quadrados dos erros.
SQE (C ) e SQE ( R )
Sempre
Mais parmetros Concluso: se a SQE(C) no muito menor do que a SQE(R), indica que o modelo reduzido adequado, isto , no rejeita-se H0.
102
F* !
Deciso:
H 0 : F1 ! 0 H a : F1 { 0
,7385 F * ! 180 ,428425 ,7385 z 25 10 ! 154 ,6899 ! 60 , ** . 10 11 10 2 ,57385
103
H 0 : F1 ! 0 H a : F1 { 0
*
0 ,569885 0 ,263908 5 4
0 ,263908 4
0 ,305977 0 ,065977
! 4 ,64 .
NS
104
r2 !
SQR SQT
! 1 SQE SQT
2
0 e r e1
Interpretao: o quanto da variabilidade total dos dados explicada pelo modelo de regresso. Quanto maior o r2 mais a variao total de Y reduzida pela introduo da v. preditora X no modelo. Y Y r2=1
y yy y y yy y y yy yy yy y y
r2=0
Y ! b0 b1 X
y y
y y y y y
y y y
y y y y y yy y
Y |Y
X X A varivel preditora X responsvel por toda a variao nas observaes Yi. A v. X no ajuda na reduo da variao de Yi com a Reg. Linear
105
1 e r e 1
Exemplo: para os dados de porcentagem de acertos na cache, temos:
106
Interpretaes errneas dos coeficientes de determinao e correlao: 1) Um alto coeficiente de correlao indica que predies teis podem ser feitas. Isto no necessariamente correto. Observe se as amplitudes dos intervalos de confiana so grandes, isto , no so muito precisos. 2) Um alto coeficiente de correlao indica que a equao de regresso estimada est bem ajustada aos dados. Isto tambm no necessariamente correto (veja figura a seguir). 3) Um coeficiente de correlao prximo de zero indica que X e Y no so correlacionadas. Idem (veja figura a seguir).
107
y y y y y y y y y y y y y y y y y y y y y y y y y y y y y y y
y y y y y y y y y
y y y y