Você está na página 1de 108

Regresso Linear Simples

Introduo
Anlise de regresso uma metodologia estatstica que utiliza a relao entre duas ou mais variveis quantitativas (ou qualitativas) de tal forma que uma varivel pode ser predita a partir da outra ou outras. Exemplos: y A populao de bactrias pode ser predita a partir da relao entre populao e o tempo de armazenamento. y Concentraes de solues de protena de arroz integral e absorbncias mdias corrigidas. y Relao entre textura e aparncia. y Temperatura usada num processo de desodorizao de um produto e cor do produto final. y A porcentagem de acerto ou, ento, bytes transferidos, podem estar relacionados com o tamanho da cache (bytes), para um determinado tipo de pr-carregamento.
1

y Nmero de acessos ao disco (disk I/O) e o tempo de processamento para vrios programas. y A performance de um procedimento remoto foi comparado em dois sistemas operacionais: UNIX e ARGUS. A mtrica utilizada foi o tempo total transcorrido, o qual foi avaliado para vrios tamanhos de arquivos de dados. A anlise de regresso, assim como a anova, tambm representa os dados atravs de um modelo linear aditivo, onde o modelo inclui um componente sistemtico e um aleatrio.

Y ! f (X )  I

(1)

f descreve a relao entre X e Y. I so os erros aleatrios. Y = varivel resposta ou dependente; X = varivel independente, concomitante, covarivel ou varivel preditora.

O caso mais simples de regresso quando temos duas variveis e a relao entre elas pode ser representada por uma linha reta Regresso linear simples.

Cenrio
Estamos interessados na relao entre duas variveis, as quais chamaremos de X e Y. Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usalos para dizer alguma coisa sobre a relao.

Como sabemos os dados podem ser obtidos a partir de duas situaes: 1) dados experimentais: as observaes X e Y so planejadas como o resultado de um experimento, exemplo: X = tamanhos de cache e Y = porcentagem de acerto X= doses de starter (microorganismos [bactrias lcticas]) , Y= tempo de maturao do salame tipo italiano. Nesse exemplo, os valores de X esto sob controle do pesquisador, ou seja, ele escolheu as doses e observou o resultado, Y. 2) dados observacionais: observa-se os valores de X e Y, nenhuma delas sob controle, exemplo: populao de coliformes e populao de staphilococus; mdia das alturas de plantas numa rea e produo. O tempo para criptografar um registro com k-byte usando uma tcnica para este fim foi avaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.

Problema prtico: os valores observados de Y (e algumas vezes de X) no so exatos. Devido a variaes biolgicas, de amostragem e de preciso das medidas e outros fatores, s podemos observar valores de Y (e possivelmente de X) com algum erro. Assim, com base numa amostra de valores (X,Y) a exata relao entre X e Y mascarada pelos erros aleatrios. X Fixo vs Aleatrio: Dados experimentais: Geralmente X (doses, tempo, tamanho da cache) determinado pelo pesquisador p X fixo. Y est sujeito variaes fsicas, biolgicas, tipos de objetos numa pgina da Web, usurios, de amostragem, de medidas p Y uma varivel aleatria. Dados observacionais: geralmente X e Y so variveis aleatrias.
5

A distribuio normal bivariada Com dados observacionais, geralmente X e Y so v. a. e, de alguma forma, relacionadas. Lembrete: uma distribuio de probabilidades d uma descrio formal (matemtica) dos valores possveis da populao que podem ser observados para a varivel. Quando temos duas variveis a distribuio denominada bivariada. A fXY(x,y) descreve como os valores de X e Y se comportam conjuntamente. A distribuio normal freqentemente uma descrio razovel de uma populao com medidas contnuas. Quando X e Y so v. a. contnuas, uma suposio razovel que ambas sejam normalmente distribudas. Entretanto, espera-se que elas se distribuam conjuntamente. 6

A distribuio normal bivariada uma distribuio de probabilidades com uma funo densidade de probabilidade f(x,y) para X e Y, tal que: X e Y apresentam, cada uma, distribuio normal com mdias QX e QY, e varincias W2X e W2Y, respectivamente; o relacionamento entre X e Y medido pela quantidade VXY tal que -1 e VXY e 1. VXY o coeficiente de correlao entre as variveis aleatrias X e Y e mede a associao linear entre elas.

V XY ! 1 correlao positiva perfeita V XY ! 1 correlao negativa perfeita V XY ! 0 correlao nula


Objetivo: com os dados observados (Xi,Yi), desejamos quantificar o grau de associao. Para isso estimamos VXY.

Comparao entre os modelos de regresso e correlao


Dois modelos: X fixo: ajusta-se um modelo para a mdia da v. aleatria Y como uma funo de X fixo (linha reta). Estima-se os parmetros do modelo para caracterizar o relacionamento. X aleatrio: caracteriza-se o relacionamento (linear) entre X e Y atravs da correlao entre elas e estima-se o parmetro de correlao. 7

Sutileza: em situaes onde X uma varivel aleatria, muitos investigadores desejam ajustar um modelo de regresso tratando X como fixo. Isto porque, embora o coef. de correlao descreve o grau de associao entre X e Y, ele no caracteriza o relacionamento atravs de um modelo de regresso. Exemplo: um pesquisador pode desejar estimar a produo com base na mdia de alturas de plantas da unidade experimental. O coef. de correlao no permite isso. Ele, ento, prefere ajustar um modelo de regresso, mesmo X sendo aleatrio.

Isso legtimo? Se tomarmos cuidado na interpretao, sim. Se X e Y so variveis aleatrias, e ns ajustarmos um modelo de regresso para caracterizar o relacionamento, tecnicamente, todas as anlises posteriores so consideradas como sendo condicionais aos valores de X presentes no estudo. Isto significa que ns consideramos X fixo, embora ele no seja. Entretanto, vlido fazer-se previses. Dado (condicional) que se observa um particular valor de altura de planta, ele quer obter o melhor valor para produo. O pesquisador no est dizendo que ele pode controlar as alturas e, assim, influenciar as produes. Vale para os dados da amostra.
8

Causalidade versos correlao


Pesquisadores freqentemente so tentados a inferir uma relao de causa e efeito entre X e Y quando eles ajustam um modelo de regresso ou realizam uma anlise de correlao. Uma associao significativa entre X e Y em ambas as situaes no necessariamente implica numa relao de causa e efeito. Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O grfico mostra a populao de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o nmero de cegonhas (pssaros) naquele ano (X). Interpretao: existe associao entre X e Y. Freqentemente, quando duas v. X e Y parecem estar fortemente associadas, pode ser porque X e Y esto, de fato, associadas com uma terceira varivel, W. No exemplo, X e Y aumentam com W = tempo.

Correlao no necessariamente implica em causalidade


9

Construo de Modelos de Regresso


I. II. III. Seleo das variveis preditoras Escolha do modelo de regresso Abrangncia do modelo

i. ii.

O problema, em estudos observacionais, escolher um conjunto de variveis que podem ou devem ser includas no modelo; Pode-se usar um modelo terico; Usar aproximaes por modelos polinomiais;

iii. Geralmente necessrio restringir a abrangncia do modelo para alguns valores ou regio da(s) varivel(is) preditora(s).

10

Modelo de regresso linear simples (Sem especificao da distribuio de probabilidades para o erro)

Considere o modelo com uma varivel preditora e que a funo de regresso linear. O modelo dado por:

Yi ! F 0  F1 X i  I i i ! 1,2,..., n

(2)

11

Onde:

Yi o i-simo valor da varivel resposta; F0 e F1 so os parmetros (coeficientes de regresso); Xi o i-simo valor da varivel preditora ( uma constante conhecida, fixo). Ii o termo do erro aleatrio com E(Ii)=0 e W2(Ii)= W2; Ii e Ij no so correlacionados W(Ii, Ij)=0 para todo i,j; i{ j; (covarincia nula). i=1,2,...,n. Covarincia (o resultado em qualquer experimento no tem efeito no termo do erro de qualquer outro experimento) Os dados so usados para estimar F0 e F1, isto , ajustar o modelo aos dados, para: quantificar a relao entre Y e X; usar a relao para predizer uma nova resposta Y0 para um dado valor de X0 (no includo no estudo); calibrao ou capacidade de predio de novas observaes, pode ser feita usando uma nova amostra e comparando os valores estimados com os observados. - dado um valor de Y0, para o qual o correspondente valor de X0 desconhecido, estimar o valor de X0.
12

Caractersticas do modelo:
constante aleatrio

1. Yi uma v.a.(Yi ! F 0  F1 X i  I i ) 2. E(Yi ) ! E ( F 0  F1 X i  I i ) ! Qi ! F 0  F1 X i 3. W 2 (Yi ) ! W 2 ( F 0  F1 X i  I i ) ! W 2 (I i ) ! W 2 ( varincia constante ) 4. Yi e Y j no so correlacio nados

O modelo de regresso (2) mostra que as respostas Yi so oriundas de uma distribuio de probabilidades com mdia E(Yi) = F0 +F1Xi e cujas varincias so W2, a mesma para todos os valores de X. Alm disso, quaisquer duas respostas Yi e Yj no so correlacionadas.

13

A figura mostra a distribuio de Y para vrios valores de X. Mostra onde cai a observao Y1. Mostra que o erro a diferena entre Y1 e E(Y1). Observe que as distribuies de probabilidade apresentam a mesma variabilidade.

14

Resumo da situao: para qualquer valor Xi, a mdia de Yi Qi = F0 + F1Xi. As mdias esto sobre a linha reta para todos os valores de X. Devido aos erros aleatrios, os valores de Yi se distribuem ao redor da reta.

15

Outro exemplo.

Porcentagem de acerto

44,45 42,10 44,68 46,99 46,26 48,82 50,66 47,68 52,44 53,21 51,85 55,38
16

Mdia: E(Y)=27,836+0,00006423X

Para Xi=300.000 bytes observou-se Yi=46,26. O valor estimado dado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor do termo do erro Ii=46,26-47,11=-0,845.

17

Significado dos parmetros do modelo de regresso linear simples

yi = F0 + F1xi
U

(y (x=1

F1 !
F0 x x+1

(y (x

F0 (intercepto); quando a regio experimental inclui X=0, F0 o valor da mdia da distribuio de Y em X=0, cc, no tem significado prtico como um termo separado (isolado) no modelo; F1 (inclinao) expressa a taxa de mudana em Y, isto , a mudana em Y quando ocorre a mudana de uma unidade em X. Ele indica a mudana na mdia da distribuio de probabilidade de Y por unidade de acrscimo em X.
18

Exemplo: os dados abaixo indicam o nmero de bytes transferidos (Y) e o tamanho da cache (X). Equao de regresso:

y ! 4 ,763.107  27 ,649 x

Faa o grfico dos pontos e da reta ajustada. Voc acha que o modelo adotado razovel?

19

O que significa o coeficiente angular neste caso? E o coeficiente linear? Faa uma predio para o nmero de bytes transferidos para tamanho de cache igual a 270.000 bytes.

5e2,4

5e8,3

spe+x*946,72-7e367,4=y EHCAC AD OHNAMAT


5e4,3 5e3 5e6,2 5e2,2 7e3 7e4 7e6,4 7e4,4 7e2,4 7e8,3 7e6,3 7e4,3 7e2,3

20

Exemplo: os dados abaixo indicam o valor y do aluguel e a idade x de 5 casas.

x y
Equao de regresso:

10 4

13 3

5 6

7 5

20 2

y ! 6,87  0,261x

Faa o grfico dos pontos e da reta ajustada. Voc acha que o modelo adotado razovel?

O que significa o coeficiente angular neste caso? E o coeficiente linear? Faa uma previso para o valor do aluguel para idade de 13 anos.

21

Observaes:
um modelo de regresso pode conter duas ou mais variveis preditoras (X1, X2,...,Xp-1); o modelo de regresso no precisa ser uma linha reta:

Y ! F 0  F1 X  F 2 X 2  I
Chama-se modelo quadrtico ou de 20 grau, cuja figura uma parbola. Esse modelo, embora no seja uma linha reta, continua sendo um modelo linear nos parmetros. O mtodo que ser discutido para o modelo de regresso linear simples aplica-se diretamente aos demais modelos lineares nos parmetros.

22

Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um particular algoritmo foi mensurado para diversos valores de heap size.

0061

0041

)c01*v01 ATS.EGABRAG( tolprettacS


0021 spe+2^x*100,0+x*802,2-384,1231=y

SEZIS PAEH

0001

008

006

004 0

006 005 004 003 002 001

23

Modelo no linear nos parmetros. Exemplo: modelo de crescimento logstico, onde X o tempo.

Y ! 1 F e F3X  I
2

F1

necessrio estudar mtodos para modelos no lineares.

Exemplo computao: modelo potncia, y=bxa, onde X a velocidade do processador e Y a taxa I/O.
24

Modelos de regresso alternativos


As vezes torna-se conveniente (p.e. facilidade de clculos) escrever o modelo de regresso linear (2) de forma diferente, embora equivalentes. Seja X0 uma varivel dummy identicamente igual a 1. Ento, temos o modelo que associa uma varivel X a cada parmetro do modelo:

Yi ! F 0 X 0  F1 X 1  I i onde X 0 | 1
Uma outra alternativa usar para a v. preditora os desvios (Xi-Mdia(X)) ao invs de Xi. Para no modificarmos o modelo (2), escrevemos:

Yi ! F0  F1 ( X i  X )  F1 X  I i Yi ! F  F1 ( X i  X )  I i F ! F0  F1 X
25

* 0

* 0

Estimao da funo de regresso


Denotamos as observaes (Xi,Yi) para a primeira repetio como (X1,Y1), para a segunda como (X2,Y2), e para a i-sima como (Xi,Yi), com i=1,2,..,n. Exemplo: uma pesquisadora est estudando o comportamento de Staphilococcus aureus (Y) em frango, mantido sob condies de congelamento domstico (-18oC) ao longo do tempo (X) (dias).
Tempo Populao 0 3,114 7 3,568 14 2,845 21 3,079 28 2,699 35 2,663

Notao: temos n=6 observaes. O tamanho da populao (ufc/cm2) dado em log10.

Mtodo dos mnimos quadrados


Para observaes (Xi,Yi) i=1,..,n, temos o modelo

Yi ! F 0  F1 X i  I i

i ! 1,.., n

Desejamos ajustar o modelo, estimando os parmetros F0 e F1. O mtodo de mnimos quadrados considera os desvios de Yi em relao ao seu valor esperado (E(Yi)):

Yi  ( F 0  F1 X i )

26

Elevando-se ao quadrado esses desvios e aplicando-se o somatrio, temos o critrio Q

Q ! Yi  F 0  F1 X i
i !1

(10)

De acordo com o mtodo de mnimos quadrados, os estimadores de F0 e F1 so os valores b0 e b1, respectivamente, que minimizam o critrio Q para a amostra (X1,Y1),..,(Xn,Yn).
5,6

e3
5,5 VA L R O 22 81 41 EDADI 01 6 2 5,1 5,4 5,3 5,2

e1 e2 e5
27

Estimadores de mnimos quadrados


Os valores de F0 e F1 que minimizam o critrio Q podem ser obtidos diferenciando-se (10) em relao a F0 e F1 , portanto, obtemos:

n xQ xF 0

! 2 (Yi  F 0  F1 X i )
i !1 n

xQ xF1

! 2 X i (Yi  F 0  F1 X i )
i !1

Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de F0 e F1que minimizam Q.

28

 2 (Yi  b0  b1 X i ) ! 0
i !1 n

 2 X i (Yi  b0  b1 X i ) ! 0
i !1

simplificando e expandindo, obtemos :


n

(Y  b
i i !1 n i i i !1 n

 b1 X i ) ! 0
0

X (Y  b Y  nb
i i !1 n i !1 0

 b1 X i ) ! 0
n

 b1 X i ! 0
i !1 n n

X iYi  b0 X i  b1 X i2 ! 0
i !1 i !1

Fazendo-se as derivadas parciais de segunda ordem, indicar que um mnimo foi encontrado com os estimadores b0 e b1.

Da, obtemos o sistema de equaes normais, dado por:


n n i

Y
i !1 n i !1

! nb0  b1 X i
i !1 n n

X iYi ! b0 X i  b1 X i2
i !1 i !1

29

As equaes normais podem ser resolvidas simultaneamente para b0 e b1(estimadores pontuais):

( X i  X )(Yi Y ) b1 ! ( X i  X )2 b0 ! 1 Yi  b1 X i ! Y  b1 X n
Outra forma de escrevermos:

X Y XY  n 2 b1 ! X 2 X 

30

Exemplo: a pesquisadora deseja encontrar o modelo de regresso da porcentagem de acertos sobre o tamanho da cache.
Tamanho da cache (X) Porcentagem de acertos (Y)

(X i  X )

(Yi  Y )

( X i  X )(Yi  Y

(X i  X )2

(Yi  Y ) 2

Total = 3900000 Mdia = 325000

584,52 48,71

2408500

37500000000

181,438

31

( X i  X )( Yi Y ) ! b1 ! ( X i  X )2

2408500 37500000000

! 0 ,0000642

b0 ! Y  b1 X ! 48 ,71  ( 0 ,0000642 )( 325000 ) ! 27 ,845


Assim, estimamos que a porcentagem de acerto da cache aumenta cerca de 0,00006 % para cada byte do tamanho da cache.

32

33

Sada do Statistica:

34

Exemplo: a pesquisadora deseja encontrar o modelo de regresso do tempo sobre a populao de bactrias.
Tempo (X) 0 7 14 21 28 35 Total = 105 Mdia = 17,5 Populao (Y) 3,114 3,568 2,845 3,079 2,699 2,663 17,968 2,9947

(Xi  X )
-17,5 -10,5 -3,5 3,5 10,5 17,5 0

(Yi  Y )
0,119 0,573 -0,150 0,084 -0,296 -0,332 0

( X i  X )(Yi  Y ) ( X i  X ) 2
-2,088 -6,020 0,524 0,295 -3,105 -5,805 -16,199 306,250 110,250 12,250 12,250 110,250 306,250 857,5

(Yi  Y ) 2
,014 ,329 ,022 ,007 ,087 ,110 0,569

( X i  X )(Yi Y ) ! 16,199 ! -0,018890 b1 ! 857 , 5 ( X i  X )2 b 0 ! Y  b1 X ! 2,9947  ( 0,0189)(17,5) ! 3,32545


Assim, estimamos que o tamanho da populao de bactrias diminui cerca de 0,0189 ufc/cm2 para cada dia. 35

Sada do STATISTICA: Regression Summary for Dependent Variable: POP R= ,73274116 R= ,53690961 Adjusted R= ,42113702 F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686 St. Err. St. Err. BETA of BETA B of B t(4) p-level Intercpt 3,325238 ,185902 17,88708 ,000057 TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596

36

Propriedades dos estimadores de mnimos quadrados


Teorema de Gauss-Markov: Se as pressuposies do modelo de regresso linear (2) forem atendidas, os estimadores de mnimos quadrados b0 e b1 so no tendenciosos (unbised) e com varincia mnima, entre todos os estimadores lineares no tendenciosos. Primeiro, o teorema diz que: E(b0)=F0 e E(b1)=F1. (Demonstrao adiante) Segundo, o teorema diz que os estimadores b0 e b1 so mais precisos (isto , as suas distribuies amostrais tem menor variabilidade) do que quaisquer outros estimadores pertencentes a classe dos estimadores no tendenciosos que so funes lineares das observaes Y1, Y2,...,Yn. Os estimadores b0 e b1 so tais funes lineares das observaes. Considere, por exemplo, b1,

( X i  X )(Yi Y ) ! ( X i  X )Yi ! k Y b1 ! ( X i  X )2 ( X i  X )2 i i ki !
( Xi X )

( X i  X )2

Como ki so constantes (pois Xi so constantes conhecidas), b1 uma combinao linear de Yi e, assim, um estimador linear. Da mesma forma, b0 tambm um estimador linear. Entre todos os estimadores lineares no tendenciosos, b0 e b1 tem menor variabilidade (demonstrao adiante) em repetidas amostras nas quais os nveis de X so constante.

37

Estimao pontual da resposta mdia


Estimao da funo de regresso
A mdia do modelo de regresso linear dada por:

E (Y ) ! F 0  F1 X
Estima-se a funo de regresso por:

Y ! b0  b1 X
Onde Y (chapu) o valor estimado da funo no nvel X da varivel preditora. A resposta mdia (E(Y)), corresponde a mdia da distribuio de probabilidade de Y no nvel X da varivel preditora. Pode-se demonstrar, como uma extenso do teorema de Gauss-Markov que Y (chapu) um estimador no tendencioso de E(Y), com varincia mnima dentro da classe dos estimadores lineares no tendenciosos. Temos:

Yi ! b0  b1 X i

i ! 1,2,..., n

como sendo o valor ajustado para o i-simo caso.

38

Exemplo: para os dados de porcentagem de acerto na cache, os valores estimados da funo de regresso so dados por:

Y ! 27 ,83633  0 ,0000642 X
Suponha que estejamos interessados na porcentagem mdia de acerto na cache para X=300.000 bytes (muitas amostras com 300.000 bytes sob as mesmas condies que a equao foi estimada); a estimativa pontual vale:

y ! 27 ,83633  0 ,0000642( 300000 ) ! 47 , 10


Valores ajustados dos dados da amostra so obtidos substituindo-se os correspondentes valores da varivel preditora X na funo de regresso.
39

Sada do Statistica:

40

Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da funo de regresso so dados por:

Y ! 3,325  0,019 X

Suponha que estejamos interessados na populao mdia (muitas amostras com 21 dias de armazenamento sob as mesmas condies que a equao foi estimada) de bactrias para X=21 dias de armazenamento; a estimativa pontual vale:c

y ! 3 ,325  0 ,019( 21 ) ! 2 ,926


Valores ajustados dos dados da amostra so obtidos substituindo-se os correspondentes valores da varivel preditora X na funo de regresso. Sada do STATISTICA:
Predicted & Residual Values (staphilo.sta) Dependent variable: POP Observed Predictd Value Value Residual 1 3,114000 3,325238 -,211238 2 3,568000 3,193010 ,374990 3 2,845000 3,060781 -,215781 4 3,079000 2,928552 ,150448 5 2,699000 2,796324 -,097324 6 2,663000 2,664095 -,001095 Minimum 2,663000 2,664095 -,215781 Maximum 3,568000 3,325238 ,374990 Mean 2,994667 2,994667 ,000000 Median 2,962000 2,994667 -,049209

Standard Pred. v. 1,33631 ,80178 ,26726 -,26726 -,80178 -1,33631 -1,33631 1,33631 -,00000 0,00000

Standard Residual -,822385 1,459902 -,840072 ,585718 -,378898 -,004263 -,840072 1,459902 ,000000 -,191581

Std.Err. Pred.Val ,185902 ,139567 ,109264 ,109264 ,139567 ,185902 ,109264 ,185902 ,144911 ,139567

Mahalns. Distance 1,785714 ,642857 ,071429 ,071429 ,642857 1,785714 ,071429 1,785714 ,833333 ,642857

Cook's Distance ,781146 ,633439 ,095181 ,046269 ,042668 ,000021 ,000021 ,781146 ,266454 ,070725 41

Modelo alternativo Quando o modelo utilizado :


* Yi ! F 0  F1 ( X  X )  I i

O estimador b1 de F1 permanece o mesmo. O estimador de


* F 0 ! F 0  F1 X dado por : * b0 ! b0  b1 X ! (Y  b1 X )  b1 X ! Y

Temos:

Y ! Y  b1 ( X  X )

Exemplo: obter o valor ajustado para X=300.000 bytes de cache.. Exemplo: para os dados de staphilococcus aureus em frango obter o valor ajustado para X1=0 dia de armazenamento..

42

Resduos O i-simo resduo a diferena entre o valor Yi e o correspondente valor ajustado Y (chapu)i.

ei ! Yi  Yi
Vemos que o resduo para o primeiro caso, exemplo de pop. de Staphilococcus, sada do statistica, dado por:

e1 ! Y1  Y1 ! 3,114000 - 3,325238 ! -,211238


Exemplo: para os dados de porcentagem de acerto na cache, o resduo para o primeiro caso vale:

e1 ! Y1  Y1 ! 44 ,45 - 43,886 ! 0,564


43

Distino:

I i ! Yi  E(Yi ) p o desvio de Yi da verdadeira equao de regresso (desconhecida)


e assim desconhecido.

ei ! Yi  Yi

p o desvio de Yi do valor ajustado Yi (chapu) na equao de regresso estimada, portanto, conhecido.

Os resduos so extremamente teis para verificar se um determinado modelo de regresso apropriado para os dados. Este assunto ser tratado mais adiante neste curso.
54,0

para os dados de staphilococcus aureus em frango

Resd os u

.difnoc %59 noissergeR

04

53

03

52

02

OPMET

51

01

5-

03,0-

51,0-

03,0 51,0 00,0

44

.difnoc %59 noissergeR

45

EHCAC AD OHNAMAT 5e2,4 5e8,3 5e4,3 5e3 5e6,2 5e2,2 3210

R ES DUO S

2 3 00000, = r :noitalerroC COHNAMAT * 0000,0 + 0000,- = slaudiser waR COHNAMAT .sv slaudiser waR

Propriedades do modelo ajustado: Y ! b0  b1 X


n

1.

e ! ( Y  b
i i i !1 n

 b1 X i ) ! Yi  nb0  b1 X i ! 0

( devido a primeira equao normal ) (Veja saida do STATISTICA) 2. 3. 4. 5.

e
i !1 n i !1 n

2 i

mnima (condio do mtodo de MQO)


n

Y ! Y
i i !1

(Veja sada do STATISTICA)

X e
i !1

i i

! 0 (ponderados)

Y e
i !1

i i

! 0 (ponderados)

6. Y ! Y  b1( X  X ) ! Y  b1( X  X ) ! Y (para X ! X) ( a linha de regresso sempre passa pelo ponto (X;Y ) )
46

Estimao da varincia (W2)


A varincia, W2, dos erros, Ii, no modelo de regresso (2) precisa ser estimado para obter uma indicao da variabilidade da distribuio de probabilidade de Y. Necessrio para inferncias. Lembrete: a varincia de cada observao Yi para o nosso modelo de regresso W2, a mesma de cada Ii. Precisamos calcular a soma de quadrados de desvios, considerando que cada Yi vem de diferentes distribuies de probabilidade com diferentes mdias que dependem do nvel de Xi; as mdias so estimadas por Yi(chapu). Assim os desvios so os resduos:

ei ! Yi  Yi
n

A soma de quadrados do erro (resduo), SQE, dada por:

SQE ! (Yi  Yi ) ! ei2


2 i !1 i !1

Dois graus de liberdade so perdidos para estimar os parmetros F0 e F1. O quadrado mdio do erro dado por (QME):

QME !

SQE n 2

Temos que o QME um estimador no tendencioso de W2

(prova adiante) pois


47

E (QME ) ! W 2

Exemplo: para os dados de Staphilococcus aureus em frango, temos:

SQE ! 0 ,2639 com 6 - 2 ! 4 graus de liberdade, assim QME ! 0 ,2639 / 4 ! 0 ,0659 (Estimativa da varincia) Estimativa deW ! 0 ,0659 ! 0 ,2567 ufc (desvio padro) (Desvio padro da distribuio de Y para qualquer X)

Exemplo: para os dados de tamanho de cache, temos:


SQE ! 25,7385 com 12 - 2 ! 10 graus de liberdade, assim QME ! 25,7385 / 10 ! 2,57385 Estimativa de W 2,57385 ! 1,6043% (desvio padro) (Desvio padro da distribuio de Y para qualquer X)
48

Modelo de regresso com erros normais


Para construir intervalos de confiana e fazer testes de hipteses ns devemos considerar alguma distribuio de probabilidade para os Ii. Uma distribuio que tem um apelo prtico e terico bastante grande a distribuio normal e que ser utilizada neste curso. O modelo de regresso dado por:

Yi ! F 0  F1 X i  I i

i ! 1,.., n

Yi o i-simo valor observado da varivel resposta; F0 e F1 so os parmetros; Xi o i-simo valor da varivel preditora ( uma constante conhecida, fixo). Ii o termo do erro aleatrio, independentes com distribuio N(0, W2). 49

Independentes: no sentido que eles no so relacionados de qualquer modo, por exemplo, so provenientes de diferentes cpus, diferentes indivduos, diferentes animais, etc. Os registros num banco de dados so independentes.

Como assumimos para o modelo de regresso que os erros so normalmente distribudos, a suposio que os erros Ii no so correlacionados, feita no modelo inicial, transforma-se na suposio de independncia no modelo com distribuio normal.

O modelo implica que Yi so variveis aleatrias independentemente distribudas segundo uma normal com mdia E(Yi)=F0+ F1Xi e varincia W2. Para cada valor Xi, podemos pensar em todos os valores possveis de Yi e sobre a sua variabilidade. Esta suposio diz que, seja qual for o valor de Xi, a variabilidade nos possveis valores de Y a mesma. Para cada valor Xi, podemos pensar que todos os valores assumidos por Y podem ser bem representados por uma distribuio normal.

50

Estimao dos parmetros pelo mtodo da mxima verossimilhana


Como foi especificado uma distribuio de probabilidades para os erros podemos obter estimadores para F0, F1 e W2 pelo MMV. O mtodo de mxima verossimilhana determina como estimativas de mxima verossimilhana, os valores de F0, F1 e W2 os quais produzem o maior valor para a verossimilhana. Em geral, a densidade de uma observao Yi para o modelo de regresso com erros normais, utilizando o fato de que E(Yi)=F0+ F1Xi e varincia W2 dada por :

fi !

1 2T W

exp 

2 1 Yi  F 0  F1 X i W 2

A funo de verossimilhana para n observaes Y1, Y2,...,Yn, o produto das densidades individuais ( a conjunta). Como a varincia W2 dos erros desconhecida, a conjunta uma funo de trs parmetros, F0, F1 e W2 :
51

1 L( F 0 , F1 , W ) ! ( 2TW12 )1 / 2 exp  2W 2 (Yi  F 0  F1 X i ) 2 i !1

(2

1 n 1 (Yi  2 n/ 2 exp  2 2 ) i !1

0 

X i )2 1

Devemos encontrar valores de F0, F1 e W2 que maximizam a funo de verossimilhana L, calculando-se as derivadas parciais de L com respeito a F0, F1 e W2 e igualando cada derivada parcial a zero e resolvendo o sistema de equaes obtido. Podemos trabalhar com logeL ao invs de L, pois ambos so maximizadas para os mesmos valores de F0, F1 e W2 :
n 1 log e L !  2 log e 2T  n log e W 2  2W 2 (Yi  F 0  F1 X i ) 2 2

As derivadas parciais do logaritmo da funo de verossimilhana, so dadas por:

x (log e L) 1 ! 2 xF 0 W x (log e L) 1 ! 2 xF1 W

(Y  F
i i i

 F1 X i )
0

X (Y  F

 F1 X i )
52

x (log e L) n 1 ! 2  xW 2 2W 2W 4

(Yi  F 0  F1 X i ) 2

Agora, fazemos as derivadas parciais iguais a zero, substituindo F0, F1 e W2 pelos estimadores

F 0 , F1 e W 2
Obtemos:

(Y  F  F X ) ! 0 X (Y  F  F X ) ! 0
i 0 1 i i i 0 1 i
2 (Yi  F 0  F1 X i ) n

!W 2

As duas primeiras equaes so idnticas as equaes normais encontradas pelo mtodo de mnimos quadrados. O MMV produz um estimador viesado para W2.
Parmetro Estimador de mxima verossimilhana

F0 F1 W2

F 0 ! b0 F 1 ! b1 (Y Y ) 2 W2 ! i i
n

Os estimadores de F0, e F1 so os mesmos do mtodo de mnimos quadrados. O estimador de mxima verossimilhana de W2 viesado,ou seja,.

( n  1 )W 2 E( W ) ! n
2

53

Comentrios: 1) como os estimadores de mxima verossimilhana de F0,e F1 so os mesmos do mtodo de mnimos quadrados, eles tem as mesmas propriedades de todos os estimadores de mnimos quadrados: a) so no viesados; b) tem varincia mnima entre todos os estimadores lineares no tendenciosos; alm disso, os estimadores de mxima verossimilhana b0 e b1 para o modelo de regresso com erros normais tem outras propriedades desejveis: c) so consistentes;

n pg
d) so suficientes;

lim P (| U  U |u I ) ! 0 I " 0

fY|U ( y | U ) ! no depende de U .
*** Fazer lista de exerccios nmero 1.
54

Inferncia na anlise de regresso


Intervalos de confiana Testes de hipteses:

Assumimos o modelo:

Yi ! F 0  F1 X i  I i

i ! 1,.., n

(3)

F0 e F1 so os parmetros; Xi so constantes conhecidas, fixas. Ii so independentes com distribuio N(0, W2).

55

Inferncias para F1
y encontrar intervalos de confiana para F1 yfazer testes de hipteses com relao a F1, por exemplo:

H 0 : F1 ! 0 H a : F1 { 0

No h associao entre X e Y.

Para realizar inferncias sobre F1, precisamos conhecer a distribuio amostral de b1, o estimador pontual de F1.

Distribuio amostral de b1
O estimador pontual dado por:

( X i  X )(Yi Y ) b1 ! ( X i  X )2

A distribuio amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos com muitas amostras para um mesmo nvel da varivel preditora X (constante).
56

Normalidade: a normalidade da distribuio amostral de b1 segue do fato de que b1 uma combinao linear dos Yi.Os Yi so independentes, com distribuio normal. Uma combinao linear de variveis aleatrias independentes, com distribuio normal, tambm tem distribuio normal. b1 como combinao linear de Yi. Mdia:

( X i  X )(Yi Y ) b1 ! ( X i  X )2 ( X  X )Yi  ( X  X )Y b1 ! i ( X  X ) 2 i i ( X  X )Yi Y ( X  X ) b1 ! i ( X  X )2 i i ( X  X )Y b1 ! ( Xi  X )2i i b1 ! kiYi ki !


( Xi  X )

E (b1 ) ! E kiYi ! ki E (Yi )

E (b1 ) ! ki ( F 0  F1 X i ) E (b1 ) ! ki F 0  ki F1 X i E (b1 ) ! F 0 ki  F1 ki X i E (b1 ) ! F1 (no viesado)


Pois,

( Xi  X )

k ! 0 k X ! 1
i i i

(Demonstre )

Portanto, ki so funes de Xi que so valores fixos.


57

Varincia:

W (b1 ) ! W

k Y ! k W
i i 2 i

(Yi )

W 2 (b1 ) ! ki2W 2 W 2 (b1 ) ! W 2 ki2 W 2 (b1 ) ! W 2


1 X i  X 2

X X k ! Xi  X 2 i 1 ?X i  X A2 ki2 ! 2 2 X i  X
2 i

ki2 !

i X

Podemos estimar a varincia da distribuio amostral de b1 substituindo W2 pelo quadrado mdio residual (QME). O estimador s2(b1) um estimador no tendencioso de W2 (b1).

s (b1 ) !

QME

X i  X 2

58

Nota: Na seo propriedades dos estimadores de mnimos quadrados dissemos que b1 tem a menor varincia entre todos os estimadores lineares no tendenciosos da forma

F1 ! ciYi

ci so constantes arbitrrias

F1 ! b1

F1 no tendencioso :
E ( F1 ) ! E ( ciYi ) ! ci E (Yi ) ! ci ( F 0  F1 X i ) ! F 0 ci  F1 ci X i ! F1
Restries:

!0 e

c X
i

!1

Varincia de F 1 : W 2 ( F1 ) ! ci2W 2 (Yi ) ! ci2W 2 ! W 2 ci2


Seja ci=ki + di, onde ki so como anteriormente e os di so constantes arbitrrias. Ento: 2 2

W 2 ( ki  d i ) ! W 2

 d i2  2 ki d i

Zero (Verifique)

W 2 (b1 )

59

Finalmente, temos:

W 2 ( F1 ) ! W 2 (b1 )  W 2 d i2

2 Observamos que a menor varincia do estimador (F1 ) obtida quando d i ! 0 .Isto ocorre quando todos os di=0, isto implica que ci | ki. Assim, o estimador de mnimos quadrados b1 tem varincia mnima entre todos os estimadores lineares no tendenciosos.

Distribuio amostral de (b1-F1)/s(b1)


Como b1 tem distribuio normal, sabemos que a estatstica padronizada (b1-F1)/W(b1) uma varivel aleatria com distribuio normal padro. Para estimar W(b1) usamos s(b1) e, assim precisamos conhecer a distribuio da estatstica (b1-F1)/s(b1) [estatstica studentizada]. Teorema: Demonstrao: Podemos escrever a estatstica como:

b1  F1 s ( b1 )

~ t(n - 2)

para o modelo (3)

b1  F1 W ( b1 )

s ( b1 ) W ( b1 )

O numerador uma varivel normal padro z. Para o denominador, temos:


60

QME

s ( b1 ) W ( b1 )
2

! W2 ! ( X i  X )2
b1  F1 s ( b1 )

( X i  X )2

QME W
2

SQE n2 2

! W 2 ( n2) ~
SQE

G (2n2 ) ( n 2)

Portanto,

z
G 2 ( n2 ) ( n 2 )

Teorema: para o modelo (3), SQE/W2 distribudo como G2 com n-2 gl e independente de b0 e b1.

Como z e G2 so independentes pois z uma funo de b1 e b1 independente de SQE/W2 ~ G2. Assim (A definio est no apndice):
b1  F1 s ( b1 )

~ t (n  2).

Agora podemos fazer inferncias sobre F1.

61

Intervalo de confiana para F1


Desde que (b1-F1)/s(b1) tem distribuio t,podemos fazer a seguinte afirmao probabilstica:

P{t (E / 2; n  2) e (b1  F1 ) / s(b1 ) e t (1  E / 2; n  2)} ! 1  E

E/2=0,25 t=-1

1-E=0,50

E/2=0,25 t=1
62

t(E/2;n-2) representa o (E/2)100 percentil da distribuio t com n-2 g.l. t(E/2;n-2) = - t(1-E/2;n-2) (devido a simetria da distribuio t) Rearranjando as desigualdades obtemos:

P (b1  t (1  E / 2; n  2) s(b1 ) e F1 e b1  t (1  E / 2; n  2) s (b1 )) ! 1  E .


O intervalo de confiana dado por:

b1 s t (1  E / 2; n  2) s (b1 )
Exemplo: considere os dados de populao de Staphilococcus aureus, a pesquisadora deseja encontrar o intervalo para F1 com confiana de 95%.

s 2 (b1 ) !

QMR (X X )
2

s (b1 ) ! 0,008772

0 , 0659 857 ,5

! 0,0000769

t (0,975;4) ! 2,776 Usar software  0,019  2,776(0,008772) e F1 e 0,019  2,776(0,008772)  0,0434 e F1 e 0,0623
Muito importante
63

Interpretao: estimamos que a populao de Staphilococcus cresce entre -0,0434 e 0,0623 unidade/dia.

Exemplo: considere os dados de porcentagem de acerto na cache, a pesquisadora deseja encontrar o intervalo para F1 com confiana de 95%.

s 2 ( b1 ) !

QMR ( X  X )2

2 ,5738 37500000000

! 0 ,000000000068635

s( b1 ) ! 0 ,0000083 t ( 0 ,975 ;10 ) ! 2 ,228 Usar software 0 ,0000642  2 ,228( 0 ,0000083 ) e F1 e 0 ,0000642  2 ,228( 0 ,0000083 ) 0 ,0000457 e F1 e 0 ,0000827
Muito importante

Interpretao: estimamos que a porcentagem de acertos aumenta entre 0,0000457 e 0,0000827 % por byte do tamanho da cache.
64

Teste de hipteses para F1 Vimos que (b1-F1)/s(b1) tem distribuio t(n-2).O teste de hiptese sobre F1 pode ser feito de maneira padro usando a distribuio de Student. Teste bilateral Hipteses:

H 0 : F1 ! 0 H a :F 1{ 0

65

Exemplo: a pesquisadora deseja saber se existe regresso linear entre a porcentagem de acertos na cache e o tamanho da cache, ou seja, se F1{0 ou no. [Como o intervalo de confiana construdo anteriormente no inclui o valor 0 (o valor da hiptese nula), devemos rejeitar a hiptese nula (H0). Isto vlido quando o teste bilateral].

66

Exemplo: a pesquisadora deseja saber se existe regresso linear entre populao de bactrias e o tempo de armazenamento, ou seja, se F1{0 ou no. [Como o intervalo de confiana construdo anteriormente inclui o valor 0 (o valor da hiptese nula), devemos aceitar a hiptese nula (H0)]. Teste estatstico formal:

t* !

b1  F1 s ( b1 )

Critrio do teste: estamos controlando a probabilidade de erro tipo I (E).


Se | t * |e t (1  E / 2; n  2), no rejeita - se H 0 Se | t * |" t (1  E / 2; n  2), rejeita - se H 0
67

Exemplo: para os dados de porcentagem de acerto na cache, com E=0,05, b1=0,0000642 e s(b1)=0,0000083, temos:

t !

0 ,0000642 0 0 ,0000083

! 7 ,735

O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| maior do que 2,228 rejeita-se a hiptese nula e conclumos que existe uma associao linear entre a porcentagem de acertos na cache e o tamanho da cache.

68

Exemplo: para os dados de populao de Staphilococcus aureus, com E=0,05, b1=-0,019 e s(b1)=0,008772, temos:

t !

0 , 019  0 0 , 008772

! 2,166

O valor de t de tabela vale: t(0,975;4)=2,776, como |-2,166| menor do que 2,776 aceita-se a hiptese nula e conclumos que no existe uma associao linear entre a populao de Staphilococcus aureus e o tempo de armazenamento. Valor p: o menor valor de E para o qual rejeitamos a hiptese nula. Se o pesquisador fixar E=0,05, ento, para um valor p u 0,05 no rejeita-se H0, caso contrrio, rejeita-se H0. Formalmente fica:
P ( t " t * ) ! valor p

Valor p tambm denominado de nvel descritivo ou nvel de significncia observado.

69

Sada do Statistica: dados de porcentagem de acertos na cache. As diferenas verificadas so devidas s aproximaes nos clculos.

70

* * Com o uso do Statistica, para os dados de porcentagem de acerto na cache, encontrar a probabilidade de se rejeitar a hiptese nula, quando ela verdadeira.
P (| t |" 7,7525) ! 0,000015 P (t 7,7525)  p (t " 7,7525) $ 0,000008  0,000008 $ 0,000016

Ateno: verificar se o software d o valor p para o teste uni ou bilateral

71

Sada do Statistica: dados de populaes de Staphilococcus a diferena verificada entre -2,166 e 2,15351 devido aproximaes nos clculos.

* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hiptese nula, quando ela verdadeira. P (| t |e 2,166) ! 0,0962 Ateno: verificar se o software d o valor p para o teste uni ou bilateral
72

P (t

2,166)  p (t " 2,166) ! 0,04812  0,04812 ! 0,09624

Teste unilateral: O pesquisador deseja, por exemplo, testar se F1 negativo, controlando o nvel de significncia E=0,05.
H 0 : F1 u 0 H a : F1 0

Regra de deciso:

Se t* u t ( E ; n  2 ), no rejeita - se H 0 Se t* t ( E ; n  2 ), rejeita - se H 0

Exemplo: para os dados de Staphilococcus temos, para E=0,05, t(0.05;4)=-2,132. Como t*=-2,166, rejeita-se a hiptese de nulidade, portanto F1 negativo.

Valor p ! P t

t*

73

Nas publicaes, indicar o nvel descritivo juntamente com o valor da estatstica teste. Podemos realizar o teste estatstico para qualquer nvel de significncia E, comparando o nvel descritivo com o valor desejado de E. Comentrio: pode-se testar as seguintes hipteses:

H 0 : F1 ! F10 H a : F1 { F10
Onde F10 um valor diferente de zero.
74

A estatstica teste dada por:

b1  F10 t! s 1 b
Critrio do teste: Se |t*| e t(1- E/2;n-2) no se rejeita H0 Se |t*| > t(1- E/2;n-2) rejeita-se H0

75

Inferncias para F0
S tem interesse quando os nveis de X incluem X=0 (o que raro).

Distribuio amostral de b0
O estimador pontual b0 dado por:

b0 ! Y  b1 X
A distribuio amostral de b0 refere-se aos valores diferentes de b0 que seriam obtidos com diferentes amostras para o mesmo valor de X (constante). A distribuio amostral de b0 normal Mdia:

E (b0 ) ! F 0

Varincia:

(Demonstrao prxima pgina)

1  X2 W (b0 ) ! W n ( X i  X )2
2 2

A normalidade verificada pois b0 uma combinao linear das observaes Yi. Um estimador para W2(b0) obtido substituindo-se W2 pelo seu estimador pontual, QME.

Distribuio amostral de (b0-F0)/s(b0)


Teorema:
b0  F 0 s ( b0 )

~ t ( n  2)

@ podemos usar a distribuio t para construir os IC e fazer os testes de hipteses.

76

Demonstrao:

E( b0 ) ! E( Y  b1 X ) ! E( Y )  E( b1 X ) ! Y  XE( b1 ) ! F 0  F1 X  XF1 ! F0 (cqd).

77

Intervalo de confiana para F0


b0 s t (1  E / 2; n  2) s(b0 )
Exemplo: para os dados de Staphilococcus, como temos tempo=0 (X=0), podemos estar interessados em encontrar o IC para F0.

1 X2 1 17,52 s (b0 ) ! QME n  ! 0,0659  857,5 ! 0,0345 2 6 (Xi  X ) s (b0 ) ! 0,1858


2

t (0,975;4) ! 2,776 3,3252  2,776(0,1858) e F 0 e 3,3252  2,776(0,1858) 2,8094 e F 0 e 3,8410


Como o intervalo de confiana no inclui o valor zero (0), rejeitamos a hiptese:

H0 : F 0 ! 0 Ha : F 0 { 0
78

Estimao intervalar para E(Yh)


Freqentemente, numa anlise de regresso, deseja-se estimar a mdia de uma ou mais distribuies de probabilidade de Y. Exemplo: No estudo da relao entre o tamanho da cache (X) e porcentagem de acerto (Y), a porcentagem mdia de acerto para tamanhos maiores de cache pode ser de interesse. Outro exemplo, um agrnomo pode estar interessado na produo mdia para diversas doses de um nutriente, com o objetivo de encontrar a dose tima. Xh p representa o nvel da varivel preditora para a qual se deseja estimar a resposta mdia. A resposta mdia para X=Xh representada por: E(Yh)

Sabemos que o estimador pontual Yh de E(Yh) dado por:

Yh ! b0  b1 X h

79

Distribuio amostral de Y(chapu)h


Diferentes valores de Y(chapu)h que seriam obtidos se repetidas amostras fossem selecionadas, para X constante, e calculando Y(chapu)h para cada amostra. Distribuio normal: para o modelo de regresso com erros normais, a distribuio amostral de Y(chapu)h normal. A normalidade segue diretamente do fato que Y(chapu)h , assim como b0 e b1, uma combinao linear das observaes Yi.
Mdia

E (Yh ) ! E (b0  b1 X h ) ! E (b0 )  X h E (b1 ) ! F 0  F1 X h ! E (Yh )

80

Varincia Para obter W2(Y(chapu)h), primeiro mostraremos que b1 e Y no so correlacionados e sob o modelo de regresso com erros normais, independentes:

W (b1 ; Y ) ! 0
Definimos:

Y !

1 n

Yi

b1 ! kiYi

ki !

Xi X

( X i  X )

Atravs do teorema A.32 (Neter et al., pgina 668, 1996) com ai=1/n e ci=ki e lembrando que Yi so variveis aleatrias independentes:

W (Y ; b1 ) ! ( )kiW (Yi ) !
1 n

W2 n

!0

Para a demonstrao da varincia de Y(chapu)h vamos utilizar o modelo:


* Yi ! F 0  F1 ( X i  X )  I i

81

W 2 (Yh ) ! W 2 (Y  b1 ( X h  X )) W 2 (Y ) ! W 2 (Y )  ( X  X ) 2 W 2 (b )
h h 1

(Y e b1 so independentes; X n e X constantes) W (b1 ) ! W (Y ) ! 2 W2 @ W (Yh ) ! n  ( X h  X ) 2


2 2 W2 ( X h  X )2 2 W 2 (Yi ) n

W2 n

W2 ( X i  X )2

) ! W 2 1  ( X h  X )2 2 W (Yh n ( Xi  X )
Distribuio amostral de (Yh  E (Yh )) / s(Yh )
Yh  E (Yh ) s (Y )
h

~ t ( n  2)

Intervalo de confiana para E(Yh)

Yh s t (1  E / 2; n  2) s (Yh )
82

Exemplo: vamos encontrar um intervalo com confiana de 95% para E(Yh) para tamanho de cache X=300.000 bytes. Temos:

300000

! 27 ,83633  0 ,0000642( 300000 ) ! 47 , 10 s ( Y ) ! 2 ,5738?  A! 0 ,25738


2 h 1 12 ( 300000 325000 )2 37500000000

s( Y ) ! 0 ,5073263
h

t ( 0 ,975 ;10 ) ! 2 ,228 ) e 47 ,  2 ,228( 0 ,5073263 ) 47 ,  2 ,228( 0 ,5073263 ) e E( Y 10 10


300000

45 ,9697 e E( Y

300000

) e 48 ,2303

Interpretao: temos 95% de confiana que a porcentagem mdia de acertos, com 300.000 bytes de tamanho de cache, est entre 45,9697 e 48,2003%. Um intervalo com boa preciso. Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tamanho de cache X=200.000. Compare as amplitudes dos intervalos.

83

Exemplo: para os dados de populao de bactrias, vamos encontrar um intervalo com confiana de 95% para E(Yh) para tempo X=14 dias. Temos:

Y14 ! 3,325  0,019(14) ! 3,059 h ) ! 0,0659 1  (14 17,5)2 ! 0,0119 s (Y 6 857 , 5


2

s(Yh ) ! 0,1091 t (0,975;4) ! 2,776 3,059  2,776(0,1091) e E (Y14 ) e 3,059  2,776(0,1091) 2,7561 e E (Y14 ) e 3,3619
Interpretao: temos 95% de confiana que a populao mdia de bactrias, com 14 dias de armazenamento, est entre 2,7561 e 3,3619 ufc (em log base e). Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tempo X=0. Compare as amplitudes dos intervalos.

84

Predio de uma nova observao


Exemplo: 1) a pesquisadora deseja predizer a porcentagem de acertos na cache para um tamanho de cache igual a 375.000 bytes; 2) a pesquisadora deseja predizer a populao de bactrias para um tempo especfico igual a 15 dias. Portanto, desejamos predizer uma nova observao, Y, vista como resultado de um novo ensaio, independente dos ensaios nos quais anlise de regresso foi feita. Notao: denotamos o nvel de X para o novo ensaio como Xh e a nova observao em Y como Yh(novo). Assumimos que o modelo de regresso continua vlido para a nova observao. A diferena entre estimar uma resposta mdia, E(Yh) e fazer a predio de uma nova observao, Yh(novo), que no primeiro caso estimamos a mdia da distribuio de Y. Agora, vamos predizer uma resposta individual da distribuio de Y. 85

Intervalo de predio para Yh(novo)


Os limites de predio para uma nova observao Yh(nova) para um dado Xh so obtidos atravs do do seguinte teorema :

Yh ( novo ) Yh s ( pred )

~ t (n  2)

Isto para o modelo de regresso com erros normais. Note que a estatstica usa Y(chapu)h no numerador ao invs de E(Yh). O desvio padro estimado, s(pred), obtido como segue: A diferena no numerador, Yh(novo) - Y(chapu)h, pode ser visto como um erro de predio, com Y(chapu)h sendo a melhor estimativa pontual do valor da nova observao, Yh(novo) . A varincia desse erro pode ser obtida considerando que a nova observao e as n observaes, sobre as quais Y(chapu)h est baseada, so independentes. Considerando o teorema A.31b (Neter et. Al., pgina 668, 1996), temos:

W 2 ( pred ) ! W 2 (Yh ( novo )  Yh ) ! W 2 (Yh ( novo ) )  W 2 (Yh ) ! W 2  W 2 (Yh ) s 2 ( pred )) ! QME  s 2 (Yh ) (estimador no tendencioso) 1  1  ( X h  X ) 2 s ( pred ) ! QME n ( X i  X )2
2

O intervalo fica:

Yh s t (1  E / 2; n  2) s ( pred )

86

Exemplo: suponha que um novo tamanho de cache seja Xh=375000 bytes,e que a pesquisadora deseja construir um intervalo de predio com 95% de confiana para Y375000(novo).

Y375000 ! 27 ,83633  0 ,0000642( 375000 ) ! 51,91133 2 ( 375000 325000 )2 1 s (Y ) ! 2 ,5738  ! 0 ,3861


375000

12

37500000000

QME ! 2 ,5738 t ( 0 ,975 ;10 ) ! 2 ,228 s 2 ( pred ) ! 2 ,5738  0 ,3861 ! 2 ,9599 s( pred ) ! 1,720436 51,91133  2 ,228(1,720436 ) e Y375000 ( novo ) e 51,91133  2 ,228( 1,720436 ) 48 ,0782 e Y375000 ( novo ) e 55 ,7445
Interpretao: podemos afirmar com 95% de confiana que o valor predito de porcentagem de acertos, para tamanho de cache igual a 375000 bytes, est entre 48,0782 e 55,7445%. O intervalo de predio similar ao intervalo de estimao, a diferena conceitual. Um intervalo de estimao uma inferncia sobre um parmetro e um intervalo que procura conter o valor do parmetro. O intervalo de predio, por outro lado, um conhecimento formal sobre um valor de uma varivel aleatria, a nova observao Yh(novo). 87

Exemplo: suponha que um novo tempo de armazenamento seja Xh=15 dias,e que a pesquisadora deseja construir um intervalo de predio com 95% de confiana para Y15(novo).

Y15 ! 3,325  0,019(15) ! 3,040 ) ! 0,0659 1  (1517 ,5) 2 ! 0,0115 s (Y15 6 857 , 5
2

QME ! 0,0659 t (0,975;4) ! 2,776 s 2 ( pred ) ! 0,0659  0,0115 ! 0,0774 s ( pred ) ! 0,2782 3,040  2,776(0,2782) e Y15( novo ) e 3,040  2,776(0,2782) 2,2677 e Y15 ( novo ) e 3,8123
Interpretao: podemos afirmar com 95% de confiana que o valor predito de populao de bactrias, para tempo igual a 15 dias, est entre 2,2677 e 3,8123 ufc/cm2.
88

Faixa de confiana para a equao de regresso


til para verificar o ajuste da equao de regresso. A faixa de confiana (1-E) para a equao da reta correspondente ao modelo de regresso com erros normais tem dois limites para qualquer nvel de Xh, cujos valores so dados por:

Yh s Ws (Yh ) W 2 ! 2 F (1  E ;2, n  2) Y !b b X
h 0 1 h
Distribuio de F, com 2 gl no numerador e n-2 no denominador, com grau de confiana 1E

1  ( X h  X )2 s (Yh ) ! QME n ( X i  X )2
2

Calcula-se os valores dos limites para diversos nveis de Xh e aps faz-se o grfico.

89

5e2,4

Percebe-se que os valores da linha de regresso so estimados com boa preciso.


EHCAC AD OHNAMAT 5e8,3 5e4,3 5e3 5e6,2 5e2,2 04 24 44 64 84 05 25 45 65 85 spe+x*5-e324,6+638,72=y )c21*v9 ATS.EHCAC( tolprettacS PO RC EN TAG EM D E AC ER TO

90

Anlise de varincia da regresso


importante para anlise de regresso linear mltipla e outros modelos lineares. Para anlise de regresso linear simples no traz nenhuma novidade.

91

Partio da soma de quadrados total

Yi  Y ! ( Yi  Y )  ( Yi  Yi )
Desvio total Desvio da equao ajustada em torno da mdia Desvio em torno da equao ajustada

Yi E T R
Y

Xi

92

Demonstrao:
n

(Y  Y )
i !1 2 i

( ! Y  Y )  (Y  Y )
n 2 i i i i !1

( Y  Y )
i !1 n 2 i

 (Yi  Yi ) 2  2(Yi  Y )(Yi  Yi )


n 2 n i i

(Y  Y )  (Y  Y )
i !1 n i !1 n i !1 n i !1

 2 (Yi  Y )(Yi  Yi )
i !1 n

2 (Yi  Y )(Yi  Yi ) ! 2 Yi (Yi  Yi )  2Y (Yi  Yi ) ! 0


i !1 2 n

(Y  Y ) ! (Yi  Y )  (Yi  Yi ) 2
2 i !1 i !1 n i !1

Soma de quadrados total:

SQT ! (Yi  Y ) 2
i !1

Soma de quadrados do erro (ou resduo):

SQE ! (Yi  Yi ) 2
i !1
n

Soma de quadrados da regresso:

SQR ! (Yi  Y ) 2
i !1

93

(Parte da variabilidade de Yi que est associada com a regresso)

Graus de liberdade
A SQT tem n-1 graus de liberdade; um grau de liberdade perdido devido a restrio de que a soma dos desvios em torno da mdia zero. De outra forma: um grau de liberdade perdido porque a mdia da amostra usada para estimar a mdia populacional. A SQE tem n-2 graus de liberdade. Dois graus de liberdade so perdidos pois dois parmetros so estimados para obter Y(chapu)i. A SQR tem 1 grau de liberdade. Dois g.l. esto associados com a regresso (2 parmetros); um deles perdido devido a restrio: (Yi  Y ) ! 0. Os graus de liberdade so aditivos: (n-1)=1+(n-2)

Quadrados mdios
A soma de quadrados dividida pelos graus de liberdade chamada de quadrado mdio.
SQT ( n 1)

QMR !

SQR 1

QME !

SQE ( n2)

QMT !

94

Tabela da anlise de varincia


Tabela da anlise de varincia para regresso linear simples Causas de variao Soma de quadrados Graus de liberdade Regresso SQR 1 Erro SQE n-2 Total SQT n-1
Tabela modificada (soma de quadrados total no corrigida)
Baseado no fato de que:

Quadrado mdio SQR/1 SQE/(n-2)

SQT ! (Yi  Y ) ! Yi 2  nY 2 SQTNC ! Yi 2

Tabela da anlise de varincia para regresso linear simples Causas de variao Soma de quadrados Graus de liberdade Quadrado mdio Regresso SQR 1 SQR/1 Erro SQE n-2 SQE/(n-2) Total SQT n-1 Correo para a mdia SQ(devido a mdia)= nY 1 Total no corrigido n SQTNC= Y
2 2 i

95

Exerccio: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR. Exerccio: obtenha para os dados de pop. de Staphilococcus a SQR e o QMR.

Esperanas dos quadrados mdios


Para realizar inferncias na anlise de varincia, precisamos conhecer as esperanas dos quadrados mdios. Os valores esperados dos quadrados mdios a mdia de suas distribuies amostrais e nos mostram o que est sendo estimado pelo quadrado mdio. Teorema 2.11 (pgina 49, Neter et al., 1996) diz que: SQE / W 2 ~ G 2 ( n  2) (para o modelo com erros com distribuio normal). Das propriedades da distribuio de G2 (apndice) temos:

E(
Para encontrar a E(QMR), partimos de:

SQE W2

)!n2
2

E ( SQE ) ! E (QME ) ! W 2 (O QME estimador imparcial) n2


SQR ! b12 ( X i  X )
Sabemos que a varincia de uma varivel aleatria dada por:

96

W ( b ) ! E( b )  ( E( b ))
1 1 1

E( b ) ! F
1

W ( b ) !
1

W2 Xi X

2
2 1 2

@ E( b ) !
1

W2 X i  X 2 2

F
i

E( SQR ) ! @ E(
SQR 1

@ E( SQR ) ! E( b ) ( X  X )
1 W2 Xi X 2 2

F (X X )
1 i 2 2 1 i 2 2

E( SQR ) ! W  F ( X  X )
1 i

) ! E( QMR ) ! W  F ( X  X )
H 0 : F1 ! 0 H a : F1 { 0

Teste F para F1
Na anlise de varincia testa-se as seguintes hipteses:

A estatstica utilizada para testar essas hipteses dada por:

F* !

QMR QME

Valores altos de F* favorecem Ha; F*=1 favorece H0; um teste unilateral. Para estabelecer uma regra de deciso do teste de hipteses devemos conhecer a distribuio amostral de F*.

97

Distribuio amostral de F*
Vamos considerar a distribuio amostral de F* quando a hiptese nula for verdadeira, isto , sob H0. Teorema de Cochran: se as n observaes Yi so identicamente distribudas de acordo com uma distribuio normal com mdia Q e varincia W2 e a soma de quadrados total decomposta em k somas de quadrados SQr , cada uma com glr graus de liberdade, ento, os termos SQr/ W2 , so variveis independentemente distribudas como G2 com glr graus de liberdade se:
k

gl
i !1

! n 1

Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e os seus graus de liberdade so aditivos. Sob H0, de modo que os Yi tem distribuio normal com a mesma mdia Q =0 e mesma varincia W2 , SQE/W2 e SQR/W2 so variveis independentemente distribudas como G2. Podemos escrever F* como:

F !

QMR QME

SQE /( n  2 )

SQR 1

SQR W2

z ( n2) !

SQE W2

G 2 (1) 1

G 2 ( n 2 ) ( n2)

98

Assim, sob H0, F* o quociente entre duas variveis independentes com distribuio de G2, portanto, a estatstica F* uma varivel aleatria com distribuio F(1,n-2) (apndicedistribuio F). Quando rejeita-se H0,pode-se mostrar que F* segue uma distribuio de F no central.

Regra de deciso do teste de hipteses:

F * e F ( 1  E ;1, n  2 ) no rejeita  se H 0 F * " F ( 1  E ;1, n  2 ) rejeita  se H 0


Sada do STATISTICA: dados de porcentagem de acerto na cache.

F(95%;1,10)=4,96, portanto, F*> F e, assim, rejeita-se a hiptese nula. Concluso: existe uma associao linear entre porcentagem de acerto e o tamanho da cache. Mesmo resultado do teste t.

99

Sada do STATISTICA: dados de populao de Staphilococcus.

F(95%;1,4)=7,71, portanto, F*< F e, assim, no rejeita-se a hiptese nula. Concluso: no existe uma associao linear entre pop. e o tempo de armazenamento. Mesmo resultado do teste t.
100

Teste geral para o modelo linear


Trs etapas:

1) Modelo completo
Este modelo considerado adequado para os dados e chama-se modelo completo ou sem restrio (superparametrizado). No caso de regresso linear simples temos:

Yi ! F 0  F1 X i  I i
2

Modelo completo

A soma de quadrados do erro do modelo completo (SQE(C)), dada por:

SQE (C ) ! ? i  (b0  b1 X i )A ! (Yi  Yi ) 2 ! SQE Y


2) Modelo reduzido
Vamos considerar as hipteses: Modelo reduzido: Sob H0

H 0 : F1 ! 0 H a : F1 { 0

Yi ! F 0  I i

101

A soma de quadrados do erro do modelo reduzido (SQE(R)), dada por:

SQE ( R ) ! ? i  b0 A ! (Yi  Y ) 2 ! SQTotal Y


2

Exerccio: encontre o estimador de F0 pelo mtodo de mnimos quadrados.

3) Teste estatstico
Devemos comparar as duas somas de quadrados dos erros.

SQE (C ) e SQE ( R )

Sempre

Mais parmetros Concluso: se a SQE(C) no muito menor do que a SQE(R), indica que o modelo reduzido adequado, isto , no rejeita-se H0.

102

O teste estatstico dado por:


SQE ( R )  SQE ( C ) gl r  gl c

F* !
Deciso:

z SQE c(C ) ~ F (1  E ; glr  glc , glc ) gl

F * e F (1  E ; glr  glc , glc ) aceita  se H 0 F * " F (1  E ; glr  glc , glc ) rejeita  se H 0


Exerccio: para os dados de porcentagem de acertos na cache, verifique a as hipteses:

H 0 : F1 ! 0 H a : F1 { 0
,7385 F* ! 180 ,428425 ,7385 z 25 10 ! 154 ,6899 ! 60 , ** . 10 11 10 2 ,57385
103

Exerccio: para os dados de pop. de staphilococcus, verifique se as hipteses:

H 0 : F1 ! 0 H a : F1 { 0

F !

0 ,569885 0 ,263908 5 4

0 ,263908 4

0 ,305977 0 ,065977

! 4 ,64 .

NS

104

Medidas descritivas do grau de associao linear entre X e Y.


Coeficiente de determinao (r2)

r2 !

SQR SQT

! 1  SQE SQT
2

0 e r e1
Interpretao: o quanto da variabilidade total dos dados explicada pelo modelo de regresso. Quanto maior o r2 mais a variao total de Y reduzida pela introduo da v. preditora X no modelo. Y Y r2=1 y yy y y yy y y yy yy yy y y X X A varivel preditora X responsvel por toda a variao nas observaes Yi. A v. X no ajuda na reduo da variao de Yi com a Reg. Linear
105

r2=0

Y ! b0  b1 X

y y

y y y y y

y y y

y y y y y yy y

Y |Y

Coeficiente de correlao (r)


r ! s r2 1 e r e 1
Exemplo: para os dados de porcentagem de acertos na cache, temos:

Exemplo: para os dados de populao de Staphilococcus, temos:

106

Interpretaes errneas dos coeficientes de determinao e correlao: 1) Um alto coeficiente de correlao indica que predies teis podem ser feitas. Isto no necessariamente correto. Observe se as amplitudes dos intervalos de confiana so grandes, isto , no so muito precisos. 2) Um alto coeficiente de correlao indica que a equao de regresso estimada est bem ajustada aos dados. Isto tambm no necessariamente correto (veja figura a seguir). 3) Um coeficiente de correlao prximo de zero indica que X e Y no so correlacionadas. Idem (veja figura a seguir).
107

y y y y y y y y y y y y y y y y y y y y y y y y y y y y y

y y y y y y y y y

y y y y

Tem um alto valor de r; o ajuste de uma equao de regresso linear no adequada

Tem um baixo valor de r; porm existe uma forte relao entre X e Y.

*** Fazer lista de exerccios nmero 2.


108