Analise de Regressao Linear Simples

1
Regresso Linear Simples

Introduo
Anlise de regresso uma metodologia estatstica que utiliza a relao entre duas ou
mais variveis quantitativas (ou qualitativas) de tal forma que uma varivel pode ser
predita a partir da outra ou outras. Exemplos:
- A populao de bactrias pode ser predita a partir da relao entre
populao e o tempo de armazenamento.
- Concentraes de solues de protena de arroz integral e absorbncias
mdias corrigidas.
- Relao entre textura e aparncia.
- Temperatura usada num processo de desodorizao de um produto e cor do
produto final.
- A porcentagem de acerto ou, ento, bytes transferidos, podem estar
relacionados com o tamanho da cache (bytes), para um determinado tipo de
pr-carregamento.

2
A anlise de regresso, assim como a anova, tambm representa os dados
atravs de um modelo linear aditivo, onde o modelo inclui um componente
sistemtico e um aleatrio.
- Nmero de acessos ao disco (disk I/O) e o tempo de processamento para
vrios programas.
- A performance de um procedimento remoto foi comparado em dois
sistemas operacionais: UNIX e ARGUS. A mtrica utilizada foi o tempo
total transcorrido, o qual foi avaliado para vrios tamanhos de arquivos de
dados.
(1) X f Y c + = ) (
f descreve a relao entre X e Y. c so os erros aleatrios. Y = varivel resposta ou dependente;
X = varivel independente, concomitante, covarivel ou varivel preditora.
3
Cenrio
Estamos interessados na relao entre duas variveis, as quais chamaremos de X e Y.
Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usa-
los para dizer alguma coisa sobre a relao.
O caso mais simples de regresso quando temos duas variveis e a relao
entre elas pode ser representada por uma linha reta Regresso linear
simples.
4
Como sabemos os dados podem ser obtidos a partir de duas situaes:
1) dados experimentais: as observaes X e Y so planejadas como o resultado de um
experimento, exemplo:
X = tamanhos de cache e Y = porcentagem de acerto
X= doses de starter (microorganismos [bactrias lcticas]) , Y= tempo de maturao do salame
tipo italiano.
Nesse exemplo, os valores de X esto sob controle do pesquisador, ou seja, ele escolheu as doses
e observou o resultado, Y.
2) dados observacionais: observa-se os valores de X e Y, nenhuma delas sob controle, exemplo:
populao de coliformes e populao de staphilococus;
mdia das alturas de plantas numa rea e produo.
O tempo para criptografar um registro com k-byte usando uma tcnica para este fim foi
avaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.
5
Problema prtico: os valores observados de Y (e algumas vezes
de X) no so exatos. Devido a variaes biolgicas, de
amostragem e de preciso das medidas e outros fatores, s
podemos observar valores de Y (e possivelmente de X) com algum
erro. Assim, com base numa amostra de valores (X,Y) a exata
relao entre X e Y mascarada pelos erros aleatrios.
X Fixo vs Aleatrio:
Dados experimentais: Geralmente X (doses, tempo, tamanho
da cache) determinado pelo pesquisador X fixo. Y est
sujeito variaes fsicas, biolgicas, tipos de objetos numa
pgina da Web, usurios, de amostragem, de medidas Y
uma varivel aleatria.
Dados observacionais: geralmente X e Y so variveis
aleatrias.
6
A distribuio normal bivariada
Com dados observacionais, geralmente X e Y so v. a. e, de
alguma forma, relacionadas.
Lembrete: uma distribuio de probabilidades d uma descrio
formal (matemtica) dos valores possveis da populao que
podem ser observados para a varivel. Quando temos duas
variveis a distribuio denominada bivariada. A f
XY
(x,y)
descreve como os valores de X e Y se comportam conjuntamente.
A distribuio normal freqentemente uma descrio razovel
de uma populao com medidas contnuas. Quando X e Y so v.
a. contnuas, uma suposio razovel que ambas sejam
normalmente distribudas. Entretanto, espera-se que elas se
distribuam conjuntamente.
7
A distribuio normal bivariada uma distribuio de probabilidades com uma funo densidade
de probabilidade f(x,y) para X e Y, tal que:
X e Y apresentam, cada uma, distribuio normal com mdias
X
e
Y
, e varincias o
2
X
e o
2
Y
,
respectivamente;
o relacionamento entre X e Y medido pela quantidade
XY
tal que -1 s
XY
s 1.

XY
o coeficiente de correlao entre as variveis aleatrias X e Y e mede a associao linear
entre elas.
nula correlao
perf eita negativa correlao
perf eita positiva correlao
XY
XY
XY
0
1
1
=
=
=
Objetivo: com os dados observados (X

i
,Y
i
), desejamos quantificar o grau de associao. Para
isso estimamos
XY.

Comparao entre os modelos de regresso e correlao
Dois modelos:
X fixo: ajusta-se um modelo para a mdia da v. aleatria Y como uma funo de X fixo (linha reta).
Estima-se os parmetros do modelo para caracterizar o relacionamento.
X aleatrio: caracteriza-se o relacionamento (linear) entre X e Y atravs da correlao entre elas e
estima-se o parmetro de correlao.
8
Sutileza: em situaes onde X uma varivel aleatria, muitos investigadores desejam
ajustar um modelo de regresso tratando X como fixo. Isto porque, embora o coef. de
correlao descreve o grau de associao entre X e Y, ele no caracteriza o
relacionamento atravs de um modelo de regresso.
Exemplo: um pesquisador pode desejar estimar a produo com base na mdia de
alturas de plantas da unidade experimental. O coef. de correlao no permite isso.
Ele, ento, prefere ajustar um modelo de regresso, mesmo X sendo aleatrio.
Isso legtimo? Se tomarmos cuidado na
interpretao, sim.
Se X e Y so variveis aleatrias, e ns ajustarmos um modelo de regresso para
caracterizar o relacionamento, tecnicamente, todas as anlises posteriores so
consideradas como sendo condicionais aos valores de X presentes no estudo.
Isto significa que ns consideramos X fixo, embora ele no seja. Entretanto,
vlido fazer-se previses. Dado (condicional) que se observa um particular
valor de altura de planta, ele quer obter o melhor valor para produo. O
pesquisador no est dizendo que ele pode controlar as alturas e, assim,
influenciar as produes.
Vale para os dados da amostra.
9
Causalidade versos correlao
Pesquisadores freqentemente so tentados a inferir uma relao de causa e efeito entre X e Y
quando eles ajustam um modelo de regresso ou realizam uma anlise de correlao. Uma
associao significativa entre X e Y em ambas as situaes no necessariamente implica numa
relao de causa e efeito.
Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O grfico mostra a populao
de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o nmero de cegonhas
(pssaros) naquele ano (X).
Interpretao: existe associao
entre X e Y.
Freqentemente, quando duas v. X e
Y parecem estar fortemente
associadas, pode ser porque X e Y
esto, de fato, associadas com uma
terceira varivel, W. No exemplo, X
e Y aumentam com W = tempo.
Correlao no necessariamente implica em causalidade
10
Construo de Modelos de Regresso
I. Seleo das variveis preditoras
II. Escolha do modelo de regresso
III. Abrangncia do modelo
i. O problema, em estudos observacionais, escolher um conjunto de
variveis que podem ou devem ser includas no modelo;
ii. Pode-se usar um modelo terico; Usar aproximaes por modelos
polinomiais;
iii. Geralmente necessrio restringir a abrangncia do modelo para
alguns valores ou regio da(s) varivel(is) preditora(s).
11
Modelo de regresso linear simples
(Sem especificao da distribuio de
probabilidades para o erro)
Considere o modelo com uma varivel preditora e que a funo de regresso linear. O modelo
dado por:
n 1,2,..., i =
+ + =
i i i
X Y c | |
1 0
(2)
12
Onde:
Y
i
o i-simo valor da varivel resposta;
|
0
e |
1
so os parmetros (coeficientes de regresso);
X
i
o i-simo valor da varivel preditora ( uma constante conhecida, fixo).
c
i
o termo do erro aleatrio com E(c
i
)=0 e o
2
(c
i
)= o
2;
c
i
e c
j
no so correlacionados o(c
i
, c
j
)=0 para todo i,j; i= j; (covarincia nula).
i=1,2,...,n.
Os dados so usados para estimar |
0
e |
1
, isto , ajustar o modelo aos dados, para:
quantificar a relao entre Y e X;
usar a relao para predizer uma nova resposta Y
0
para um dado valor de X
0
(no includo no
estudo);
calibrao ou capacidade de predio de novas observaes, pode ser feita usando uma nova
amostra e comparando os valores estimados com os observados.
- dado um valor de Y
0
, para o qual o correspondente valor de X
0
desconhecido,
estimar o valor de X
0
.
Covarincia (o resultado em qualquer experimento no tem
efeito no termo do erro de qualquer outro experimento)
13
Caractersticas do modelo:
nados correlacio so no Y e Y
constante varincia X Y
X X E E(Y
X v.a.(Y uma Y
j i
i i i i
2
i i i i i
i i i i
. 4
) ( ) ( ) ( ) ( . 3
) ( ) . 2
) . 1
2 2
1 0
2
1 0 1 0
1 0
o c o c | | o o
| | c | |
c | |
= = + + =
+ = = + + =
+ + =
aleatrio
O modelo de regresso (2) mostra que as respostas Y
i
so oriundas de uma
distribuio de probabilidades com mdia E(Y
i
) = |
0
+|
1
X
i
e cujas varincias so o
2
,
a mesma para todos os valores de X. Alm disso, quaisquer duas respostas Y
i
e Y
j
no
so correlacionadas.
constante
14
A figura mostra a distribuio de Y para vrios valores de X. Mostra onde cai a observao Y
1
.
Mostra que o erro a diferena entre Y
1
e E(Y
1
). Observe que as distribuies de
probabilidade apresentam a mesma variabilidade.
15
Resumo da situao: para qualquer valor X
i
, a mdia de Y
i

i
= |
0
+ |
1
X
i
. As mdias esto
sobre a linha reta para todos os valores de X. Devido aos erros aleatrios, os valores de Y
i
se
distribuem ao redor da reta.
16
Outro exemplo.
44,45
42,10
44,68
46,99
46,26
48,82
50,66
47,68
52,44
53,21
51,85
55,38
Porcentagem de acerto
17
E(Y)=27,836+0,00006423X
Mdia:
Para X
i
=300.000 bytes observou-se Y
i
=46,26. O valor estimado
dado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor do
termo do erro c
i
=46,26-47,11=-0,845.
18
Significado dos parmetros do modelo de regresso linear simples
|
0

u
x x+1
Ax=1
Ay
y
i
= |
0
+ |
1
xi

x
y
A
A
=
1
|
|
0
(intercepto); quando a regio experimental inclui X=0, |
0
o valor da mdia da distribuio
de Y em X=0, cc, no tem significado prtico como um termo separado (isolado) no modelo; |
1

(inclinao) expressa a taxa de mudana em Y, isto , a mudana em Y quando ocorre a
mudana de uma unidade em X. Ele indica a mudana na mdia da distribuio de probabilidade
de Y por unidade de acrscimo em X.
19
Exemplo: os dados abaixo indicam o nmero de bytes transferidos (Y) e o
tamanho da cache (X).
Equao de regresso:
x 649 27 10 763 4 y
7
, . ,
=
Faa o grfico dos pontos e da reta
ajustada. Voc acha que o modelo
adotado razovel?
20
y=4,763e7-27,649*x+eps
TAMANHODACACHE
B
Y
T
E
S

T
R
A
N
S
F
E
R
I
D
O
S
3e7
3,2e7
3,4e7
3,6e7
3,8e7
4e7
4,2e7
4,4e7
4,6e7
2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5
O que significa o coeficiente angular neste caso? E o coeficiente
linear?
Faa uma predio para o nmero de bytes transferidos para tamanho
de cache igual a 270.000 bytes.
21
Exemplo: os dados abaixo indicam o valor y do aluguel e a idade x de 5 casas.
x 10 13 5 7 20
y 4 3 6 5 2
Equao de regresso:
x y 261 , 0 87 , 6 =
Faa o grfico dos pontos e da reta ajustada. Voc acha que o modelo adotado razovel?
O que significa o coeficiente
angular neste caso? E o coeficiente
linear?
Faa uma previso para o valor do
aluguel para idade de 13 anos.
22
Observaes:
um modelo de regresso pode conter duas ou mais variveis preditoras (X
1
, X
2
,...,X
p-1
);
o modelo de regresso no precisa ser uma linha reta:
c | | | + + + =
2
2 1 0
X X Y
Chama-se modelo quadrtico ou de 2
0
grau, cuja figura uma parbola. Esse modelo, embora no
seja uma linha reta, continua sendo um modelo linear nos parmetros. O mtodo que ser discutido
para o modelo de regresso linear simples aplica-se diretamente aos demais modelos lineares nos
parmetros.
23
Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um
particular algoritmo foi mensurado para diversos valores de heap size.
Scatterplot (GARBAGE.STA10v*10c)
y=1321,483-2,208*x+0,001*x^2+eps
HEAPSIZES
G
A
R
B
A
G
E

C
O
L
L
E
C
T
I
O
N

T
I
M
E
0
100
200
300
400
500
600
400 600 800 1000 1200 1400 1600
24
Modelo no linear nos parmetros. Exemplo: modelo de crescimento logstico, onde X o
tempo.
c
|
|
|
+ =
+
X
e
Y
3
2
1
1
necessrio estudar mtodos para modelos no lineares.
Exemplo computao: modelo potncia, y=bx
a
, onde X a velocidade do processador e Y
a taxa I/O.
25
Modelos de regresso alternativos
As vezes torna-se conveniente (p.e. facilidade de clculos) escrever o modelo de
regresso linear (2) de forma diferente, embora equivalentes. Seja X
0
uma
varivel dummy identicamente igual a 1. Ento, temos o modelo que associa
uma varivel X a cada parmetro do modelo:
1
1 1 0 0
+ + =
0 i i
X onde X X Y c | |
Uma outra alternativa usar para a v. preditora os desvios (X
i
-Mdia(X)) ao invs
de X
i
. Para no modificarmos o modelo (2), escrevemos:
X
X X Y
X X X Y
1 0 0
i i 1 0 i
i 1 i 1 0 i
| | |
c | |
c | | |
+ =
+ + =
+ + + =
*
*
) (
) (
26
Estimao da funo de regresso
Denotamos as observaes (X
i
,Y
i
) para a primeira repetio como (X
1
,Y
1
), para a segunda como
(X
2
,Y
2
), e para a i-sima como (X
i
,Y
i
), com i=1,2,..,n.
Exemplo: uma pesquisadora est estudando o comportamento de Staphilococcus aureus (Y) em
frango, mantido sob condies de congelamento domstico (-18
o
C) ao longo do tempo (X) (dias).
Tempo 0 7 14 21 28 35
Populao 3,114 3,568 2,845 3,079 2,699 2,663
Notao: temos n=6 observaes. O tamanho da populao (ufc/cm
2
) dado em log
10
.
Mtodo dos mnimos quadrados
Para observaes (X
i
,Y
i
) i=1,..,n, temos o modelo
n 1,.., i X Y
i i i
= + + = c | |
1 0
Desejamos ajustar o modelo, estimando os parmetros |
0
e |
1
.
O mtodo de mnimos quadrados considera os desvios de Y
i
em relao ao seu valor esperado
(E(Y
i
)):
) (
1 0 i i
X Y | | +
27
Elevando-se ao quadrado esses desvios e aplicando-se o somatrio, temos o critrio Q
( ) (10) X Y Q
n
i
i i
=
=
1
2
1 0
| |
De acordo com o mtodo de mnimos quadrados, os estimadores de |
0
e |
1
so os valores b
0
e
b
1
, respectivamente, que minimizam o critrio Q para a amostra (X
1
,Y
1
),..,(X
n
,Y
n
).
IDADE
V
A
L
O
R
1,5
2,5
3,5
4,5
5,5
6,5
2 6 10 14 18 22
e
5

e
2

e
1

e
3

28
Iguala-se a zero as derivadas parciais, usando b
0
e b
1
para denotar valores particulares de
|
0
e |
1
que minimizam Q.
=
c
c
=
c
c
=
=
n
i
i i i
Q
n
i
i i
Q
X Y X
X Y
1
1 0
1
1 0
) ( 2
) ( 2
1
0
| |
| |
|
|
Estimadores de mnimos quadrados
Os valores de |
0
e |
1
que minimizam o critrio Q podem ser obtidos diferenciando-se (10) em
relao a |
0
e |
1
, portanto, obtemos:
29
0
0
0 ) (
0 ) (
: obtemos , expandindo e ndo simplifica
0 ) ( 2
0 ) ( 2
1
2
1
1
0
1
1
1 0
1
1
1 0
1
1 0
1
1 0
1
1 0
=
=
=
=
=
=

= = =
= =
=
=
=
=
n
i
i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i i i
n
i
i i
n
i
i i i
n
i
i i
X b X b Y X
X b nb Y
X b b Y X
X b b Y
X b b Y X
X b b Y
Da, obtemos o sistema de equaes normais, dado por:

= = =
= =
+ =
+ =
n
i
i
n
i
n
i
i i i
n
i
i
n
i
i
X b X b Y X
X b nb Y
1
2
1
1
1
0
1 1
1 0
Fazendo-se as derivadas
parciais de segunda ordem,
indicar que um mnimo foi
encontrado com os estimadores
b
0
e b
1
.
30
As equaes normais podem ser resolvidas simultaneamente para b
0
e b
1
(estimadores pontuais):
( ) X b Y X b Y b
b
i i n
X X
Y Y X X
i
i i
1 1
1
0
) (
) )( (
1
2
= =

( )
n
X
2
n
Y X
1
2
X
XY
b
Outra forma de escrevermos:

31
Exemplo: a pesquisadora deseja encontrar o modelo de regresso da
porcentagem de acertos sobre o tamanho da cache.
Tamanho da
cache (X)
Porcentagem
de acertos (Y)
) ( X X
i
) ( Y Y
i
) )( ( Y Y X X
i i

2
) ( X X
i

2
) ( Y Y
i

Total = 3900000 584,52
0
0 2408500 37500000000 181,438
Mdia = 325000 48,71
32
845 27 325000 0000642 0 71 48 X b Y
0000642 0 b
1
0 3750000000
2408500
X X
Y Y X X
1
2
i
i i
, ) )( , ( , b
,
0
) (
) )( (
= = =
= =
=

Assim, estimamos que a porcentagem de acerto da cache
aumenta cerca de 0,00006 % para cada byte do tamanho da
cache.
33
34
Sada do Statistica:
35
Tempo (X) Populao (Y)
) ( X X
i
) ( Y Y
i
) )( ( Y Y X X
i i

2
) ( X X
i

2
) ( Y Y
i

0 3,114 -17,5 0,119 -2,088 306,250 ,014
7 3,568 -10,5 0,573 -6,020 110,250 ,329
14 2,845 -3,5 -0,150 0,524 12,250 ,022
21 3,079 3,5 0,084 0,295 12,250 ,007
28 2,699 10,5 -0,296 -3,105 110,250 ,087
35 2,663 17,5 -0,332 -5,805 306,250 ,110
Total = 105 17,968
0
0 -16,199 857,5 0,569
Mdia = 17,5 2,9947
3,32545 ) 5 , 17 )( 0189 , 0 ( 9947 , 2 b
-0,018890
1 0
5 , 857
199 , 16
) (
) )( (
1
2
= = =
= =

X b Y
b
X X
Y Y X X
i
i i
Assim, estimamos que o tamanho da populao de bactrias diminui cerca
de 0,0189 ufc/cm
2
para cada dia.
Exemplo: a pesquisadora deseja encontrar o modelo de regresso do tempo
sobre a populao de bactrias.
36
Regression Summary for Dependent Variable: POP
R= ,73274116 R= ,53690961 Adjusted R= ,42113702
F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686
St. Err. St. Err.
BETA of BETA B of B t(4) p-level
Intercpt 3,325238 ,185902 17,88708 ,000057
TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596
Sada do STATISTICA:
37
Propriedades dos estimadores de mnimos quadrados
Teorema de Gauss-Markov: Se as pressuposies do modelo de regresso linear (2) forem
atendidas, os estimadores de mnimos quadrados b
0
e b
1
so no tendenciosos (unbised) e com
varincia mnima, entre todos os estimadores lineares no tendenciosos. Primeiro, o teorema
diz que:
E(b
0
)=|
0
e E(b
1
)=|
1
.
Segundo, o teorema diz que os estimadores b
0
e b
1
so mais precisos (isto , as suas distribuies
amostrais tem menor variabilidade) do que quaisquer outros estimadores pertencentes a classe
dos estimadores no tendenciosos que so funes lineares das observaes Y
1
, Y
2
,...,Y
n
. Os
estimadores b
0
e b
1
so tais funes lineares das observaes. Considere, por exemplo, b
1
,
=
=
2
2 2
) (
) (
) (
) (
) (
) )( (
1
X X
X X
i
i i
X X
Y X X
X X
Y Y X X
i
i
i
i i
i
i i
k
Y k b
Como k
i
so constantes (pois X
i
so constantes conhecidas), b
1
uma combinao linear
de Y
i
e, assim, um estimador linear. Da mesma forma, b
0
tambm um estimador
linear. Entre todos os estimadores lineares no tendenciosos, b
0
e b
1
tem menor
variabilidade (demonstrao adiante) em repetidas amostras nas quais os nveis de X so
constante.
(Demonstrao adiante)
38
Estimao pontual da resposta mdia
Estimao da funo de regresso
A mdia do modelo de regresso linear dada por:
X Y E
1 0
) ( | | + =
Estima-se a funo de regresso por:
X b b Y
1 0
+ =
Onde Y (chapu) o valor estimado da funo no nvel X da varivel preditora.
A resposta mdia (E(Y)), corresponde a mdia da distribuio de probabilidade de Y no nvel X
da varivel preditora. Pode-se demonstrar, como uma extenso do teorema de Gauss-Markov
que Y (chapu) um estimador no tendencioso de E(Y), com varincia mnima dentro da
classe dos estimadores lineares no tendenciosos. Temos:
n 1,2,..., i X b b Y
i i
= + =
1 0
como sendo o valor ajustado para o i-simo caso.

39
Exemplo: para os dados de porcentagem de acerto na cache, os
valores estimados da funo de regresso so dados por:
X 0000642 0 83633 27 Y , ,
=
Suponha que estejamos interessados na porcentagem mdia
de acerto na cache para X=300.000 bytes (muitas amostras
com 300.000 bytes sob as mesmas condies que a equao
foi estimada); a estimativa pontual vale:
10 47 300000 0000642 0 83633 27 y , ) ( , ,
= + =
Valores ajustados dos dados da amostra so obtidos
substituindo-se os correspondentes valores da varivel preditora
X na funo de regresso.
40
Sada do Statistica:
41
Suponha que estejamos interessados na populao mdia (muitas amostras com 21 dias de
armazenamento sob as mesmas condies que a equao foi estimada) de bactrias para
X=21 dias de armazenamento; a estimativa pontual vale:c
926 2 21 019 0 325 3 y , ) ( , ,
= =
Valores ajustados dos dados da amostra so obtidos substituindo-se os correspondentes valores
da varivel preditora X na funo de regresso.
Sada do STATISTICA:
Predicted & Residual Values (staphilo.sta)
Dependent variable: POP
Observed Predictd Standard Standard Std.Err. Mahalns. Cook's
Value Value Residual Pred. v. Residual Pred.Val Distance Distance
1 3,114000 3,325238 -,211238 1,33631 -,822385 ,185902 1,785714 ,781146
2 3,568000 3,193010 ,374990 ,80178 1,459902 ,139567 ,642857 ,633439
3 2,845000 3,060781 -,215781 ,26726 -,840072 ,109264 ,071429 ,095181
4 3,079000 2,928552 ,150448 -,26726 ,585718 ,109264 ,071429 ,046269
5 2,699000 2,796324 -,097324 -,80178 -,378898 ,139567 ,642857 ,042668
6 2,663000 2,664095 -,001095 -1,33631 -,004263 ,185902 1,785714 ,000021
Minimum 2,663000 2,664095 -,215781 -1,33631 -,840072 ,109264 ,071429 ,000021
Maximum 3,568000 3,325238 ,374990 1,33631 1,459902 ,185902 1,785714 ,781146
Mean 2,994667 2,994667 ,000000 -,00000 ,000000 ,144911 ,833333 ,266454
Median 2,962000 2,994667 -,049209 0,00000 -,191581 ,139567 ,642857 ,070725
X Y 019 , 0 325 , 3
=
Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da funo de
regresso so dados por:
42
Modelo alternativo
Quando o modelo utilizado :
i i
X X Y c | | + + = ) (
1
*
0
O estimador b
1
de |
1
permanece o mesmo. O estimador de
Y X b X b Y X b b b
: por dado X
*
0
= + = + =
+ =
1 1 1 0
1 0
*
0
) (
| | |
Temos:
) (
1
X X b Y Y + =
Exemplo: para os dados de staphilococcus aureus em frango
obter o valor ajustado para X
1
=0 dia de armazenamento..
Exemplo: obter o valor ajustado para X=300.000 bytes de
cache..
43
Resduos
O i-simo resduo a diferena entre o valor Y
i
e o
correspondente valor ajustado Y (chapu)
i
.
i i i
Y Y e
=
Vemos que o resduo para o primeiro caso, exemplo de
pop. de Staphilococcus, sada do statistica, dado por:
-,211238 3,325238 - 3,114000 Y Y e = = =
1 1 1
Exemplo: para os dados de porcentagem de acerto na cache, o resduo para o

primeiro caso vale:
0,564 43,886 - ,
= = = 45 44 Y Y e
1 1 1
44
) E(Y Y
i i i
= c
Os resduos so extremamente teis para verificar se um determinado modelo de regresso
apropriado para os dados. Este assunto ser tratado mais adiante neste curso.
Distino:
o desvio de Y
i
da verdadeira equao de regresso (desconhecida)
e assim desconhecido.
i i i
Y Y e
= o desvio de Y
i
do valor ajustado Y
i
(chapu) na equao de regresso
estimada, portanto, conhecido.
Regression
95%confid.
TEMPO
R
e
s
d
u
o
s
-0,30
-0,15
0,00
0,15
0,30
0,45
-5 0 5 10 15 20 25 30 35 40
para os dados de
staphilococcus aureus
em frango
45
Regression
95%confid.
Rawresidualsvs. TAMANHOC
Rawresiduals=-,0000+0,0000* TAMANHOC
Correlation: r =,00000
TAMANHODACACHE
R
E
S
D
U
O
S
-3
-2
-1
0
1
2
3
2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5
46
Propriedades do modelo ajustado:
) ) Y ; X ( ponto pelo passa sempre regresso de linha (
) X X (para ) ( ) ( b Y Y
.
s) (ponderado Y
.
s) (ponderado X .
A) STATISTIC do a (Veja sad
Y 3.
MQO) de mtodo do (condio mnima e .
A) STATISTIC do a (Veja said ) normal equao primeira a devido (
) ( .
1
n
1 i
i
n
1 i
i
n
1 i
i
n
1 i
2
i
a
Y X X b Y X X 6
0 e 5
0 e 4
Y
2
0 X b nb Y X b b Y e 1
1
i
i
n
1 i
i
n
1 i
i 1 0 i i 1 0 i i
= = + = + =
=
=
=
= = =

=
=
= =
=
=
X b b Y
1 0
+ =
47
Estimao da varincia (o
2
)
A varincia, o
2
,

dos erros, c
i
, no modelo de regresso (2) precisa ser estimado para obter uma
indicao da variabilidade da distribuio de probabilidade de Y. Necessrio para inferncias.

Lembrete: a varincia de cada observao Y
i
para o nosso modelo de regresso o
2
, a mesma de
cada c
i
.
Precisamos calcular a soma de quadrados de desvios, considerando que cada Y
i
vem de diferentes
distribuies de probabilidade com diferentes mdias que dependem do nvel de X
i
; as mdias so
estimadas por Y
i
(chapu). Assim os desvios so os resduos:
i i i
Y Y e
=
A soma de quadrados do erro (resduo), SQE, dada por:

= =
= =
n
i
i
n
i
i i
e Y Y SQE
1
2
1
2
)
(
Dois graus de liberdade so perdidos para estimar os parmetros |
0
e |
1
. O quadrado mdio do
erro dado por (QME):
2
=
n
SQE
QME
Temos que o QME um estimador no tendencioso de o
2

(prova adiante) pois

2
) ( o = QME E
48
Exemplo: para os dados de Staphilococcus aureus em frango, temos:
X) qualquer para Y de o distribui da padro (Desvio
padro) (desvio uf c , ,
varincia) da a (Estimativ , / , QME
assim liberdade, de graus 2 - 6
,
2567 0 0659 0 de Estimativa
0659 0 4 2639 0
4 com
2639 0 SQE
= =
= =
=
=
o
Exemplo: para os dados de tamanho de cache, temos:
X) qualquer para Y de o distribui da padro (Desvio
padro) (desvio % 6043 , 1 57385 , 2
57385 , 2 10 / 7385 , 25 QME
assim liberdade, de graus 10 2 - 12
7385 , 25
=
= =
=
=
o de Estimativa
com
SQE
49
Modelo de regresso com erros normais
Para construir intervalos de confiana e fazer testes de hipteses ns devemos
considerar alguma distribuio de probabilidade para os c
i
. Uma distribuio
que tem um apelo prtico e terico bastante grande a distribuio normal e
que ser utilizada neste curso.
O modelo de regresso dado por:
n 1,.., i X Y
i i i
= + + = c | |
1 0
Y
i
o i-simo valor observado da varivel resposta;
|
0
e |
1
so os parmetros;
X
i
o i-simo valor da varivel preditora ( uma constante
conhecida, fixo).
c
i
o termo do erro aleatrio, independentes com distribuio
N(0, o
2
).
50
Como assumimos para o modelo de regresso que os erros so normalmente distribudos, a
suposio que os erros c
i
no so correlacionados, feita no modelo inicial, transforma-se na
suposio de independncia no modelo com distribuio normal.

O modelo implica que Y
i
so variveis aleatrias independentemente distribudas segundo uma
normal com mdia E(Y
i
)=|
0
+ |
1
X
i
e varincia o
2
. Para cada valor X
i
, podemos pensar em todos
os valores possveis de Y
i
e sobre a sua variabilidade. Esta suposio diz que, seja qual for o
valor de X
i
, a variabilidade nos possveis valores de Y a mesma.

Para cada valor X
i
, podemos pensar que todos os valores assumidos por Y podem ser bem
representados por uma distribuio normal.

Independentes: no sentido que eles no so relacionados de qualquer modo, por exemplo, so
provenientes de diferentes cpus, diferentes indivduos, diferentes animais, etc. Os registros
num banco de dados so independentes.
51
Estimao dos parmetros pelo mtodo da mxima
verossimilhana
Como foi especificado uma distribuio de probabilidades para os erros podemos obter
estimadores para |
0
, |
1
e o
2
pelo MMV.

O mtodo de mxima verossimilhana determina como estimativas de mxima verossimilhana,
os valores de |
0
, |
1
e o
2
os quais produzem o maior valor para a verossimilhana.
Em geral, a densidade de uma observao Y
i
para o modelo de regresso com erros normais,
utilizando o fato de que E(Y
i
)=|
0
+ |
1
X
i
e varincia o
2
dada por :
( ) | |
2
2
1
2
1 1 0
exp
o
| |
o t
i i
X Y
i
f

=
A funo de verossimilhana para n observaes Y
1
, Y
2
,...,Y
n
, o produto das densidades
individuais ( a conjunta). Como a varincia o
2
dos erros desconhecida, a conjunta uma funo
de trs parmetros, |
0
, |
1
e o
2
:
52
| |
(
=
=
[
=
=
n
i
i i
) (
i i
n
i
) X (Y
X Y L
n/
1
2
1 0
2
1
2
1
2
1 0
2
1
1
) 2 (
1
2
1 0
2 2 2
2 2 / 1 2
exp
) ( exp ) , , ( | | o | |
o to
Devemos encontrar valores de |
0
, |
1
e o
2
que maximizam a funo de verossimilhana L,
calculando-se as derivadas parciais de L com respeito a |
0
, |
1
e o
2
e igualando cada derivada
parcial a zero e resolvendo o sistema de equaes obtido. Podemos trabalhar com log
e
L ao invs de
L, pois ambos so maximizadas para os mesmos valores de |
0
, |
1
e o
2
:
=
2
1 0
2
1
2
2 2
) ( log 2 log log
2
i i e
n
e
n
e
X Y L | | o t
o
As derivadas parciais do logaritmo da funo de verossimilhana, so dadas por:
+ =
c
c
=
c
c
=
c
c
2
1 0
4 2 2
1 0
2
1
1 0
2
0
) (
2
1
2
) (log
) (
1 ) (log
) (
1 ) (log
i i
e
i i i
e
i i
e
X Y
n L
X Y X
L
X Y
L
| |
o o o
| |
o |
| |
o |
53
Agora, fazemos as derivadas parciais iguais a zero, substituindo |
0
, |
1
e o
2
pelos estimadores
2
1 0
o | | e
Obtemos:
2 )

(
1 0
1 0
0 )

(
0 )

(
2
1 0
o
| |
| |
| |
=
=
=

n
X Y
i i i
i i
i i
X Y X
X Y
As duas primeiras equaes so idnticas as equaes normais encontradas pelo mtodo de
mnimos quadrados. O MMV produz um estimador viesado para o
2
.
Parmetro Estimador de mxima verossimilhana
0
|
0 0
b = |
1
|
1 1
b = |
2
o
n
Y Y
i i
=

2
)
(
2
o
Os estimadores de |
0
, e |
1
so os mesmos do mtodo de mnimos quadrados. O estimador de
mxima verossimilhana de o
2
viesado,ou seja,.
n
1 n
E
2
2
o
o
) (
) (

=
54
Comentrios:
1) como os estimadores de mxima verossimilhana de |
0
,e |
1
so os mesmos do mtodo
de mnimos quadrados, eles tem as mesmas propriedades de todos os estimadores de
mnimos quadrados:
a) so no viesados;
b) tem varincia mnima entre todos os estimadores lineares no tendenciosos;
alm disso, os estimadores de mxima verossimilhana b
0
e b
1
para o modelo de
regresso com erros normais tem outras propriedades desejveis:
c) so consistentes;

d) so suficientes;
*** Fazer lista de exerccios nmero 1.
0 ) |
(| lim > = >

c c u u 0 P
n
. de depende no )
| (
|
u u
u
= y f
Y
55
Inferncia na anlise de regresso
Assumimos o modelo: n 1,.., i X Y
i i i
= + + = c | |
1 0
|
0
e |
1
so os parmetros;
X
i
so constantes conhecidas, fixas.
c
i
so independentes com distribuio N(0, o
2
).
(3)
Intervalos de confiana
Testes de hipteses:
56
Inferncias para |
1

- encontrar intervalos de confiana para |
1

-fazer testes de hipteses com relao a |
1
, por exemplo:
0 :
0 :
1
1 0
=
=
|
|
a
H
H
No h associao
entre X e Y.
Para realizar inferncias sobre |
1
, precisamos conhecer a distribuio amostral de b
1
, o estimador
pontual de |
1
.

Distribuio amostral de b
1

O estimador pontual dado por:
=

2
) (
) )( (
1
X X
Y Y X X
i
i i
b
A distribuio amostral de b
1
refere-se aos diferentes valores de b
1
que seriam obtidos com
muitas amostras para um mesmo nvel da varivel preditora X (constante).

57
Normalidade: a normalidade da distribuio amostral de b
1
segue do fato de que b
1
uma
combinao linear dos Y
i
.Os Y
i
so independentes, com distribuio normal. Uma combinao linear
de variveis aleatrias independentes, com distribuio normal, tambm tem distribuio normal.

b
1
como combinao linear de Y
i
.
=
=

=

=

=

2
2
2
2
2
) (
) (
1
) (
) (
1
) (
) ( ) (
1
) (
) ( ) (
1
) (
) )( (
1
X X
X X
i
i i
X X
Y X X
X X
X X Y Y X X
X X
Y X X Y X X
X X
Y Y X X
i
i
i
i i
i
i i i
i
i i i
i
i i
k
Y k b
b
b
b
b
Portanto, k
i
so funes de X
i
que so valores
fixos.
Mdia:
( )
viesado) (no b E
X k k b E
X k k b E
X k b E
Y E k Y k E b E
i i i
i i i
i i
i i i i
1 1
1 0 1
1 0 1
1 0 1
1
) (
) (
) (
) ( ) (
) ( ) (
|
| |
| |
| |
=
+ =
+ =
+ =
= =

Pois,
) (Demonstre X k
k
i i
i
1
0
=
=
58
Varincia:
( )
( ) | |
| |
( )
=
(
(
=
2
2
2
2
2
2
2
2
2
1
1
X X
k
X X
X X
k
X X
X X
k
i
i
i
i
i
i
i
i
( )
( )
=
=
=
= =

2
1
2
1
2
2 2
1
2
2 2
1
2
2 2 2
1
2
) (
) (
) (
) ( ) (
X X
i
i
i i i i
i
b
k b
k b
Y k Y k b
o o
o o
o o
o o o
Podemos estimar a varincia da distribuio amostral de b
1
substituindo o
2
pelo quadrado mdio
residual (QME). O estimador s
2
(b
1
) um estimador no tendencioso de o
2
(b
1
).
( )
=

2
) (
1
2
X X
QME
i
b s
59
Na seo propriedades dos estimadores de mnimos quadrados dissemos que b
1
tem a
menor varincia entre todos os estimadores lineares no tendenciosos da forma
=
i i
Y c
1
|
: o tendencios no
1
|
1 1 0 1 0 1
) ( ) ( ) ( )
( | | | | | | = + = + = = =
i i i i i i i i i
X c c X c Y E c Y c E E
Restries:

= = 1 0
i i i
X c e c
:
1
de Varincia |

= = =
2 2 2 2 2 2
1
2
) ( )
(
i i i i
c c Y c o o o | o
Seja c
i
=k
i
+ d
i
, onde k
i
so como anteriormente e os d
i
so constantes arbitrrias.
Ento:
( )

+ + = +
i i i
i
i i
d k d k d k 2 ) (
2
2
2
2
2
o o
Zero (Verifique)
) (
1
2
b o
Nota:
c
i
so constantes arbitrrias
1 1
b = |
60
Finalmente, temos:
+ =
2 2
1
2
1
2
) ( )
(
i
d b o o | o
Observamos que a menor varincia do estimador ( ) obtida quando .Isto
ocorre quando todos os d
i
=0, isto implica que c
i
k
i
. Assim, o estimador de mnimos
quadrados b
1
tem varincia mnima entre todos os estimadores lineares no tendenciosos.
Distribuio amostral de (b
1
-|
1
)/s(b
1
)
Como b
1
tem distribuio normal, sabemos que a estatstica padronizada (b
1
-|
1
)/o(b
1
) uma
varivel aleatria com distribuio normal padro. Para estimar o(b
1
) usamos s(b
1
) e, assim
precisamos conhecer a distribuio da estatstica (b
1
-|
1
)/s(b
1
) [estatstica studentizada].
Teorema:
2) - t(n ~
b s
b
) (
1
1 1
|
Demonstrao:
Podemos escrever a estatstica como:
) (
) (
) (
1
1
1
1 1
b
b s
b
b
o o
|
O numerador uma varivel normal padro z. Para o denominador, temos:

para o modelo (3)
1
|

= 0
2
i
d
61
) 2 (
) 2 ( ) (
) (
2
) 2 (
2 2
2
2
2
) (
2
2
) (
1
2
1
2
~

= = =
=
n
n
SQE QME
b
b s
n
n
SQE
X
i
X
X
i
X
QME
_
o o o o
o
Portanto,
) 2 (
) 2 (
2
1
1 1
~
) (
n
n
z
b s
b
_
|
Como z e _
2
so independentes pois z uma funo de b
1
e b
1
independente de SQE/o
2
~ _
2
.
Assim (A definio est no apndice):

). 2 ( ~
) (
1
1 1
n t
b s
b |
Teorema: para o modelo (3),
SQE/o
2
distribudo como
_
2
com n-2 gl e
independente de b
0
e b
1
.
Agora podemos fazer inferncias sobre |
1
.
62
o/2=0,25 o/2=0,25 1-o=0,50
t=1 t=-1
Intervalo de confiana para |
1

Desde que (b
1
-|
1
)/s(b
1
) tem distribuio t,podemos fazer a seguinte afirmao probabilstica:
o o | o = s s 1 )} 2 ; 2 / 1 ( ) ( / ) ( ) 2 ; 2 / ( {
1 1 1
n t b s b n t P
63
t(o/2;n-2) representa o (o/2)100 percentil da distribuio t com n-2 g.l.
t(o/2;n-2) = - t(1-o/2;n-2) (devido a simetria da distribuio t)
Rearranjando as desigualdades obtemos:
. 1 )) ( ) 2 ; 2 / 1 ( ) ( ) 2 ; 2 / 1 ( (
1 1 1 1 1
o o | o = + s s b s n t b b s n t b P
O intervalo de confiana dado por:
) ( ) 2 ; 2 / 1 (
1 1
b s n t b o
Exemplo: considere os dados de populao de Staphilococcus aureus, a pesquisadora deseja
encontrar o intervalo para |
1
com confiana de 95%.
0623 , 0 0434 , 0
) 008772 , 0 ( 776 , 2 019 , 0 ) 008772 , 0 ( 776 , 2 019 , 0
776 , 2 ) 4 ; 975 , 0 (
008772 , 0 ) (
0000769 , 0 ) (
1
1
1
5 , 857
0659 , 0
) (
1
2
2
s s
+ s s
=
=
= =
=

|
|
t
b s
b s
X X
QMR
Muito importante
Usar software
Interpretao: estimamos que a populao de Staphilococcus cresce entre -0,0434 e
0,0623 unidade/dia.
64
Exemplo: considere os dados de porcentagem de acerto na
cache, a pesquisadora deseja encontrar o intervalo para |
1
com
confiana de 95%.
0000827 0 0000457 0
0000083 0 228 2 0000642 0 0000083 0 228 2 0000642 0
228 2 10 975 0 t
0000083 0 b s
68635 0000000000 0 b s
1
1
1
0 3750000000
5738 2
X X
QMR
1
2
2
, ,
) , ( , , ) , ( , ,
, ) ; , (
, ) (
, ) (
,
) (
s s
+ s s
=
=
= =
=

|
|
Muito importante
Usar software
Interpretao: estimamos que a porcentagem de acertos
aumenta entre 0,0000457 e 0,0000827 % por byte do
tamanho da cache.
65
Teste de hipteses para |
1

Teste bilateral
0 :
0 :
1
1 0
=
=
|
|
a
H
H
Hipteses:
Vimos que (b
1
-|
1
)/s(b
1
) tem distribuio t
(n-2)
.O teste de hiptese
sobre |
1
pode ser feito de maneira padro usando a distribuio de
Student.
66
Exemplo: a pesquisadora deseja saber se existe regresso linear
entre a porcentagem de acertos na cache e o tamanho da cache,
ou seja, se |
1
=0 ou no.
[Como o intervalo de confiana construdo anteriormente no
inclui o valor 0 (o valor da hiptese nula), devemos rejeitar a
hiptese nula (H
0
). Isto vlido quando o teste bilateral].
67
0
*
0
*
H se - rejeita ), 2 ; 2 / 1 ( | |
H se - rejeita no ), 2 ; 2 / 1 ( | |
>
s
n t t Se
n t t Se
o
o
Critrio do teste: estamos controlando a probabilidade de erro
tipo I (o).
) (
*
1
1 1
b s
b
t
|
=
Teste estatstico formal:
[Como o intervalo de confiana construdo anteriormente inclui o
valor 0 (o valor da hiptese nula), devemos aceitar a hiptese nula
(H
0
)].
Exemplo: a pesquisadora deseja saber se existe regresso linear
entre populao de bactrias e o tempo de armazenamento, ou
seja, se |
1
=0 ou no.
68
Exemplo: para os dados de porcentagem de acerto na cache,
com o=0,05, b
1
=0,0000642 e s(b
1
)=0,0000083, temos:
,735
,
,
*
7 t
0000083 0
0 0000642 0
= =

O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| maior
do que 2,228 rejeita-se a hiptese nula e conclumos que existe uma
associao linear entre a porcentagem de acertos na cache e o
tamanho da cache.
69
Exemplo: para os dados de populao de Staphilococcus
aureus, com o=0,05, b
1
=-0,019 e s(b
1
)=0,008772, temos:
2,166 t = =

008772 , 0
0 019 , 0 *
O valor de t de tabela vale: t(0,975;4)=2,776, como |-2,166| menor
do que 2,776 aceita-se a hiptese nula e conclumos que no existe
uma associao linear entre a populao de Staphilococcus aureus e
o tempo de armazenamento.
Valor p: o menor valor de o para o qual rejeitamos a hiptese
nula. Se o pesquisador fixar o=0,05, ento, para um valor p > 0,05
no rejeita-se H
0
, caso contrrio, rejeita-se H
0
. Formalmente fica:
Valor p tambm denominado de nvel descritivo ou nvel de
significncia observado.
p valor t t P ) (
*
= >
70
Sada do Statistica: dados de porcentagem de acertos na cache. As
diferenas verificadas so devidas s aproximaes nos clculos.
71
* * Com o uso do Statistica, para os dados de porcentagem de
acerto na cache, encontrar a probabilidade de se rejeitar a
hiptese nula, quando ela verdadeira.
000016 , 0 ,000008 0 ,000008 0 ) 7525 , 7 ( ) 7525 , 7 (
000015 , 0 ) 7525 , 7 | (|
~ + ~ > + <
= >
t p t P
t P
Ateno: verificar se o software d o valor p para o teste uni
ou bilateral
72
Sada do Statistica: dados de populaes de Staphilococcus a diferena verificada entre -2,166 e -
2,15351 devido aproximaes nos clculos.
* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hiptese nula, quando ela
verdadeira.
09624 , 0 04812 , 0 04812 , 0 ) 166 , 2 ( ) 166 , 2 (
0962 , 0 ) 166 , 2 | (|
= + = > + <
= s
t p t P
t P
Ateno: verificar se o
software d o valor p para
o teste uni ou bilateral
73
Teste unilateral:
0 :
0 :
1
1 0
<
>
|
|
a
H
H
O pesquisador deseja, por exemplo, testar se |
1
negativo,
controlando o nvel de significncia o=0,05.
Regra de deciso:
0
*
0
*
H se - rejeita t
H se - rejeita no t
), n ; ( t Se
), n ; ( t Se
2
2
<
>
o
o
Exemplo: para os dados de Staphilococcus temos, para o=0,05,
t(0.05;4)=-2,132. Como t*=-2,166, rejeita-se a hiptese de
nulidade, portanto |
1
negativo.
( )
*
t t P p < = Valor
74
Nas publicaes, indicar o nvel descritivo juntamente com o valor
da estatstica teste. Podemos realizar o teste estatstico para
qualquer nvel de significncia o, comparando o nvel descritivo
com o valor desejado de o.
Comentrio: pode-se testar as seguintes hipteses:
10 1
10 1 0
:
:
| |
| |
=
=
a
H
H
Onde |
10
um valor diferente de zero.
75
A estatstica teste dada por:
( )
1
10 1
b s
b
t
|
=
Critrio do teste:
Se |t
*
| s t(1- o/2;n-2) no se rejeita H
0

Se |t
*
| > t(1- o/2;n-2) rejeita-se H
0

76
Inferncias para |
0

S tem interesse quando os nveis de X incluem X=0 (o que raro).
Distribuio amostral de b
0

O estimador pontual b
0
dado por:
X b Y b
1 0
=
0
refere-se aos valores diferentes de b
0
que seriam obtidos com
diferentes amostras para o mesmo valor de X (constante).
0
normal

Mdia:
0 0
) ( | = b E
Varincia:
|
.
|
\
|
+ =

2
2
) (
1
2
0
2
) (
X X
X
n
i
b o o
A normalidade verificada pois b
0
uma combinao linear das observaes Y
i
.
Um estimador para o
2
(b
0
) obtido substituindo-se o
2
pelo seu estimador pontual, QME.

Distribuio amostral de (b
0
-|
0
)/s(b
0
)
Teorema:
) 2 ( ~
) (
0
0 0
n t
b s
b |
podemos usar a distribuio t para construir
os IC e fazer os testes de hipteses.
(Demonstrao prxima pgina)
77
(cqd).
) (
) ( ) ( ) ( ) (
0
|
| | |
=
+ = =
= =
1 1 0 1
1 1 0
X X b E X Y
X b E Y E X b Y E b E
Demonstrao:
78
Intervalo de confiana para |
0

) ( ) 2 ; 2 / 1 (
0 0
b s n t b o
Exemplo: para os dados de Staphilococcus, como temos tempo=0 (X=0), podemos estar
interessados em encontrar o IC para |
0
.
8410 , 3 8094 , 2
) 1858 , 0 ( 776 , 2 3252 , 3 ) 1858 , 0 ( 776 , 2 3252 , 3
776 , 2 ) 4 ; 975 , 0 (
1858 , 0 ) (
0,0345
6
1
0659 , 0
) (
) (
0
0
0
5 , 857
5 , 17
2
2
1
0
2
2
s s
+ s s
=
=
=
(
+ =
(
(
+ =
|
|
t
b s
X X
X
QME b s
i
n
Como o intervalo de confiana no inclui o valor zero (0), rejeitamos a hiptese:
0 :
0 :
0
0 0
=
=
|
|
a
H
H
79
Estimao intervalar para E(Y
h
)
Freqentemente, numa anlise de regresso, deseja-se estimar a
mdia de uma ou mais distribuies de probabilidade de Y.
Exemplo: No estudo da relao entre o tamanho da cache (X) e
porcentagem de acerto (Y), a porcentagem mdia de acerto para
tamanhos maiores de cache pode ser de interesse. Outro exemplo,
um agrnomo pode estar interessado na produo mdia para
diversas doses de um nutriente, com o objetivo de encontrar a dose
tima.
X
h
representa o nvel da varivel preditora para a qual se deseja
estimar a resposta mdia.
A resposta mdia para X=X
h
representada por: E(Y
h
)
h h
X b b Y
1 0
+ =
Sabemos que o estimador pontual de E(Y
h
) dado por:
h
Y
80
Distribuio normal: para o modelo de regresso com erros normais, a
distribuio amostral de Y(chapu)
h
normal. A normalidade segue
diretamente do fato que Y(chapu)
h
, assim como b
0
e b
1
, uma combinao
linear das observaes Y
i
.
Mdia
) ( ) ( ) ( ) ( )
(
1 0 1 0 1 0 h h h h h
Y E X b E X b E X b b E Y E = + = + = + = | |
Distribuio amostral de Y(chapu)
h

Diferentes valores de Y(chapu)
h
que seriam obtidos se repetidas amostras
fossem selecionadas, para X constante, e calculando Y(chapu)
h
para cada
amostra.
81
Varincia
Para obter o
2
(Y(chapu)
h
), primeiro mostraremos que b
1
e no so correlacionados e sob o
modelo de regresso com erros normais, independentes:
0 ) ; (
1
= Y b o
Definimos:
2
) (
1
= = =

X X
X X
i i i 1 i n
i
i
k Y k b Y Y
Atravs do teorema A.32 (Neter et al., pgina 668, 1996) com a
i
=1/n e c
i
=k
i
e lembrando que
Y
i
so variveis aleatrias independentes:

= = = 0 ) ( ) ( ) ; (
2
2
1
1 i n i i n
k Y k b Y
o
o o
Para a demonstrao da varincia de Y(chapu)
h
vamos utilizar o modelo:
i i i
X X Y c | | + + = ) (
1
*
0
Y
82
(
+ =

+ =
= =
=
+ =
+ =
2
2
2
2 2
2
2
2
2
) (
) (
1
2 2
) (
2 2
) ( 2
) (
1
2
n 1
1
2 2 2 2
1
2 2
)
(
) ( )
(
) ( ) (
) constantes X e X tes; independen so b e Y (
) ( ) ( ) ( )
(
)) ( ( )
(
X X
X X
n h
X X
h n h
n n
Y
X X
h h
h h
i
h
i
i
h
Y
X X Y
Y b
b X X Y Y
X X b Y Y
o o
o
o o
o o o
o o
o o
o
o
o
Distribuio amostral de
) 2 ( ~
)
(
) (
n t
h
h h
Y s
Y E Y
Intervalo de confiana para E(Y
h
)
)
( ) 2 ; 2 / 1 (
h h
Y s n t Y o
)
( / )) (
(
h h h
Y s Y E Y
83
Exemplo: vamos encontrar um intervalo com confiana de 95% para E(Y
h
) para tamanho de
cache X=300.000 bytes. Temos:
| |
2303 48 Y E 9697 45
5073263 0 228 2 10 47 Y E 5073263 0 228 2 10 47
228 2 10 975 0 t
5073263 0 Y s
25738 0 5738 2 Y s
10 47 300000 0000642 0 83633 27 Y
300000
300000
h
0 3750000000
325000 300000
12
1
h
2
300000
2
, ) ( ,
) , ( , , ) ( ) , ( , ,
, ) ; , (
, )
(
, , )
(
, ) ( , ,
) (
s s
+ s s
=
=
= + =
= + =
Interpretao: temos 95% de confiana que a porcentagem mdia de acertos, com 300.000 bytes
de tamanho de cache, est entre 45,9697 e 48,2003%. Um intervalo com boa preciso.
Exerccio: encontrar o intervalo com confiana de 95% para E(Y
h
) para tamanho de cache
X=200.000. Compare as amplitudes dos intervalos.
84
Exemplo: para os dados de populao de bactrias, vamos encontrar um intervalo com
confiana de 95% para E(Y
h
) para tempo X=14 dias. Temos:
| |
3619 , 3 ) ( 7561 , 2
) 1091 , 0 ( 776 , 2 059 , 3 ) ( ) 1091 , 0 ( 776 , 2 059 , 3
776 , 2 ) 4 ; 975 , 0 (
1091 , 0 )
(
0119 , 0 0659 , 0 )
(
059 3 ) 14 ( 019 , 0 325 , 3
14
14
5 , 857
) 5 , 17 14 (
6
1
2
14
2
s s
+ s s
=
=
= + =
= =
Y E
Y E
t
Y s
Y s
, Y
h
h
Interpretao: temos 95% de confiana que a populao mdia de bactrias, com 14 dias de
armazenamento, est entre 2,7561 e 3,3619 ufc (em log base e).
Exerccio: encontrar o intervalo com confiana de 95% para E(Y
h
) para tempo X=0.
Compare as amplitudes dos intervalos.
85
Predio de uma nova observao
Exemplo: 1) a pesquisadora deseja predizer a porcentagem de acertos
na cache para um tamanho de cache igual a 375.000 bytes; 2) a
pesquisadora deseja predizer a populao de bactrias para um tempo
especfico igual a 15 dias.
Portanto, desejamos predizer uma nova observao, Y, vista como
resultado de um novo ensaio, independente dos ensaios nos quais
anlise de regresso foi feita.
Notao: denotamos o nvel de X para o novo ensaio como X
h
e a
nova observao em Y como Y
h(novo)
. Assumimos que o modelo de
regresso continua vlido para a nova observao.
A diferena entre estimar uma resposta mdia, E(Y
h
) e fazer a
predio de uma nova observao, Y
h(novo)
, que no primeiro caso
estimamos a mdia da distribuio de Y. Agora, vamos predizer uma
resposta individual da distribuio de Y.
86
Intervalo de predio para Y
h(novo)

Os limites de predio para uma nova observao Y
h(nova)
para um dado X
h
so obtidos atravs do
do seguinte teorema :
) 2 ( ~
) (
) (
n t
pred s
Y Y
h novo h
Isto para o modelo de regresso com erros normais.
Note que a estatstica usa Y(chapu)
h
no numerador ao invs de E(Y
h
). O desvio padro estimado,
s(pred), obtido como segue:
A diferena no numerador, Y
h(novo)
- Y(chapu)
h
, pode ser visto como um erro de predio, com
Y(chapu)
h
sendo a melhor estimativa pontual do valor da nova observao, Y
h(novo)
. A varincia
desse erro pode ser obtida considerando que a nova observao e as n observaes, sobre as quais
Y(chapu)
h
est baseada, so independentes. Considerando o teorema A.31b (Neter et. Al., pgina
668, 1996), temos:

(
+ + =
+ =
+ = + = =
2
2
) (
) (
1
2 2
2 2 2
) (
2
) (
2 2
1 ) (
)
( )) (
)
( )
( ) ( )
( ) (
X X
X X
n
2
h
h h novo h h novo h
i
h
QME pred s
o) tendencios no (estimador Y s QME pred s
Y Y Y Y Y pred o o o o o o
) ( ) 2 ; 2 / 1 (
pred s n t Y
h
o
O intervalo fica:
87
Exemplo: suponha que um novo tamanho de cache seja X
h
=375000 bytes,e que a pesquisadora
deseja construir um intervalo de predio com 95% de confiana para Y
375000(novo)
.
| |
7445 55 Y 0782 48
720436 1 228 2 91133 51 Y 720436 1 228 2 91133 51
720436 1 pred s
9599 2 3861 0 5738 2 pred s
228 2 10 975 0 t
5738 2 QME
3861 0 5738 2 Y s
91133 51 375000 0000642 0 83633 27 Y
novo 375000
novo 375000
2
0 3750000000
325000 375000
12
1
375000
2
375000
2
, ,
) , ( , , ) , ( , ,
, ) (
, , , ) (
, ) ; , (
,
, , )
(
, ) ( , ,
) (
) (
) (
s s
+ s s
=
= + =
=
=
= + =
= + =
Interpretao: podemos afirmar com 95% de confiana que o valor predito de porcentagem de
acertos, para tamanho de cache igual a 375000 bytes, est entre 48,0782 e 55,7445%.
O intervalo de predio similar ao intervalo de estimao, a diferena conceitual. Um intervalo
de estimao uma inferncia sobre um parmetro e um intervalo que procura conter o valor do
parmetro. O intervalo de predio, por outro lado, um conhecimento formal sobre um valor de
uma varivel aleatria, a nova observao Y
h(novo)
.
88
Exemplo: suponha que um novo tempo de armazenamento seja X
h
=15 dias,e que a pesquisadora
deseja construir um intervalo de predio com 95% de confiana para Y
15(novo)
.
| |
8123 , 3 2677 , 2
) 2782 , 0 ( 776 , 2 040 , 3 ) 2782 , 0 ( 776 , 2 040 , 3
2782 , 0 ) (
0774 , 0 0115 , 0 0659 , 0 ) (
776 , 2 ) 4 ; 975 , 0 (
0659 , 0
0115 , 0 0659 , 0 )
(
040 , 3 ) 15 ( 019 , 0 325 , 3
) ( 15
) ( 15
2
5 , 857
) 5 , 17 15 (
6
1
15
2
15
2
s s
+ s s
=
= + =
=
=
= + =
= =
novo
novo
Y
Y
pred s
pred s
t
QME
Y s
Y
Interpretao: podemos afirmar com 95% de confiana que o valor predito de populao de
bactrias, para tempo igual a 15 dias, est entre 2,2677 e 3,8123 ufc/cm
2
.
89
Faixa de confiana para a equao de regresso
til para verificar o ajuste da equao de regresso.
A faixa de confiana (1-o) para a equao da reta correspondente ao modelo de regresso com
erros normais tem dois limites para qualquer nvel de X
h
, cujos valores so dados por:
(
+ =
+ =
=

2
2
) (
) (
1
2
1 0
2
)
) 2 , 2 ; 1 ( 2
)
X X
X X
n h
h h
h h
i
h
QME Y s
X b b Y
n F W
Y Ws Y
o
Calcula-se os valores dos limites para diversos nveis de X
h
e aps faz-se o grfico.
Distribuio de F,
com 2 gl no
numerador e n-2 no
denominador, com
grau de confiana 1-
o
90
Scatterplot (CACHE.STA9v*12c)
y=27,836+6,423e-5*x+eps
TAMANHODACACHE
P
O
R
C
E
N
T
A
G
E
M

D
E

A
C
E
R
T
O
40
42
44
46
48
50
52
54
56
58
2,2e5 2,6e5 3e5 3,4e5 3,8e5 4,2e5
Percebe-se que os valores da linha de regresso so estimados com boa
preciso.
91
Anlise de varincia da regresso
importante para anlise de regresso linear mltipla e outros modelos lineares. Para anlise de
regresso linear simples no traz nenhuma novidade.
92
Partio da soma de quadrados total
)
( )
(
i i i i
Y Y Y Y Y Y + =
Desvio
total
Desvio da
equao
ajustada em
torno da mdia
Desvio em
torno da
equao
ajustada
X
Y
X
i

Y
i

T
R
E
93
Soma de quadrados total:
Soma de quadrados do erro (ou resduo):
=
=
n
i
i i
Y Y SQE
1
2
)
(
Soma de quadrados da regresso:
=
=
n
i
i
Y Y SQR
1
2
)
=
=
n
i
i
Y Y SQT
1
2
) (
Demonstrao:
( )
( )

= = =
= = =
= = =
=
= =
+ =
= =
+ +
+ +
+ =
n
i
n
i
i i i
n
i
n
i
n
i
i i i i i
n
i
i i i
n
i
n
i
n
i
i i i i i i
n
i
i i i i i i
n
i
i i i
n
i
Y Y Y Y Y Y
Y Y Y Y Y Y Y Y Y Y
Y Y Y Y Y Y Y Y
Y Y Y Y Y Y Y Y
Y Y Y Y Y Y
1 1
2 2
1
2
1 1 1
1 1 1
2 2
1
2 2
1
2
1
2
)
( )
( ) (
0 )
( 2 )
2 )
)(
( 2
)
)(
( 2 )
( )
(
)
)(
( 2 )
( )
(
)
( )
( ) (
(Parte da variabilidade de Y
i
que est associada com a regresso)
94
Graus de liberdade
A SQT tem n-1 graus de liberdade; um grau de liberdade perdido devido a restrio de que a soma
dos desvios em torno da mdia zero. De outra forma: um grau de liberdade perdido porque a
mdia da amostra usada para estimar a mdia populacional.
A SQE tem n-2 graus de liberdade. Dois graus de liberdade so perdidos pois dois parmetros so
estimados para obter Y(chapu)
i
.
A SQR tem 1 grau de liberdade. Dois g.l. esto associados com a regresso (2 parmetros); um deles
perdido devido a restrio:
Os graus de liberdade so aditivos: (n-1)=1+(n-2)
Quadrados mdios
A soma de quadrados dividida pelos graus de liberdade chamada de quadrado mdio.
1
SQR
QMR =
) 2 (
=
n
SQE
QME
) 1 (
=
n
SQT
QMT
. 0 )
( =
Y Y
i
95
Tabela da anlise de varincia
Tabela da anlise de varincia para regresso linear simples
Causas de variao Soma de quadrados Graus de liberdade Quadrado mdio
Regresso SQR 1 SQR/1
Erro SQE n-2 SQE/(n-2)
Total SQT n-1
Tabela modificada (soma de quadrados total no corrigida)
Baseado no fato de que:

=
= =
2
2 2
2
) (
i
i i
Y SQTNC
Y n Y Y Y SQT
Tabela da anlise de varincia para regresso linear simples
Causas de variao Soma de quadrados Graus de liberdade Quadrado mdio
Regresso SQR 1 SQR/1
Erro SQE n-2 SQE/(n-2)
Total SQT n-1
Correo para a mdia SQ(devido a mdia)=
2
Y n
1
Total no corrigido SQTNC=
2
i
Y n
96
Exerccio: obtenha para os dados de pop. de Staphilococcus a SQR e o QMR.
Esperanas dos quadrados mdios
Para realizar inferncias na anlise de varincia, precisamos conhecer as esperanas dos
quadrados mdios. Os valores esperados dos quadrados mdios a mdia de suas distribuies
amostrais e nos mostram o que est sendo estimado pelo quadrado mdio.
Teorema 2.11 (pgina 49, Neter et al., 1996) diz que: ) 2 ( ~ /
2 2
n SQE _ o
Das propriedades da distribuio de _
2
(apndice) temos:
imparcial) estimador QME (O QME E E
n E
n
SQE
SQE
2
2
) ( ) (
2 ) (
2
o
o
= =
=
Para encontrar a E(QMR), partimos de:

2
2
1
) (
= X X b SQR
i
Sabemos que a varincia de uma varivel aleatria dada por:
(para o modelo com erros com distribuio normal).
Exerccio: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR.
97
( )
( )
( )
( )
+ = =

+ =

+ =

=
+ =
=
=
=
2
i
2
1
2
1
SQR
2
i
2
1
2
2
i
2
1 X X
2
i
2
1
2
1 X X
2
1
X X 1
2
1 1
2
1
2
1 1
2
X X QMR E E
X X SQR E
X X SQR E
X X b E SQR E
b E
b
b E
b E b E b
2
i
2
2
i
2
2
i
2
) ( ) ( ) (
) ( ) (
) ( ) (
) ( ) ( ) (
) (
) (
) (
)) ( ( ) ( ) (
| o
| o
|
|
o
|
o
o
o
o
Teste F para |
1

Na anlise de varincia testa-se as seguintes hipteses:
0 :
0 :
1
1 0
=
=
|
|
a
H
H
A estatstica utilizada para testar essas hipteses dada por:
QME
QMR
F =
*
Para estabelecer uma regra de deciso do teste de hipteses devemos conhecer a
distribuio amostral de F
*
.
Valores altos de F
*
favorecem H
a
; F
*
=1 favorece H
0
; um teste unilateral.
98
Distribuio amostral de F
*

Vamos considerar a distribuio amostral de F
*
quando a hiptese nula for verdadeira, isto ,
sob H
0
.
Teorema de Cochran: se as n observaes Y
i
so identicamente distribudas de acordo com
uma distribuio normal com mdia e varincia o
2
e a soma de quadrados total
decomposta em k somas de quadrados SQ
r
, cada uma com gl
r
graus de liberdade, ento, os
termos SQ
r
/ o
2
, so variveis independentemente distribudas como _
2
com gl
r
graus de
liberdade se:

=
=
k
i
r
n gl
1
1
Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e os
seus graus de liberdade so aditivos.
Sob H
0
, de modo que os Y
i
tem distribuio normal com a mesma mdia =0 e mesma
varincia o
2
, SQE/o
2
e SQR/o
2
so variveis independentemente distribudas como _
2
.
Podemos escrever F
*
como:
) 2 (
) 2 (
1
) 1 (
) 2 ( 1 ) 2 /(
*
2 2
2 2
1

= = = =
n
n
n n SQE QME
QMR
SQE SQR
SQR
F
_ _
o o
99
Assim, sob H
0
, F
*
o quociente entre duas variveis independentes com distribuio de _
2
,
portanto, a estatstica F
*
uma varivel aleatria com distribuio F(1,n-2) (apndice-
distribuio F).
Quando rejeita-se H
0
,pode-se mostrar que F
*
segue uma distribuio de F no central.
Regra de deciso do teste de hipteses:
0
0
H
H reje
se rejeita ) n , ; ( F F
se ita no ) n , ; ( F F
*
*
>
s
2 1 1
2 1 1
o
o
Sada do STATISTICA: dados de porcentagem de acerto na cache.
F(95%;1,10)=4,96, portanto, F
*
> F e, assim, rejeita-se a hiptese nula.
Concluso: existe uma associao linear entre porcentagem de acerto e o tamanho da cache.
Mesmo resultado do teste t.
100
Sada do STATISTICA: dados de populao de Staphilococcus.
F(95%;1,4)=7,71, portanto, F
*
< F e, assim, no
rejeita-se a hiptese nula.
Concluso: no existe uma associao linear entre pop. e o
tempo de armazenamento. Mesmo resultado do teste t.
101
Teste geral para o modelo linear
Trs etapas:
1) Modelo completo
Este modelo considerado adequado para os dados e chama-se modelo completo ou sem
restrio (superparametrizado). No caso de regresso linear simples temos:
i i i
X Y c | | + + =
1 0
Modelo completo
A soma de quadrados do erro do modelo completo (SQE(C)), dada por:
| | SQE Y Y X b b Y C SQE
i i i i
= = + =

2
2
1 0
)
( ) ( ) (
2) Modelo reduzido
Vamos considerar as hipteses:
0 :
0 :
1
1 0
=
=
|
|
a
H
H
Modelo reduzido:
i i
Y c | + =
0
Sob H
0

102
A soma de quadrados do erro do modelo reduzido (SQE(R)), dada por:
| | SQTotal Y Y b Y R SQE
i i
= = =

2
2
0
) ( ) (
3) Teste estatstico
Devemos comparar as duas somas de quadrados dos erros.
) ( ) ( R SQE C SQE s
Sempre
Mais parmetros
Concluso: se a SQE(C) no muito menor do que a SQE(R), indica que o modelo reduzido
adequado, isto , no rejeita-se H
0
.
Exerccio: encontre o estimador de |
0
pelo mtodo de mnimos quadrados.
103
O teste estatstico dado por:
) , ; 1 ( ~
) ( ) ( ) ( *
c c r gl
C SQE
gl gl
C SQE R SQE
gl gl gl F F
c c r
=

o
Deciso:
0 c c r
0 c c r
H se rejeita gl gl gl F F
H se aceita gl gl gl F F
>
s
) , ; 1 (
) , ; 1 (
*
*
o
o
Exerccio: para os dados de porcentagem de acertos na cache, verifique a as hipteses:
0 :
0 :
1
1 0
=
=
|
|
a
H
H
. ,
* *
,
, , , ,
*
10 60 F
57385 2
6899 154
10
7385 25
10 11
7385 25 4284 180
= = =

104
Exerccio: para os dados de pop. de staphilococcus,
verifique se as hipteses:
0 :
0 :
1
1 0
=
=
|
|
a
H
H
. ,
,
, , , ,
* NS
065977 0
305977 0
4
263908 0
4 5
263908 0 569885 0
64 4 F = = =

105
-

-
Medidas descritivas do grau de associao linear
entre X e Y.
X
Coeficiente de determinao (r
2
)
1 0
1
2
2
s s
= =
r
r
SQT
SQE
SQT
SQR
Interpretao: o quanto da variabilidade total dos dados explicada pelo modelo de regresso.
Quanto maior o r
2
mais a variao total de Y reduzida pela introduo da v. preditora X no modelo.
-
-
-
-
-
-
-
X b b Y
1 0
+ =
r
2
=1
Y
X
Y
-
-
-
-
-
-
-
-
r
2
=0
Y Y
A varivel preditora X responsvel por toda

a variao nas observaes Y
i
.
A v. X no ajuda na reduo da
variao de Y
i
com a Reg. Linear
-
-
-
-
-
-
-
-
-
-
- -
-
-
-
-
-
-
106
Coeficiente de correlao (r)
1 1
2
s s
=
r
r r
Exemplo: para os dados de populao de Staphilococcus, temos:
Exemplo: para os dados de porcentagem de acertos na cache, temos:
107
Interpretaes errneas dos coeficientes de determinao e
correlao:
1) Um alto coeficiente de correlao indica que predies teis
podem ser feitas. Isto no necessariamente correto. Observe
se as amplitudes dos intervalos de confiana so grandes, isto
, no so muito precisos.
2) Um alto coeficiente de correlao indica que a equao de
regresso estimada est bem ajustada aos dados. Isto tambm
no necessariamente correto (veja figura a seguir).
3) Um coeficiente de correlao prximo de zero indica que X
e Y no so correlacionadas. Idem (veja figura a seguir).
108
- -
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
Tem um alto valor de r; o ajuste de
uma equao de regresso linear
no adequada
Tem um baixo valor de r;
porm existe uma forte relao
entre X e Y.
*** Fazer lista de exerccios nmero 2.
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-

Analise de Regressao Linear Simples

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analise de Regressao Linear Simples

Enviado por

Direitos autorais:

Formatos disponíveis

1

Regresso Linear Simples

Objetivo: com os dados observados (X

Outra forma de escrevermos:

como sendo o valor ajustado para o i-simo caso.

Exemplo: para os dados de porcentagem de acerto na cache, o resduo para o

(| lim > = >

O numerador uma varivel normal padro z. Para o denominador, temos:

Para encontrar a E(QMR), partimos de:

A varivel preditora X responsvel por toda

Você também pode gostar