Você está na página 1de 127

Apresentacao derivada dos slides originais de Virgilio Almeida

Mtodos Quantitativos para Cincia da


Computao Experimental
Regresso Linear
Jussara Almeida
DCC-UFMG
2013
Apresentacao derivada dos slides originais de Virgilio Almeida
Modelos de Regresso Linear
O que um bom modelo?
Como estimar os parmetros do modelo?
Como alocar variaes?
Intervalos de Confiana para Regresses
Inspeao Visual
Apresentacao derivada dos slides originais de Virgilio Almeida
O que um bom modelo?
Para dados correlacionados, um modelo deve prever uma
resposta dado uma entrada.
Modelo deve ser a equao que se adequa (fit) aos
dados.
Uma definio padro de fits est diretamente
relacionada aos mnimos quadrados (least-squares)
Minimizar o erro ao quadrado
Enquanto mantm o erro mdio em zero
Equivalente a minimizar a varincia dos erros
Apresentacao derivada dos slides originais de Virgilio Almeida
Erro do Mnimo Quadrado
Se ento o erro na estimativa para x
i

Minimizar a Soma dos Erros ao Quadrado (SSE)
Sujeita as restries
e

y

y
i

i

i

=

-
!

!
i
Apresentacao derivada dos slides originais de Virgilio Almeida
Estimando os Parmetros do Modelo
Os melhores parmetros da regresso
(levam ao menor erro) so:
onde
Apresentacao derivada dos slides originais de Virgilio Almeida
Estimativa dos parmetros
exemplo
Tempo de execuo de um query para vrias palavras:
= 6.8, = 2.32, !xy = 88.54, !x
2
= 264
b
0
= 2.32 - (0.29)(6.8) = 0.35
Apresentacao derivada dos slides originais de Virgilio Almeida
Grfico dos Parmetros de Estimativa
exemplo
Apresentacao derivada dos slides originais de Virgilio Almeida
Variantes da Regresso Linear
Algumas relaes no lineares podem ser tratadas por
transformaes:
Para y = ae
bx
pegue o logaritmo de y, faa a regresso sobre
log(y) = b
0
+b
1
x, sendo b = b
1
,
Para y = a+b log(x), tome o log de x antes dos parmetros de
fitting, seja b = b
1
, a = b
0

Para y = ax
b
, tire o log de ambos x e y, e faa
b = b
1
,
Apresentacao derivada dos slides originais de Virgilio Almeida
Alocando a Variao
Sem regresso, a melhor estimativa de y
Valores observados de y diferem de aumentando
os erros (variao)
Regresso prov uma melhor estimativa, mas ainda
existem erros
Ns podemos avaliar a qualidade da regresso pela
alocao das fontes de erros.
Apresentacao derivada dos slides originais de Virgilio Almeida
Grfico dos Parametros de Estimativa
exemplo: regresso e a mdia
Apresentacao derivada dos slides originais de Virgilio Almeida
Notao
SSE Sum of Squared Errors
SST Total Sum of Squares
SSY Sum of Squares of
SS0 Sum of Squares of
SSR Sum of Squares explained by Regression
Apresentacao derivada dos slides originais de Virgilio Almeida
A Soma Total dos Quadrados
Sem regresso, o erro ao quadrado
Apresentacao derivada dos slides originais de Virgilio Almeida
A Soma dos Quadrados da Regresso
A soma dos erros quadrados sem regresso (=SST):
SSE (com regressao):
Assim a regresso explica SSR = SST - SSE
Qualidade da regresso medida pelo coeficiente de
determinao:
Quanto maior o valor de R
2
, melhor a regresso.
Apresentacao derivada dos slides originais de Virgilio Almeida
Avaliao do Coeficiente
de Determinao
Calcule
Calcule
Calcule
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo de Coeficiente de Determinao
Para o exemplo anterior de regresso
!y = 11.60, !y
2
= 29.79, !xy = 88.54,
SSE = 29.79-(0.35)(11.60)-(0.29)(88.54) = 0.05
SST = 29.79-26.9 = 2.89
SSR = 2.89-.05 = 2.84
R
2
= (2.89-0.05)/2.89 = 0.98
Apresentacao derivada dos slides originais de Virgilio Almeida
Desvio Padro de Erros
Variancia de erros SSE dividido pelos graus de liberdade
(DOF):
DOF: n-2 porque calculamos 2 parametros de
regresso dos dados.
Assim a varincia (mean squared error, MSE):
Desvio padro dos erros a raiz quadrada:

Apresentacao derivada dos slides originais de Virgilio Almeida
Coeficiente de Determinao X
Correlao da Amostra
Coeficiente de determinao
Correlao da Amostra (premissa: linearidade)
Apresentacao derivada dos slides originais de Virgilio Almeida
Calculando os graus de liberdade de
vrias soma de quadrados
SST n-1 Precisa computar
SSY n No depende de nenhum outro
parmetro
SS0 1 Precisa computar
SSE n-2 Precisa computar dois parmetros da
regresso
SSR 1 =SST-SSE
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo de Desvio Padro de Erros
Para o exemplo de regresso, SSE era 0.05, ento
MSE = 0.05/(5-2) = 0.05/3 = 0.017
s
e
= = 0.13
Observe a alta qualidade da regresso do exemplo:
R
2
= 0.98
s
e
= 0.13
Apresentacao derivada dos slides originais de Virgilio Almeida
Intervalos de Confiana para
Regresses
Regresso calculada de uma nica amostra
da populao (tamanho n)
Diferentes amostras devem dar resultados
diferentes.
Modelo verdadeiro y = !
0
+ !
1
x
Parmetros b
0
e b
1
so na verdade mdias
(estimativas para parametros reais) retiradas
das amostras da populao.
Apresentacao derivada dos slides originais de Virgilio Almeida
Clculo de Intervalos
para Parmetros da Regresso
Desvio Padro dos Parmetros:
Intervalos de confiana so b
i
s
bi
Onde t tem n - 2 graus de liberdade
o desvio padro dos erros
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo do Intervalo de Confiana da
Regresso
Lembre que s
e
= 0.13, n = 5, !x
2
= 264, = 6.8
Assim
Usando um intervalo de confiana de 90%:
t
0.95;3
= 2.353
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo do Intervalo de Confiana da
Regresso
Assim, o intervalo b
0

b
1

0.29 2.353(0.004) = (0.28,0.30)
0.35 2.353(0.16) = (-0.03,0.73)
Apresentacao derivada dos slides originais de Virgilio Almeida
Intervalos de Confiana
para Predies
Intervalos de confiana vistos so para os parmetros
Quo certo podemos estar que os parmetros esto
corretos?
Finalidade da regresso a predio
Quo precisas so as predies?
Regresso oferece APENAS uma mdia das respostas
previstas, baseadas nas amostras usadas.
Apresentacao derivada dos slides originais de Virgilio Almeida
Predies baseadas em m amostras
Desvio padro para a mdia de futuras amostras de
m observaes em x
p

Note que o desvio diminui qdo m " #
Varincia mnima em x =
y
mp
S
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo de Confiana
das Predies
Usando modelo desenvolvido, qual o tempo
previsto para uma execuo com 8 palavras?
Tempo = 0.35 + 0.29(8) = 2.67
Desvio padro de erros s
e
= 0.13
90% do intervalo ento
y
p
S
Apresentacao derivada dos slides originais de Virgilio Almeida
Verificando as hipteses
(assumptions) visualmente
Regresses so baseadas em hipteses:
Relao linear entre a resposta y e previsor x
Previsor x livre de erro
Erros do modelo so estatisticamente independentes
Com distribuio normal N(0,c) para desvio padro
constante c
Se as hipteses so violadas, o modelo pode ser inadequado
ou invlido.
Apresentacao derivada dos slides originais de Virgilio Almeida
Testando a Linearidade
Grficos de pontos x vs. y para ver o tipo bsico da curva
Linear Linear por partes
Outlier/Exceco No linear (Funo de Potncia)
Apresentacao derivada dos slides originais de Virgilio Almeida
Testando a Independncia
dos Erros
Grfico de pontos "
i
versus
No deve haver tendncia visvel
Exemplo do ajuste de curva feito:
y
i


$
"
i
y
i


$
Apresentacao derivada dos slides originais de Virgilio Almeida
Testando a Independncia
Apresentacao derivada dos slides originais de Virgilio Almeida
Testando a Independncia
Pode ser til plotar os resduos de erro
versus o nmero do experimento
No exemplo anterior d o mesmo grfico,
exceto para a escala de x
Apresentacao derivada dos slides originais de Virgilio Almeida
Testando a Independncia
Apresentacao derivada dos slides originais de Virgilio Almeida
Testando Erros Normais
Preparar um grfico quantil-quantil
Exemplo da regresso anterior:
Apresentacao derivada dos slides originais de Virgilio Almeida
Testando Erros Normais
Apresentacao derivada dos slides originais de Virgilio Almeida
Testando para Desvio-Padro
Constante
Homoscedasticity (esta hiptese assume que a varincia ao
longo da linha de regresso a mesma para todos previsores x)
Retorno ao grfico de independncia
Verificar tendncia no espalhamento
Exemplo:
Apresentacao derivada dos slides originais de Virgilio Almeida
Testando para Desvio-Padro
Constante
Apresentacao derivada dos slides originais de Virgilio Almeida
Regresso linear pode ser
enganadora (misleading)
Regresso despreza alguma informao sobre os dados
Para permitir uma sumarizao compacta
Algumas vezes caractersticas vitais so perdidas
No geral, examinando os grficos de dados
pode-se determinar se ha um problema ou no
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo de Regresses Inadequadas
I II III IV
x y x y x y x y
10 8.04 10 9.14 10 7.46 8 6.58
8 6.95 8 8.14 8 6.77 8 5.76
13 7.58 13 8.74 13 12.74 8 7.71
9 8.81 9 8.77 9 7.11 8 8.84
11 8.33 11 9.26 11 7.81 8 8.47
14 9.96 14 8.10 14 8.84 8 7.04
6 7.24 6 6.13 6 6.08 8 5.25
4 4.26 4 3.10 4 5.39 19 12.50
12 10.84 12 9.13 12 8.15 8 5.56
7 4.82 7 7.26 7 6.42 8 7.91
5 5.68 5 4.74 5 5.73 8 6.89
Apresentacao derivada dos slides originais de Virgilio Almeida
O que a regresso nos diz sobre
esses conjuntos de dados?
Exatamente a mesma coisa para cada um deles!
N = 11
Mdia de y = 7.5
Y = 3 + .5 X
Erro padro da regresso 0.118
Todas as somas de quadrados so as mesmas
Coeficiente de correlao = .82
R
2
= .67
Apresentacao derivada dos slides originais de Virgilio Almeida
Agora, observe estes grficos ...
I II
III IV
Apresentacao derivada dos slides originais de Virgilio Almeida
Sobre os grficos anteriores
Importncia da inspeo visual dos dados
experimentais...
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
The number of disk I/O's and processor times of seven
programs were measured as: (14, 2), (16, 5),
(27, 7), (42, 9), (39, 10), (50, 13), (83, 20)
For this data:
n=7, ! xy=3375, ! x=271, ! x
2
=13,855,
! y=66, ! y
2
=828, = 38.71, = 9.43. Therefore,
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Computacao do Erro
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Alocacao da Variacao
Modelo explica 97% da variacao: MUITO BOM!!!

Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Desvio Padrao dos Erros
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Desvio Padrao dos Parametros
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
IC de 90% dos Parametros
0.95 quantil of t variate with 5 degrees of freedom = 2.015

Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Testes Visuais
Linearity?
Independence?
Homoscedasticity?
Normality of
errors?
Apresentacao derivada dos slides originais de Virgilio Almeida
Regresso Linear Mltipla
mais de uma varivel previsora
Previsores Categricos
alguns dos previsores no so quantitativos, mas
representam categorias
Regresso Curvilinear
relaes no lineares
Transformaes
quando erros no so normalmente distribudos ou varincia
no constante
Tratamento de outliers
pontos fora do corpo principal
Erros mais comuns na anlise de regresso
Outros Mtodos de Regresso
Apresentacao derivada dos slides originais de Virgilio Almeida
Regresso Linear Mltipla
Modelos com mais de uma varivel previsora
Mas cada varivel previsora tem uma relao linear
com a varivel de resposta
Conceitualmente, seria equivalente a fazer um
grfico de uma linha de regresso num espao
n-dimensional, ao invs de 2-dimenses
Apresentacao derivada dos slides originais de Virgilio Almeida
Frmula Bsica de Regresso Linear
Mltipla
A resposta y uma funo de k variveis
previsoras x
1
,x
2
, . . . , x
k
y = b
0
+ b
1
x
1
+ b
2
x
2
+ . . . + b
k
x
k
+ e
Apresentacao derivada dos slides originais de Virgilio Almeida
Um Modelo de uma Regresso Linear
Mltipla
Dada uma amostra de n observaes
o modelo consiste de n equaes:
...

. . .
. . .
. . .
.
.
.
Apresentacao derivada dos slides originais de Virgilio Almeida
Sob a forma de aritmtica matricial
y = Xb +e
. . .
. . .
. . .
Apresentacao derivada dos slides originais de Virgilio Almeida
Anlise de Regresso Linear Mltipla
Est descrita no box 15.1 do Jain.
No essencialmente importante saber como foi derivada,
pois nosso curso no de estatstica e nem essa a
finalidade de um curso de mtodos quantitativos.
importante no entanto saber que existe e como us-la.
A maior parte do material similar a regresso linear simples.
Um exemplo de duas variveis.
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo de uma
Regresso Linear Mltipla
Considere uma equipe de segurana de redes desenvolveu
vrios esquemas alternativos para conter ataques aos
servidores e rede. O grupo quer avaliar os mecanismos e
definiu um ndice de sucesso dos esquemas. O ndice foi
atribudo pela equipe.
O ndice de sucesso baseado em dois fatores
Tempo do experimento (durao)
Nmero de ataques no perodo
Produz uma regresso
ndice = b
0
+ b
1
(#ataques) +b
2
(durao)
Apresentacao derivada dos slides originais de Virgilio Almeida
Dados amostrais
Esquema #Ataques Durao ndice
A 5 118 8.1
B 13 132 6.8
C 20 119 7.0
D 28 153 7.4
E 41 91 7.7
F 49 118 7.5
G 61 132 7.6
H 62 105 8.0
Apresentacao derivada dos slides originais de Virgilio Almeida
Aritmtica Matricial
Precisa-se calcular X, X
T
, X
T
X, (X
T
X)
-1
e X
t
y
Por qu?
Para obter
b = (8.373, .005, -.009 )
Indicando que a regresso prediz:
indice = 8.373 + 0.005*#ataques 0.009*durao
Apresentacao derivada dos slides originais de Virgilio Almeida
Matriz X do Exemplo
Apresentacao derivada dos slides originais de Virgilio Almeida
Matriz Transposta X
T
Apresentacao derivada dos slides originais de Virgilio Almeida
Multiplicao Matricial X
T
X
Apresentacao derivada dos slides originais de Virgilio Almeida
Inverso Matricial (X
T
X)
-1
Apresentacao derivada dos slides originais de Virgilio Almeida
Multiplicao para obter X
T
y
Apresentacao derivada dos slides originais de Virgilio Almeida
Multiplicao de (X
T
X)
-1
(X
T
y)
para obter b
Apresentacao derivada dos slides originais de Virgilio Almeida
Quo bom este modelo de
regresso?
Qual a preciso do modelo na previso do ndice de um
esquema baseado no #ataques e tempo de durao?
A melhor forma para determinar isto analiticamente
calcular
ou
Apresentacao derivada dos slides originais de Virgilio Almeida
Clculo dos Erros
Indice
ndice #At. Dur. estimado e
i
e
i
2
8.1 5 118 7.4 -0.71 0.51
6.8 13 132 7.3 0.51 0.26
7.0 20 119 7.4 0.45 0.21
7.4 28 153 7.2 -0.20 0.04
7.7 41 91 7.8 0.10 0.01
7.5 49 118 7.6 0.11 0.01
7.6 61 132 7.5 -0.05 0.00
8.0 62 105 7.8 -0.21 0.04
Apresentacao derivada dos slides originais de Virgilio Almeida
Clculo dos Erros
Assim SSE = 1.08
SSY =
SS0 =
SST = SSY - SS0 = 452.91- 451.5 = 1.4
SSR = SST - SSE = .33

Isto , esta regresso est RUIM!
Apresentacao derivada dos slides originais de Virgilio Almeida
Por que ruim?
Vamos examinar as propriedades dos
parmetros da regreso
Graus de liberdade: n -3 (3 parametros)
Vamos calcular o desvio padro dos
parmetros da regresso
Apresentacao derivada dos slides originais de Virgilio Almeida
Clculo do Desvio Padro
So estimativas, pois estamos trabalhando
com uma amostra
Desvio padro estimado de:
Apresentacao derivada dos slides originais de Virgilio Almeida
Clculo de Intervalos de Confiana
Em um nvel de 90%, por exemplo
Intervalos de confiana so:
Somente b
0
significativo, neste nvel
b0 = 8.37 (2.015)(1.29) = (5.77, 10.97)
b1 = .005 (2.015)(.01) = (-.02, .02)
b2 = -.009 (2.015)(.008) = (-.03, .01)
Apresentacao derivada dos slides originais de Virgilio Almeida
Anlise da Varincia
Podemos ento dizer que realmente nenhuma
das variveis previsoras significativa?
O teste F pode ser usado para essa finalidade
Por exemplo, para determinar se o SSR
significativamente maior que o SSE
Equivalente a testar se y no depende de
qualquer das variveis previsoras
Apresentacao derivada dos slides originais de Virgilio Almeida
Executando o F-Teste
Calcule SSR e SSE e seus graus de liberdade:
SSR tem k graus de liberdade
SST tem n-1 graus de liberdade
Logo: SSE tem n-(k+1) graus de liberdade (k+1 parametros)
Calcule o quadrado das mdias da regresso (MSR) e dos erros
(MSE)
MSR = SSR/DOF(SSR)
MSE = SSE/DOF(SSE)
MSR/MSE tem uma distribuio F
Se MSR/MSE > F-tabela, os previsores explicam uma frao
significativa da variao da resposta
Em outras palavras: SSR e significativamente maior que SSE
OU: y depende de pelo menos uma variavel previsora
Vide Tabela 15.3 do Jain: Tabela ANOVA
Apresentacao derivada dos slides originais de Virgilio Almeida
O F-Teste do Exemplo
SSR = .33
SSE = 1.08
MSR = SSR/k = .33/2 = .16
MSE = SSE/(n-k-1) = 1.08/(8 - 2 - 1) = .22
F-calculado = MSR/MSE = .76
F
[90; 2,5]
= 3.78 (em 90%)
Assim o teste F falha em 90%
Apresentacao derivada dos slides originais de Virgilio Almeida
Multipla colinearidade
Se dois previsores so linearmente dependentes,
eles so co-lineares
Significa que so relacionados
E assim uma segunda varivel no melhora a
regresso
Pode inclusive piorar a regresso.
Sintoma tpico so resultados inconsistentes em
vrios testes de significncia.
F-teste da que SSR e significativamente maior
que SSE
Mas ICs para coeficientes incluem 0
Apresentacao derivada dos slides originais de Virgilio Almeida
Determinao de Multipla colinearidade
Deve uma haver uma correlao entre as
variveis previsoras.
Se a correlao for alta, elimine uma e repita a
regresso sem ela.
Se a significncia da regresso melhorar, deve-
se provavelmente a co-linearidade entre as duas
variveis.
Apresentacao derivada dos slides originais de Virgilio Almeida
A mltipla co-linearidade um
problema no nosso exemplo?
Provavelmente no, pois no h testes inconsistentes.
Como verificar?
Calcular a correlao de #ataques e durao
O clculo indica: -.25
No so correlacionados
Ponto importante: adicionar uma varivel previsora nem
sempre aumenta a preciso da regresso.
Apresentacao derivada dos slides originais de Virgilio Almeida
Calculo da Correlacao
Apresentacao derivada dos slides originais de Virgilio Almeida
Por que a regresso no funcionou
bem neste exemplo?
Verifique os grficos de pontos
ndice vs. #ataques
ndice vs. durao
Independente de quo boa ou ruim a
regresso (coeficiente de determinao),
sempre verifique os grficos de pontos.
Apresentacao derivada dos slides originais de Virgilio Almeida
Olhe os grficos!
6
6.5
7
7.5
8
8.5
9
80 100 120 140 160
Durao
I
n
d
i
c
e

Apresentacao derivada dos slides originais de Virgilio Almeida
Olhe os grficos!
6

6.5

7

7.5

8

8.5

9

0 20 40 60 80
#Ataques

n
d
i
c
e

Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Sete programas foram monitorados quanto as suas
demandas por recursos, particularmente, o numero de
operacoes de I/Os (disco), o consumo de memoria (em
KB) e o tempo de CPU (em ms). Os dados sao mostrados
a seguir
Tempo de CPU y
i
2 5 7 9 10 13 20

Disk I/Os x
1i
14 16 27 42 39 50 83

Tamanho da Memoria x
2i
70 75 144 190 210 235 400
Encontre um modelo linear para estimar o tempo de CPU em
funcao dos outros dois recursos

Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
CPU time = b
0
+ b
1
(# disk I/Os) + b
2
(tamanho da mem)
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
CPU time = b
0
+ b
1
(# disk I/Os) + b
2
(tamanho da mem)
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
CPU time = b
0
+ b
1
(# disk I/Os) + b
2
(tamanho da mem)
A equacao de regressao:
Cpu time = -0.1614 + 0.1182(# disk I/Os) + 0.0276(tam. Mem)
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Vamos fazer a analise de variancia (ANOVA) da regressao:
Calculo das previsoes, erros e erros quadrados

y
i
2 5 7 9 10 13 20
x
1i
14 16 27 42 39 50 83
x
2i
70 75 144 190 210 235 400
3.3490 3.7180 6.8472 9.8400 10.0151 11.9783 20.2529
e
i
-1.3490 1.2820 0.1528 -0.8400 -0.0151 1.0217 -0.2529
(e
i
)
2
1.8198 1.6436 0.0233 0.7053 0.0002 1.0439 0.0639
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Calculo dos SS*
A regressao explica 97% da variabilidade dos dados: BOM!
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Calculo do desvio padrao dos erros e dos coeficientes
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Calculo dos CI de 90%:
95% da variavel t com 4 graus de liberdade t
0.95,4
= 2.132
Nenhum parametro e significativo
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Realizando o teste F:
SSE = 5.3
Graus de liberdade do SSE = n-(k+1) = n-3 = 4
MSE = SSE/n-(k+1) = 5.3/4 = 1.33
SSR = 200.41
Graus de liberdade do SSR = k = 2
MSR = 200.41/2 = 100.205
MSR / MSE = 75.40 Tabela F: 4.32
Ja que MSR/MSE > F -> regressao passou o teste F
Isto significa que a hipotese de que todos parametros sao 0 nao
pode ser aceita.
Inconsistencia???
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Vamos calcular a correlacao entre as variaveis previsoras
(numeros de I/Os e tamanho de memoria)
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Alta correlacao: multicolineariedade prejudica a regressao.
Precisa refazer regressao somente com # de I/Os e,
separadamente, com tamanho de memoria, e escolher melhor
previsor (isto e, aquele que resulta no maior R2)
Neste caso e regressao linear simples
Apresentacao derivada dos slides originais de Virgilio Almeida
Regresso com Previsores Categricos
Os mtodos de regresso vistos ate aqui assumiram
valores numricos!
O que acontece se algumas variaveis so por natureza
categricas, no numricas? Por exemplo, o tipo de
processador pode ser uma varivel categrica.
Existem tcnicas se todas variveis so categricas.
Projetos fatoriais: estatisticamente mais precisos
As tecnicas apresentadas a seguir sao para regressoes
com previsores mistos (alguns categoricos e outros
numericos)
Nveis nmero de valores que uma categoria pode
assumir.
Apresentacao derivada dos slides originais de Virgilio Almeida
Trabalhando com Previsores Categricos
Se somente dois nveis so usados, defina x
i
assim:
x
i
= 0 para primeiro valor, x
i
= 1 para segundo valor
b
i
representa a diferenca no efeito das duas alternativas
Pode-se usar +1 and -1 como valores, tambm.
2b
i
representa a diferenca entre duas alternativas
Apresentacao derivada dos slides originais de Virgilio Almeida
Trabalhando com Previsores Categricos
Precisa-se de k-1 variveis previsoras para k nveis
Para evitar implicaes de ordem nas categorias
Reflete B no meio entre A e C
Parametros sem significado
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo de Variveis Categricas
O desempenho de uma chamada de procedimento remota
(RPC) foi comparada em dois sistemas operacionais UNIX e
ARGUS. A metrica avaliada foi o tempo total para diferentes
tamanhos de dados. A Tabela abaixo mostra os resultados
das medicoes.
Unix:
Data bytes 64 64 64 64 234 590 846 1060 1082 1088 1088 1088 1088
Tempo 26.4 26.4 26.4 26.2 33.8 41.6 50.0 48.4 49.0 42.0 41.8 41.8 42.0
Argus:
Data bytes 92 92 92 92 348 604 860 1074 1074 1088 1088 1088 1088
Tempo 32.8 34.2 32.4 34.4 41.4 51.2 76.0 80.8 79.8 58.6 57.6 59.8 57.4
Qual o custo de processamento por byte para os dois
sistemas? E o custo de setup?
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo de Variveis Categricas
y = b
0
+ b
1
x
1
+ b
2
x
2
y =

tempo de processamento da RPC
x
1
= numero de bytes
x
2
= 1 se sistema e Unix, e 0 se sistema e Argus
Resultado da Regressao:
Parametro Media Desvio Padrao IC
b
0
36.739 3.251 (31.1676,42.3104)
b
1
0.025 0.004 (0.0192, 0.0313)
b
2
-14.927 3.165 (-20.3509,-9.5024)
R
2
= 0.765
Custo por byte em ambos sistemas e 0.025 milisegundos
Custo de setup e 36.73 ms no ARGUS e (36.739 14.927) no UNIX
Premissa da solucao: custo per byte independe do sistema operacional.
E se isto nao for verdade?
Apresentacao derivada dos slides originais de Virgilio Almeida
Regresso Curvilinear
Regresso linear assume relaes lineares entre
variveis previsoras e a resposta.
O que acontece quando essas relaes no so
lineares?
Coeficientes de determinao R
2
pobres
necessrio encontrar outro tipo de funo para a
relao entre previsores e resposta.
Apresentacao derivada dos slides originais de Virgilio Almeida
Quando devemos usar uma regresso
curvilinear?
A forma mais direta fazer uma inspeo visual nos dados.
Faa um grfico de pontos
Se o grfico no se apresenta como linear (alguma
indicao de linearidade), use ento uma regresso
curvilinear.
Ou ento quando h outras razes para suspeitar que as
relaes no so lineares (ex., fenmenos claramente
modelados por power laws, Zipfs Law, etc).
Relaes devem ser convertidas para formas lineares.
Apresentacao derivada dos slides originais de Virgilio Almeida
Tipos de Regresso Curvilinear
Existem muitos tipos possveis, baseados numa
variedade de relaes entre as variveis:
Existem vrias outras possibilidades
Apresentacao derivada dos slides originais de Virgilio Almeida
Transformao para Relaes
Lineares
Use qualquer transformao que leve a
representar a relao atravs de funes de forma
linear, como : logaritmos, multiplicao, diviso,
etc.
Quer se obter algo como:
y = a + bx
y e x obtidos com a transformacao
Apresentacao derivada dos slides originais de Virgilio Almeida
Funes de Regresso CurviLineares
!
NaoLinear "Linear
y =a +
b
x
"y =a +b(
1
x
) x' =
1
x
y =1/(a +bx) "
1
y
= a +bx y' =
1
y
y =a # b
x
"ln y =lna + x lnb
y =a +bx
n
"y =a +b(x
n
)
Apresentacao derivada dos slides originais de Virgilio Almeida
Transformaes
O termo transformao usado quando uma funo da varivel de
resposta medida usada no lugar da prpria varivel.
Usar alguma funo da varivel resposta y (w = h(y)) em lugar do
prprio y.
Regresso curvilinear um exemplo dessa transformao.
As tcnicas tem aplicao mais geral
Apresentacao derivada dos slides originais de Virgilio Almeida
Quando transformar?
1. Quando as propriedades fsicas conhecidas do sistema medido
sugerem que a funo da resposta, ao invs da prpria resposta,
uma varivel melhor para o modelo. Exemplo: mediu-se tempos
entre chegadas mas sabe-se que relacao linear e valida para taxa
de chegadas.
2. Quando o intervalo dos dados medidos cobre vrias ordens de
grandeza e a amostra e pequena. Deve-se buscar uma
transformacao que reduza a variabilidade.
Exemplo:
3. Quando a hiptese de uma varincia homognea dos resduos
violada (i.e. Homoscedasticity).
Apresentacao derivada dos slides originais de Virgilio Almeida
Transformao Devida a
Homoscedasticity
Se num grfico de pontos dos resduos (erros) versus a
resposta prevista, o espalhamento no homogneo.
Ento os resduos so ainda uma funo das variveis
previsoras.
A transformao da resposta pode resolver o problema.
Apresentacao derivada dos slides originais de Virgilio Almeida
Qual transformao deve-se usar?
Calcule o desvio padro dos resduos para cada
estimativa "
i
.
Deve haver mais de um residuo para cada valor
estimado para x
i
.
Considere mltiplos experimentos para um
conjunto de valores previsores.
Apresentacao derivada dos slides originais de Virgilio Almeida
Qual transformao deve-se usar?
Coloque num grfico de pontos esses desvios como
funo da mdia das observaes para "
i
.
se for linear ento use a transformao
logaritmica.
s = a"
i
+ b


w = h(y) = ln(y)
Apresentacao derivada dos slides originais de Virgilio Almeida
Outros testes para transformaes
Se a varincia versus a mdia das observaes medidas
linear, use uma transformao de raz quadrada:
w = sqrt(y)
Apresentacao derivada dos slides originais de Virgilio Almeida
Outros testes para transformaes
Se o desvio padro versus o quadrado da mdia linear,
use uma transformao inversa: w = 1/sqrt(y)
Se o desvio padro versus a mdia elevada a uma
potncia a linear use uma transformao de potncia:
w = y
1-a

Outras transformaes esto descritas no livro do Jain.
Ao final basta fazer a regressao para
w = b
0
+ b
1
x
1
+ + b
k
x
k
+ e
Apresentacao derivada dos slides originais de Virgilio Almeida
Outliers
Medidas observadas em experimentos tipicamente contem
outliers (i.e., valores muito fora do corpo da curva)
Medidas que no so uma caracterstica verdadeira do
sistema.
Erros podem ter ocorrido no processo experimental de
medio.
Comportamentos atpicos de usurios do sistema podem
existir (ex: um nerd que joga um game 15 horas
consecutivas, quando se est analisando tempos de
conexo a um provedor de servios)
Isso resulta no seguinte problema:
Devemos ou no incluir os outliers nas anlises que
estamos fazendo?
Apresentacao derivada dos slides originais de Virgilio Almeida
Como tratar os outliers?
1. Determine os outliers, analisando por exemplo os
grficos de pontos.
2. Verifique cuidadosamente os erros experimentais
3. Repita os experimentos com valores previsores para os
outliers e valores proximos a eles.
4. Decida se deve ou no incluir os outliers:
Verifique se os outliers so parte do sistema ou se so exceces
que podem ser desprezadas.
Analise os dados com e sem os outliers e veja o que faz mais
sentido.
Todas as anlises dependem da natureza do sistema em estudo.
Apresentacao derivada dos slides originais de Virgilio Almeida
Erros mais comuns nas anlises usando
regresses
Geralmente baseadas em atalhos ou simplificao
excessiva dos dados.
Realizada sem cuidados e tcnicas fundamentadas.
Falta de entendimento dos princpios fundamentais
de estatstica.
Falta de entendimento dos princpios fundamentais
do mtodo cientfico.
Apresentacao derivada dos slides originais de Virgilio Almeida
No verificao da linearidade
Desenhe o grfico de pontos
Se no for linear, verifique as possibilidades
curvilineares e suas transformaes.
O uso de uma regresso linear quando as relaes
entre resposta e previsores no so lineares um
ERRO!
Apresentacao derivada dos slides originais de Virgilio Almeida
Basear em resultados sem uma
inspeo visual
Sempre verifique o grfico de pontos, como parte das
anlises usando regresses.
Examine a linha de regresso prevista versus os
pontos reais obtidos pelo experimento.
Isso particularmente importante no caso de uso de
pacotes que fazem regresses automaticamente.
Apresentacao derivada dos slides originais de Virgilio Almeida
Atribuio de importncia aos valores
dos parmetros
Valores numricos da regresso dependem da escala das
variveis previsoras.
No devido ao fato de um valor ser pequeno ou grande
que necessariamente uma indicao de importncia.
Exemplo:
Converter segundos para microsegundos no muda
nada fundamental no problema
Mas muda a magnitude dos valores dos parmetros
associados.
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Tempo de CPU em segundos = 0.01*(# oper. E/S) +
0.001*(tamanho da memria em Mbytes)
Tempo de CPU em milisegundos = 10*(# oper. E/S) +
1*(tamanho da memria em Mbytes)
Valores absolutos dos parmetros podem ser enganadores!
A forma correta de comparar a significncia de um parmetro
da regresso atravs de seu intervalo de confiana.
Apresentacao derivada dos slides originais de Virgilio Almeida
Ausncia de clculo de Intervalos de
Confiana
As amostras das observaes medidas so
aleatrias.
Assim, a regresso executada nessas amostras gera
parmetros com propriedades aleatrias tambm.
Sem intervalos de confiana, impossvel entender o
significado e a confiana que se tem nos valores dos
parmetros.
Apresentacao derivada dos slides originais de Virgilio Almeida
Ausncia de clculo do Coeficiente de
Determinao (R
2
)
Sem o clculo de R
2
, difcil determinar quanto da
variao explicada pela regresso.
Apresentacao derivada dos slides originais de Virgilio Almeida
Uso Inadequado do Coeficiente de
Correlao
Coeficiente de determinao R
2

Coeficiente de correlao R
R
2
d o percentual da variacao que explicada pela
regresso, e isso diferente de R
Exemplo
se R 0.6, ento R
2
= 0.36
a regresso explica apenas 36% da variao nos
dados
no 60%!!
Apresentacao derivada dos slides originais de Virgilio Almeida
Uso de variveis previsoras altamente
correlacionadas
Se duas variveis previsoras so correlacionadas, o
uso de ambas variveis degrada a regresso.
Exemplo:
num servidor Web provvel haver correlao
entre tamanho de um arquivo e sua popularidade
assim, no use os dois num modelo de previso
de cache hit ratio
O exemplo mostra que necessrio conhecer bem
as variveis previsoras e suas possveis relaes
Apresentacao derivada dos slides originais de Virgilio Almeida
Uso de regresso muito alm do
intervalo de observao
A regresso baseada no comportamento observado de uma
amostra em particular (ou conjunto de amostras). Refere se ao
comportamento do sistema numa certa faixa de valores
mais seguro prever dentro de uma faixa compatvel com o
intervalo de valores observados na medio
Valores muito alm podem ser previstos?
Exemplos
Uma regresso do tempo de execuo de mdulos de cdigo
que so menores que o tamanho de memria disponvel, pode
no ser capaz de prever o tempo de mdulos que fazem muito
uso de memria virtual.
A previso do nmero de queries que chega numa mquina de
busca baseada numa regresso sobre valores de um log de
vrios dias pode no ser capaz de prever o que acontecer
meses a frente.
Apresentacao derivada dos slides originais de Virgilio Almeida
Uso de muitas variveis previsoras
O acrscimo de mais variveis previsoras no
necessariamente melhora a qualidade do modelo.
Pode-se criar problemas como o de multi-colinearidade
Quais variveis devem ento ser usadas?
o que estamos tentando aprender neste curso
Apresentacao derivada dos slides originais de Virgilio Almeida
Medindo um intervalo pequeno de valores
ou medindo intervalos no significativos
Uma regresso somente prev bem valores prximos do
intervalo observado de medioes.
Se no forem feitas medies dos intervalos mais comuns de
operao do sistema, a regresso no ir prever muita coisa.
Exemplos
Se muitos programas so maiores que a memria real
disponvel, ento medir aqueles que so menores, pode
ser um erro, pois fatores como overhead estariam sendo
ignorados quando fosse feita uma previso de programas
maiores.
Se o experimento mede os tempos de execuo de
queries de um conjunto de palavras pouco frequentes,
ento prever os tempos de palavras muito frequentes,
pode ser um erro, pois h efeitos como caching que no
estariam sendo considerados.
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 2
A Lei de Amdahl para operacoes de I/Os em sistemas de
computacao diz que a taxa de I/O e proporcional a velocidade do
processador. Para cada instrucao executada, ha um bit de I/O em
media.
Para validar a lei, os numeros de I/Os e as utilizacoes de CPU de um
numero de computadores foram medidos. Usando a taxa MIPS
nominal para o sistema e a sua utilizacao, a taxa de processamento
de instrucoes (em MIPS) e a taxa de I/O (em KB/s) foram
computados para um periodo. Os dados foram mostrados abaixo.
Voce consegue validar/refutar a Lei de Amdahl com os dados
abaixo?
Sistema 1 2 3 4 5 6 7 8 9 10
MIPS Usado 19.63 5.45 2.63 8.24 14 9.87 11.27 10.13 1.01 1.26
Taxa de I/O 288.6 117.3 64.6 356.4 373.2 281.1 149.6 120.6 31.1 23.7
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 2
Vamos assumir, por hora, o seguinte modelo curvilinear:
I/O rate = % (MIPS rate)
b
log(I/O rate) = log % + b log(MIPS rate)
Os parametros b
0
= log % e b
1
= b podem ser estimados via
regressao linear simples
Parametro Media Desvio Padrao CI 90%
b
0
1.423 0.119 (1.20, 1.64)
b
1
0.888 0.135 (0.64,1.14)
R2 = 0.84 -> boa regressao
Os dois coeficientes sao significativos com a confianca de 90%.
Alem disto, como o CI para b1 contem 1, podemos aceitar a hipotese
de que o relacionamento entre I/O rate e MIPS rate e linear.
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 3
Os resultados de uma regressao linear multipla baseada em nove
observacoes estao mostrados na tabela abaixo. Baseado nestes
resultados responda as perguntas a seguir.
j 1 2 3 4
b
j
1.3 2.7 0.5 5.0
s
bj
3.6 1.8 0.6 0.3
Ponto de Intersecao = 75.3
Coeficiente de correlacao multipla = 0.95
Desvio padrao dos erros = 12.0
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 3

Qual porcentagem da variacao e explicada pela regressao?
A regressao e significativa, com uma confianca de 90%?
R = 0.95 & R
2
= 0.95*0.95 = 0.9025
90.25% da variacao e explicada pela regressao
Desvio padrao dos erros s
e
= sqrt (SSE/n-k-1)
SSE = (n-k-1)* (s
e
)
2
= (9 5)*12*12 = 576
R
2
= SSR / SST = SSR / (SSR + SSE)
SSR/(SSR + 576) = 0.9025 & SSR = 519.84/0.0975 = 5331.69
MSR = SSR/k = 5331.69/4 = 1332.92
MSE = SSE/(n-k-1) = 576/4 = 144
MSR/MSE = 9.256
F-value (0.9,4,4) = 4.11 & sim, a regressao e significativa
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 3

Quais parametros sao significativos com uma confianca de 90%?
Calcular IC : b
j
t*s
bj

0.95 quantil da variavel t com n-k-1 (= 4) graus de liberdade = 2.132
CI para b
1
= 1.3 2.132*3.6 = (-6.38, 8.98) : nao e significativo
pois inclui zero.
CI para b
2
= 2.7 2.132*1.8 = (-1.14, 6.54) : nao e significativo
CI para b
3
= 0.5 2.132*0.6 = (-0.78, 1.7792) : nao e significativo
CI para b
4
= 5.0 2.132*8.3 = (-12.70,22.70): nao e significativo
Nenhum parametro e significativo com confianca de 90%
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 3
Qual o problema com a regressao e qual seria o seu proximo passo?
Pode ser um problema de multicolinearidade.
Testar correlacao entre varios pares de previsores.
Dentre os pares que tiverem alta correlacao, testar a regressao com
cada previsor separadamente e escolher aquele que resulta no melhor
R
2

Você também pode gostar