Escolar Documentos
Profissional Documentos
Cultura Documentos
n
d
i
c
e
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Sete programas foram monitorados quanto as suas
demandas por recursos, particularmente, o numero de
operacoes de I/Os (disco), o consumo de memoria (em
KB) e o tempo de CPU (em ms). Os dados sao mostrados
a seguir
Tempo de CPU y
i
2 5 7 9 10 13 20
Disk I/Os x
1i
14 16 27 42 39 50 83
Tamanho da Memoria x
2i
70 75 144 190 210 235 400
Encontre um modelo linear para estimar o tempo de CPU em
funcao dos outros dois recursos
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
CPU time = b
0
+ b
1
(# disk I/Os) + b
2
(tamanho da mem)
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
CPU time = b
0
+ b
1
(# disk I/Os) + b
2
(tamanho da mem)
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
CPU time = b
0
+ b
1
(# disk I/Os) + b
2
(tamanho da mem)
A equacao de regressao:
Cpu time = -0.1614 + 0.1182(# disk I/Os) + 0.0276(tam. Mem)
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Vamos fazer a analise de variancia (ANOVA) da regressao:
Calculo das previsoes, erros e erros quadrados
y
i
2 5 7 9 10 13 20
x
1i
14 16 27 42 39 50 83
x
2i
70 75 144 190 210 235 400
3.3490 3.7180 6.8472 9.8400 10.0151 11.9783 20.2529
e
i
-1.3490 1.2820 0.1528 -0.8400 -0.0151 1.0217 -0.2529
(e
i
)
2
1.8198 1.6436 0.0233 0.7053 0.0002 1.0439 0.0639
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Calculo dos SS*
A regressao explica 97% da variabilidade dos dados: BOM!
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Calculo do desvio padrao dos erros e dos coeficientes
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Calculo dos CI de 90%:
95% da variavel t com 4 graus de liberdade t
0.95,4
= 2.132
Nenhum parametro e significativo
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Realizando o teste F:
SSE = 5.3
Graus de liberdade do SSE = n-(k+1) = n-3 = 4
MSE = SSE/n-(k+1) = 5.3/4 = 1.33
SSR = 200.41
Graus de liberdade do SSR = k = 2
MSR = 200.41/2 = 100.205
MSR / MSE = 75.40 Tabela F: 4.32
Ja que MSR/MSE > F -> regressao passou o teste F
Isto significa que a hipotese de que todos parametros sao 0 nao
pode ser aceita.
Inconsistencia???
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Vamos calcular a correlacao entre as variaveis previsoras
(numeros de I/Os e tamanho de memoria)
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Alta correlacao: multicolineariedade prejudica a regressao.
Precisa refazer regressao somente com # de I/Os e,
separadamente, com tamanho de memoria, e escolher melhor
previsor (isto e, aquele que resulta no maior R2)
Neste caso e regressao linear simples
Apresentacao derivada dos slides originais de Virgilio Almeida
Regresso com Previsores Categricos
Os mtodos de regresso vistos ate aqui assumiram
valores numricos!
O que acontece se algumas variaveis so por natureza
categricas, no numricas? Por exemplo, o tipo de
processador pode ser uma varivel categrica.
Existem tcnicas se todas variveis so categricas.
Projetos fatoriais: estatisticamente mais precisos
As tecnicas apresentadas a seguir sao para regressoes
com previsores mistos (alguns categoricos e outros
numericos)
Nveis nmero de valores que uma categoria pode
assumir.
Apresentacao derivada dos slides originais de Virgilio Almeida
Trabalhando com Previsores Categricos
Se somente dois nveis so usados, defina x
i
assim:
x
i
= 0 para primeiro valor, x
i
= 1 para segundo valor
b
i
representa a diferenca no efeito das duas alternativas
Pode-se usar +1 and -1 como valores, tambm.
2b
i
representa a diferenca entre duas alternativas
Apresentacao derivada dos slides originais de Virgilio Almeida
Trabalhando com Previsores Categricos
Precisa-se de k-1 variveis previsoras para k nveis
Para evitar implicaes de ordem nas categorias
Reflete B no meio entre A e C
Parametros sem significado
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo de Variveis Categricas
O desempenho de uma chamada de procedimento remota
(RPC) foi comparada em dois sistemas operacionais UNIX e
ARGUS. A metrica avaliada foi o tempo total para diferentes
tamanhos de dados. A Tabela abaixo mostra os resultados
das medicoes.
Unix:
Data bytes 64 64 64 64 234 590 846 1060 1082 1088 1088 1088 1088
Tempo 26.4 26.4 26.4 26.2 33.8 41.6 50.0 48.4 49.0 42.0 41.8 41.8 42.0
Argus:
Data bytes 92 92 92 92 348 604 860 1074 1074 1088 1088 1088 1088
Tempo 32.8 34.2 32.4 34.4 41.4 51.2 76.0 80.8 79.8 58.6 57.6 59.8 57.4
Qual o custo de processamento por byte para os dois
sistemas? E o custo de setup?
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo de Variveis Categricas
y = b
0
+ b
1
x
1
+ b
2
x
2
y =
tempo de processamento da RPC
x
1
= numero de bytes
x
2
= 1 se sistema e Unix, e 0 se sistema e Argus
Resultado da Regressao:
Parametro Media Desvio Padrao IC
b
0
36.739 3.251 (31.1676,42.3104)
b
1
0.025 0.004 (0.0192, 0.0313)
b
2
-14.927 3.165 (-20.3509,-9.5024)
R
2
= 0.765
Custo por byte em ambos sistemas e 0.025 milisegundos
Custo de setup e 36.73 ms no ARGUS e (36.739 14.927) no UNIX
Premissa da solucao: custo per byte independe do sistema operacional.
E se isto nao for verdade?
Apresentacao derivada dos slides originais de Virgilio Almeida
Regresso Curvilinear
Regresso linear assume relaes lineares entre
variveis previsoras e a resposta.
O que acontece quando essas relaes no so
lineares?
Coeficientes de determinao R
2
pobres
necessrio encontrar outro tipo de funo para a
relao entre previsores e resposta.
Apresentacao derivada dos slides originais de Virgilio Almeida
Quando devemos usar uma regresso
curvilinear?
A forma mais direta fazer uma inspeo visual nos dados.
Faa um grfico de pontos
Se o grfico no se apresenta como linear (alguma
indicao de linearidade), use ento uma regresso
curvilinear.
Ou ento quando h outras razes para suspeitar que as
relaes no so lineares (ex., fenmenos claramente
modelados por power laws, Zipfs Law, etc).
Relaes devem ser convertidas para formas lineares.
Apresentacao derivada dos slides originais de Virgilio Almeida
Tipos de Regresso Curvilinear
Existem muitos tipos possveis, baseados numa
variedade de relaes entre as variveis:
Existem vrias outras possibilidades
Apresentacao derivada dos slides originais de Virgilio Almeida
Transformao para Relaes
Lineares
Use qualquer transformao que leve a
representar a relao atravs de funes de forma
linear, como : logaritmos, multiplicao, diviso,
etc.
Quer se obter algo como:
y = a + bx
y e x obtidos com a transformacao
Apresentacao derivada dos slides originais de Virgilio Almeida
Funes de Regresso CurviLineares
!
NaoLinear "Linear
y =a +
b
x
"y =a +b(
1
x
) x' =
1
x
y =1/(a +bx) "
1
y
= a +bx y' =
1
y
y =a # b
x
"ln y =lna + x lnb
y =a +bx
n
"y =a +b(x
n
)
Apresentacao derivada dos slides originais de Virgilio Almeida
Transformaes
O termo transformao usado quando uma funo da varivel de
resposta medida usada no lugar da prpria varivel.
Usar alguma funo da varivel resposta y (w = h(y)) em lugar do
prprio y.
Regresso curvilinear um exemplo dessa transformao.
As tcnicas tem aplicao mais geral
Apresentacao derivada dos slides originais de Virgilio Almeida
Quando transformar?
1. Quando as propriedades fsicas conhecidas do sistema medido
sugerem que a funo da resposta, ao invs da prpria resposta,
uma varivel melhor para o modelo. Exemplo: mediu-se tempos
entre chegadas mas sabe-se que relacao linear e valida para taxa
de chegadas.
2. Quando o intervalo dos dados medidos cobre vrias ordens de
grandeza e a amostra e pequena. Deve-se buscar uma
transformacao que reduza a variabilidade.
Exemplo:
3. Quando a hiptese de uma varincia homognea dos resduos
violada (i.e. Homoscedasticity).
Apresentacao derivada dos slides originais de Virgilio Almeida
Transformao Devida a
Homoscedasticity
Se num grfico de pontos dos resduos (erros) versus a
resposta prevista, o espalhamento no homogneo.
Ento os resduos so ainda uma funo das variveis
previsoras.
A transformao da resposta pode resolver o problema.
Apresentacao derivada dos slides originais de Virgilio Almeida
Qual transformao deve-se usar?
Calcule o desvio padro dos resduos para cada
estimativa "
i
.
Deve haver mais de um residuo para cada valor
estimado para x
i
.
Considere mltiplos experimentos para um
conjunto de valores previsores.
Apresentacao derivada dos slides originais de Virgilio Almeida
Qual transformao deve-se usar?
Coloque num grfico de pontos esses desvios como
funo da mdia das observaes para "
i
.
se for linear ento use a transformao
logaritmica.
s = a"
i
+ b
w = h(y) = ln(y)
Apresentacao derivada dos slides originais de Virgilio Almeida
Outros testes para transformaes
Se a varincia versus a mdia das observaes medidas
linear, use uma transformao de raz quadrada:
w = sqrt(y)
Apresentacao derivada dos slides originais de Virgilio Almeida
Outros testes para transformaes
Se o desvio padro versus o quadrado da mdia linear,
use uma transformao inversa: w = 1/sqrt(y)
Se o desvio padro versus a mdia elevada a uma
potncia a linear use uma transformao de potncia:
w = y
1-a
Outras transformaes esto descritas no livro do Jain.
Ao final basta fazer a regressao para
w = b
0
+ b
1
x
1
+ + b
k
x
k
+ e
Apresentacao derivada dos slides originais de Virgilio Almeida
Outliers
Medidas observadas em experimentos tipicamente contem
outliers (i.e., valores muito fora do corpo da curva)
Medidas que no so uma caracterstica verdadeira do
sistema.
Erros podem ter ocorrido no processo experimental de
medio.
Comportamentos atpicos de usurios do sistema podem
existir (ex: um nerd que joga um game 15 horas
consecutivas, quando se est analisando tempos de
conexo a um provedor de servios)
Isso resulta no seguinte problema:
Devemos ou no incluir os outliers nas anlises que
estamos fazendo?
Apresentacao derivada dos slides originais de Virgilio Almeida
Como tratar os outliers?
1. Determine os outliers, analisando por exemplo os
grficos de pontos.
2. Verifique cuidadosamente os erros experimentais
3. Repita os experimentos com valores previsores para os
outliers e valores proximos a eles.
4. Decida se deve ou no incluir os outliers:
Verifique se os outliers so parte do sistema ou se so exceces
que podem ser desprezadas.
Analise os dados com e sem os outliers e veja o que faz mais
sentido.
Todas as anlises dependem da natureza do sistema em estudo.
Apresentacao derivada dos slides originais de Virgilio Almeida
Erros mais comuns nas anlises usando
regresses
Geralmente baseadas em atalhos ou simplificao
excessiva dos dados.
Realizada sem cuidados e tcnicas fundamentadas.
Falta de entendimento dos princpios fundamentais
de estatstica.
Falta de entendimento dos princpios fundamentais
do mtodo cientfico.
Apresentacao derivada dos slides originais de Virgilio Almeida
No verificao da linearidade
Desenhe o grfico de pontos
Se no for linear, verifique as possibilidades
curvilineares e suas transformaes.
O uso de uma regresso linear quando as relaes
entre resposta e previsores no so lineares um
ERRO!
Apresentacao derivada dos slides originais de Virgilio Almeida
Basear em resultados sem uma
inspeo visual
Sempre verifique o grfico de pontos, como parte das
anlises usando regresses.
Examine a linha de regresso prevista versus os
pontos reais obtidos pelo experimento.
Isso particularmente importante no caso de uso de
pacotes que fazem regresses automaticamente.
Apresentacao derivada dos slides originais de Virgilio Almeida
Atribuio de importncia aos valores
dos parmetros
Valores numricos da regresso dependem da escala das
variveis previsoras.
No devido ao fato de um valor ser pequeno ou grande
que necessariamente uma indicao de importncia.
Exemplo:
Converter segundos para microsegundos no muda
nada fundamental no problema
Mas muda a magnitude dos valores dos parmetros
associados.
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo
Tempo de CPU em segundos = 0.01*(# oper. E/S) +
0.001*(tamanho da memria em Mbytes)
Tempo de CPU em milisegundos = 10*(# oper. E/S) +
1*(tamanho da memria em Mbytes)
Valores absolutos dos parmetros podem ser enganadores!
A forma correta de comparar a significncia de um parmetro
da regresso atravs de seu intervalo de confiana.
Apresentacao derivada dos slides originais de Virgilio Almeida
Ausncia de clculo de Intervalos de
Confiana
As amostras das observaes medidas so
aleatrias.
Assim, a regresso executada nessas amostras gera
parmetros com propriedades aleatrias tambm.
Sem intervalos de confiana, impossvel entender o
significado e a confiana que se tem nos valores dos
parmetros.
Apresentacao derivada dos slides originais de Virgilio Almeida
Ausncia de clculo do Coeficiente de
Determinao (R
2
)
Sem o clculo de R
2
, difcil determinar quanto da
variao explicada pela regresso.
Apresentacao derivada dos slides originais de Virgilio Almeida
Uso Inadequado do Coeficiente de
Correlao
Coeficiente de determinao R
2
Coeficiente de correlao R
R
2
d o percentual da variacao que explicada pela
regresso, e isso diferente de R
Exemplo
se R 0.6, ento R
2
= 0.36
a regresso explica apenas 36% da variao nos
dados
no 60%!!
Apresentacao derivada dos slides originais de Virgilio Almeida
Uso de variveis previsoras altamente
correlacionadas
Se duas variveis previsoras so correlacionadas, o
uso de ambas variveis degrada a regresso.
Exemplo:
num servidor Web provvel haver correlao
entre tamanho de um arquivo e sua popularidade
assim, no use os dois num modelo de previso
de cache hit ratio
O exemplo mostra que necessrio conhecer bem
as variveis previsoras e suas possveis relaes
Apresentacao derivada dos slides originais de Virgilio Almeida
Uso de regresso muito alm do
intervalo de observao
A regresso baseada no comportamento observado de uma
amostra em particular (ou conjunto de amostras). Refere se ao
comportamento do sistema numa certa faixa de valores
mais seguro prever dentro de uma faixa compatvel com o
intervalo de valores observados na medio
Valores muito alm podem ser previstos?
Exemplos
Uma regresso do tempo de execuo de mdulos de cdigo
que so menores que o tamanho de memria disponvel, pode
no ser capaz de prever o tempo de mdulos que fazem muito
uso de memria virtual.
A previso do nmero de queries que chega numa mquina de
busca baseada numa regresso sobre valores de um log de
vrios dias pode no ser capaz de prever o que acontecer
meses a frente.
Apresentacao derivada dos slides originais de Virgilio Almeida
Uso de muitas variveis previsoras
O acrscimo de mais variveis previsoras no
necessariamente melhora a qualidade do modelo.
Pode-se criar problemas como o de multi-colinearidade
Quais variveis devem ento ser usadas?
o que estamos tentando aprender neste curso
Apresentacao derivada dos slides originais de Virgilio Almeida
Medindo um intervalo pequeno de valores
ou medindo intervalos no significativos
Uma regresso somente prev bem valores prximos do
intervalo observado de medioes.
Se no forem feitas medies dos intervalos mais comuns de
operao do sistema, a regresso no ir prever muita coisa.
Exemplos
Se muitos programas so maiores que a memria real
disponvel, ento medir aqueles que so menores, pode
ser um erro, pois fatores como overhead estariam sendo
ignorados quando fosse feita uma previso de programas
maiores.
Se o experimento mede os tempos de execuo de
queries de um conjunto de palavras pouco frequentes,
ento prever os tempos de palavras muito frequentes,
pode ser um erro, pois h efeitos como caching que no
estariam sendo considerados.
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 2
A Lei de Amdahl para operacoes de I/Os em sistemas de
computacao diz que a taxa de I/O e proporcional a velocidade do
processador. Para cada instrucao executada, ha um bit de I/O em
media.
Para validar a lei, os numeros de I/Os e as utilizacoes de CPU de um
numero de computadores foram medidos. Usando a taxa MIPS
nominal para o sistema e a sua utilizacao, a taxa de processamento
de instrucoes (em MIPS) e a taxa de I/O (em KB/s) foram
computados para um periodo. Os dados foram mostrados abaixo.
Voce consegue validar/refutar a Lei de Amdahl com os dados
abaixo?
Sistema 1 2 3 4 5 6 7 8 9 10
MIPS Usado 19.63 5.45 2.63 8.24 14 9.87 11.27 10.13 1.01 1.26
Taxa de I/O 288.6 117.3 64.6 356.4 373.2 281.1 149.6 120.6 31.1 23.7
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 2
Vamos assumir, por hora, o seguinte modelo curvilinear:
I/O rate = % (MIPS rate)
b
log(I/O rate) = log % + b log(MIPS rate)
Os parametros b
0
= log % e b
1
= b podem ser estimados via
regressao linear simples
Parametro Media Desvio Padrao CI 90%
b
0
1.423 0.119 (1.20, 1.64)
b
1
0.888 0.135 (0.64,1.14)
R2 = 0.84 -> boa regressao
Os dois coeficientes sao significativos com a confianca de 90%.
Alem disto, como o CI para b1 contem 1, podemos aceitar a hipotese
de que o relacionamento entre I/O rate e MIPS rate e linear.
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 3
Os resultados de uma regressao linear multipla baseada em nove
observacoes estao mostrados na tabela abaixo. Baseado nestes
resultados responda as perguntas a seguir.
j 1 2 3 4
b
j
1.3 2.7 0.5 5.0
s
bj
3.6 1.8 0.6 0.3
Ponto de Intersecao = 75.3
Coeficiente de correlacao multipla = 0.95
Desvio padrao dos erros = 12.0
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 3
Qual porcentagem da variacao e explicada pela regressao?
A regressao e significativa, com uma confianca de 90%?
R = 0.95 & R
2
= 0.95*0.95 = 0.9025
90.25% da variacao e explicada pela regressao
Desvio padrao dos erros s
e
= sqrt (SSE/n-k-1)
SSE = (n-k-1)* (s
e
)
2
= (9 5)*12*12 = 576
R
2
= SSR / SST = SSR / (SSR + SSE)
SSR/(SSR + 576) = 0.9025 & SSR = 519.84/0.0975 = 5331.69
MSR = SSR/k = 5331.69/4 = 1332.92
MSE = SSE/(n-k-1) = 576/4 = 144
MSR/MSE = 9.256
F-value (0.9,4,4) = 4.11 & sim, a regressao e significativa
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 3
Quais parametros sao significativos com uma confianca de 90%?
Calcular IC : b
j
t*s
bj
0.95 quantil da variavel t com n-k-1 (= 4) graus de liberdade = 2.132
CI para b
1
= 1.3 2.132*3.6 = (-6.38, 8.98) : nao e significativo
pois inclui zero.
CI para b
2
= 2.7 2.132*1.8 = (-1.14, 6.54) : nao e significativo
CI para b
3
= 0.5 2.132*0.6 = (-0.78, 1.7792) : nao e significativo
CI para b
4
= 5.0 2.132*8.3 = (-12.70,22.70): nao e significativo
Nenhum parametro e significativo com confianca de 90%
Apresentacao derivada dos slides originais de Virgilio Almeida
Exemplo 3
Qual o problema com a regressao e qual seria o seu proximo passo?
Pode ser um problema de multicolinearidade.
Testar correlacao entre varios pares de previsores.
Dentre os pares que tiverem alta correlacao, testar a regressao com
cada previsor separadamente e escolher aquele que resulta no melhor
R
2