Você está na página 1de 154

LUZIA VIDAL DE SOUZA

PROGRAMAO GENTICA E COMBINAO DE


PREDITORES PARA PREVISO
DE SRIES TEMPORAIS

Tese de doutorado apresentada como requisito


parcial obteno do grau de Doutora em
Cincias. Programa de Ps Graduao em
Mtodos Numricos em Engenharia
Programao
Matemtica,
Setores
de
Tecnologia e de Cincias Exatas, Universidade
Federal do Paran.
Orientadora: Profa. Dra. Aurora T. R. Pozo
Co-orientador: Prof. Dr. Anselmo C. Neto

Curitiba
Outubro 2006

TERMO DE APROVAO

LUZIA VIDAL DE SOUZA

PROGRAMAO GENTICA E COMBINAO DE PREDITORES PARA


PREVISO DE SRIES TEMPORAIS

Tese aprovada como requisito parcial para obteno do grau de Doutora em Cincias, no
Programa de Ps-Graduao em Mtodos Numricos em Engenharia Programao
Matemtica da Universidade Federal do Paran, pela seguinte banca examinadora:

Orientador:

______________________________________________
Profa. Dra. Aurora Trinidad Ramirez Pozo
Departamento de Construo Informtica, UFPR
______________________________________________
Prof. Dr.Anselmo Chaves Neto
Departamento de Estatstica, UFPR
______________________________________________
Prof. Dr. Joel M. Corra da Rosa
Departamento de Estatstica, UFPR
_____________________________________________
Prof. Dr. Leandro dos Santos Coelho
Engenharia de Produo e Sistemas, PUC-PR
____________________________________________
Profa. Dra. Silvia Modesto Nassar
Departamento de Informtica e Estatstica, UFSC-SC

Curitiba, 30 de outubro de 2006.

ii

Dedico este trabalho aos meus queridos filhos


Caroline e Gustavo e minha me Maria Vidal.

iii

AGRADECIMENTOS
Meu agradecimento especial professora Aurora Trinidad Ramirez Pozo, pela
orientao durante a realizao deste trabalho, pela confiana depositada em mim na escolha
do tema, e principalmente pelo companheirismo, encorajamento e dedicao ao meu trabalho
durante todas as fases do curso. Sua orientao foi preciosa, sem a qual a realizao deste
trabalho no teria sido possvel.
Ao professor Anselmo Chaves Neto, pela co-orientao deste trabalho, pelas valiosas
sugestes, e pelo acompanhamento constante na obteno dos resultados deste trabalho.
Ao professor Joel Corra da Rosa, por suas valiosas contribuies e atendimento s
dvidas que surgiram durante desenvolvimento desta tese.
Aos meus filhos Caroline e Gustavo, por compreenderem to bem minha dedicao ao
trabalho e todos os momentos de ausncia durante a realizao deste curso.
minha me, Maria Vidal de Souza, por todo apoio, compreenso e auxlio sempre
presentes em minha vida.
Ao meu amigo e companheiro Paulo Henrique Siqueira, pelo apoio, companheirismo e
por sua prontido em me ajudar em tudo quanto foi possvel para a realizao deste trabalho.
Aos meus amigos e companheiros de curso Sonia Isoldi Gama Muller, Ademir Alves
Ribeiro e demais colegas pelo apoio e companheirismo em grupos de estudo e seminrios.
Ao meu colega de trabalho e companheiro do curso de Mestrado Arinei Lindbeck por
suas preciosas contribuies em relao s dificuldades de programao encontradas durante a
fase de implementao computacional.

iv

Aos Alunos do Curso de Mestrado em Cincia da Computao: Eduardo Costa e


Homero de Cuffa, e especialmente ao aluno bolsista do PET/Informtica Fabiano Engler os
quais foram importantes colaboradores na fase de implementao dos algoritmos estudados.
Aos professores do curso: Maria Teresinha Arns Steiner, Celso Carnieri, Liliana M.
Gramani Cumin, Jair Mendes Marques, Mildred Ballin Hecke e Srgio Scheer, pelos
ensinamentos transmitidos durante o curso.
secretria do CESEC, Maristela Bandil, pela motivao e grande eficincia nos
servios prestados durante o curso.
Aos meus colegas do Departamento de Desenho, da UFPR, pela licena concedida e
pelo incentivo durante a realizao deste curso.
professora Simone da Silva Soria Medina, chefe do departamento de Desenho, pelo
apoio e pela concesso de espao e condies para a realizao deste trabalho.
todos os meus amigos que sempre estiveram presentes, me apoiando, dando foras e
compreendendo minha ausncia durante este perodo.
A todos, que de alguma forma contriburam para a realizao deste trabalho.

SUMRIO
LISTA DE TABELAS.......................................................................................................
LISTA DE QUADROS......................................................................................................
LISTA DE FIGURAS........................................................................................................
LISTA DE SIGLAS...........................................................................................................
RESUMO...........................................................................................................................
ABSTRACT.......................................................................................................................

ix
xi
xii
xiii
xiv
xv

1. INTRODUO.............................................................................................................
1.2 OBJETIVO...............................................................................................................
1.3 IMPORTNCIA DO TRABALHO........................................................................
1.4 DIFICULDADES ENCONTRADAS NO TRABALHO........................................
1.5 INOVAES PROPOSTAS NESTE TRABALHO...............................................
1.6 ESTRUTURA DO TRABALHO.............................................................................

1
2
3
4
5
6

2. REVISO DE LITERATURA......................................................................................
2.1 INTRODUO.......................................................................................................
2.2 BREVE HISTRICO DA ANLISE DE SRIES TEMPORAIS.........................
2.3 TRABALHOS RELACIONADOS..........................................................................
2.4 DEFINIES E OBJETIVOS DA ANLISE DE SRIES TEMPORAIS...........
2.4.1 Processos Estocsticos....................................................................................
2.4.2 Processo Estocstico Ergdico........................................................................
2.4.3 Processo Estocstico Estacionrio..................................................................
2.4.4 Srie Temporal Estacionria
.....................................................................
2.4.5 Mdia de um Processo Estocstico.................................................................
2.4.6 Autocovarincia do Processo Estocstico.......................................................
2.4.7 Varincia do Processo Estocstico..................................................................
2.4.8 Funo de Autocorrelao do Processo Estocstico.......................................
2.5 MODELOS E MTODOS DE PREVISO............................................................
2.5.1 Modelos Auto-Regressivos.............................................................................
2.5.2 Modelos de Mdias Mveis............................................................................
2.5.3 Modelos Auto-Regressivos e de Mdias Mveis (ARMA)............................
2.6 METODOLOGIA BOX & JENKINS .....................................................................
2.7 MTODOS DE PREVISO...................................................................................

8
8
9
10
13
14
14
15
15
15
16

3. MTODOS UTILIZADOS NA PREVISO DE SRIES TEMPORAIS....................


3.1 PROGRAMAO GENTICA..............................................................................
3.1.1 Descrio Geral do Algoritmo de Programao Gentica..............................
3.1.2 Representao dos Programas.........................................................................
3.1.3 Definio dos conjuntos de Funes e Terminais...........................................
3.1.4 Propriedades: Fechamento e Suficincia........................................................
3.1.5 Populao Inicial.............................................................................................
3.1.6 Funo de Aptido..........................................................................................
3.1.7 Mtodos de Seleo........................................................................................
3.1.8 Operadores Genticos.....................................................................................
3.1.9 Parmetros utilizados na Programao Gentica............................................

26
27
27
29
29
30
31
34
35
38
40

vi

17
18
19
20
21
23

3.1.10 Critrio de Parada.........................................................................................


3.2 EXEMPLO DO ALGORITMO DE PROGRAMAO GENTICA...................

41
41

4. CONJUNTO DE PREDITORES...................................................................................
4.1 BREVE HISTRICO DO ALGORITMO BOOSTING.........................................
4.2 ADABOOST PARA PROBLEMAS DE CLASSIFICAO BINRIO..............
4.3 BOOSTING PARA PROBLEMAS DE REGRESSO.........................................
4.3.1 O Algoritmo Adaboost.R................................................................................
4.3.2 O Algoritmo Adaboost.RT..............................................................................
4.3.3 O Algoritmo GPBoost....................................................................................
4.3.4 Exemplo do Algoritmo GPBoost....................................................................
4.4 ADAPTAO DO ALGORITMO BOOSTING UTILIZANDO COEFICIENTE
DE CORRELAO...............................................................................................
4.4.1 Algoritmo Boosting utilizando o Coeficiente de Correlao (BCI
Boosting Correlation Improvement).............................................................

46
46
47
49
50
52
54
55

5. TESTES DE HIPTESES.............................................................................................
5.1 TESTE t - DESEMPENHO DE ALGORITMOS................................................
5.2 COMPARAO DOS ERROS NO CONJUNTO DE TESTE..............................
5.3 DESEMPENHO DOS ALGORITMOS - TESTE ANOVA....................................
5.3.1 Teste F para comparar duas ou mais Mdias Populacionais..........................
5.3.2 Teste Tukey-Kramer.......................................................................................
5.3.3 Pressupostos para se utilizar a ANOVA.........................................................

63
63
65
66
66
68
69

6. EXPERIMENTOS E SIMULAES
6.1 EXPERIMENTO UTILIZANDO SRIES TEMPORAIS REAIS.........................
6.1.1 Configurao da Programao Gentica........................................................
6.1.2 Configurao do algoritmo GPBoost.............................................................
6.1.3 Configurao da metodologia Box & Jenkins...............................................
6.2 DESCRIO DOS EXPERIMENTOS...................................................................
6.2.1 Dados de Entrada...........................................................................................
6.2.2 Experimento I.................................................................................................
6.2.3 Experimento II...............................................................................................
6.2.4 Anlise do desempenho do algoritmo BCIGP utilizando o teste t.............
6.3 INTERPRETAO E ANLISE DAS SRIES FINANCEIRAS UMA
APLICAO REAL..............................................................................................
6.3.1 Descrio das sries financeiras utilizadas.....................................................
6.3.2 Retornos.........................................................................................................
6.3.3 Avaliao da estratgia de ao baseada nas previses.................................

70
70
71
72
73
73
73
74
76
78

7. SIMULAO MONTE CARLO


7.1 DESCRIO DA SIMULAO...........................................................................
7.1.1 Definio dos Parmetros..............................................................................
7.1.2 Espao Paramtrico das Estruturas AR(1) e MA(1)......................................
7.1.3 Espao Paramtrico das Estruturas AR(2) e MA(2)......................................
7.1.4 Espao Paramtrico da Estrutura ARMA(1, 1)..............................................
7.1.5 Simulao das Sries......................................................................................
7.1.6 Banco de Dados..............................................................................................

84
84
86
86
87
88
89
89

vii

58
59

78
79
80
81

7.2 EXECUO DO EXPERIMENTO........................................................................


7.2.1 Configurao da Programao Gentica e do GPBoost.................................
7.2.2 Ambiente Computacional...............................................................................
7.2.3 Anlise dos Resultados...................................................................................
7.3 EXPERIMENTO UTILIZANDO PESOS 2............................................................
7.4 CONCLUSES.......................................................................................................

90
90
90
91
99
104

8. EXTENSO DO MTODO BCI PROBLEMAS DE REGRESSO MLTIPLA


8.1 BREVE HISTRICO SOBRE PROBLEMAS DE REGRESSO........................
8.2 APLICAO DO MTODO BCI A PROBLEMAS DE REGRESSO..............
8.2.1 Descrio das Bases de Dados.......................................................................
8.2.2 Preparao dos Dados....................................................................................
8.2.3 Atualizao dos pesos do algoritmo BCI para problemas de regresso.........

106
106
107
108
109
109

9. CONCLUSO E TRABALHOS FUTUROS


9.1 CONCLUSO.........................................................................................................
9.2 FUTUROS TRABALHOS......................................................................................

112
112
113

REFERNCIAS.............................................................................................................
APNDICE A................................................................................................................
APNDICE B.................................................................................................................
APNDICE C.................................................................................................................

115
121
123
124

viii

LISTA DE TABELAS
TABELA 3.1 VALORES DE ENTRADA E SADA NO CONJUNTO DE TREINAMENTO
TABELA 3.2 PARMETROS DA PG.......................................................................................
TABELA 3.3 VALORES DE SADA E MELHORES INDIVDUOS ENCONTRADOS
NAS GERAES DE 0 A 3................................................................................
TABELA 4.1 PARMETROS PARA O GPBOOST
TABELA 4.2 - EVOLUO DOS PESOS NAS TRS PRIMEIRAS EXECUES DO
BOOSTING..........................................................................................................
TABELA 4.3 RESULTADOS OBTIDOS DAS EXECUES BOOSTING...........................
TABELA 6.1 BASES DE DADOS.............................................................................................
TABELA 6.2 BASES DE DADOS SRIES FINANCEIRAS...................................................
TABELA 6.3 - COMPARAO DAS PREVISES ARMA, PG E GPBOOST.........................
TABELA 6.4 - COMPARAO DO RMSE NO CONJUNTO DE TESTE PARA CADA
MTODO.............................................................................................................
TABELA 6.5 - COMPARAO DAS DIFERENAS ENTRE OS PARES DE
ALGORITMOS....................................................................................................
TABELA 6.6 RETORNO FINANCEIRO NO PERODO 110 DIAS........................................
TABELA 6.7 RETORNO FINANCEIRO ANUALIZADO.......................................................
TABELA 6.8 NMERO DE TRANSAOES NO PERODO..................................................
TABELA 7.1 NMERO DE PARMETROS E PARMETROS E SRIES..........................
TABELA 7.2 NMERO DE PARMETROS E PARMETROS E SRIES..........................
TABELA 7.3 MSE MDIO DAS 500 SRIES PARA A ESTRUTURA AR(1).....................
TABELA 7.4 MDIA DOS MSE DOS PARMETROS PARA CADA ESTRUTURA..........
TABELA 7.5 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A
ESTRUTURA ESTRUTURA MA(1)..................................................................
TABELA 7.6 VALOR-p AR(1) E AR(2) ..................................................................................
TABELA 7.7 VALOR - p MA (1) E VALOR - P MA (2)................................................
TABELA 7.8 VALOR - P ARMA (1,1) .................................................................................
TABELA 7.10 MSE MDIO PARA A ESTRUTURA MA(1) ATUALIZAO DE
PESOS 2...............................................................................................................
TABELA 7.11 - RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A
ESTRUTURA MA(1) PESOS 2......................................................................
TABELA 7.12 VALOR - p MA(1) PESOS 2 ...........................................................................
TABELA 8.1 CONJUNTOS DE DADOS..................................................................................
TABELA 8.2 NMERO E TIPO DE VARIVEIS...................................................................
TABELA 8.3 CONJUNTOS DE DADOS..................................................................................
TABELA 8.4 COMPARAO DO RMSE NOS 10 CONJUNTOS DE TESTE......................
TABELA C1 RESULTADOS DA DO MSE MDIO PARA AS 500 SRIES DA
ESTRUTURA MA(1) ..........................................................................................
TABELA C2 RESULTADOS DA DO MSE MDIO PARA AS 500 SRIES DA
ESTRUTURA AR(2) ..........................................................................................
TABELA C3 RESULTADOS DA DO MSE MDIO PARA AS 500 SRIES DA
ESTRUTURA MA(2) ..........................................................................................
TABELA C4 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A
ESTRUTURA AR(1) ..........................................................................................
TABELA C5 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A
ESTRUTURA AR(2) ..........................................................................................

ix

42
43
44
56
56
57
74
74
75
76
78
82
82
83
89
89
92
95
96
98
98
99
100
101
104
108
108
110
111
124
125
126
131
133

TABELA C6 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A


ESTRUTURA MA(2) ..........................................................................................
TABELA C7 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA
A ESTRUTURA ARMA(1,1)..............................................................................

135
137

LISTA DE QUADROS
QUADRO 4.1 ALGORTIMO ADABOOST........................................................................
QUADRO 4.2 ALGORITMO ADABOOST.R....................................................................
QUADRO 4.3 ALGORITMO ADABOOST.RT.................................................................
QUADRO 4.4 ALGORITMO BCI ........................................................................................
QUADRO 6.1 PARMETROS DE CONFIGURAO DA PG .................................
QUADRO 6.2 MELHOR INDIVDUO GERADO PELA PG......................................

xi

49
52
55
61
71
72

LISTA DE FIGURAS
FIGURA 2.1 EXEMPLO DE UMA SRIE TEMPORAL............................................
FIGURA 2.2 ESTRUTURA DE FUNCIONAMENTO DOS MODELOS ARMA......
FIGURA 3.1 ALGORITMO BSICO DE PROGRAMAO GENTICA...............
FIGURA 3.2 RVORE DE SINTAXE DA PROGRAMAO GENTICA..............
FIGURA 3.3 RVORE COM PROFUNDIDADE MXIMA QUATRO (4)
INICIALLIZADA PELO MTODO GROW...........................................
FIGURA 3.4 RVORE DE PROFUNDIDADE MXIMA TRS INICIALIZADA
PELO MTODO FULL...........................................................................
FIGURA 3.5 REPRESENTAO DO OPERADOR DE CRUZAMENTO DE UM
PONTO.....................................................................................................
FIGURA 3.6 REPRESENTAO DO OPERADOR DE MUTAO........................
FIGURA 3.7 - MELHOR INDIVDUO NA GERAO 0.............................................
FIGURA 3.8 - REPRESENTAO GRFICA DOS MELHORES INDIVDUOS
DAS GERAES 0-3..............................................................................
FIGURA 5.1 NVEL DE CONFIANA P E NVEL DE SIGNIFICNCIA ..............
FIGURA 6.1 COMPARAO DO RMSE DA PG E ARMA......................................
FIGURA 6.2 COMPARAO DO RMSE DA PG, GPBOOST, BCIGP E ARMA....
FIGURA 6.3 VALORES DE PREVISO OBTIDOS PELA PG E BCIGP PARA A
SRIE IPI.................................................................................................
FIGURA 6.4 RETORNOS DIRIOS DA IBOVESPA (03/01/1995 27/12/2000).....
FIGURA 7.1 FLUXOGRAMA DA SIMULAO MONTE CARLO.........................
FIGURA 7.2 REGIO DE ESTACIONARIDADE PARA OS MODELOS AR(1)
E MA(1)...........................................................................................................
FIGURA 7.3 REGIO DE ESTACIONARIDADE PARA UM MODELO AR(2)......
FIGURA 7.4 REGIO DE ESTACIONARIDADE PARA UM MODELO
ARMA(1,1) .......................................................................................................
FIGURA 7.5 COMPORTAMENTO DO MSE PARA OS MTODOS e136 ..........
FIGURA 7.6 COMPORTAMENTO DO MSE PARA OS MTODOS - e150............
FIGURA 8.1 PARTIO DO VETOR DE PESOS......................................................
FIGURA C1 COMPORTAMENTO DOS MTODOS PARA O 1 VALOR
PREVISTO e136 AR(2).........................................................................
FIGURA C2 COMPORTAMENTO DOS MTODOS PARA O
LTIMO VALOR PREVISTO e150 AR(2) ............................................
FIGURA C3 COMPORTAMENTO DOS MTODOS PARA O 1 VALOR
PREVISTO e136 MA(1) ............................................................................
FIGURA C4 COMPORTAMENTO DOS MTODOS PARA O
LTIMO VALOR PREVISTO e150 MA(1) ...........................................
FIGURA C5 COMPORTAMENTO DOS MTODOS PARA O 1 VALOR
PREVISTO e136 MA(2) ............................................................................
FIGURA C6 COMPORTAMENTO DOS MTODOS PARA O
LTIMO VALOR PREVISTO e150 MA(2)........................................
FIGURA C7 COMPORTAMENTO DOS MTODOS PARA O 1 VALOR
PREVISTO e136 ARMA(1, 1) ..................................................................
FIGURA C8 COMPORTAMENTO DOS MTODOS PARA O
LTIMO VALOR PREVISTO e150 ARMA(1, 1)...............................

xii

13
23
28
29
32
32
39
40
43
45
64
75
77
77
81
85
86
87
88
93
93
110
127
127
128
128
129
129
130
130

LISTA DE SIGLAS
PG
RMSE
MSE
CE
BCI
BCIGP
ARMA
AR
MA
UFPR
IA
RNA
AG
AE
ANOVA
CART

- Programao Gentica
- Median Square Error
- Median Square Error
- Computao Evolucionria
- Boosting Correlation Improvement
- Boosting Correlation Improvement Genetic Programming
- Autoregressive and Moving Average
- Autoregressive
- Moving Average
- Universidade Federal do Paran
- Inteligncia Artificial
- Redes Neurais Artificiais
- Algoritmos Genticos
- Algoritmo Evolucionrio
- Anlise de Varincia
- Classification and Regression Tree

xiii

RESUMO
Nas Cincias Econmicas, assim como na Engenharia e nas Cincias Naturais,
ocorrem fenmenos que dependem da observao de dados em intervalos de tempo, durante
um perodo especfico. Estas observaes de valores so denominadas de Sries Temporais.
As tcnicas disponveis para analisar estas observaes so denominadas de Anlise de Sries
Temporais. Este conjunto de tcnicas tem por objetivo construir um modelo com nmero
adequado de parmetros estimados de forma a ajustar o modelo srie temporal. A obteno
de um modelo adequado de extrema importncia, pois pode revelar algumas caractersticas
da srie temporal que ajudam na previso de seus valores futuro, ou simplesmente descrevem
seu comportamento. Esta habilidade de prever valores futuros para uma srie temporal tem
grande relevncia prtica. A construo de um modelo estatstico adequado para ajustar os
dados apresenta um grau de dificuldade razovel. Se o modelo escolhido no fornecer um
bom ajuste para a srie, a uma previso enganosa e ineficiente. Para a construo destes
modelos, novas tcnicas da rea de Inteligncia Artificial vm sendo aplicadas e tm
apresentado um bom desempenho, dentre estas tcnicas destacam-se: Redes Neurais
Artificiais, Algoritmos Evolucionrios Sistemas Nebulosos. A contribuio original deste
trabalho a proposta de uma metodologia de combinao de preditores utilizando os
coeficientes de correlao (BCI Boosting Correlation Improvement) entre os valores
observados e os valores previstos por um algoritmo bsico de previso. Aps vrios preditores
terem sido gerados, os mesmos so combinados entre si utilizando o coeficiente de correlao,
para gerar um nico preditor. A previso efetuada n passos frente. O mtodo testado em
vrios experimentos utilizando sries reais e sries reais financeiras. Com o objetivo de
validar a metodologia na Previso de Sries Temporais tambm realizada uma simulao
Monte Carlo, onde so geradas sries artificiais, distribudas em todo o espao paramtrico
das principais estruturas dos modelos ARMA, que so AR(1), AR(2), MA(1), MA(2) e
ARMA(1, 1). O banco de dados que foi gerado contm 214.000 sries temporais geradas
artificialmente, onde cada uma das sries possui 150 valores, dos quais 90% formam o
conjunto de treinamento ficando os outros 10% para o conjunto de teste. Os resultados obtidos
atravs do algoritmo BCI foram comparados aos resultados obtidos atravs dos modelos
ARMA, Programao Gentica e GPBoost. Todas as comparaes foram feitas no conjunto
de teste e mostraram que o algoritmo BCI fornece melhores resultados que os demais mtodos
analisados. O algoritmo proposto tambm testado nos problemas de regresso mltipla. Os
resultados obtidos so comparados outros mtodos de previso, tais como a metodologia
Box & Jenkins, a PG tradicional, e PG com Boosting. Na tarefa de regresso os resultados so
comparados aos resultados obtidos atravs de Redes Neurais Artificiais, Modelos de regresso
utilizando rvores de induo e Boosting. Para comparar o desempenho obtido pelo algoritmo
proposto e os demais mtodos, foram utilizadas diversas medidas estatsticas, tais como o
Erro Mdio Quadrtico, a Raiz Quadrada do Erro Mdio Quadrtico e os testes de hiptese
(Teste t; ANOVA e Teste Tukey). Nos testes realizados, a metodologia proposta fornece
previses com erros de previso menores do que os obtidos com a utilizao das outras
tcnicas.

xiv

ABSTRACT
In Economic Sciences, Engineering and Natural Sciences, there is a phenomena that
depends of the data observation in time intervals during a specific period. This collection of
observed data is called Time Series and the methodology to analyze this data is known as
Time Series Analysis. To analyze time series there is a techniques set used to construct
models with reduced number of estimated parameters to fit the observed data. This model
must be able to fit the data set in the best way. The model can show some characteristics of
the series that can help in the forecast of the future values of the time series or simply
describing its behavior. This ability to forecast the future values of the time series has a great
practical relevance. The task to obtain a good statistical model to fit the time series data is not
too easy. A bad choice of a model can lead a bad and inefficient prediction. In way to
construct these models, new techniques have been developed in the Artificial Intelligence and
the results have been good, between these techniques the most important are: Artificial Neural
Network, Evolutionary Algorithms and Hybrid Algorithms. The original contribution of this
work is the proposal of a new methodology (BCI Boosting Correlation Improvement) to
combine predictors, this is based in the correlation coefficients between the observed and
predicted values obtained from a basic prediction algorithm. After generate some predictors,
they are combined between itself using the correlation coefficients to get an only predictor,
that supplies better results than if is used only one predictor. The method is tested in some
experiments using real and financial time series. To validate this methodology in time series
forecasting, a Monte Carlo simulation was made. In this simulation, artificial series were
generated from the parametric space of the principal ARMA models, they are AR(1), AR(2),
MA(1), MA(2) e ARMA(1,1). The database generated was composed by 214.000 time series
with 150 observations each one. The training set is composed by 90% of date and the others
10% composes the test set. The results were compared out of sample and the BCI showed
better performance than ARMA methodology, Genetic Programming and GPBoost. The BCI
algorithm was also applied to multiple regressions problem and the results obtained from this
method were compared with the results from Artificial Neural Network, Model Tree and
Boosting. This comparison showed that the BCI supplied better results than other ones. In
way compare the performance of the BCI methodology with other methods, many statistical
tests were performed such as Median Square Error (MSE), Root Median Square Error
(RMSE) and hypothesis tests (t-Test, ANOVA and Tukey-Test). In all the tests the results
were compared out of sample and the BCI methodology showed to be able to improve the
forecasts.

xv

om o crescimento industrial, econmico e tecnolgico, a necessidade de se


efetuar previses que auxiliem no planejamento empresarial torna-se cada vez
mais importante. A previso de determinados fatos auxilia a tomada de decises
que podero melhorar o desempenho das empresas ou at mesmo minimizar prejuzos. Alguns
exemplos da utilidade das previses so:
A minimizao dos prejuzos causados por catstrofes, como enchentes ou
terremotos, caso estas possam ser previstas com um intervalo de tempo razovel;
Uma melhor taxa de retorno de investimento de aplicaes, caso os investidores
possuam uma previso do preo das aes;
Adequao da produo demanda do mercado atravs de um planejamento da
produo, tendo em mos a previso de utilizao, venda e consumo dos produtos.
Enfim, muitas so as formas de se utilizar a previso de modo a obter melhores
resultados em problemas reais.
Diversas tcnicas para realizar a previso de sries temporais so utilizadas, porm
todas possuem um erro de previso. O desafio , ento minimizar o erro de previso, construir
um modelo que melhor se ajuste aos dados e utilizar um nmero parcimonioso de parmetros.
A construo deste modelo no uma tarefa simples e muitas vezes conduz a uma previso
pouco eficiente. Os mtodos convencionais de previso fornecem resultados precisos quando

os dados estudados apresentam um comportamento linear, porm quando h um grau elevado


de no linearidade, estes mtodos passam a ser pouco eficientes (CORTEZ, 2002).
Os mtodos mais difundidos so os modelos Auto-Regressivos (AR), modelos de
Mdias Mveis (MA - Moving Average) e os modelos Auto-Regressivos e de Mdias Mveis
(ARMA Auto Regressive Moving Average). A metodologia Box & Jenkins (BOX &
JENKINS, 1970) a mais eficiente e a mais utilizada para a previso de sries temporais,
porm sua aplicao envolve uma teoria de alta complexidade e a tarefa de identificao do
melhor modelo a ser utilizado no simples. Alm disso, a estimao dos parmetros envolve
mtodos de programao no-linear. Outra dificuldade que se pode citar na aplicao desta
tcnica o tamanho da srie, que deve conter pelo menos 50 observaes [CHAVES, 1991].
Neste sentido, pesquisas vm sendo desenvolvidas, nas mais diversas reas, para se
obter modelos de previso com o menor erro possvel sem exigir interferncias de um
analista.

1.2 OBJETIVO

O objetivo geral deste trabalho apresentar uma metodologia alternativa para a previso
de sries temporais, utilizando um conjunto de tcnicas da Programao Gentica (PG) e em
seguida uma combinao de preditores (Boosting) com o intuito de minimizar os erros de
previso. Para atingir esta meta, os objetivos especficos so:

Generalizar a metodologia de forma a tratar sries temporais que apresentam


caractersticas diversas tais como: volatilidade1, tendncia ou sazonalidade;

Apresentar uma nova metodologia de combinao final de preditores, fornecendo


assim previses mais eficientes, especialmente quando a anlise dos resultados
feita fora da amostra, ou seja, no conjunto de teste;

Apresentar uma nova metodologia na atualizao dos pesos dos algoritmos de


boosting;

Aplicar o algoritmo proposto a sries financeiras, analisando tambm a estratgia


de ao dos investidores indicando qual o momento de movimentar as aes;

Volatilidade a varincia condicional de uma srie temporal.

Avaliar a metodologia proposta atravs de:


testes com sries reais financeiras e algumas sries reais encontradas da
literatura (MORETIN & TOLOI, 2004);
Simulao Monte Carlo analisanda todas as sries geradas dentro do espao
paramtrico da regio de estacionariedade da metodologia Box & Jenkins.

Verificar o desempenho do algoritmo proposto (BCI) quando aplicado aos


problemas de regresso mltipla;

1.3 IMPORTNCIA DO TRABALHO

Diversas organizaes esto interessadas em planejar sua estratgia de ao, baseadas


em previses efetivas que sejam capazes de fornecer dados suficientes para guiar o processo
de tomada de deciso. No planejamento de produo, pode-se prever o impacto dos recursos
financeiros, de marketing e de recursos humanos; nas aplicaes financeiras, pode-se prever
taxa de inflao, taxas de juros e valores de indicadores; previses sobre o nmero de
manchas solares na tomada de decises sobre misses espaciais e sobre a colocao de
satlites em rbita. Se as previses obtidas possuem um alto grau de confiabilidade, as
organizaes podero planejar seus empreendimentos de uma maneira mais segura e efetiva.
Embora os erros de previso sejam inevitveis, os mtodos de previso buscam minimizar
estes erros e fornecer dados que possam servir de suporte ao planejamento e estratgias de
ao.
Os mtodos convencionais de previso de sries temporais, na sua maioria, exigem a
estacionariedade da srie, o que no ocorre com as sries financeiras e econmicas, tornandose assim, difcil efetuar uma previso com valores mais prximos dos reais desejados.
Neste trabalho apresenta-se uma metodologia alternativa para a previso de sries
temporais, baseada na combinao de preditores, obtidos atravs de um algoritmo bsico de
previso. Para fazer esta combinao utiliza-se o coeficiente de correlao entre os valores
observados no conjunto de treinamento e os valores previstos. O objetivo de minimizar ou
at mesmo superar as dificuldades encontradas na aplicao de outras tcnicas e mtodos de

previso, especialmente quanto dificuldade da obteno de modelos adequados s sries no


estacionrias e que apresentem um alto grau de volatilidade.

1.4 DIFICULDADES ENCONTRADAS NO TRABALHO

Aps o algoritmo proposto ter sido aplicado com sucesso em experimentos utilizando
algumas sries reais, verificou-se a necessidade de estudar o seu comportamento na previso
de outros tipos de sries. Para isto foi escolhido trabalhar com sries artificiais. Foi ento
realizada uma simulao Monte Carlo, na qual foram geradas sries sintticas pertencentes
estrutura ARMA.
Na gerao destas sries foi considerado todo o espao paramtrico das estruturas
mais utilizadas no estudo de sries temporais, que so as estruturas AR(1), AR(2), MA(1),
MA(2) e ARMA(1,1). O espao paramtrico de estacionariedade de cada uma destas
estruturas foi dividido com incremento de 0,1 unidades nos eixos x e y. Seguindo esta
metodologia, foram geradas 214.000 sries com 150 observaes cada uma, tendo sido
utilizada uma semente aleatria para a PG e dez execues do algoritmo de Boosting. O
detalhamento desta simulao apresentado no captulo V desta tese. Para a execuo de todo
este banco de dados, foi necessria a otimizao de utilizao dos programas desenvolvidos
de forma a obter os resultados num perodo de tempo vivel. Foi utilizado um grupo de
computadores e todo o processo foi gerenciado de forma que nenhum dado fosse perdido. Os
dados foram processados utilizando um grupo de 64 computadores pertencentes ao cluster da
Universidade Federal do Paran (UFPR).
Os estudos realizados na busca de uma nova forma de atualizao dos pesos do
algoritmo de Boosting e da combinao final dos preditores, de modo a obter previses mais
precisas, no foi uma tarefa simples, j que a PG no considerada um algoritmo base2, sendo
assim maior a dificuldade de melhoria nos resultados obtidos pela aplicao da PG
tradicional.
Para se chegar a uma boa definio dos parmetros a serem utilizados, tais como
nmero de sementes iniciais da PG, nmero de variveis a serem utilizadas, taxas de
2

Os algoritmos de Boosting so em geral aplicados juntamente com algoritmos fracos ou base da rea de
Aprendizado de Mquina.

aplicao dos operadores genticos e nmero de execues do algoritmo boosting a serem


utilizados, foi baseada na realizao de muitos experimentos. Na fase de anlise dos
resultados e verificao da relevncia do algoritmo proposto, foram realizados diferentes
testes estatsticos para a validao da metodologia proposta. O detalhamento destes testes
encontra-se no captulo V desta tese.
A implementao do mtodo para problemas de regresso multivariada exigiu vrias
modificaes na metodologia proposta, de forma a adapt-la a problemas que possuem mais
de uma varivel de entrada.

1.5 INOVAES PROPOSTAS NESTE TRABALHO

A previso de todas as sries artificiais obtidas atravs da simulao Monte Carlo,


utilizada neste trabalho, variando os parmetros das estruturas AR(1), AR(2), MA(1), MA(2)
e ARMA(1,1) nos seus respectivos espaos paramtricos efetuando a comparao atravs de 4
diferentes mtodos.
Diversas adaptaes foram realizadas para a utilizao das tcnicas de Boosting e da
PG associadas na Previso de Sries Temporais. A tcnica de Boosting foi at ento, utilizada
somente para problemas de regresso e classificao.
A maior contribuio deste trabalho se d na apresentao de uma nova metodologia
para o algoritmo de Boosting, a qual baseada no coeficiente de correlao entre os valores
observados no conjunto de treinamento e os valores previstos pela PG.
Em sua maioria, os algoritmos de Boosting existentes, so aplicados problemas de
classificao. Poucos trabalhos na rea de regresso tm sido realizados utilizando estes
algoritmos, dentre os quais pode-se citar Drucker (1997). Assim, foi realizada uma extenso
da metodologia problemas de regresso mltipla, para analisar o desempenho do algoritmo
proposto.
A acurcia do algoritmo proposto considerada satisfatria, pois apresentou bons
resultados quando comparado aos resultados obtidos atravs de outras metodologias
encontradas na literatura. A maioria dos mtodos existentes apresenta bom desempenho

somente no conjunto de treinamento e quando aplicados ao conjunto de teste, as taxas de erro


aumentam substancialmente.

1.6 METODOLOGIA UTILIZADA NA PESQUISA E ESTRUTURA DO TRABALHO

Nesta seo so apresentadas a metodologia utilizada nesta pesquisa, bem como a


estrutura do trabalho. A primeira etapa da realizao desta pesquisa, apresentada no captulo
II, o estudo terico sobre a Anlise de Sries Temporais e os mtodos de previso clssicos
utilizados. Neste captulo tambm apresentado um breve histrico sobre Previso de Sries
Temporais e os trabalhos mais recentemente publicados nesta rea. A metodologia de
previso clssica escolhida para ser comparada aos novos mtodos de previso a
metodologia Box & Jenkins. Os modelos utilizados so os modelos Auto-Regressivos (AR),
de Mdias Mveis (MA) e os modelos mistos Auto-Regressivos e de Mdias Mveis
(ARMA).
No captulo III apresentada a tcnica de Programao Gentica e sua adaptao para
a utilizao em problemas de Previso de Sries Temporais. No captulo IV apresentado um
estudo terico sobre combinao de preditores utilizando o algoritmo Boosting e so
apresentadas as vrias verses existentes deste algoritmo. Na concluso do captulo e dos
estudos tericos apresentada a nova metodologia do algoritmo de Boosting, contribuio
principal desta tese. Este novo algoritmo, para a combinao de preditores, utiliza os
coeficientes de correlao entre os valores observados e os valores previstos por algum
preditor bsico, esta nova tcnica e os algoritmos so detalhados.
Para a verificao do desempenho do algoritmo proposto, so apresentados no
captulo V os testes de hiptese, o teste t e de Anlise da Varincia (ANOVA). Para a
validao da metodologia proposta so apresentados no captulo VI os experimentos
realizados. A partir do primeiro experimento, realizado com previso de sries reais, foram
definidos os parmetros para a Programao Gentica e o nmero de algoritmos Boosting que
so necessrios para a obteno de melhorias nos resultados obtidos, ao se utilizar a
combinao de preditores. No segundo experimento os mtodos clssicos de previso so
comparados aos obtidos pelo algoritmo proposto nesta tese (BCI Boosting Correlation
Improvement), utilizando a raiz quadrada do erro quadrtico mdio (RMSE) e tambm

fazendo a anlise do valor-p obtido atravs do teste t. Com base na anlise dos resultados
obtidos no captulo VI, realizada uma Simulao Monte Carlo para a verificao do
desempenho do algoritmo proposto numa base de dados maior. Para realizar esta simulao
so geradas sries artificiais analisando o espao paramtrico da regio de estacionariedade
das estruturas AR(1), AR(2), MA(1), MA(2) e ARMA(1, 1). Para cada srie gerada, feita a
previso n passos frente, utilizando o modelo ARMA(p, q) atravs do qual a srie gerada;
o algoritmo da PG tradicional; o algoritmo de Boosting que utiliza a PG como algoritmo base
(GPBoost) e finalmente o algoritmo proposto nesta tese (BCIGP) que tambm utiliza como
algoritmo bsico a PG. Os resultados so comparados utilizando o erro mdio quadrtico
(MSE), o teste t e ANOVA.
Tendo em vista que o algoritmo de Boosting um algoritmo que pode ser utilizado
no somente para previso de sries temporais, como tambm para problemas de regresso
multivariada, realizado um experimento utilizando o algoritmo BCI para este tipo de
problema. O detalhamento deste experimento encontra-se no captulo VIII, desta tese.
Finalmente, no captulo IX so apresentadas as concluses e sugestes para futuros trabalhos.

este captulo apresentada uma breve introduo sobre a Anlise de Sries


Temporais. Alm disso, um histrico no qual so citados alguns dos principais
trabalhos encontrados na literatura sobre Anlise de Sries Temporais e
trabalhos relacionados ao tema desta tese.

2.1 INTRODUO

O principal objetivo da Anlise de Sries Temporais prever valores futuros da srie,


que podem ser: a curto prazo, como no caso de vendas e produo ou estoque; ou a longo
prazo, como para sries populacionais de produtividade e outros (MORETTIN; TOLOI,
1985). A tomada de decises baseada em previses abrange vrias reas de Gesto, tais como:
Marketing, Produo, rea Financeira, Gesto Empresarial e Recursos Humanos
(MAKRIDAKIS; WHEELWRIGHT, 1989). As empresas devem tomar o cuidado de utilizar
as previses como base de suas decises, considerando que as mesmas esto sujeitas erros
de previso inerentes qualquer experincia aleatria. Qualquer que seja a metodologia
utilizada o objetivo minimizar estes erros de previso (CORTEZ, 2002).

Cortez cita que: O desejo de compreender o passado e prever o futuro impulsiona a


procura por leis que expliquem o comportamento de certos fenmenos ou acontecimentos. Se
as equaes que os determinam so conhecidas, possvel utilizar as mesmas para prever o
resultado de um determinado experimento, desde que sejam conhecidas as condies iniciais.
Na ausncia de regras que definam o comportamento de um sistema, procura-se determinar o
seu comportamento futuro a partir de observaes concretizadas no passado.
Uma das tcnicas mais comuns para efetuar previses aquela baseada em
observaes cronologicamente ordenadas da varivel em questo (CHATFIELD, 2000).
Uma previso uma manifestao relativa a sucessos ou insucessos desconhecidos em
um futuro determinado (BARBANCHO, 1970). A previso no constitui um fim em si, mas
um meio de fornecer informaes e subsdios para uma conseqente tomada de decises,
visando atingir determinados objetivos.

2.2 BREVE HISTRICO DA ANLISE DE SRIES TEMPORAIS

Em geral, os mtodos de previso partem de valores passados para prever valores


futuros. At 1920, a previso era efetuada atravs de extrapolao simples de um valor global,
ajustado em funo do tempo. S em 1927, Yule criou o modelo Auto-Regressivo (AR), onde
o valor previsto dependia de valores passados. Por duas dcadas seguintes, os pesquisadores
da rea de Estatstica, acreditaram que o comportamento de uma srie dependia dos modelos
lineares e do rudo. Com o passar do tempo, porm, percebeu-se que modelos lineares no
eram suficientes para a anlise de Sries Temporais, j que a maioria das sries reais
apresentam fortes tendncias de no linearidade (CHAVES, 1991).
A partir de 1950, novos estudos foram realizados na rea da Previso de Sries
Temporais. Nesta poca foi criada a tcnica do Alisamento Exponencial, que exigia poucos
clculos e era de fcil utilizao. Com o advento do computador nos anos 50, houve uma
revoluo nos mtodos de previso.
Em 1976, surgiu a metodologia Box & Jenkins, trata-se de uma tcnica completa de
identificao do modelo que melhor se ajusta aos dados, de estimao dos parmetros e da
verificao da validade do modelo empregado. Esta tcnica fornece previses atravs de um
modelo linear probabilstico, embora apresente algumas restries de utilizao, tais como o

10

tamanho da amostra (que deve ser de no mnimo 50 observaes) e a imprescindvel


interferncia de um analista, na fase de identificao do modelo (CHAVES, 1991).
Desde ento, muitas tcnicas tm sido testadas com o intuito de se efetuar previses
mais precisas e preferencialmente automatizadas. Muitos estudos na rea da Inteligncia
Artificial (IA) foram dirigidos a este fim. Modelos inspirados na natureza, como Redes
Neurais Artificiais (RNA), Algoritmos Genticos (AG) e Algoritmos Evolutivos (AE) e,
dentre estes, a Programao Gentica (KABOUDAN, 2002), apresentaram resultados
promissores nesta rea.

2.3 TRABALHOS RELACIONADOS

Alguns dos trabalhos encontrados na literatura que esto relacionados com o presente
trabalho so o de Povinelli (1999), que utiliza conceitos de Minerao de Dados para analisar
os dados de uma Srie Temporal e identificar eventos3 que possam ser significativos nos
dados observados. O autor utilizou conceitos bsicos de Algoritmos Genticos, compostos
com uma busca Monte Carlo para gerar a populao inicial para o AG. Esta tcnica
denominada TSDM (Time Series Data Mining), cria um conjunto de mtodos que revelam
padres temporais escondidos que so caractersticos e preditivos de eventos em uma Srie
Temporal. O mtodo foi aplicado com sucesso em Sries Temporais complexas e no
estacionrias e teve sua aplicao principal no domnio das sries financeiras.
Kaboudan (1999) apresentou um trabalho no qual utilizou a Programao Gentica
para estimar a previsibilidade de sries temporais de ndices financeiros de bolsa de valores.
Procurou encontrar o melhor modelo de ajuste para as mesmas usando PG e minimizando a
soma dos erros quadrticos. Sua mtrica de previsibilidade foi estabelecida com base na
comparao da soma dos erros quadrticos entre a srie original e o resultado obtido pela PG.
Kaboudan (2000) utilizou a PG na previso de Sries Temporais Reais, como a
quantidade de manchas solares. O autor criou um software (TSGP)4, que realiza previses de
sries temporais utilizando a PG e seus resultados so comparados aos resultados obtidos

3
4

Evento uma ocorrncia importante; por exemplo numa srie temporal ssmica, um terremoto um evento.
TSGP fonte: http://bulldog2.redlands.edu/fac/mak_kaboudan/

11

utilizando os modelos ARMA e os erros de previso obtidos atravs da PG mostram erros de


previso menores. Vale salientar que em seu trabalho, Kaboudan utilizou a Programao
Gentica pura; j a inteno neste trabalho utilizar, alm do algoritmo da Programao
Gentica, algumas tcnicas de combinao de preditores na tentativa de melhorar os
resultados ainda mais, ou seja, reduzir os erros de previso.
Duan (2001) props uma nova mtrica para medir a previsibilidade de uma Srie
Temporal, baseado no trabalho de Kaboudan (2000) e o aplicou ao investimento em aes.
Seu trabalho uma extenso do trabalho de Kaboudan e supera algumas limitaes daquele
trabalho como a de que o valor da mtrica depende do tamanho da srie.
Cortez (2002) props uma abordagem hbrida entre Programao Gentica e Redes
Neurais na previso de sries temporais, em sua tese de doutorado. Os resultados foram
comparados com mtodos de previso tradicionais, como alisamento exponencial e a
metodologia Box & Jenkins, tendo concludo que os modelos inspirados na natureza
produzem melhores resultados.
Recentes publicaes na rea de Aprendizado de Mquina mostram que efetuando
uma combinao de preditores, pode-se gerar melhores resultados do que a utilizao de um
nico preditor. Uma das mais conhecidas tcnicas o Boosting. Em seu trabalho, Paris;
Robilliard; Fonlupt (2001) propem a utilizao do algoritmo de Boosting juntamente com a
Programao Gentica. Esta tcnica denominada de GPBoost, que utiliza a idia de
combinar classificadores atravs de pesos na busca de um classificador melhor, fornecendo
resultados melhores do que os obtidos atravs da PG tradicional. O algoritmo foi testado em
problemas binrios e de regresso. Ainda no h trabalhos referentes utilizao do Boosting
na combinao de modelos de Previso de Sries Temporais. Outros trabalhos relacionados
tcnica de Boosting so apresentados no captulo IV.
Um trabalho sobre a Seleo de Modelos, publicado por Santos; Ludemir e Prudncio
(2004) prope formar um ranking de algoritmos candidatos a solucionar um problema com
base nas suas informaes de desempenho em problemas anteriores. O algoritmo Zoomed
Ranking composto de duas fases; na primeira fase selecionado um sub-conjunto de
problemas similares ao problema em questo e na segunda fase gerado o ranking dos
modelos candidatos, baseados em seu desempenho. O algoritmo foi aplicado seleo de
modelos para a Previso de Sries Temporais onde o principal fator era a preciso da
previso. O mtodo Zoomed Ranking, originalmente proposto para seleo de algoritmos de

12

classificao, utiliza as informaes de desempenho dos modelos candidatos em sries


anteriormente processadas na gerao de ranking desses modelos. Sua contribuio se d na
rea de Meta-Aprendizado e na Previso de Sries Temporais.
Uma outra abordagem feita na combinao de modelos para Previso de Sries
Temporais por Zou e Yang (2004), que prope uma combinao convexa de modelos
candidatos soluo do problema ao invs de utilizar um nico modelo. A idia que,
quando existe muita incerteza na escolha do melhor modelo, a combinao de vrios deles
poder reduzir a instabilidade da previso e, portanto, melhorar a preciso da predio. Ele
prope um algoritmo, AFTER, no qual os pesos so seqencialmente atualizados aps cada
observao adicional. O mtodo foi estudado teoricamente por Zou e Yang (2004) e esse
estudo mostrou que modelos combinados produzem melhores taxas de convergncia do que
as encontradas por modelos individuais. Atravs de seus experimentos, afirma que no uma
boa idia combinar cegamente, todos os possveis modelos disponveis, mas analis-los
preliminarmente e criar uma lista com os melhores modelos disponveis.
Em 2003, Hui publicou um trabalho no qual analisava a performance da Programao
Gentica na anlise de sries temporais, construindo um programa capaz de produzir
indivduos que fornecessem uma previso para aplicaes financeiras futuras baseadas em N
perodos passados, onde N seria uma varivel a ser definida pelo usurio. Tendo realizado
vrias experincias variando N e o tamanho da populao, chegou a uma configurao capaz
de produzir indivduos que forneciam previses razoveis, porm considerando a previso um
passo frente.
O primeiro experimento realizado nesta tese, utilizou a PG para analisar o seu
desempenho na Previso de Sries Temporais, utilizando algumas sries reais encontradas na
literatura. Os resultados obtidos mostraram a boa performance da PG na previso de valores
futuros das sries, fornecendo erros de predio menores do que os obtidos por modelos
tradicionais (SOUZA; COSTA; POZO, 2005a).
Souza, Costa e Pozo (2005b) realizaram um trabalho de comparao entre o
desempenho da PG quando comparada aos mtodos de Alisamento Exponencial, Tendncia
Polinomial e com os modelos ARMA, tendo obtido resultados com erros de previso
menores, utilizando a metodologia proposta.

13

2.4 DEFINIES E OBJETIVOS DA ANLISE DE SRIES TEMPORAIS

Uma Srie Temporal qualquer conjunto Z de observaes ordenadas no tempo,


Z = {Zt, t = 1, 2,...,N}
onde t o ndice de tempo e N o nmero de observaes.
Pode-se citar como exemplos de Sries Temporais:

consumo de Energia Eltrica de uma residncia;

valores mensais de vendas de veculos no Brasil;

ndices dirios de bolsa de valores, registro de mars, e outros.

As Sries Temporais podem ser contnuas ou discretas. No caso de um conjunto de


dados com valores contnuos, este deve ser discretizado no tempo e com intervalos iguais
(MORETTIN; TOLOI, 1985).
Na figura (2.1) apresentado um exemplo de uma Srie Temporal que representa o
consumo dirio de energia eltrica na cidade de Curitiba, as observaes so dirias e tomadas
de 15 em 15 minutos, no ms de janeiro de 2005.

Consumo de Energia
em Kw

Consumo Energia Eltrica


Dados observados de 15 em 15 minutos - janeiro/2005
120000
100000
80000
60000
40000
20000
0
0

30

60

90

120

150

180

210

240

270

300

tempo
Consumo Energia Eltrica

FIGURA 2.1 EXEMPLO DE UMA SRIE TEMPORAL

14

Os principais objetivos da Anlise de Sries Temporais so (MORETTIN; TOLOI;


1985):

identificar o mecanismo gerador da srie;

descrever o comportamento da srie, verificando a existncia de tendncia e


ciclos de variaes sazonais;
procurar periodicidades relevantes nos dados;
encontrar um modelo matemtico que seja capaz de efetuar previso de valores
futuros das sries.
As definies dadas a seguir so necessrias ao estudo e Anlise de Sries Temporais.

2.4.1 Processos Estocsticos

Uma srie temporal uma observao de um processo estocstico. Suponha ento,


uma amostra de valores observados de tamanho T da varivel aleatria Zt, tal que: {Z1, Z2, ...,
Zt} e considere uma coleo de variveis independentes e identicamente distribudas t tal que:
{ 1, 2, ..., t } t tem distribuio normal com mdia 0 (zero) e varincia 2 (t ~ N(0, 2 )),
ento t considerado um processo Gaussiano com rudo branco. A seqncia de valores
observados, Zt, representa uma srie temporal. Desta forma, uma srie temporal uma
realizao de um processo estocstico (MORETTIN & TOLOI, 2004).

2.4.2 Processo Estocstico Ergdico

A caracterizao de um Processo Estocstico (PE) exige o conhecimento de todas as


suas funes amostras (realizaes, trajetrias). Isto permite determinar a funo da mdia,

(t) e a funo de autocorrelao, (t) do processo. Quando estes parmetros so


determinados a partir de apenas uma realizao (funo amostra), este processo um processo
Ergdico.

15

2.4.3 Processo Estocstico Estacionrio

Considere um PE, Z(w, t) e considere os instantes t1, t2, ..., tn1 pertencentes ao conjunto
de instantes T, se para qualquer nmero n de variveis aleatrias Z1, Z2, ..., Zn a funo da

[ ]

mdia, (t) = E[Zt] = e E Z t2 < , ou seja, a esperana finita e a funo de

[(

autocovarincia, (t1 ,t k ) = E Z t + k (Z t ) = k uma funo da defasagem k, ento o PE


denominado estacionrio no sentido amplo.

2.4.4 Srie Temporal Estacionria

Uma srie temporal dita estacionria quando possui mdia e varincia constantes e a
funo de autocovarincia entre dois perodos distintos depende apenas da defasagem de
tempo (lag) entre os perodos, como pode ser visto na equao (2.1):

E (Z t ) = ; E Z t

)2 = 2 < e E (Z t )(Z t +k ) = k , t T

(2.1)

2.4.5 Mdia de um Processo Estocstico

A mdia de um PE representada por (t) = E [Z(t)], t T e se o processo


estacionrio, tem-se que (t) = E [Z(t)] = . A mdia pode ser estimada conforme equao
(2.2).
n

Zt =

Zt

t =1

(2.2)

16

2.4.6 Autocovarincia do Processo Estocstico

A funo de autocovarincia do processo do PE Z(w, t), representada por k (ordem k)


o momento central conjunto das variveis aleatrias Zt e Zt+k, e calculada conforme
equao (2.3), tal que:

k = E [(Z t (t ))(Z t + k (t + k ))]

(2.3)

onde z t a observao no instante t e z a mdia da amostra. O estimador para a


autocovarincia dado pela equao (2.4).

k =

1
n

n
t =1

( zt z )( zt +k z )

(2.4)

2.4.7 Varincia do Processo Estocstico

A varincia do PE, Z(w, t), representada por E (Z t )2 = 2 = 0 obtida da funo


de autocovarincia quando k = 0 e pode ser calculada atravs do seu estimador, conforme
equao (2.5).

0 =

1 n
(zt z )2 = z2
n t =1

(2.5)

2.4.8 Funo de Autocorrelao do Processo Estocstico

A funo de autocorrelao do PE, Z(w, t), representada por k , para a ordem k, a


razo, k =

k
entre a autocovarincia de ordem k do PE, k , e a varincia do processo, 0 .
0

O estimador para esta funo dado pela equao (2.6).

17

k =

(zt z )(zt +k z )

t =1

(zt z )

(2.6)

t =1

2.5 MODELOS E MTODOS DE PREVISO

Um modelo uma descrio de uma srie temporal e a forma de utilizao deste


modelo depende do objetivo da anlise. Nem sempre um modelo conduz a uma boa frmula
de previso. Muitas vezes os valores estimados apresentam valores muito distantes da
realidade, o erro de previso a quantificao desta distncia.
Para ter um controle destes erros importante que se defina uma funo de perda,
sendo que a mais utilizada a do erro quadrtico mdio (MSE - Mean Square Error)
(MORETTIN; TOLOI, 1985). Os erros de previses so causados, essencialmente, pela falta
de confiabilidade dos dados histricos e pela falta de um modelo que possua um melhor
ajuste, considerando a instabilidade do mercado (CORRA; GIANESI; CAON, 2000).
A preciso da previso fortemente influenciada pelas caractersticas das observaes
realizadas e tambm pelo horizonte de previso. A combinao de previses de mais de um
modelo aumenta a confiabilidade da predio (MAKRIDAKIS; WHEELWRIGHT, 1989).
Uma das consideraes mais frequentes a respeito de uma srie temporal a de que ela
seja estacionria, ou seja, ela se desenvolve no tempo aleatoriamente ao redor de uma mdia e
varincia constantes, refletindo alguma forma de equilbrio estvel (MORETTIN; TOLOI,
1985).
Na prtica, no entanto, as sries temporais apresentam alguma forma de no
estacionariedade. As sries econmicas apresentam em geral tendncias, sendo o caso mais
simples aquele em que a srie flutua ao redor de uma reta, com inclinao positiva ou negativa

(tendncia linear). Pode-se ter, tambm, uma forma de no estacionariedade explosiva, como
o crescimento de uma colnia de bactrias. Alguns dos mtodos estatsticos para Anlise ou
Previso de Sries Temporais exige que a srie seja estacionria, caso contrrio h

18

necessidade de se transformar os dados originais atravs de: diferenas sucessivas5 ou


transformaes de variveis, at que se obtenha uma srie estacionria. Em geral suficiente
se tomar uma ou duas diferenas para que a srie se torne estacionria (MORETTIN; TOLOI,
2004).
A seguir so brevemente descritos os modelos Auto-Regressivos (AR), os modelos de
Mdias Mveis (MA), os modelos mistos Auto-Regressivos e de Mdias Mveis (ARMA).

2.5.1 Modelos Auto-Regressivos

Um modelo auto-regressivo de ordem p, AR(p),

pode ser representado

matematicamente pela expresso (2.7):


Z t = + 1Z t 1 + 2 Z t 2 + ... + p Z t p + at

(2.7)

Zt - valor observado da srie temporal no instante t;

i - representa o i-simo parmetro auto-regressivo a ser estimado, i = 1, 2, ..., p;

at rudo branco, ou seja, at ~ N 0 , a2 no instante t;

at-1 rudo branco, ou seja, at ~ N 0 , a2 no instante t-1;


valor constante

A expresso (2.7) uma soma ponderada de valores passados, adicionados a um rudo


aleatrio e a um valor constante .
A funo de autocovarincia do processo AR(p), considera o modelo em funo dos
desvios e da mdia e dada pela expresso (2.8):

k = 1 k 1 + 2 k 2 + ... + p k p

(2.8)

A mdia para a estrutura AR(p) obtida, tomando-se a esperana condicional do


processo Zt, e est representada pela expresso (2.9).

(2.9)

1 1 2 ... p

A expresso da varincia para a estrutura AR(p) dada pela equao (2.10):

Diferena sucessiva - 1 diferena: Z ( t ) = Z ( t ) Z ( t 1 ) ; 2 diferena:

2 Z (t ) = [Z (t )]

19

0 = w2 =

a2
1 1 1 2 2 ... p p

(2.10)

onde i a funo da autocovarincia do processo AR(p).


O caso mais simples de um modelo auto-regressivo de ordem p = 1 o AR(1),
representado pela equao (2.11):
Zt = + 1Z t 1 + at

(2.11)

onde o valor de Zt, depende apenas de Zt-1 e do rudo no instante t e considerando o termo
constante .
Os modelos AR mais utilizados so os de ordem 1 e 2 (modelos parcimoniosos)
(MAKRIDAKIS; WHEELWRIGHT; MCGEE, 1983). Se os valores da srie puderem ser
representados na forma dos modelos AR(p), aps ser identificada a estrutura do processo
gerador da srie e estimados os parmetros, o modelo ser utilizado para prever valores
futuros da srie analisada.

2.5.2 Modelos de Mdias Mveis

Um modelo de mdias mveis um modelo que efetua uma mdia ponderada de


valores dos rudos, observados nos perodos precedentes. O modelo de ordem q, MA(q),
representado pela expresso (2.12):
Z t = + at 1at 1 2 at 2 ... q at q

(2.12)

onde: Zt valor da srie temporal no instante t;

- termo constante da srie (nvel);

i i-simo parmetro de mdia mvel;


at rudo branco no instante t.

A mdia do processo MA(q) dada pela equao (2.13):

= E (Z t ) =

(2.13)

A funo de autocovarincia do processo MA(q) dada pela expresso (2.14):

k = k +

qk
l =1

l l + k a2 , k =0, 1, 2, ..., q

(2.14)

20

a varincia do processo dada pela equao (2.15), onde a2 a varincia de at:

0 = 0 +

l l a2 = 1 + 12 + 22 + ... + q2 a2

l =1

(2.15)

e a funo de autocorrelao dos modelos MA(q) dada pela equao (2.16):

k
=
k = 0

k +

q k
l =1
q

l l +k

1 + l2
l =1

, k = 1,2 ,...,q

(2.16)

0, k > q

As previses podem ento, ser geradas por este modelo, desde que os valores da srie
estejam bem ajustados por ele.

2.5.3 Modelos Auto-Regressivos e de Mdias Mveis (ARMA)

A combinao de modelos auto-regressivos e de mdias mveis pode conduzir a um


ajuste mais parcimonioso, ou seja, que contenha um nmero inferior de parmetros a serem
estimados, do que se fosse utilizado um modelo AR ou MA puros. Um modelo da estrutura
ARMA(p, q), representado matematicamente pela equao (2.17).
Z t = + 1Z t 1 + 2 Z t 2 + ... + p Z t p 1at 1 2 at 2 ... q at q + at

(2.17)

onde p e q representam, respectivamente, a ordem dos modelos AR e MA. O modelo


relaciona os valores passados observados e os erros obtidos em cada perodo (Trentin, 2002).
A expresso da mdia do processo ARMA(p, q) dada pela equao (2.18)
(HAMILTON, 1994):
E ( Zt ) = =

1 1 2 ... p

(2.18)

Assim, a estacionariedade do processo ARMA depende inteiramente dos parmetros


auto-regressivos (1, 2,, ..., p) portanto conveniente escrev-lo em termos do desvio da
mdia (Eq. 2.19):

21

Z t = 1 ( Z t 1 ) + 2 ( Z t 2 ) + ... + p ( Z t p ) + at + 1at 1 + 2 at 2 + ... + q at q


k = q + 1, q + 2,...

(2.19)

a funo de autocovarincia obtida multiplicando-se ambos os lados da equao (2.19) por


(Zt-k - ) e tomando as esperanas. Para k > q, a equao resultante tem a forma representada
na equao (2.20).

k = 1 k 1 + 2 k 2 + ... + p k p 1 Z ... q Z
a k 1

a k q

(2.20)

a expresso da varincia do processo dada pela equao (2.21) quando k = 0:

0 = 1 1 + 2 2 + ... + p p 1 Z a ... q Z a + a2

(2.21)

a expresso da funo de autocorrelao, k do processo dada pela equao (2.22):

k =

k
0

(2.22)

2.6 METODOLOGIA BOX & JENKINS

A metodologia Box & Jenkins um dos trabalho de maior importncia e


reconhecimento na rea de Previso de Sries Temporais. O estudo feito pelos pesquisadores
George Box e Gwilyn Jenkins (1970) baseado no importante resultado de Wold (1954) que
provou que qualquer srie temporal pode ser representada por uma estrutura de mdias
mveis infinita (CHAVES, 1991). A metodologia proposta consiste em ajustar modelos AutoRegressivos e de Mdias Mveis, ARMA(p, q) srie temporal.
Quando comparada aos demais mtodos de previso, a metodologia Box & Jenkins
apresenta resultados mais precisos e os modelos contm um nmero pequeno de parmetros.
Uma desvantagem da utilizao deste mtodo que sua aplicao requer um conhecimento
que vai alm do uso de um pacote computacional (MORETTIN; TOLOI, 2004), ou seja, fazse necessrio a interveno de um analista especializado.
Na construo de um modelo ARMA, deve-se seguir os passos da metodologia Box &
Jenkins, que so (MORETTIN; TOLOI, 1985):

22

identificao do modelo ARMA a ser ajustado aos dados - esta escolha feita com
base nas autocorrelaes e autocorrelaes parciais estimadas. considerada a fase
mais crtica do mtodo. A partir de 1970 foram propostos procedimentos para
identificao do modelo dentre os quais se pode citar: o Critrio de Informao de
Akaike (AIC) (AKAIKE, 1973, 1974) e o Critrio Bayesiano (BIC) (AKAIKE, 1977),
(RISSANEN & SCHWARZ, 1978). Estes critrios visam identificar a ordem do
modelo ARMA a ser utilizado, minimizando uma funo que penaliza o ajuste de
modelos no parcimoniosos, ou seja, que possuem uma grande quantidade de
parmetros. Neste trabalho utilizado o critrio AIC, cujo detalhamento encontra-se
no Apndice A. A escolha de utilizao deste critrio foi feita pelo fato de que o
mesmo identifica modelos com o menor nmero de parmetros possvel;
estimao dos parmetros tendo sido identificado o modelo provisrio para a srie
temporal, o passo seguinte estimao de seus parmetros. Para fazer a estimativa por
Mnimos Quadrados No Lineares ou Mxima Verossimilhana, utiliza-se o algoritmo
de Marquardt (CHAVES, 1991);
verificao da adequabilidade do modelo aps a estimao dos parmetros, deve-se
verificar se o modelo se ajusta bem aos dados, para isto feita uma anlise nos
resduos. Uma tcnica que pode ser utilizada, caso o modelo se mostre inadequado o
super-ajustamento, no qual so adicionados parmetros e o modelo estimado.
Examina-se ento se estes parmetros so significativos no ajuste (teste t);
previso Na fase final, aps se ter selecionado o melhor modelo para a srie
temporal e se o modelo escolhido for considerado adequado, ele ser usado para fazer
previses de valores futuros da srie.
Na figura (2.2) apresentada a estrutura de aplicao da metodologia Box & Jenkins
(BOX & JENKINS, 1970).

23

Identificao Escolha de um ou mais


modelos candidatos (ARMA)

Estimao dos parmetros do modelo


candidato

Verificao
O modelo adequado?
Anlise dos resduos.

No

Sim
Previso
Utilize o modelo para fazer previses
FIGURA 2.2 FLUXOGRAMA DA METODOLOGIA BOX & JENKINS

2.7 MTODOS DE PREVISO

Os pesquisadores Box & Jenkins (1970) propuseram a classe dos modelos ARMA
(Autoregressive Moving Average) para uma srie temporal {Zt, t = 1, 2, ..., n}. A utilizao da
metodologia ARMA aplicada para a previso de valores futuros de uma srie temporal. As
formas de previso utilizadas so: forma de equaes de diferenas, formas de choques
aleatrios e forma invertida (CHAVES, 1991).
Ao se realizar a previso, o interesse se concentra nos valores futuros da varivel
observada. Sendo t o perodo de tempo atual, deseja-se obter o valor futuro da srie observada,
Zt+h, onde h

1. O perodo t dito origem da previso e h o horizonte de previso. A

previso de Zt+h denotada por


equao (2.23)

Z t + h , e a esperana condicional de Zt+h representada pela

24

Zt ( h ) = E ( Zt + h | I t )

(2.23)

onde It o conjunto dos valores passados da srie observada {..., Zt-3, Zt-2, Zt-1, Zt}. Tomandose a esperana condicional de Z+h, na equao (2.24):
Z t + h (l ) = 1Z t + h 1 + 2 Z t + h 2 + ... + p + d Z t + h p d 1at + h 1 2 at + h 2
... q at + h q + at + h

(2.24)

onde: (B ) = (B ) d = (B )(1 B ) , obtm-se a equao de previso (2.25), onde B o


d

operador de translao para o passado6.


Zt ( l ) = E ( Zt + h | I t ) = 1 [ Zt + h 1 ] + ... + p + d Z t + h p d 1 [ at + h 1 ] ... q at + h q + [ at + h ] , h 1 (2.25)

e considerando-se as equaes (2.26):

[Z t + h ] = Z t (h ) , h > 0
[Z t +h ] = Z t +h , h

(2.26)

[at + h ] = 0 , h > 0
[at +h ] = at +h , h

A varincia do erro de previso estabelecida partindo-se da forma de choques


aleatrios, isto , substituindo-se os termos AR (auto-regressivos) por uma srie infinita de
termos MA (mdias mveis), representado nas equaes (2.27).

Z t = + at + 1at 1 + 2 at 2 + ... = +

i at i , 0 = 1

i =0

Z t = + (1 + 1 B + 2 B 2 + ...)at

(2.27)

Z t = + (B )at
Supondo-se que a origem de previso seja t e que pretende-se fazer a previso h
perodos frente, ou seja Z t (h ) ir prever o valor de Zt+h, onde Zt uma funo linear de
origem Zt e das observaes anteriores Zt-1, Zt-2, Zt-3,..., sendo assim, uma funo linear dos
choques aleatrios at, at-1, at-2, ... e a melhor previso ser ento dada pela equao (2.28).
Z t (h ) = l* at + l*+1at 1 + l*+ 2 at 2 + ...
6

BZt = Zt-1 e BmZt = Zt-m

(2.28)

25

onde h* , h*+1 , h*+ 2 so os pesos para os choques aleatrios, com a soma infinita dos valores
atuais e dos choques aleatrios, representados na equao (2.29).

Z t +l =

i t + h i

(2.29)

i =0

Tem-se que o erro quadrtico ser dado pela equao (2.30)

] (

2
E Z t + h Z t (h ) = 1 + 12 + 22 + ... + h21 2 +

i =0

h+ j

h*+ j 2

(2.30)

2
e quando h + j = *h + j , obtm-se o valor mnimo de E Z t + h Z t (h ) . Conseqentemente,

Z t + h = Z t (h ) + et (h ) , onde et(h) o erro de previso, a esperana e a varincia deste erro esto


representados pelas equaes (2.31).

E [et (h )] = 0 e V [et (h )] = 1 + 12 + 22 + ... + 2h 1 2

(2.31)

Finalmente, os resduos um passo a frente sero dados como na equao (2.32).

et (1) = Z t +1 Z t (1) = t +1

(2.32)

Sendo o intervalo de confiana de (1- )% para Zt+1 dado pela equao (2.33)
P Z t (h ) Z 1

V [et (h )] 2 Z t + h Z t (h ) + Z 1

V [et (h )] 2 = 1

(2.33)

Como se pode observar, a varincia aumenta, conforme aumenta o horizonte de


previso h, quando nos afastamos da origem t, a amplitude do intervalo aumenta,
caracterizando o aumento na incerteza das previses para h passos frente.

26

!" #
!

Computao Evolucionria (CE) uma das reas da Inteligncia Artificial,


que engloba um conjunto de mtodos computacionais, inspirados na Teoria da
Evoluo das Espcies de Charles Darwin (DARWIN, 2000) para a soluo de
problemas. Segundo sua teoria, na natureza sobrevivem os indivduos que possuem maior
capacidade de se adaptarem ao meio ambiente, suas caractersticas genticas so repassadas
para as geraes seguintes e melhoradas. Assim a nova gerao ser composta por indivduos
com material gentico melhor do que os da populao anterior.
John Holland (1975) props um algoritmo baseado neste princpio com o objetivo de
estudar os fenmenos relacionados evoluo das espcies e da seleo natural que ocorre na
natureza. Holland foi gradualmente refinando suas idias e em 1975 publicou seu livro
(HOLLAND, 1975) no qual apresentou uma maneira de implementar computacionalmente
este algoritmo. Sua tcnica ficou conhecida como Algoritmos Genticos (AG) e desde ento
vem sendo objeto de estudo e aprimoramento de muitos pesquisadores
As principais reas dentro da CE so: Programao Evolutiva, Estratgias Evolutivas,
Algoritmos Genticos e Programao Gentica. Na seo (3.1) apresentada uma descrio
detalhada do algoritmo da PG que utilizada neste trabalho.

27

3.1 PROGRAMAO GENTICA

A Programao Gentica uma das tcnicas da Computao Evolucionria na qual os


indivduos so programas computacionais. Sua teoria foi desenvolvida por John Koza
(KOZA, 1989) e assim como os AGs, est baseada no princpio da Evoluo de Darwin, na
qual sobrevivem os indivduos que possuem maior capacidade de se adaptarem ao meio
ambiente. A carga gentica destes indivduos ser passada aos seus descendentes e sofrer
modificaes com o objetivo de melhor se ajustar ao meio, o resultado que ao final de vrias
geraes, obter-se- uma populao de indivduos com caractersticas naturalmente
selecionadas, ocorrendo desta forma uma evoluo natural da populao.
Na Programao Gentica, o Algoritmo Evolutivo opera numa populao de
programas computacionais que variam de forma e tamanho (KOZA, 1992). Esta populao de
indivduos ser evoluda de modo a gerar uma nova populao constituda por indivduos
melhores, utilizando operadores de reproduo, cruzamento e mutao. O processo guiado
por uma funo de aptido (fitness) que mede o quanto o indivduo est prximo da soluo
do problema. Indivduos que possuem maior capacidade de adaptao tm melhores chances
de sobreviver. A Programao Gentica vem sendo aplicada em diversas reas do
conhecimento, tais como Engenharia de Software, Circuitos Digitais, Minerao de Dados,
Previso de Sries Temporais e outras (GECCO, 2002-2006).

3.1.1 Descrio Geral do Algoritmo de Programao Gentica

O algoritmo bsico da Programao Gentica est representado na figura (3.1).


Inicialmente cria-se uma populao inicial aleatria, com base nesta populao o algoritmo ir
criar novas populaes at encontrar a soluo desejada. Esta populao dever ter
diversidade suficientemente grande para que se encontre nos indivduos todas as
caractersticas que sejam necessrias para solucionar o problema, pois as caractersticas no
existentes na populao inicial dificilmente aparecem durante o processo evolutivo. Numa
segunda etapa a populao avaliada, para isso associado a cada indivduo um valor de

28

aptido que indicar o quo prximo da soluo o indivduo se encontra. A definio desta
funo de aptido varia de acordo com o problema em questo. Aps a populao ter sido
avaliada, os indivduos com melhores valores de aptido so selecionados para que a eles
sejam aplicados os operadores genticos (mutao, reproduo e cruzamento). Estes
indivduos iro compor a nova populao, o algoritmo continua at que um critrio de parada
seja atingido (RODRIGUES, 2002).
Criar uma populao inicial
aleatria de indivduos

Avaliar os indivduos atravs da


funo de aptido

Seleo do sub-grupo ao qual sero


aplicados os operadores genticos

Aplicar os operadores genticos:


reproduo; cruzamento e mutao

Substituir a populao inicial

O critrio de
parada
foi atingido?

No

Sim
Retornar o melhor indivduo
FIGURA 3.1 ALGORITMO BSICO DE PROGRAMAO GENTICA

29

3.1.2 Representao dos Programas

Na Programao Gentica, os indivduos so representados por rvores de sintaxe, ou


seja, so formados por uma combinao dos conjuntos de Funes (F) e Terminais (T), de
acordo com o domnio do problema. Um indivduo da populao que tem a forma: x2 + y,
representado na notao pr-fixa, utilizada pela PG de acordo com a equao (3.1) e sua
representao em forma de rvore de sintaxe est mostrada na figura (3.2).
( + ( * x x) y)

(3.1)

+
*

y
x

FIGURA 3.2 RVORE DE SINTAXE DA PROGRAMAO GENTICA

3.1.3 Definio dos Conjuntos de Funes e Terminais

Em todo algoritmo de Programao Gentica deve-se definir inicialmente os conjuntos


F, de funes e T, de terminais. No conjunto F, define-se os operadores aritmticos, funes
matemticas, operadores lgicos, entre outros. O conjunto T composto pelas variveis e
constantes e fornece um valor para o sistema, enquanto que o conjunto de funes processa os
valores no sistema. Juntos, os conjuntos de funes e terminais representam os ns.
Pode-se citar como exemplo, o conjunto F, dos operadores aritmticos, de aridade7
dois (2), e o conjunto T, de terminais, da seguinte forma:
F = {+, -, *, /} e
7

Nmero de argumentos de uma funo

T = { x, y}

30

Um indivduo resultante da combinao destes dois conjuntos pode ser o indivduo


apresentado na equao (3.1). A escolha dos conjuntos F e T influencia, consideravelmente,
na soluo apresentada pela Programao Gentica. Se no conjunto F houver poucos
operadores disponveis, a Programao Gentica provavelmente no ser capaz de apresentar
uma boa soluo para o problema, por outro lado, ao disponibilizar muitas operaes, o
programa poder ficar extenso, provocando esforo computacional desnecessrio. O mais
aconselhvel iniciar com os operadores bsicos, tais como: adio, subtrao, multiplicao,
diviso, conjuno, disjuno e negao e ir adicionando outros operadores caso a soluo
apresentada no seja suficientemente boa. Da mesma forma deve-se ter cuidado ao formar o
conjunto das variveis e constantes, pois o algoritmo de Programao Gentica tem habilidade
de combinar as variveis, transformando-as em novas variveis (BANZHAF,1998).
O espao de busca da PG constitudo por todas as rvores que possam ser construdas
atravs da combinao dos conjuntos F e T.

3.1.4 Propriedades: Fechamento e Suficincia

As propriedades do Fechamento (closure) e da suficincia (sufficiency) (KOZA,


1992), foram definidas por John Koza, com o objetivo de garantir solues viveis para o
problema.
A propriedade do Fechamento garante que qualquer funo do conjunto F deve ser
capaz de operar com todos os valores recebidos como entrada. Isso garante que sejam geradas
rvores sintaticamente viveis.
Um exemplo comum de uma funo que no atende propriedade do fechamento a
diviso por zero. O operador diviso, no pode aceitar zero como entrada. A diviso por zero,
faz com que o programa pare, apresentando um erro. Assim, ao invs de um operador comum
de diviso, pode-se definir um novo operador denominado de diviso protegida, que a
diviso normal, porm com a diferena de que quando surge uma diviso por zero, o operador
retorna o valor um. Todas as outras funes (como por exemplo: raiz quadrada, logaritmo),
devem aceitar todas as possveis entradas para que o sistema no acuse mensagem de erro e
possa continuar sua busca pela melhor soluo (BANZHAF,1998).

31

A propriedade da suficincia garante a convergncia do sistema, fazendo com que os


conjuntos F e T sejam capazes de representar uma soluo vivel para o problema em
questo.

3.1.5 Populao Inicial

O primeiro passo na inicializao de uma PG definir sua populao inicial, ou seja,


deve-se criar uma populao de estruturas, ou estruturas de programas para posterior
evoluo.
Um dos principais parmetros da Programao Gentica o tamanho mximo
permitido para um programa, na PG este parmetro definido como sendo a profundidade
mxima da rvore, ou seja, o nmero mximo de ns da rvore. Esta profundidade a maior
profundidade que ser permitida entre a raiz e todos os ns terminais de um mesmo indivduo
(TERADA, 1991). A profundidade de um n em uma rvore a distncia do n raiz at o n

n. A estrutura de rvore construda a partir dos conjuntos F e T, para maior clareza,


considere o exemplo (BANZHAF, 1998) onde os conjuntos F e T so definidos como sendo:
F = {+, -, *, %} e T = {a, b, c, d, e}.
Existem vrios mtodos para inicializar uma populao em estrutura de rvores, os
mais comuns so (LUKE; PAINAT, 2001): Full, Grow, ramped-half-and-half (KOZA, 1992),
que uma combinao dos mtodos Full e Grow, random-branch (CHELLAPILLA, 1997),

uniform (BOHM; GEYER-SCHULZ, 1996), que so brevemente descritos a seguir.


Mtodo Grow: os ns so selecionados aleatoriamente dos conjuntos F e T (exceto para
o n raiz que retirado do conjunto F), por este motivo o mtodo produz rvores de
formatos irregulares. Se uma ramificao contm um n terminal, esta ramificao
pra, mesmo que a profundidade mxima no tenha sido atingida. Na figura (3.3), o n
d tem profundidade trs (3).

32

%
+

+
c

FIGURA 3.3 RVORE COM PROFUNDIDADE MXIMA QUATRO (4)


INICIALIZADA PELO MTODO GROW

Mtodo Full: Ao invs de escolher aleatoriamente os ns do conjunto de funes e de


terminais, o mtodo Full, escolhe somente funes at que um n de profundidade
mxima seja selecionado, ento ele passa a escolher somente terminais (BANZHAF,
1998). O resultado disso que cada rvore atinge a profundidade mxima. A figura
(3.4) mostra uma rvore inicializada pelo mtodo Full.

%
a

+
b

FIGURA 3.4 RVORE DE PROFUNDIDADE MXIMA TRS INICIALIZADA PELO MTODO FULL

Mtodo Half-and-half: o mtodo Half-and-half uma combinao dos mtodos Grow


e Full, ou seja, utiliza o mtodo Full em 50% das vezes e o mtodo Grow nas outras
50%, tem por objetivo gerar um nmero igual de rvores para cada profundidade
(KOZA, 1992). Supondo, por exemplo, uma rvore de profundidade mxima seis (6), a
populao igualmente dividida em rvores com profundidade dois, trs, quatro, cinco
e seis, ou seja, 20% tero profundidade dois, 20% tero profundidade trs e assim
sucessivamente. Em cada grupo, metade das rvores so geradas pelo mtodo Full e a

33

outra metade pelo mtodo Grow. As desvantagens deste mtodo, segundo Luke,
(LUKE; PAINAT, 2000) so citadas a seguir:

Se o conjunto de funes maior que o conjunto de terminais, a tendncia ser


de gerar a maior rvore possvel;

A escolha do parmetro de profundidade mxima da rvore realizada de


forma proporcional e no aleatria;

A faixa de profundidade fixa (usualmente entre 2 e 6), independente do


tamanho da rvore e dependendo do nmero de argumentos (aridade) de cada
funo, mesmo tendo a mesma profundidade, as rvores geradas pode ter
tamanhos8 muito diferentes.

Mtodo Random-Branch: neste mtodo, ao invs de se informar a profundidade mxima


da rvore, informado seu tamanho mximo, S, este valor igualmente dividido dentre
as rvores de um n-pai no terminal, o que faz com que muitas rvores no viveis
sejam geradas (CHELLAPILLA,1997), este mtodo menos restritivo, apesar de ter
complexidade linear (LUKE; PAINAT, 2001);

Mtodo Uniform: Criado por Bohm, o mtodo uniform foi desenvolvido com o objetivo
de criar rvores uniformes, geradas a partir do conjunto de todas as rvores possveis
(BOHM. 1996). O algoritmo calcula vrias vezes quantas rvores podero ser geradas
para cada tamanho desejado, por este motivo o mtodo possui um alto custo
computacional. Uma aplicao do mtodo foi feita por Helmut Horner (1996) numa
ferramenta denominada GPK.

O tamanho de uma rvore definido pelo nmero de ns que a compe (KOZA, 1992).

34

3.1.6 Funo de Aptido

A funo de aptido a medida utilizada pela PG durante o processo de evoluo, que


ir dizer quo bem o programa aprendeu a predizer as sadas dentro de um processo de
aprendizagem (BANZHAF, 1998).
A definio de uma funo de aptido feita de acordo com o domnio do problema.
Em geral, nos problemas de otimizao esta funo definida como sendo a funo objetivo,
porm nada impede que se defina uma outra funo. Uma boa escolha da funo de aptido
pode ser responsvel pelo bom funcionamento do algoritmo da PG. Especificamente, no caso
de Sries Temporais, pode-se utilizar como funo de aptido, a funo que mede o erro
calculado entre o valor previsto e o valor real, como por exemplo, o erro mdio quadrtico.
Quanto menor for o erro obtido, melhor ser o ajuste do modelo de previso. O que se deseja,
portanto, minimizar a funo de aptido ou funo objetivo.
A funo de aptido uma forma de se diferenciar os melhores dos piores indivduos.
Se esta funo for bem definida h uma grande probabilidade de que o algoritmo gere uma
soluo muito prxima da soluo tima. Algumas das funes de aptido mais utilizadas so
(KOZA, 1992):
1. Aptido Nata (raw fitness): uma maneira de calcular qualquer melhoria que o
programa tenha obtido no conjunto de treinamento. A continuidade uma
propriedade importante da funo de aptido, pois isto permite que a PG melhore
os programas iterativamente. O mtodo mais comum de aptido nata atravs da
avaliao do erro cometido.
2. Aptido Padronizada (standardized fitness): uma funo transformada da
funo de aptido nata, na qual o valor zero o valor designado ao melhor
indivduo.
3. Aptido Ajustada (adjusted fitness): obtida a partir da aptido padronizada, seu
valor varia entre zero e um, onde os maiores valores so associados aos melhores
indivduos. Se f(i, t) a aptido padronizada do indivduo i na gerao t, a aptido
ajustada, a(i, t), calculada pela equao (3.2):
a (i ,t ) =

1
1 + f (i ,t )

(3.2)

35

4. Aptido Normalizada (normalized fitness): uma funo de aptido na qual o


seu valor est entre zero e um. A soma de todas as funes normalizadas dentro de
uma populao deve ser igual a um. Se a(i,t) a aptido ajustada do indivduo i na
gerao t, sua aptido normalizada, n(i, t), ser dada de acordo com a equao
(3.3).
n(i ,t ) =

a (i ,t )
m
k =1

a (k ,t )

(3.3)

3.1.7 MTODOS DE SELEO

Para selecionar quais indivduos da populao faro parte de uma nova gerao e quais
deles sofrero alteraes, atravs dos operadores genticos (reproduo, cruzamento e
mutao), necessrio que se tenha um critrio de seleo que garanta que uma boa escolha
seja realizada. Um dos mtodos mais utilizados para se efetuar esta seleo, baseia-se no valor
de aptido de cada indivduo, os indivduos selecionados devero ser aqueles que apresentam
melhores valores de aptido.
Depois de se ter definido a qualidade de cada indivduo, atravs do seu valor de aptido,
so escolhidos os indivduos que sofrero interveno dos operadores genticos e quais deles
devero permanecer na populao utilizando para isto o operador de seleo.
Existem diferentes operadores de seleo e a deciso de qual destes operadores ser
utilizado pela PG uma tarefa importante durante a utilizao do algoritmo. O mtodo de
seleo responsvel pela velocidade da evoluo e geralmente citado como responsvel pelos
casos de convergncia prematura que podero determinar o sucesso do algoritmo
evolucionrio (BANZHAF, 1998). Alguns destes mtodos so descritos a seguir.
Seleo Proporcional (Proportional Selection): este mtodo de seleo aplicado

aos Algoritmos Evolutivos e especifica a probabilidade de que cada indivduo seja


selecionado para a prxima gerao. Para o indivduo i, a probabilidade de ser
selecionado para a prxima gerao dada pela equao (3.4).

36

fi

pi =

(3.4)

fj
j

onde fj representa o valor de aptido do indivduo e

f j representa o valor
j

acumulado de aptido. Os indivduos que possuem maior aptido possuem uma


probabilidade maior de serem selecionados para a prxima gerao, este pode ser
considerado, ento, como um problema de maximizao. Em geral o melhor
indivduo da populao copiado para a populao seguinte, a esta escolha d-se o
nome de elitismo, que tem por objetivo privilegiar a melhor soluo, de forma que
este indivduo propague suas caractersticas para a populao seguinte. No entanto,
se um indivduo possui uma alta aptido em relao aos demais, a probabilidade de
que ele seja selecionado tende a ser alta, e como os demais indivduos da populao
possuem uma aptido bem menor, a tendncia que o indivduo que possui maior
valor de probabilidade, seja selecionado muitas vezes, fazendo com que haja uma
convergncia prematura da soluo que poder no ser a soluo tima, por outro
lado, se os indivduos apresentarem aptides muito prximas, sua probabilidade de
serem selecionados a mesma, assim a populao seguinte ser basicamente a
mesma, no havendo evoluo (BANZHAF, 1998);

Truncamento (truncation selection): este o segundo mtodo mais popular


utilizado para seleo e provm dos algoritmos de Estratgias Evolucionrias
(SCHWEFEL, 1995), com base em um valor de limiar (threshold) T que est no
intervalo entre 0 e 1, a seleo feita aleatoriamente entre os T melhores indivduos
(MUHLENBEIN; SCHIERKAMP-VOSSEN, 1993). Se, por exemplo, T = 0,6, isto
significa que a seleo feita entre os 60% melhores indivduos e os demais so
descartados;

Ranqueamento (Ranking Selection): no mtodo de seleo por ranking


(GREFENSTETTE; BAKER,1989) (WHITLEY, 1989) os indivduos so ordenados
de forma crescente de acordo com seu valor de aptido. Assim, a cada indivduo,
atribudo um nmero inteiro de acordo com sua posio no ranking, quanto melhor o
ranking do indivduo, melhor sua aptido em relao aos demais indivduos da
populao e, portanto, melhores so suas chances de ser sorteado. Pode ser utilizado

37

o ranking linear ou exponencial. Para o ranking linear, a probabilidade uma funo


linear dada pela equao (3.6):
pi =

onde p

1
i 1
p +( p+ p )
N
N 1

+
a probabilidade do pior indivduo ser selecionado, p

(3.6)

probabilidade do melhor indivduo ser selecionado e a equao (3.7) assegura que a


ordem da populao se mantenha constante

p- + p+ = 2

(3.7)

Para o ranking exponencial, a probabilidade exponencialmente ponderada dada


pela equao (3.8):
pi =

c 1 N
c i , com 0 < c < 1
c N 1

(3.8)

Torneio: a seleo por torneio no baseada na competio dentro da gerao


completa, mas apenas num sub-conjunto da populao. Um certo nmero de
indivduos, que o tamanho do torneio, selecionado aleatoriamente, e realizada
uma competio seletiva. As caractersticas dos melhores indivduos no torneio so
substitudas pelas caractersticas dos piores indivduos. No menor torneio possvel
permitido que dois indivduos participem da reproduo. O resultado da reproduo
retorna populao substituindo o perdedor do torneio (BANZHAF, 1998). Sua
ordem de complexidade linearmente proporcional ao tamanho da populao, pois
independe de uma ordenao prvia dos elementos e do clculo das probabilidades de
seleo (BICKLE, 1995).

38

3.1.8 Operadores Genticos


Aps os indivduos terem sido selecionados por um dos mtodos de seleo, os
operadores genticos so aplicados a estes indivduos para ento gerar a nova populao.
Diversos operadores genticos foram criados, porm os mais importantes e mais utilizados
so (KOZA, 1992): cruzamento, mutao e reproduo, que sero descritos a seguir:

Reproduo: seleciona-se um indivduo da populao atual e o mesmo copiado


para a prxima gerao sem nenhuma alterao em sua estrutura, em seguida este
indivduo re-inserido na populao, ou seja, haver duas verses do mesmo
indivduo na populao;

Cruzamento: dois indivduos pais9 so selecionados e seu material gentico


combinado, permutando uma parte de um dos pais por uma parte do outro, gerando
assim um novo indivduo, que espera-se que seja melhor do que os anteriores, pois
foram criados a partir da combinao das melhores partes de cada indivduo. O
operador de cruzamento visa guiar a soluo de maneira a combinar as melhores
solues na busca da soluo tima. Basicamente, o operador funciona da seguinte
maneira:

Escolhe dois indivduos atravs do valor de sua funo de aptido;


Seleciona aleatoriamente, em cada indivduo, um ponto de cruzamento;
Permuta as sub-rvores dos dois indivduos gerando os filhos, que faro
parte da nova populao. Um exemplo do operador de cruzamento pode ser
visto na figura (3.5.).

Mutao: o operador efetua alteraes em um indivduo somente, ou seja, nenhum


novo indivduo gerado. Normalmente, aps ter sido efetuado um cruzamento, a
probabilidade de que o indivduo gerado seja submetido a uma operao de mutao
baixa, em geral, este ndice varia na faixa de 0,1% a 0,5%. A probabilidade de
mutao um parmetro definido em cada execuo. Nesta operao, seleciona-se
aleatoriamente, um ponto do indivduo e substitui-se a sub-rvore, cujo n foi
selecionado por uma nova sub-rvore gerada aleatoriamente. Esta sub-rvore est
sujeita s mesmas limitaes quanto profundidade e tamanho, do que as rvores
9

Pai os indivduos de uma populao, pai e filhos so programas computacionais gerados pela PG.

39

geradas na populao inicial. Este novo indivduo inserido novamente na


populao. A funo deste operador inserir diversidade na populao, fazendo com
que

os

novos

indivduos

explorem

novas

reas

do

espao

de

busca

(MICHALEWICZ, 1997), evitando mximos e mnimos locais. Porm ao se inserir


muita diversidade numa populao, a mesma poder no convergir para um timo
global, ou mesmo poder no convergir, oscilando indefinidamente, por este motivo
a taxa de mutao deve ser baixa. Um exemplo do funcionamento do operador de
mutao apresentado na figura (3.6).
*

+
z

+
x

*
x

+
y

Pai 2

Pai 1

+
x

*
y

Filho 1

+
y

Filho 2

FIGURA 3.5 REPRESENTAO DO OPERADOR DE CRUZAMENTO DE UM PONTO

40

%
+
x

*
z

+
x

*
x

*
x

FIGURA 3.6 REPRESENTAO DO OPERADOR DE MUTAO

3.1.9 Parmetros utilizados na Programao Gentica

A definio dos parmetros a serem utilizados podem ter grande influncia nos
resultados obtidos atravs da PG, estes parmetros tambm influenciam no tempo
computacional. Os parmetros a serem definidos so:

Tamanho da Populao: neste parmetro deve ser informado o nmero de


indivduos que a populao dever conter. A escolha deste parmetro deve ser
criteriosa, pois de sua escolha depende a qualidade dos resultados. Uma
populao pequena restringe o espao de busca, enquanto que se a populao for
grande, poder estar provocando um esforo computacional excessivo, sem
grandes alteraes nos resultados (BANZHAF, 1998);

Taxa de cruzamento: este parmetro define a taxa de utilizao do operador de


cruzamento que deve ocorrer em cada gerao. Se esta taxa for alta, pode haver
uma convergncia pr-matura do algoritmo, por outro lado se for muito pequena,
o algoritmo poder levar muito tempo para obter a convergncia necessria para
que uma boa soluo para problema;

41

Taxa de mutao: este parmetro define o percentual de mutaes que devero


ocorrer para cada gerao, se esta taxa for alta poder tornar a busca
completamente aleatria;

Nmero de geraes: o nmero de geraes define quantas vezes o processo


evolutivo ser executado, pode funcionar como critrio de parada.

3.1.10 Critrio de Parada

O critrio mais utilizado limitar o nmero mximo de geraes ou at que uma boa
soluo seja encontrada (KOZA,1992), porm existem outros critrios baseados no
acompanhamento do processo evolutivo, ou seja, enquanto houver melhoria na populao, o
processo evolutivo prossegue (KRAMER; ZHANG; GAPS, 2000).

3.2 EXEMPLO DO ALGORITMO DE PROGRAMAO GENTICA

Nesta seo apresentado um exemplo de aplicao do algoritmo de Programao


Gentica (BANZHAF, 1998). Considere a funo (3.9), formada por operadores bsicos, a
tarefa encontrar um modelo de regresso para a funo dada. Dez casos de treinamento
foram utilizados para a tarefa de regresso, tomando x no intervalo (0 1) como mostrado na
tabela (3.1).

y = f(x)=

x2
2

(3.9)

42

TABELA 3.1 VALORES DE ENTRADA E SADA NO CONJUNTO DE TREINAMENTO


Exemplos de
treinamento
1
2
3
4
5
6
7
8
9
10

Entrada

Sada

0,000
0,100
0,200
0,300
0,400
0,500
0,600
0,700
0,800
0,900

0,000
0,005
0,020
0,045
0,080
0,125
0,180
0,245
0,320
0,405

A definio dos conjuntos e parmetros necessrios definida da seguinte forma:


1. Conjunto de terminais: {x, (-5, 5)} onde x a varivel utilizada e (-5, 5), nmeros
inteiros entre -5 e 5 so as constantes utilizadas que uma vez definidas, no so mais
modificadas durante a execuo da PG;
2. Conjunto de funes: {+, -, *, %10} so utilizadas operaes bsicas, porm se estas
no forem suficientes para obter uma boa aproximao, pode-se inserir novas funes
no conjunto;
3. Funo de aptido neste caso a funo de aptido utilizada a raiz quadrada do erro
mdio quadrtico (Eq. )(RMSE Root Mean Square Error);
N

RMSE =

i =1

( xi xi )

(3.10)

onde xi so os valores observados e so xi os valores previstos.


4. Os parmetros utilizados so: tamanho da populao, profundidade mxima da
rvore, probabilidade de cruzamento, mtodo de seleo e critrio de parada (por ex:
nmero mximo de geraes). Os parmetros esto definidos na tabela (3.2).

10

% a diviso protegida

43

TABELA 3.2 PARMETROS DA PG


Parmetros

Valores

Evolui a funo ajustando valores da tabela dos


exemplos de treinamento
x, inteiros entre -5 e 5
+, -, *, %
600
90%
5%
Torneio, tamanho 4
Nenhum
100

Objetivo:
Conjunto de Terminais:
Conjunto de Funes:
Tamanho da Populao:
Taxa de Cruzamento:
Taxa de Mutao:
Seleo:
Critrio de Parada:
Nmero mx de geraes:
Profundidade mxima da rvore aps o
cruzamento:
Profundidade mxima aps mutao:
Mtodo de Inicializao:

200
4
Grow

Na gerao 0, o melhor indivduo encontrado foi a funo fo. A disposio em rvore


est apresentada na figura (3.7).
%

x
4

%
x

FIGURA 3.7 - MELHOR INDIVDUO NA GERAO 0

f0( x ) =

x
3

(3.11)

O melhor indivduo das geraes 1 e 2 so denominados de f1 ( x) e f 2 ( x) . Assim,

obtm-se as funes representadas nas equaes (3.12) e (3.13):


f1 ( x ) =
f2( x ) =

x
6 3x

(3.12)

x
4
x( x 4 ) 1 +
x

9( x 1 )
+x
5x
6 3x

(3.13)

44

Na gerao 3, o melhor indivduo encontrado apresenta uma forma simples, dada pela
funo (3.14):
f3( x ) =

x2
2

(3.14)

As geraes seguintes combinam esta soluo com outras, como conseqncia o


tamanho do melhor indivduo aumenta novamente, pelo fato de que no se estar armazenando
o melhor indivduo encontrado, (o que pode ser feito atravs de uma estratgia denominada de
elitismo), porm a qualidade poder piorar. A tabela (3.3) mostra os valores obtidos nas
geraes de 0 a 3:
TABELA 3.3 VALORES DE SADA E MELHORES INDIVDUOS ENCONTRADOS NAS GERAES DE 0 A 3.
Exemplos de
Treinamento
Exemplo 1
Exemplo 2
Exemplo 3

Exemplo 4
Exemplo 5
Exemplo 6
Exemplo 7
Exemplo 8
Exemplo 9
Exemplo 10

Sada desejada

Gerao 0

Gerao 1

Gerao 2

Gerao 3

0,000000
0,005000
0,020000
0,045000
0,080000
0,125000
0,180000
0,245000
0,320000
0,405000

0,000000
0,033333
0,066667
0,100000
0,133333
0,166667
0,200000
0,233333
0,266667
0,300000

0,000000
0,017544
0,037037
0,058824
0,083333
0,111111
0,142857
0,179487
0,222222
0,272727

0,000000
0,002375
0,009863
0,023416
0,044664
0,076207
0,122140
0,188952
0,287024
0,432966

0,000000
0,005000
0,020000
0,045000
0,080000
0,125000
0,180000
0,245000
0,320000
0,405000

A figura (3.8) mostra os valores de aptido mdia da populao inteira e do melhor


indivduo, escolhido para a execuo em cada gerao.

45

f(x)

Caractersticas dos melhores indivduos das geraes 0, 1, 2 e 3


0,50
0,45
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
Exemplo
1
Sada desejada

Exemplo
3
Gerao 0

Exemplo
5
Gerao 1

Exemplo
7
Gerao 2

Exemplo
9

Gerao 3

FIGURA 3.8 - REPRESENTAO GRFICA DOS MELHORES INDIVDUOS DAS GERAES 0-3

Verifica-se que um simples processo de PG, com poucas funes, terminais e com
alguns operadores como mutao e cruzamento so capazes de produzir boas solues. Esta
natureza dinmica do processo de PG mostra a eficincia do mtodo.
Neste captulo foi apresentada a fundamentao terica da Programao Gentica os
aspectos necessrios aplicao desta tcnica. No captulo IV ser apresentado o algoritmo
Boosting, um algoritmo que capaz de efetuar melhorias aos algoritmos de aprendizado de
mquina. So apresentadas algumas das principais verses do algoritmo e tambm a nova
metodologia proposta nesta tese.

46

este captulo abordado o algoritmo Boosting e so apresentadas algumas


variaes do algoritmo. Esta tcnica vem sendo utilizada, com freqncia, por
pesquisadores na rea de Aprendizagem de Mquina com o objetivo de obter
melhorias nos resultados obtidos, atravs da utilizao de algoritmos tradicionais de
classificao e, mais recentemente, a tcnica vem sendo aplicada com sucesso a problemas de
regresso. tambm apresentada a nova metodologia de Boosting baseada nos coeficientes de
correlao entres os valores do treinamento e os valores obtidos pelo algoritmo base utilizado.

4.1 BREVE HISTRICO DO ALGORITMO BOOSTING

A principal idia da tcnica Boosting a de combinar a sada obtida por vrios


algoritmos base para produzir um comit de preditores. A tcnica consiste em efetuar
repetidas execues de um algoritmo de aprendizagem bsico, modificando a distribuio de
pesos no conjunto de treinamento e combinando os preditores obtidos, num nico preditor
eficiente.
A primeira proposta do algoritmo foi apresentada por Schapire (1990) para problemas
de classificao binrios. Em 1996, Freund e Schapire (1996) propuseram uma nova verso

47

do algoritmo denominada de Adaboost, na qual o algoritmo ajusta um modelo logstico


aditivo, o nmero de iteraes o nmero de funes usadas na representao aditiva, ou seja,
o nmero de funes que sero utilizadas para aproximar a funo estimada. O algoritmo gera
em cada passo uma distribuio sobre as observaes da amostra, dando um peso maior s
observaes classificadas incorretamente no passo anterior. Outras variaes deste mtodo
(FREUND & SCHAPIRE, 1999), denominadas AdaBoost.M1 e AdaBoost.M2, para
problemas com mltiplas classes. Neste mesmo trabalho proposta a metodologia de
Boosting para problemas de regresso, surge ento, a verso AdaBoost.R. Uma
implementao ad hoc do algoritmo denominada AdaBoost.R apresentada por Drucker
(1997), no qual realizou alguns experimentos para problemas de regresso tendo obtido
resultados promissores. Recentemente, vrios pesquisadores como Friedman, Hastie e
Tibshirani (1998; 2001), Duffy (2000), Zemel e Pitassi, (2001) e Ridegway (1999) comparam
o algoritmo Boosting com um algoritmo de gradiente descendente, que otimiza a funo de
perda (resduos). Eles mostraram que quando a funo de perda utilizada a exponencial, o
algoritmo Adaboost se assemelha ao mtodo de Newton. A proposta de Solomatine e Shrestha
(2004) prope uma forma de atualizao dos pesos utilizando o erro relativo ao invs do erro
absoluto.
Recentemente as estratgias Boosting foram usadas em vrios problemas reais, muitas
destas aplicaes e referncias, podem ser encontradas em Boosting (2006). O detalhamento
do algoritmo AdaBoost e algumas verses so apresentadas nas sees seguintes.

4.2 ADABOOST PARA PROBLEMAS DE CLASSIFICAO BINRIO

Em um problema de classificao binrio, tem-se um conjunto de objetos que devem


ser separados em duas classes, de forma que esta classificao seja consistente. A
classificao obtida com base em alguns dados que se tem sobre o problema em questo.
O algoritmo Adaboost utiliza como entrada um conjunto de treinamento (x1, y1), ...,
(xm, ym) onde cada xi um vetor de caractersticas, pertencente a algum espao X e yi pertence
ao conjunto Y = {-1, +1}, ou seja, o algoritmo utilizado para problemas de classificao com
duas classes. O Adaboost chama um classificador base, repetidamente, num conjunto de t

48

execues, t = 1, ...,T. Uma das principais idias do algoritmo modificar a distribuio, ou


conjunto de pesos, sobre o conjunto de treinamento. O peso desta distribuio no exemplo de
treinamento i na execuo t denotado por Dt(i). Inicialmente os pesos so todos iguais, mas
a cada execuo, os pesos dos exemplos classificados incorretamente so incrementados de
forma que o classificador base seja forado a atuar com maior intensidade sobre estes
exemplos no conjunto de treinamento, a taxa de erro calculada contando o nmero de
classificaes incorretas (Eq. 4.1). Observa-se que o erro calculado de acordo com a
distribuio Dt sobre a qual o classificador fraco foi treinado. O pseudo-cdigo do algoritmo
est apresentado no quadro (4.1) (FREUND & SCHAPIRE, 1996).
et = Pri ~ Dt ht ( xi ) yi =

i:ht ( xi ) yi

Dt ( i )

(4.1)

Uma vez que a hiptese ht tenha sido recebida, o Adaboost escolhe um parmetro t
pertencente ao conjunto dos nmeros reais, o qual mede a importncia que dada hiptese
ht. O valor de t para problemas binrios, bem como a atualizao do vetor de pesos Dt, esto
detalhados na descrio do algoritmo apresentada no quadro (4.1).
Para formular a hiptese final H, cada hiptese ht contribui com uma certa confiana
dada por t.

49

QUADRO 4.1 ALGORTIMO ADABOOST

Dado: S= {(x1, y1), ..., (xm, ym); xi X, yi {-1, +1} }


Algoritmo Adaboost:
1
Inicialize D1(i) : =
(xi, yi) S
m
For t = 1, ... T, faa
Treine o classificador base usando a distribuio Dt
Obtenha a hiptese fraca ht: X {-1, +1}
1 1 et
, onde et a taxa de erro do classificador ht.
Calcule t: t = ln
2
et
Atualize a distribuio:

Dt +1 ( i ) =
=

Dt ( i )

et , se h t ( xi ) = yi

et , se h t ( xi ) yi
Dt ( i ) exp( t yi ht ( xi ))
Zt

Zt
Onde Zt o fator de normalizao
End For

Sada: Hiptese Final: H (x ) = sign

t * ht ( x )
1...T

4.3 BOOSTING PARA PROBLEMAS DE REGRESSO

Nos problemas de regresso o que se deseja encontrar uma aproximao para


determinados valores de uma varivel contnua. Uma funo f(x), num certo intervalo, ou seja,
dada uma funo f(x), deve-se encontrar uma funo g(x), tal que f(xi) = g(xi) xi X , onde
X um conjunto de valores do intervalo considerado. A funo f(x) no necessariamente
conhecida, o que se conhece um conjunto de pontos {x, f(x)| x X}. Sobre um conjunto de
treinamento S = {(x1, g(x1)),..., (xm, g(xm))}, aplica-se um algoritmo bsico de aprendizagem,
na tentativa de encontrar uma funo g prxima da funo f no domnio desejado. H muitas
maneiras de se medir o quo prxima a funo g est da funo f. Uma maneira de verificar
esta proximidade verificar quando o erro mdio quadrtico se torna pequeno, ou garantir que
a funo g esteja prxima da funo f em todo o domnio. Ao se utilizar o algoritmo Boosting,
pode-se obter uma aproximao ainda maior. Aps se utilizar um algoritmo de aprendizado

50

bsico repetidas vezes, em diferentes amostras, obtm-se vrias hipteses que sero ento
combinadas, de forma a obter uma melhor aproximao para a funo f.

4.3.1 O Algoritmo Adaoost.R

O algoritmo AdaBoost.R (FREUND & SCHAPIRE, 1998), funciona de maneira


semelhante ao AdaBoost. A idia usar alguma ordenao dos valores para diferenciar as
predies corretas das incorretas, como se fosse um problema de classificao. Nos problemas
de regresso no possvel obter valores de predio exatos como nos problemas de
classificao. As discrepncias entre os valores preditos e observados so inevitveis. A
medida desta discrepncia que vai permitir dizer se o valor previsto ou no aceitvel.
Da mesma forma que no algoritmo Adaboost, o algoritmo base recebe os exemplos (xi,
yi) do conjunto de treinamento para gerar a hiptese h: X Y, onde Y = [0, 1], tal que para
cada valor x o preditor fornea um valor aproximado para y, ou seja, o algoritmo procura
gerar uma hiptese h, com o menor erro de previso possvel. Assume-se que so conhecidos
os exemplos do conjunto de treinamento: S = {(x1, y1)),..., (xm, ym)}. O objetivo ento
minimizar a soma dos erros mdios quadrticos obtidos (MSE), conforme a equao (4.2).
MSE =

1 N
2
h ( xi ) yi )
(
N 1

(4.2)

Os problemas de regresso so ento reduzidos problemas de classificao binrios


(ALLWEIN; SCHAPIRE; SINGER, 2000) para ento se aplicar o Adaboost. Para cada (xi, yi)
do conjunto de treinamento define-se um conjunto contnuo de exemplos indexado pelos
pares (i, y) para todo y [0, 1], tal que a instncia ~
xi , y = ( xi , y ) e a classe ~
y i , y = [ y yi ] .
Assim, informalmente tem-se que, cada instncia (xi, yi) designada a um conjunto de
questes binrias, uma para cada y Y, e cada uma da forma: yi maior ou menor que y?.
Ou de maneira similar, pode-se dizer que cada hiptese h: X Y reduzida uma hiptese
~
de valor binrio h : X x Y {0 ,1} definida pela regra (4.3):
~
h (x, y ) = [ y h( x )]

(4.3)

~
Neste caso, h tenta responder a questo binria usando o valor estimado de h(x).

Como nos problemas de classificao, o vetor de pesos D inicializado tal que D(i) = 1/m

51

sobre o conjunto de treinamento, porm para o problema de regresso, esta distribuio


~
designada distribuio de densidade D sobre os pares (i, y) de maneira que ao minimizar os
erros de classificao, minimiza-se tambm o MSE do problema original. Assim, define-se a
~
distribuio D de acordo com a equao (4.4),
D(i ) y yi
~
D(i, y ) =
Z
onde Z uma constante de normalizao calculada conforme a equao (4.5)

Z=

N
i =1

D(i ) y yi dy

(4.4)

(4.5)

O algoritmo mantm um peso wit,y para cada instncia i e classe y Y. O vetor de


~
pesos inicial a densidade D definida acima, normalizando os pesos wt, a densidade pt

definida de acordo com a equao (4.6) e utilizada para calcular a perda mdia de ht,
definida pela equao (4.7).
wt

pt =

m1
i =10

t =

m ht ( xi )
i =1 yi

(4.6)

wit,y dy

pit,y dy

(4.7)

O objetivo do algoritmo base encontrar a hiptese h: X Y que minimiza a perda

t. Finalmente a hiptese final hf determinada, calculando a mediana ponderada das


hipteses fracas, conforme equao (4.8).
h f ( x ) = inf y Y :

t :ht ( x ) y

log(1 / t )

1
log(1 / t )
2i

(4.8)

Como a hiptese final binria, para cada x h somente um valor de y para o qual
~
~
h f (x, y) = 0 para todo y < y e h f (x, y) = 1 para todo y> y, que ser exatamente o valor de
y calculado pela hiptese hf(x) (Eq. 4.8).

52

QUADRO 4.2 ALGORITMO ADABOOST.R

Dado: um conjunto S = {(x1, y1), ..., (xm, ym)}; xi X, yi [0, 1]


Considere um algoritmo de regresso bsico e a distribuio D sobre o conjunto S.
Algoritmo:
D1(i) o peso da amostra (xi, yi)
1
(i, y) associado a cada exemplo (xi, yi) e y[0, 1].
Inicialize D1(i) : =
m
D(i) y yi
Inicialize o vetor de pesos: w1i, y =
, para i = 1, ..., m e yY e Z um
Z
fator de normalizao.
For t = 1 at T:
pt =

1. Faa:

wt
m 1
i =1 0

wit, y dy

2. Chame o algoritmo de regresso base, com a funo de densidade pt; e


retorne a hiptese ht: X x Y
3. Calcule a perda de ht:

t =

m ht ( xi )
i =1

yi

pit, y dy

Se t >1/2 ento faa T = t-1 e saia do loop.


4. Faa t = t / (1 t )
5. Faa o novo vetor de pesos ser:
wit,+y1

wit, y , se y i y ht ( xi ) ou h t (xi ) y yi
wit, y , caso contrrio

End for
Hiptese Final: ht (x ) = inf{ y Y :

t :ht ( x ) y

log(1 / t ) 1 / 2 1 / t }
t

4.3.2 O Algoritmo Adaoost.RT

Uma proposta de modificao no algoritmo de AdaBoost.R para problemas de


regresso apresentada por Solomatine e Shrestha (2004). Em seu algoritmo, denominado

53

AdaBoost.RT, os autores propem uma metodologia, cuja idia principal, a introduo de


uma constante , como um valor limiar de erro relativo que deve classificar a predio como
correta ou incorreta, esta taxa de erro calculada contando o nmero de predies corretas e
incorretas, conforme equao (4.9).
f t ( xi ) y i
>
yi

i:

(4.9)

Este valor de ento utilizado para a atualizao do vetor de pesos, equao (4.10).
f t ( xi ) y i

Dt (i ) t , se
Dt +1 (i ) =
x
yi
Zt
1, caso contrrio

(4.10)

A principal diferena entre o algoritmo Adaboost.RT e os demais algoritmos de


Boosting no clculo da funo de perda, que usa o erro relativo ao invs do erro absoluto, o
que faz com seja dada maior nfase aos exemplos que possuem maiores erros de previso, de
forma que na prxima iterao estes erros sejam reduzidos. A outra diferena deste algoritmo
em relao aos demais algoritmos de Boosting quanto ao critrio de parada, neste caso podese definir o nmero de iteraes necessrias, enquanto que na maioria dos demais algoritmos,
o critrio de parada utilizado, o de verificar quando a taxa de erro torna-se maior ou igual a
0.5, por fim a combinao final dos preditores obtidos feita pela mdia ponderada dos
preditores obtidos e do valor de confiana dado cada preditor, enquanto que nos outros
algoritmos a combinao final feita utilizando a mediana geomtrica. A frmula de
combinao final dos preditores est representada na equao (4.11).

f fin ( x ) =

log
t

f t (x )

1
t

log
t

1
t

(4.11)

Uma desvantagem deste algoritmo a necessidade de se encontrar um valor timo


para , se os valores de forem muito baixos, poucos exemplos sero corretamente
classificados, por outro lado, se os valores de forem muito altos, poucos exemplos obtero
uma boa previso. Assim, para encontrar valores timos para , necessrio utilizar algum
procedimento de minimizao do erro relativo absoluto, antes de se aplicar o algoritmo
AdaBoost.RT. Os experimentos realizados pelos autores desta tcnica mostraram que o
algoritmo Adaboost.RT efetua predies melhores que as realizadas por um nico preditor

54

com uma confiana de 99%, porm para que seja comparado aos demais algoritmos de
Boosting propostos, h necessidade de se realizar mais experimentos.

4.3.3 O Algoritmo GPBoost

Uma extenso da Programao Gentica foi proposta por Iba (1999), atravs de
tcnicas de reamostragem, na qual a populao inicial dividida em sub-populaes e cada
uma destas evoluda utilizando o algoritmo de Boosting. Este algoritmo foi chamado por Iba
de GPBoost. Baseado neste trabalho, Paris, Robilliard e Folunpt (2001) propuseram a
utilizao do algoritmo GPBoost com algumas modificaes, especialmente na interpretao
da distribuio de pesos, para problemas de classificao e de regresso. Existem algumas
dificuldades ao se aplicar a tcnica de Boosting Programao Gentica, e a mais importante
delas que a PG no considerada um algoritmo bsico de aprendizagem, desta forma no
esperada uma grande reduo de erros, embora vrios testes tenham mostrado resultados
promissores.
O algoritmo funciona da seguinte maneira: para obter a imagem de x, cada funo ft
fornece um valor ft(x). Estes valores so ordenados e ento calculada a mediana geomtrica
que ser a funo de aproximao final, F(x). A funo de aptido definida como sendo a
soma das diferenas absolutas, multiplicadas pelos valores dos pesos da distribuio. O valor
desta funo multiplicado por m (Eq. 4.12), assim a primeira execuo do algoritmo
Boosting a idntica primeira execuo da PG. A funo de aptido pode ser definida de
acordo com o problema em questo e uma frmula bastante utilizada para esta funo a Raiz
quadrada do Erro Mdio Quadrtico (RMSE). As demais etapas do algoritmo so semelhantes
ao Adaboost.R. O algoritmo completo est apresentado no quadro (4.2).
fit =

m
i =1

( f(x

) y i * Dt ( i ))* m

(4.12)

55

QUADRO 4.3 ALGORITMO ADABOOST.RT

Dado: um conjunto S = {(x1, y1), ..., (xm, ym)}; xi X, yi R, PG o algoritmo base.


Algoritmo GPboost:
1
D1(i) o peso da amostra (xi, yi), D1(i) : =
(xi, yi) S
m
For t = 1 at T faa

Execute a PG sobre Dt com a funo de aptido:


fit =

m
i =1

( f(x

) y i * Dt ( i ))* m , onde f uma funo na populao PG.

A melhor funo encontrada ft.


Calcule a perda para cada amostra: Li =
m

Calcule a perda mdia: L =

i =1

f t ( xi ) y i
max i =1...m f t ( x i ) y i

Li Di e

L
ser a confiana dada funo ft e atualize a distribuio:
1 L
D ( i )1 Li
Dt +1 ( i ) := t
, com Zt um fator de normalizao.
Zt

Faa t =

End For
Sada: Hiptese Final:

F( x ) = min{y R :

log
t:f t ( x ) y

1
1 m
1

log
}
t
2 t =1
t

4.3.4 Exemplo do algoritmo GPBoost

Nesta seo apresentado um exemplo de um problema de regresso para mostrar o


funcionamento do algoritmo GPBoost (PARIS; ROBILLIARD; FONLUPT, 2001). Os
parmetros esto definidos na tabela (4.1).

56

TABELA 4.1 PARMETROS PARA O GPBOOST

Terminais

Funes

+, -, *, /

Conjunto de treinamento

5 exemplos da funo y = x 2
{(-0,1;0,005), (-0,5; 0,125), (1; 0,5), (0,2; 0,02), (0,7;0,245)}
5

Aptido

( f ( xi ) yi * Di )* 5

i =1

Populao

20

Geraes

10

FONTE: RETIRADO DO ARTIGO (PARIS; ROBILLIARD; FONLUPT, 2001)

A evoluo dos pesos durante as trs primeiras execues do algoritmo Boosting


apresentada na tabela (4.2).
TABELA 4.2 - EVOLUO DOS PESOS NAS TRS PRIMEIRAS EXECUES DO BOOSTING

Amostra
X
-0,1
-0,5
1
0,2
0,7

Y
0,01
0,25
1
0,04
0,49

Distribuio
D1
0,2
0,2
0,2
0,2
0,2

D2
0,135645
0,155274
0,433427
0,140010
0,135645

D3
0,091587
0,097203
0,271331
0,116996
0,422883

Na primeira execuo, os pesos so iguais para todos os exemplos da amostra, ou seja,


tem-se uma execuo da PG tradicional. A melhor funo obtida na primeira execuo do
GPBoost f1(x) = x4, a qual no uma boa aproximao para a funo desejada. Na prxima

etapa, calcula-se a atualizao no vetor de pesos, obtendo D2. Uma nova execuo de PG
realizada, e como resultado tem-se a funo f 2 ( x ) =

x4
. Observa-se, que esta funo
1+ x

fornece a melhor aproximao para o exemplo que possui o maior peso, no caso (1,1), cujo
peso 0,433427. Na tabela (4.3), encontram-se as melhores funes obtidas e a confiana das
hipteses para todas as execues.

57

TABELA 4.3 RESULTADOS OBTIDOS DAS EXECUES BOOSTING

Hipteses

Confiana

f1(x) = x4

0,309380

f2( x ) =

x4
1+ x

0,200801

f3(x) = x4

f 4 ( x) =

f5 ( x ) =

0,414084

x 4 ( x + 2)

0,720217

(3 x 3 x + 1)( x + 1)

x2
1+ x

0,158855

Hiptese Final: Para cada valor dado x, cada funo fi fornece um valor de fi(x).
Obtm-se F(x), calculando a mediana geomtrica de fi(x) com os pesos sendo seus respectivos
coeficientes de confiana.
Se x = 0,5

f1(x) = 0,0625
f2(x) = 0,041667
f3(x) = 0,0625
f4(x) = 0,116305
f5(x) = 0,166667

A mediana geomtrica dada por

1
2

m
t =1

log

1
= 2,907245 e os valores so
t

ordenados em ordem crescente. Para x = 0,5, tem-se: f2(x)


Ento ordena-se os termos log

log

1
t

f1(x)

na mesma ordem que as ft:

1
= 1,60544
2

1,60544 + log

1
= 2,77862
1

2,77862 + log

1
3

= 3,660312

2,907245

f3(x)

f4(x)

f5(x).

58

Quando o valor obtido maior ou igual mediana geomtrica, tem-se a hiptese final.
Neste caso dada por f3(x). Assim, tem-se que: F(0,5) = f3(0,5) = 0,0625.
Os resultados deste experimento mostraram uma melhoria de 20% nos resultados em
comparao aos resultados obtidos utilizando somente a PG tradicional.
Na seo (4.4) apresentada uma adaptao do algoritmo Boosting para a sua
utilizao na previso de sries temporais, bem como proposta uma modificao do
algoritmo, na atualizao dos pesos e na forma de combinao final das funes, o que
caracteriza uma das contribuies originais desta tese.

4.4 ADAPTAO DO ALGORITMO BOOSTING UTILIZANDO COEFICIENTE


DE CORRELAO

Aps ter sido realizada a reviso de literatura a respeito dos algoritmos de Boosting e
as vrias modificaes propostas por diversos autores, concluiu-se que estes algoritmos tm
sido bastante utilizados para problemas de classificao, porm menor nfase tem sido dada
quanto sua aplicao aos problemas de regresso. Verificou-se tambm, que o algoritmo no
tem sido utilizado juntamente com mtodos de previso de sries temporais. Assim, surgiu a
idia de verificar o desempenho dos algoritmos de Boosting j existentes, para melhorar os
resultados de previso obtidos atravs da aplicao de alguns mtodos de previso. O mtodo
foi proposto para melhorar o desempenho dos preditores obtidos, utilizando como algoritmo
base a PG.
A metodologia proposta uma nova abordagem do algoritmo Boosting, e tem uma
fundamentao emprica ao utilizar o coeficiente de correlao para a atualizao do vetor de
pesos, o que influencia diretamente na minimizao da funo de perda, pois este coeficiente
fornece uma relao entre as variveis em questo, que neste caso so os valores previstos e
valores observados no conjunto de treinamento. O mesmo coeficiente foi tambm utilizado na
combinao final dos preditores obtidos por um algoritmo base. A definio do coeficiente de
correlao dada a seguir.
Definio: diz-se que existe correlao entre duas variveis quando as alteraes sofridas por

uma delas so acompanhadas por modificaes nas outras. Ou seja, no caso de

59

duas variveis X e Y, verifica-se se as variaes que ocorrem em X, correspondem


s mesmas variaes que ocorrem em Y. Assim, a correlao revela se existe uma
relao funcional entre uma varivel e as demais. A frmula da correlao entre as
variveis x e y dada pela equao (4.13)
m

( x, y ) =

i =1
m
i =1

(xi x )( yi y )

( xi x )

m
i =1

( yi y )

(4.13)
2

onde m o nmero de observaes da amostra, x a mdia da amostra X e y a


mdia da amostra Y e o coeficiente de correlao linear de Pearson.

4.4.1 Algoritmo Boosting utilizando o Coeficiente de Correlao (BCI Boosting


Correlation Improvement)

Considerando que o coeficiente de correlao relaciona duas variveis, ou seja, de


acordo com seu valor, possvel verificar quo prxima uma varivel est da outra, o estudo
foi empiricamente direcionado de forma a obter uma combinao final de preditores,
utilizando estes coeficientes de correlao entre os valores observados e os valores previstos,
pois quanto mais prximos estes valores estiverem uns dos outros, melhores sero os valores
de previso obtidos.
O mtodo proposto utiliza estes coeficientes de correlao na atualizao da
distribuio de pesos do algoritmo de Boosting e na combinao final dos preditores obtidos e
segue a metodologia do algoritmo Adaboost.R. Inicializa a distribuio de pesos com valores
iguais para todos os exemplos da amostra, ou seja, dado o conjunto de observaes no tempo

T = {x1, x2, ..., xm}, o vetor de pesos para a primeira iterao : P1(i) = 1/m para todo xi T.
Utiliza-se ento um algoritmo de aprendizagem bsico para obter os valores previstos. O erro
ento calculado, utilizando a funo de perda exponencial apresentada na equao (4.14).
Lt ( xi ) = 1 exp

f t ( xi ) y( xi )
maxi =1...m f t ( xi ) y( xi )

(4.14)

60

Onde ft(xi) representa os valores previstos pelo algoritmo base na iterao t e y(xi) so
os valores observados. A escolha da utilizao da funo exponencial para calcular a perda
obtida pelo algoritmo se deu em funo dos resultados obtidos em vrios experimentos que
comparavam o desempenho do algoritmo utilizando as funes de perda linear (Eq. 4.15),
quadrtica (Eq. 4.16) e exponencial. Alm disso, pesquisas recentes (HASTIE; TIBSHIRANI;
FRIEDMAN, 2001) mostraram o melhor desempenho do algoritmo Adaboost quando a
funo de perda utilizada a exponencial.

f t ( xi ) y ( xi )

Li =

Li =

(4.15)

max i =1,...m f t ( xi ) y ( xi )

f t ( xi ) y ( xi )

max i =1,...m f t ( xi ) y ( xi )

(4.16)

O clculo dos coeficientes de correlao entre os valores observados e os valores


previstos so feitos de acordo com a equao (4.17).
m

t ( f t ( xi ), y (xi ) ) =

( f t (xi ) f t (x ))( y (xi ) y(x ))

i =1
m

( f t (xi ) f t (x ))

i =1

2 m

( y(xi ) y(x ))

(4.17)
2

i =1

onde m o nmero de observaes do conjunto de treinamento, ft( x ) a mdia da amostra


obtida por ft(x) e y ( x ) a mdia dos valores observados no conjunto de treinamento. A
atualizao dos pesos feita multiplicando-se o coeficiente de correlao obtido na iterao t
do algoritmo BCI pelos vetores de peso Pt e de perda Lt, a atualizao feita de acordo com a
equao (4.18).

Pt +1( xi ) = t ( f t (xi ), y ( xi ))* Pt * Lt ( xi )

(4.18)

Finalmente, aps terem sido completadas as T iteraes do algoritmo BCI, a


combinao final dos preditores feita conforme a equao (4.19).
T

F ( xi 1 ) =

t =1

t ( ft ( xi ) , y ( xi ) ) * ft ( xi )
T
t =1

t ( ft ( xi ) , y ( xi ) )
T

F ( xm ) =

t =1

ft ( xi )
T

, i = 1, ..., m-1

,i=m

(4.19)

61

O pseudo-cdigo do algoritmo BCI est apresentado no quadro (4.4).


QUADRO 4.4 ALGORITMO BCI

Dado T = {x1, x2, ..., xm}


Inicializar P1(i) = 1/m, para todo xi T
For t = 1, ...,T
Execute um algoritmo bsico de aprendizado, e determine ft, modelo de previso

para a iterao t.
Calcule a perda para cada exemplo:
f t ( xi ) y ( xi )

Li = 1 exp

max i =1...m f t ( xi ) y ( xi )

onde y(xi) so os valores observados.


Calcule o coeficiente de correlao entre ft (xi) e y(xi).
m

t ( f t (xi ), y ( xi ) ) =

( f t (xi ) f t (x ))( y(xi ) y(x ))

i =1
m

( f t (xi ) f t (x ))2 ( y (xi ) y (x ))2

i =1

i =1

Faa a atualizao dos pesos: Pt +1( xi ) = t ( f t (xi ), y ( xi ))* Pt * Lt ( xi )


End for
Sada Final: obter a combinao final dos preditores, F(x):
T

F ( xi 1 ) =

t =1

t ( ft ( xi ) , y ( xi ) ) * ft ( xi )
T
t =1

t ( ft ( xi ) , y ( xi ) )
T

F ( xm ) =

t =1

f t ( xi )
T

, i = 1, ..., m-1

,i=m

Com o objetivo de verificar o desempenho do algoritmo BCI, vrios experimentos


foram realizados. Estes experimentos envolvem previso de sries temporais financeiras,
algumas sries temporais reais e sries artificialmente simuladas. O algoritmo tambm foi
testado para problemas de regresso mltipla. O detalhamento destes experimentos

62

apresentado no captulo VI, em sua grande maioria, nestes experimentos, o algoritmo base
utilizado foi a PG, assim o mtodo proposto aqui neste captulo denominado de BCIGP
(Boosting Correlation Improvement using Genetic Programming).

63

! !

!% & ! !

CAPTULO V

o se comparar dois algoritmos, nem sempre uma tarefa simples saber qual
deles apresenta o melhor desempenho utilizando apenas as taxas de erros. O
desvio padro pode ser considerado como a imagem da robustez do algoritmo,
ou seja, se os erros calculados sobre diferentes conjuntos de teste, provenientes de diferentes
conjuntos de treinamento da mesma amostra, forem muito diferentes de um experimento para
o outro, diz-se que o algoritmo no robusto a mudanas no conjunto de treinamento
proveniente de uma mesma distribuio. Assim, para verificar dentre dois algoritmos, qual
deles possui o melhor desempenho, basta verificar se a diferena entre os algoritmos ou no
significativa (WEISS; INDURKHYA, 1999). Neste captulo so apresentados os testes
estatsticos realizados para a verificao da validade e significncia dos modelos obtidos
atravs da metodologia proposta nesta tese.

5.1 TESTE t - DESEMPENHO DE ALGORITMOS

Os testes estatsticos de hipteses julgam uma afirmao quanto ao valor numrico de


um parmetro de uma populao com base em uma amostra. Os testes t fazem parte da

64

famlia destes testes e tm como objetivo comparar duas mdias, ou uma mdia com um valor
padro. H vrias abordagens na utilizao do teste t, neste trabalho, utiliza-se o teste para
dados emparelhados, ou seja, aqueles que so obtidos aos pares, em indivduos ou ensaios
relacionados, decorrentes do fato de que as observaes so obtidas de medies repetidas a
partir de um mesmo conjunto de indivduos. Na execuo do teste, avalia-se o valor-p que o
valor de quando t = tcrtico. o valor de em que ocorre entre a transio entre a aceitao e
a rejeio da hiptese nula. O clculo do valor-p permite uma concluso direta sobre a
hiptese nula, caso o valor-p seja menor do que o nvel de significncia escolhido rejeita-se a
hiptese nula.
As hipteses consideradas so as seguintes:

H0: Hiptese nula a hiptese da igualdade ou hiptese da diferena nula. sempre a

hiptese testada. Esta hiptese poder ser aceita ou rejeitada pelo teste.

H1: Hiptese alternativa a hiptese que ser aceita se o teste rejeitar a H0. Esta

hiptese poder ter configuraes diferentes, conforme o teste seja unilateral ou


bilateral.
o H1 : A B

representa o teste bilateral, onde se verifica se a mdia da

amostra A difere da mdia da amostra B;


o H1: A > B o teste unilateral ou unicaudal.

Outro fator importante a ser considerado, o nvel de confiana P = 1 - , este valor


definido pelo usurio do teste e representa a probabilidade de aceitar a H0, quando esta
verdadeira. Delimita a regio de aceitao da hiptese H0, como mostrado na figura (5.1).

FIGURA 5.1 NVEL DE CONFIANA P E NVEL DE SIGNIFICNCIA

O nvel de significncia representa o risco de rejeitar a hiptese H0, sendo esta


verdadeira.
A estatstica t para dados emparelhados, calculada atravs da equao (5.1)

65

t=

d n
~ tn 1
sd

(5.1)

onde d a mdia das diferenas entre os pares, n o nmero de pares e sd o desvio padro
das diferenas entre os pares.

5.2 COMPARAO DOS ERROS NO CONJUNTO DE TESTE

Outra maneira de verificar as discrepncias existentes entre os valores reais


observados xi e os valores previstos xi utilizar uma das medidas de erro apresentadas nas
equaes de (5.2) a (5.5).
n

Erro Mdio:

ME = i =1
n

Erro Absoluto Mdio:

MAE =

( xi xi )
n

( xi xi )
n

MSE = i =1

( xi xi ) 2

Raiz Quadrada do EQM:

(5.3)

i =1

Erro Quadrtico Mdio:

(5.2)

RMSE =

i =1

(5.4)

( xi xi )

(5.5)

onde:

xi o valor da observao no instante i;


xi o valor previsto para o instante i;
n o nmero de observaes.
Quanto menor for o erro obtido, melhor ser o ajuste do modelo de previso. O
mtodo mais utilizado do Erro Quadrtico Mdio (MSE).
Para comparar o desempenho de todos os algoritmos utilizados nos experimentos foi
realizado o teste ANOVA, descrito a seguir.

66

5.3 DESEMPENHO DOS ALGORITMOS TESTE ANOVA

Uma tcnica estatstica bastante utilizada para testar a hiptese de igualdade na mdia
entre vrios algoritmos o teste de Anlise de Varincia (ANOVA), que verifica se existe ou
no uma diferena significativa entre os mtodos propostos utilizados. A ANOVA utiliza o
teste F descrito na seo seguinte.

5.3.1 Teste F para comparar duas ou mais Mdias Populacionais

Inicialmente aplicada a Anlise de varincia (ANOVA) para investigar se existe


diferena significativa entre as mdias dos algoritmos utilizados. Na tcnica da ANOVA, a
variao total na mensurao dos resultados subdividida em variaes atribudas a
diferenas entre os grupos e variaes dentro dos grupos. A variao dentro dos grupos
considerada erro experimental enquanto que a variao entre os grupos atribuda a efeitos de
tratamento.
Admitindo c populaes normalmente distribudas com varincias iguais, a hiptese
nula, mostrada em (5.12), de igualdade das mdias das populaes testada contra a hiptese
(5.12)

H 0 : 1 = 2 = ... = c

alternativa de que existe pelo menos uma das mdias j que possui valor diferente das demais,
a hiptese alternativa H1, est representada na equao (5.13)

H1: nem todas as j so iguais (j = 1, 2, ..., c)

(5.13)

onde c representa o nmero de grupos que esto sendo comparados.


Uma medida de observao geral entre todas as observaes obtida atravs da soma
dos quadrados das diferenas entre cada observao individual e a mdia geral. A variao
total (STQ), que a soma total dos quadrados, calculada de acordo com a equao (5.14).

STQ =
De maneira que:

c nj
j =1 i =1

(X

ij

c nj
, onde

X =

j =1 i =1

X ij

(5.14)

67

X o estimador da mdia geral


Xij a i-sima observao no grupo j;
nj o nmero de observaes no grupo j;
n o nmero total de observaes em todos os grupos;
c o nmero de grupos.
A variao entre os grupos, denominada de soma dos quadrados entre os grupos (SQE)
calculada de acordo com a equao (5.15).

SQE =

c
j =1

nj X j X

(5.15)

onde X j a mdia aritmtica da amostra do grupo j e as demais variveis so as mesmas da


equao (5.14).
A variao dentro do grupo, denominada de soma dos quadrados dentro dos grupos
(SQD) calculada de acordo com a equao (5.16).

SQD =

c nj
j =1 i =1

(X ij X j )2

(5.16)

Desde que c grupos estejam sendo comparados, existem (c-1) graus de liberdade
associados soma dos quadrados entre os grupos e como cada um dos grupos contribui com
(nj 1) graus de liberdade, existem (n c) graus de liberdade associados soma dos
quadrados dentro dos grupos, alm disso, existem (n 1) graus de liberdade associados
soma total dos quadrados, pois cada observao est sendo comparada com a mdia geral,
baseada nas n observaes.
Assim, ao dividir cada uma das somas dos quadrados pelos seus respectivos graus de
liberdade, so obtidas trs varincias, que esto representadas na equao (5.17).

SQE
c 1
SQD
MQD =
nc
STQ
MTQ =
n 1
MQE =

(5.17)

Para testar a hiptese nula, H0, em relao hiptese alternativa H1, a estatstica do
teste F calculada como sendo a razo entre duas das varincias, MQE e MQD, de acordo
com a equao (5.18).

68

F=

MQE
MQD

(5.18)

A estatstica do teste F, segue uma distribuio F, com (c 1) graus de liberdade que


correspondem a MQE no numerador e (n c) graus de liberdade correspondentes ao MQD no
denominador.
Assim, se o nvel de significncia , a hiptese nula ser rejeitada se a estatstica do
teste F for maior do que o valor crtico Fs, tomado a partir da distribuio F, tendo (c -1)
graus de liberdade no numerador e (n c) graus de liberdade no denominador. Desta forma, a
regra de deciso a seguinte:
Se F > Fs

Rejeitar H0

Caso a hiptese nula do teste F, seja verdadeira, espera-se que a estatstica do teste F
calculada possua um valor prximo de 1, se a hiptese nula rejeitada, isto , se existirem
diferenas significativas entre as mdias, espera-se que a estatstica calculada F, tenha um
valor substancialmente maior do que 1. Assim, a metodologia ANOVA, fornece um teste F,
no qual a hiptese nula rejeitada para um dado nvel de significncia, , somente se a
estatstica calculada F for maior do que o valor crtico Fs, que possui (c -1) e (n c) graus de
liberdade.

5.3.2 Teste Tukey-Kramer

Se existir diferena significativa entre os mtodos analisados, deve-se verificar qual


dos grupos apresenta o melhor desempenho. Um dos procedimentos que se pode utilizar o
teste Tukey-Kramer (LEVINE, et al., 2002), que possibilita examinar, simultaneamente,
comparaes entre todos os pares de grupos.
O primeiro passo do procedimento calcular as diferenas das mdias, X j X j ,
entre os (c(c-1)/2) pares de grupos. Em seguida calcula-se o intervalo crtico para o teste
Tukey-Kramer de acordo com a equao (5.19)
IC = Qs

MQD 1
1
+
2
n j n j

(5.19)

69

onde Qs o valor crtico obtido da distribuio de intervalos de Student, com c graus de


liberdade no numerador e (n c) graus de liberdade no denominador. A anlise final feita
comparando cada diferena entre as mdias aritmticas dos algoritmos com o valor do
intervalo crtico, caso alguma das diferenas entre as mdias, X j X j , supere o valor do
intervalo crtico, conclu-se que existe diferena significativa entre os grupos.

5.3.3 Pressupostos para se utilizar a ANOVA

Ao se aplicar a ANOVA as premissas em relao aos dados que esto sendo


investigados devem ser assumidas. Essas premissas so: independncia, normalidade e
homegeneidade das varincias (homoscedasticidade). No caso da normalidade, o teste F
ANOVA relativamente robusto em relao a distanciamentos da distribuio normal, ou seja,
o nvel de significncia do teste ANOVA em geral no afetado pela ausncia da normalidade,
especialmente quando a amostra grande. A premissa de homoscedasticidade afirma que as
varincias so iguais nas populaes. Se as amostras possuem tamanhos iguais em cada um dos
grupos, as inferncias baseadas na distribuio F no so seriamente afetadas em funo de
varincias desiguais (LEVINE, et al., 2002).
Neste captulo foram apresentados os testes estatsticos utilizados para a comparao
do desempenho dos mtodos apresentados nos experimentos dos captulos VI e VII desta tese.

70

!' !

()!

este captulo so relatados os experimentos realizados com a utilizao da


metodologia de Boosting proposta nesta tese. Num primeiro experimento feita
a comparao dos resultados obtidos atravs da tcnica da PG tradicional e dos
algoritmos de Boosting: GPBoost; GPBoost e AdaboostRT. Em seguida so apresentados os
experimentos utilizando o algoritmo BCI e os resultados so comparados aos resultados
obtidos atravs da metodologia ARMA e da PG tradicional e do GPBoost. O mtodo BCI
utiliza como algoritmo base, em todos os experimentos relatados neste captulo, o algoritmo
da PG, desta forma, o mtodo aqui denominado de BCIGP.

6.1 EXPERIMENTO UTILIZANDO SRIES TEMPORAIS REAIS

No primeiro experimento, so realizados testes com algumas sries temporais reais, as


quais foram retiradas do livro: Anlise de Sries Temporais (MORETTIN; TOLOI, 2004), e
algumas sries financeiras obtidas em (ECONOMATICA, 2006). Estas sries foram base dos
estudos realizados com diversas medidas estatsticas de forma a se chegar ao algoritmo
proposto no captulo IV. Com base nas anlises dos resultados obtidos com este experimento,
foram estabelecidos os parmetros da PG utilizados no banco de dados que contm as sries

71

simuladas. As descries destas sries esto apresentadas no Apndice B desta tese. Os


resultados destes experimentos foram publicados em (SOUZA; COSTA; POZO, 2005).

6.1.1 Configurao da Programao Gentica

A Programao Gentica para Previso de Sries Temporais foi implementada


utilizando a ferramenta Lil-gp1.1 (ZONGKER; PUNCH, 1995). Inicialmente foram
realizados experimentos com nmero varivel de execues da PG, nas quais era alterada
somente a semente inicial11. O algoritmo utiliza at os ltimos quatro valores da srie
temporal para gerar os prximos valores (Zt-1, Zt-2, Zt-3, Zt-4), as funes utilizadas no conjunto
F (sen, cos, exp, raiz) possibilitam que modelos no lineares sejam ajustados aos dados. Estes
modelos, em geral, se ajustam melhor aos dados, pois normalmente as sries analisadas no
so oriundas de modelos lineares. O tamanho da populao, o nmero de geraes e as taxas
de reproduo, mutao e cruzamento foram obtidos experimentalmente, assim como o
mtodo de incializao da populao inicial, o mtodo de seleo e a funo de aptido. A
configurao que foi utilizada para a PG est no quadro (6.1).
QUADRO 6.1 PARMETROS DE CONFIGURAO DA PG

T = {Zt-1, Zt-2, Zt-3, Zt-4}


F = {+, -, *, /, log, sen, cos, exp, raiz}
Populao: 1000
Geraes: 200
Taxa de Cruzamento: 80%
Taxa de Mutao: 10%
Taxa de Reproduo: 10%
Mtodo de Inicializao da Populao Inicial: Grow
Mtodo de Seleo: Best
Funo de aptido: RMSE

importante ressaltar que o modelo gerado utilizando as observaes do conjunto de


treinamento, este modelo ento aplicado para efetuar a previso no conjunto de testes e as
medidas de erro apresentadas so sempre calculadas no conjunto de teste.
11

Semente Inicial valor utilizado pelo algoritmo para replicar os experimentos.

72

No quadro (6.2) apresentado um exemplo de um indivduo gerado pela PG.


QUADRO 6.2 MELHOR INDIVDUO GERADO PELA PG

=== BEST-OF-RUN ===


generation: 41
nodes: 40
depth: 7
TOP INDIVIDUAL:
raw aptido: 17050
standardized aptido: 17050
adjusted aptido: 0.3697
TREE:
(* -0.09724(+ (- (* (rlog (+ Zt-3 Zt-1))(+ Zt-4 Zt-4))(+ Zt-1 Zt-1))(+ (* (exp (- 0.09934 Zt1))(* -0.09724(rlog Zt-1)))(+ (* (exp (- 0.88495 Zt-1))(* -0.09724(rlog Zt-1)))(- 0.17202(+
Zt-1 Zt-1))))))

6.1.2 Configurao do algoritmo GPBoost

Aps estudo e implementao do GPBoost, foram realizados experimentos no sentido


de determinar o nmero timo de algoritmos de Boosting a ser utilizado, de forma a obter
resultados satisfatrios sem provocar aumento excessivo no custo computacional. Foram
realizados testes com nmeros de 5, 8, 10, 12, 15, 18 e 20 algoritmos de Boosting. Os resultados
obtidos com estes experimentos mostraram que utilizando 10 execues do algoritmo de

Boosting, obtm-se melhorias nas previses com reduo do RMSE que chegam a 20% quando
comparado aos demais nmeros de Boosting . Foram testadas tambm as trs formas de se
calcular a perda obtida pelo preditor: exponencial, quadrtica e linear, os melhores resultados
foram obtidos com a utilizao da frmula exponencial conforme algoritmo apresentado
(4.3).

73

6.1.3 Configurao da metodologia Box & Jenkins

A implementao da metodologia Box & Jenkins foi feita utilizando o software


estatstico livre12 R, que seleciona o melhor modelo ARMA(p, q) cuja ordem dos modelos
varia de 0 a 4. O critrio para seleo e ajuste do modelo utilizado, foi o critrio Akaike (AIC),
o detalhamento deste critrio encontra-se no Apndice A desta tese. Para a verificao da
adequabilidade do modelo, neste primeiro experimento, foi utilizado o RMSE calculado sobre
o conjunto de treinamento. O modelo selecionado foi aquele que apresentou o menor RMSE,
este modelo foi ento utilizado para efetuar a previso dos valores futuros das sries no
conjunto de teste.

6.2 DESCRIO DOS EXPERIMENTOS

Nesta seo so apresentados os resultados obtidos utilizando a metodologia proposta


na seo (6.1) para algumas sries reais e financeiras. Os valores utilizados so os valores
reais das sries, nenhum procedimento de tratamento inicial dos dados foi aplicado.

6.2.1 Dados de Entrada

As sries utilizadas neste experimento esto apresentadas nas tabelas (6.1) e (6.2). De
cada uma das sries foi escolhido um conjunto de treinamento contendo 90% dos dados
observados e um conjunto de teste contendo 10% dos dados. Outros testes foram realizados,
utilizando 70% dos dados para o conjunto de treinamento e 30% para o teste, porm os
resultados obtidos utilizando 90% para treinamento apresentaram menor RMSE. A previso
12

http://www.r-project.org/

74

foi realizada n passos frente, ou seja, o modelo foi gerado no conjunto de treinamento e
ento utilizado para a previso dos valores futuros da srie.
TABELA 6.1 BASES DE DADOS
Srie

Atmosfera
Bebida
Consumo
Fortaleza
ICV
IPI
Lavras
Manchas

Conjunto Total
(100%)
365
187
154
149
126
187
384
176

Treinamento
(90%)
329
169
139
135
114
169
346
159

Teste
(10%)
36
18
15
14
12
18
38
17

FONTE: SRIES TEMPORAIS (MORETTIN & TOLOI, 2004)


TABELA 6.2 BASES DE DADOS SRIES FINANCEIRAS
Srie

Djiad
Ibovespa
Nasdaq

Conjunto Total
(100%)
1100
1100
1100

Treinamento
(90%)
990
990
990

Teste
(10%)
110
110
110

FONTE: WWW.ECONOMATICA.COM

6.2.2 Experimento

Este experimento teve como objetivo comparar o desempenho dos algoritmos de PG,

GPBoost, Adaboost.RT na previso de Sries Temporais com a metodologia Box & Jenkins.
Os testes foram realizados utilizando 10 sementes aleatrias iniciais para o algoritmo de PG.
O critrio de comparao utilizado foi o RMSE calculado no conjunto de testes, foi
considerado o melhor mtodo, aquele que apresentou o menor RMSE no conjunto de testes de
cada uma das sries analisadas. O RMSE apresentado na tabela (6.3), foi calculado como
sendo a mdia dos RMSEs de dez algoritmos de PG utilizados.

75

TABELA 6.3 - COMPARAO DAS PREVISES ARMA, PG E GPBOOST


Srie

Atmosfera
Bebida
Consumo
Fortaleza
ICV
IPI
Lavras
Manchas
Djiad
Ibovd
Nasdaq

PG Tradicional

GPBoost

Adaboost.RT

5,938722
14,794792
10,323963
592,983924
20,247427
9,875241
80,101648
14,697371
0,007267
0,016115
0,007895

5,844508
14,716823
11,250817
656,548041
19,796984
10,578101
82,982135
17,806627
0,007235
0,016097
0,007875

5,741550
14,861233
10,856045
656,819081
19,779801
10,518967
83,921154
18,081780
0,007722
0,016097
0,008490

ARMA

6,244017
29,747780
11,758310
667,600500
126,431500
20,449340
73,047860
29,776310
0,007292
0,016375
0,007964

ARMA(2,1)
ARMA(2,2)
ARMA(4,3)
ARMA(1,0)
ARMA(1,0)
ARMA(3,2)
ARMA(3,2)
ARMA(2,1)
ARMA(2,2)
ARMA(2,3)
ARMA(2,2)

PG
x
ARMA
4,89%
50,27%
12,20%
11,18%
83,99%
51,71%
-9,66%
50,64%
0,35%
1,59%
0,86%

Na ltima coluna da tabela so apresentados os resultados comparativos entre a previso


obtida pela PG e pelos modelos ARMA. Observa-se, que na maioria dos casos, a PG obtm o
menor RMSE, com melhorias que chegam a 84% no caso da srie ICV. Para as demais sries, a
PG tambm apresentou bons resultados com melhoria de 51,7% para a srie IPI e 50% para a
srie Manchas. Apenas no caso da srie Lavras, o modelo ARMA apresentou resultado melhor
em relao PG. Para as sries Djiad e Ibovd, o Boosting apresentou uma pequena melhoria no

Ib
ov
d
N
as
da
q

jia
d
D

as

M
an
ch

La
vr
as

IP
I

IC
V

os
fe
ra
Be
bi
da
Co
ns
um
o
Fo
rta
le
za

800
700
600
500
400
300
200
100
0

tm

RMSE

RMSE quando comparado PG.

Sries
PG_Pura

ARMA

FIGURA 6.1 COMPARAO DO RMSE DA PG E ARMA

O fato do algoritmo Boosting no ter apresentado melhorias significativas, apenas em


torno de 1%, em relao aos resultados obtidos atravs da PG, foi motivao para buscar uma
forma de utilizao do algoritmo de Boosting, que pudesse fornecer melhores resultados.

76

6.2.3 Experimento II

As configuraes utilizadas para este experimento so as mesmas do experimento


anterior. Os valores apresentados na tabela (6.4) representam a mdia dos RMSE de 10 PGs
obtidas com sementes iniciais diferentes.
Neste experimento o algoritmo base utilizado foi a PG, assim o mtodo que utiliza os
coeficientes de correlao para a combinao final dos preditores foi denominada de BCIGP
(Boosting Correlation Improvement using Genetic Programming). Nas colunas de 2 a 6 da
tabela (6.4) so apresentados os valores mdios de RMSE, analisando estes valores obtidos com
as sries reais, somente em dois casos, o algoritmo BCIGP obteve um resultado pior do que os
outros dois algoritmos de Boosting analisados e embora no tenha se comportado bem no caso
da srie ICV, na qual obteve um RMSE bem superior ao encontrado pelos demais mtodos, as
melhorias obtidas para as outras sries mostraram a eficincia do mtodo. Os valores de RMSE
apresentados so calculados fora da amostra em todas as sries, ou seja, no conjunto de teste.
Nas colunas 7 e 8 da tabela feita uma comparao do desempenho do algoritmo BCIGP com a
PG e com os modelos ARMA, os valores representam em percentual, a melhoria obtida pelo
mtodo BCIGP, somente para a srie ICV, a PG obteve uma melhoria de 63% em relao ao
BCIGP e 0,12% na srie Nasdaq. Comparando com os modelos ARMA, o mtodo BCIGP
mostrou-se mais eficiente.
TABELA 6.4 - COMPARAO DO RMSE NO CONJUNTO DE TESTE PARA CADA MTODO
Srie

Atmosfera
Bebida
Consumo
Fortaleza
ICV
IPI
Lavras
Manchas
Djiad
Ibovd
Nasdaq

PG
Tradicional

GPBoost

5,938722
5,844508
14,794792 14,716823
10,323963 11,250817
592,983924 656,548041
20,247427 19,796984
9,875241 10,578101
80,101648 82,982135
14,697371 17,806627
7,266819
7,235000
16,115177 16,097000
7,895456
7,875000

Adaboost_RT

5,741550
14,861233
10,856045
656,819081
19,779801
10,518967
83,921154
18,081780
7,722000
16,097000
8,490000

BCIGP

ARMA

6,244017
2,467783
6,613493 29,747780
7,896470 11,758310
427,114760 667,600500
33,058154 126,431500
3,554103 20,449340
53,661973 73,047860
14,571732 29,776310
7,292027
7,206467
15,200588 16,375060
7,904953
7,964157

PG
x
BCIGP
58,45%
55,30%
23,51%
27,97%
-63,27%
64,01%
33,01%
0,85%
0,83%
5,68%
-0,12%

ARMA
x
BCIGP
153,02%
349,80%
48,91%
56,30%
282,45%
475,37%
36,13%
104,34%
1,19%
7,73%
0,75%

Na figura (6.2) so apresentados, graficamente, o RMSE obtido por todos mtodos


estudados para as sries analisadas. Observa-se que o RMSE obtido pelo mtodo BCIGP est

77

quase sempre abaixo das linhas do RMSE obtido na previso feita atravs da PG tradicional e

PG_Pura

BCIGP

Ib
ov
d
N
as
da
q

D
jia
d

IP
I

La
vr
as
M
an
ch
as

tm
os
A

IC
V

Be
bi
da
Co
ns
um
o
Fo
rta
le
za

800
700
600
500
400
300
200
100
0
fe
ra

RMSE

dos modelos ARMA.

ARMA

Sries

FIGURA 6.2 COMPARAO DO RMSE DA PG, BCIGP E ARMA

Na figura (6.3) so apresentados os valores de previso obtidos pela PG e pelo BCIGP


para a srie IPI. No grfico pode-se perceber que os valores obtidos pelo mtodo proposto esto
mais prximos dos valores reais observados do que os valores obtidos pela PG.
150
140
RMSE

130
120
110
100
90
80
1

10 11 12 13 14 15 16 17 18
tempo

Srie IPI

BCIGP

PG_Pura

FIGURA 6.3 VALORES DE PREVISO OBTIDOS PELA PG E BCIGP PARA A SRIE IPI

78

6.2.4 Anlise do desempenho do algoritmo BCIGP utilizando o teste t

A comparao feita utilizando a mesma base de dados. Os resultados so calculados


entre os resultados obtidos das 10 diferentes sementes iniciais para cada execuo do
algoritmo da PG. A hiptese nula a de que a diferena mdia entre os MSE dos algoritmos
zero, contra a alternativa de que este valor diferente de zero. Foi estabelecido o nvel de
significncia de 1% para a rejeio da hiptese nula. Nas colunas 2, 3 e 4 da tabela (6.5) esto
os valores-p das comparaes entre os algoritmos. Observa-se que o valor-p na maioria dos
casos inferior ao nvel de significncia fixado. Na comparao com a PG (coluna 2), somente
em dois casos, para as sries Manchas e Djiad, o valor-p foi superior a 0,01; na comparao
com o GPBoost, o valor-p foi superior a 0,01 para as sries ICV e Manchas e na comparao
com os modelos ARMA o valor-p foi superior a 0,01 para as sries Lavras e Djiad. Em todas
as anlises, o mtodo BCIGP superou a PG e os modelos ARMA na maioria dos casos.
TABELA 6.5 VALOR p - TESTE t
Sries
Atmosfera
Bebida
Consumo
Fortaleza
ICV
IPI
Lavras
Manchas
Djiad
Ibovespa
Nasdaq

PG
x
BCIGP

GPBoost
x
BCIGP

ARMA
x
BCIGP

3,7905E-13
4,7524E-10
0,00914777
9,9558E-06
0,01226633
4,3907E-13
2,9221E-07
0,61925777
0,06501221
1,8239E-09
0,00164798

1,00883E-16
3,04027E-11
1,64447E-12
7,38805E-10
0,012144333
3,35132E-16
2,14086E-07
0,358819112
0,005344011
1,77275E-09
2,15808E-05

4,15965E-18
4,88797E-16
2,59222E-15
1,11589E-12
8,21525E-13
2,60942E-26
0,011376221
2,55251E-10
0,085420922
3,35255E-11
0,001647981

6.3 INTERPRETAO E ANLISE DAS SRIES FINANCEIRAS UMA


APLICAO REAL

A anlise das sries financeiras considerada um desafio para os pesquisadores, no


que se refere construo de um modelo que se ajuste bem aos dados, gerando previses que

79

produzam ganhos financeiros. Em geral as sries financeiras, principalmente as obtidas pelos


retornos de ativos financeiros, so processos estocsticos cuja estrutura de dependncia
complexa, com alto grau de no linearidade e os mtodos existentes, geralmente lineares,
acabam por no obter boas previses, especialmente quando o horizonte de previso grande.

6.3.1 Descrio das sries financeiras utilizadas

A srie Ibovd representa os ndices da BOVESPA Bolsa de Valores de So Paulo.


Foi fundada em 1890. At meados de 1960, a BOVESPA e as demais bolsas brasileiras eram
entidades oficiais corporativas, vinculadas s secretarias de finanas dos governos estaduais e
compostas por corretores nomeados pelo poder pblico. A partir de 1965, as bolsas
transformaram-se em associaes civis sem fins lucrativos, com autonomia administrativa,
financeira e patrimonial. Foi a primeira bolsa brasileira a implantar o prego automatizado
com informaes disponveis em tempo real. Em 1990, foram iniciadas as negociaes
atravs do sistema de negociao eletrnica - CATS (Computer Assisted Trading System) que
operava simultaneamente com o sistema tradicional de Prego Viva Voz. O sistema eletrnico
foi implantado em 1997 e em 1999 foram criados o Home Broker e o After Market, ambos
criados para tornar possvel a participao do pequeno e mdio investidor, atravs da internet.
Atualmente, a BOVESPA o maior centro de negociao com aes da Amrica Latina.
A National Association of Security Dealers Automated Quotation System (NASDAQ)
foi criada nos Estados Unidos, em 1971 e foi a primeira bolsa do mundo a negociar
exclusivamente aes de empresas de Internete, informtica e tecnologia. Como as operaes
de compra e venda so feitas por meio de computadores no mercado de balco, a Nasdaq
ficou conhecida como a "bolsa eletrnica". A Nasdaq conhecida por negociar aes das
maiores empresas de tecnologia, como por exemplo a Microsoft, Intel, Dell Computer, Yahoo,

Amazon.com, etc. Recentemente, a Nasdaq uniu-se American Stock Exchange (AMEX),


formando o Nasdaq-Amex Market Group.
A srie Djiad indica os ndices da Dow Jones, fundada em 1882 com a finalidade de
divulgar cotaes das aes e notcias econmicas do mercado de New York. Em 1896 foi
criada uma mdia especfica para aes emitidas por empresas industriais, Dow-Jones

80

Industrial Average (DJIA), porm as divises que foram ocorrendo fizeram com que fosse
criado um multiplicador para anular o efeito das variaes bruscas de preos.

6.3.2 Retornos

Em geral, na previso de sries financeiras, prefervel trabalhar com retornos do que


com preos, pois estes so livres de escalas e so estacionrios. Denotando por Pt, o preo de
um ativo13 no instante t (normalmente um instante considerado um dia de negociao), a
variao de preos entre os instantes (t-1) e t dada pela equao (6.8):
P t = P t Pt 1

(6.8)

e a variao relativa de preos, ou retorno lquido simples deste ativo, entre os mesmos
instantes definido como na equao (6.9):
P t P t 1

Rt =

P t1

Pt
P t1

(6.9)

Assim, na equao (6.10), tem-se que:

Rt + 1 =

Pt
Pt 1

(6.9)

Rt + 1 denominado de retorno bruto simples. Usualmente, Rt expresso em percentual,


relativo ao perodo (dia, ms ou ano), e tambm chamado de taxa de retorno.
Os retornos financeiros apresentam algumas peculiaridades, que muitas sries no
apresentam. Retornos raramente apresentam tendncias ou sazonalidades (MORETTIN;
TOLOI, 2004).
Na figura (6.4) est representada a srie de retornos dirios do IBOVESPA (ndice da
Bolsa de Valores de So Paulo), no perodo de 3 de janeiro de 1995 a 27 de dezembro de
2000. Observa-se que a srie estacionria com mdia ao redor de zero e agrupamentos de
volatilidade. Os perodos que apresentam alta volatilidade foram perodos em que ocorreram
crises em diversos pases, inclusive no Brasil e que tiveram influncia sobre o mercado
financeiro brasileiro, entre as quais pode-se citar a crise do Mxico nos meses de fevereiro e
13

Todo e qualquer ttulo representativo de parte patrimonial ou dvida.

81

maro de 1995, a crise na sia, em outubro de 1997, moratria na Rssia em agosto de 1998,
a desvalorizao do Real em janeiro de 1999 e a queda da bolsa Nasdaq, em abril do ano
2000.
Valores de Retorno da Bovespa
Maro 2001 - Agosto 2005

Valores de Retorno

100
50
0
-50

100

200

300

400

500

600

700

800

900 1000 1100


tempo

-100
Srie Bovespa

FIGURA 6.4 RETORNOS DIRIOS DA IBOVESPA (01/03/1995 27/08/2000)

O principal objetivo da previso das sries financeiras obter uma estratgia de ao


baseada na qual o investidor possa tomar uma posio no mercado financeiro, se ir comprar,
vender ou manter a posse de suas aes. Em geral, essas previses so dirias, ou seja, o
horizonte de previso considerado um.

6.3.3 Avaliao da estratgia de ao baseada nas previses

Aps ter sido feita a previso de retorno das sries financeiras Ibovd, Nasdaq e Djiad,
foi aplicado tambm ao problema, uma estratgia de trading (negociao das aes) baseada
somente no sinal da previso e no levando em conta o custo da operao, adaptando a
metodologia proposta em Dunis e Jalilov (2002). Se a previso positiva, uma estratgia de
compra realizada, caso negativa, o investidor vende as suas aes. Se o sinal confirmar a
estratgia adotada no dia anterior, o investidor mantm a sua posio, isto implica em
permanecer comprado, com as aes na mo, ou vendido, sem a posse das aes. Em
ambos os casos, importante ressaltar que ao manter a sua posio, o lucro naquele instante

82

computado como zero. Os valores de retorno so obtidos, considerando o preo mdio das
aes em dois dias consecutivos, conforme a equao (6.10)
r t=

pt

(6.10)

p t 1

onde pt o valor da ao no instante t e pt-1 o valor da ao no instante t-1.


Na tabela (6.6) so apresentados valores comparativos dos lucros obtidos utilizando as
estratgias de ao fornecidas por previses atravs da utilizao dos modelos ARMA e

BCIGP. O horizonte de previso utilizado para ambos os mtodos foi de 110 dias, o que
representa 10% do conjunto dos valores observados.
Na tabela (6.6) so apresentados valores comparativos dos lucros obtidos utilizando as
estratgias de ao fornecidas por previses atravs da utilizao dos modelos ARMA e

BCIGP. O horizonte de previso utilizado para ambos os mtodos foi de 110 dias, o que
representa 10% do conjunto dos valores observados. Os dados observados so relativos ao
perodo de 13/08/2001 a 17/08/2005. Na tabela (6.7) esto apresentados os lucros
anualizados14, ou seja, projeta-se o lucro com a utilizao da estratgia para o perodo de um
ano comercial.
TABELA 6.6 RETORNO FINANCEIRO NO PERODO 110 DIAS
Mtodo
Djiad
Ibovd
Nasdaq

BCIGP
2,02%
16,88%
7,29%

ARMA
0,45%
-1,69%
-5,87%

PG
-1,02%
-8,67%
-8,82%

GPBoost
-3,48%
-6,85%
-3,69%

TABELA 6.7 RETORNO FINANCEIRO ANUALIZADO


Mtodo
Djiad
Ibovd
Nasdaq

BCIGP
4,62%
76,64%
16,69%

ARMA
1,03%
-3,88%
-13,46%

PG
-2,34%
-19,85%
-20,21%

GPBoost
-7,98%
-15,69%
-8,45%

Observa-se que em todas as situaes, os resultados obtidos com a utilizao do


mtodo BCIGP foram superiores aos obtidos pela aplicao das demais metodologias
avaliadas. Em todos os perodos os resultados foram favorveis ao investidor, ou seja, a
estratgia de ao gerou um retorno positivo em todos os casos. O fato do horizonte de

14

Retorno anualizado obtido multiplicando-se a mdia do perodo por 252 nmero de dias de aplicao no
perodo de um ano.

83

previso ser grande, deve ter contribudo para os resultados superiores da utilizao da
metodologia BCIGP, j que para horizontes de previso grandes.
Neste caso, no foram consideradas as despesas com as operaes financeiras, porm
h um custo operacional para cada transao realizada. Assim, foram contadas tambm, o
nmero de transaes realizadas para cada mtodo no perodo de 110 dias, ou seja, quantas
vezes houve compra ou venda de aes. Os valores esto mostrados na tabela (6.8).
TABELA 6.8 NMERO DE TRANSAES NO PERODO

Mtodo
Djiad
Ibovd
Nasdaq

BCIGP
43
47
60

ARMA
84
53
60

PG
54
53
54

B1
43
49
50

Observa-se que, em quase todos os casos o mtodo BCIGP realizou um nmero menor
de operaes, se for levado em considerao o custo das operaes financeiras, o lucro pode
ser considerado ainda maior quando se adota as estratgias obtidas atravs desta metodologia.

84

(#

este captulo so apresentados os resultados obtidos com a aplicao do


mtodo BCIGP para sries geradas atravs de uma simulao Monte Carlo. O
objetivo desta simulao mostrar que o mtodo proposto apresenta um bom
desempenho para a previso de sries temporais, independente do domnio ao qual elas
pertenam. Os resultados obtidos so comparados aos da PG tradicional, do GPBoost e dos
modelos ARMA para Previso de Sries Temporais. O detalhamento desta simulao
apresentado, bem como os resultados obtidos, as comparaes com os mtodos estatsticos e
as concluses.

7.1 DESCRIO DA SIMULAO

As etapas utilizadas para a realizao da simulao esto descritas a seguir:

Definio dos parmetros a serem utilizados em cada uma das cinco estruturas;

Gerao das sries artificiais para cada parmetro definido em cada uma das
estruturas;

Ajuste do modelo ARMA;

85

Previso utilizando a metodologia ARMA, PG, GPBoost, AdaBoost.RT e BCIGP.

O fluxograma contendo as etapas de realizao da simulao apresentado na figura


(7.1).
Gerar 500 sries temporais para
cada modelo de cada estrutura
Ajustar o modelo
ARMA
Efetuar 15 previses utilizando
o mesmo modelo ARMA
Efetuar as previses utilizando a PG
o GPBoost e BCIGP

Calcular os erros de previso obtidos


ARMA, PG, GPBoost e BCIGP

Fim do processo
para todos os parmetros
da estrutura?
sim
no

Calcular o MSE para cada ponto


previsto: ARMA, PG, GPBoost e
BCIGP

FIGURA 7.1 FLUXOGRAMA DA SIMULAO MONTE CARLO

86

7.1.1 Definio dos Parmetros

Para definir os parmetros utilizados nos modelos da simulao das sries, tomou-se
no espao paramtrico a regio de estacionariedade das principais estruturas dos modelos
ARMA: AR(1), AR(2), MA(1), MA(2) e ARMA(1, 1).

7.1.2 Espao Paramtrico das Estruturas AR(1) e MA(1)

Para que um modelo da estrutura AR(1) seja estacionrio, necessrio que o


parmetro auto-regressivo, 1, esteja compreendido na regio do conjunto dos nmeros reais
R, entre -1 e 1, ou seja, o parmetro 1 deve satisfazer a inequao (7.1). De forma anloga,
para que um modelo da estrutura MA(1) seja invertvel necessrio que o parmetro de
mdias mveis 1 satisfaa equao (7.2) (BOX; JENKINS, 1970). O espao paramtrico da
regio de estacionariedade da estrutura AR(1) e de invertibilidade da estrutura MA(1) esto
representados na figura (7.2). Este espao foi divido utilizando passo de 0,1.

(7.1)
(7.2)

1 < 1 < 1
1 < 1 < 1

-1,0 -0,9 -0,8 -0,7 -0,6 -0,5 -0,4 -0,3 -0,2 -0,1

0,1

0,2 0,3 0,4

0,5

0,6

0,7

0,8

0,9 1,0

FIGURA 7.2 REGIO DE ESTACIONARIDADE PARA OS MODELOS AR(1) E INVERTIBILIDADE PARA MA(1)
EIXO DOS PARMETROS 1 E

87

7.1.3 Espao Paramtrico das Estruturas AR(2) e MA(2)

O espao paramtrico da regio de estacionariedade da estrutura AR(2) est


representado na figura (7.3). Nestas estruturas, os parmetros 1 e 2 devem satisfazer s
inequaes (7.3).

1 + 2 < 1
2 1 < 1
1 < 2 < 1

(7.3)

Para a estrutura MA(2) no h restrio sobre os parmetros para que o processo seja
estacionrio (MORETTIN; TOLOI, 2004), porm sua regio de invertibilidade a mesma
regio de estacionariedade do processo AR(2) (Fig. 7.3).

-2

razes reais

razes complexas

-1

FIGURA 7.3 REGIO DE ESTACIONARIDADE PARA UM MODELO AR(2) E INVERTIBILIDADE PARA MA(2)

88

7.1.4 Espao Paramtrico da Estrutura ARMA(1, 1)

O espao paramtrico da regio de estacionariedade e invertibilidade da estrutura


ARMA(1,1) est representado na figura (7.4), os valores dos parmetros devem satisfazer s
equaes (7.4). A regio foi dividida utilizando passo de 0,2 nos eixos x e y (BOX;
JENKINS, 1976).

1 + 1 < 1
1 < 1 < 1
1 < 1 < 1

(7.4)

-1

-1

FIGURA 7.4 REGIO DE ESTACIONARIDADE PARA UM MODELO ARMA(1,1)

Utilizando este critrio, o nmero de parmetros definidos para cada estrutura est
apresentado na tabela (7.1).

89

TABELA 7.1 NMERO DE PARMETROS E SRIES


Estrutura

Nmero de
Parmetros

AR(1)
AR(2)
MA(1)
MA(2)
ARMA(1,1)

19
90
19
200
100

7.1.5 Simulao das Sries

Para gerar as sries sintticas a serem utilizadas no experimento, aps terem sido
definidos os parmetros de cada estrutura, foi feito um programa computacional utilizando o
software R. Para cada parmetro foram geradas 500 sries com 150 observaes cada uma. Na
simulao das sries, os 150 primeiros valores gerados so descartados para evitar vcio na
gerao dos dados. As sries so geradas com rudo que possui distribuio normal com
mdia zero e desvio padro um.

7.1.6 Banco de Dados

O banco de dados gerado com os parmetros descritos na seo anterior ficou


constitudo de 214.000 sries, distribudas para cada estrutura, da forma mostrada na tabela
(7.2).
TABELA 7.2 NMERO DE PARMETROS E SRIES
Estrutura

Nmero de
parmetros

Nmero de
sries

AR(1)
AR(2)
MA(1)
MA(2)
ARMA(1,1)

19
90
19
200
100

9.500
45.000
9.500
100.000
50.000

90

7.2 EXECUO DO EXPERIMENTO

Na etapa de execuo do banco de dados, foram obtidos os resultados de Previso das


Sries Temporais, artificialmente geradas, utilizando os mtodos da Programao Gentica
tradicional (PG-Pura); Programao Gentica usando GPBoost (B1), modelos ARMA e

BCIGP. Neste experimento, os coeficientes de correlao foram utilizados somente na


combinao final dos preditores obtidos. Na seo (7.3) so relatados os resultados dos
experimentos utilizando o algoritmo BCIGP completo, tanto na combinao final dos
preditores quanto na atualizao de pesos, o que foi denominado aqui de Pesos 2. Os
resulados obtidos so comparados aos demais mtodos e tambm ao mtodo BCIGP utilizado
somente na combinao final dos preditores.

7.2.1 Configurao da Programao Gentica e do GPBoost

Neste experimento foi escolhido utilizar somente uma semente inicial para a execuo
da PG, pois considerando que o nmero de sries grande, o tempo de execuo se tornaria
impraticvel. Nos experimentos relatados no captulo VI, verificou-se que a utilizao de 10
execues do algoritmo de Boosting, fornecem resultados satisfatrios, com menores erros de
previso no conjunto de teste. Portanto, esta mesma configurao foi utilizada na simulao.
A funo de perda utilizada a funo de perda exponencial apresentada na equao (4.11).

7.2.2 Ambiente Computacional

Para a execuo do Banco de Dados, foi criado um ambiente computacional para o


processamento do experimento. Foi utilizado um grupo contendo 42 computadores, dos quais
16 possuem processador duplo com 2 GHz e 2 GB de memria RAM e os outros 26 possuem
processador simples com 1.7 GHz e 2 GB de memria RAM, pertencentes ao Cluster da
Universidade Federal do Paran (UFPR). O ambiente de execuo utilizado foi o LINUX, e

91

os programas foram implementados utilizando a linguagem de programao C++. O banco de


dados foi dividido em grupos de 500 sries, que eram as sries geradas para cada parmetro
utilizado, formando um total de 428 grupos. Para cada um destes grupos so executados os 4
algoritmos que so: PG, GPBoost, Adaboost.RT e BCIGP, para cada um destes algoritmos
gerado um arquivo que contm os valores previstos para cada srie, para cada um dos
mtodos utilizados. O tempo de processamento para cada um destes 428 grupos ficou em
torno de 32 horas.

7.2.3 Anlise dos Resultados

Aps a execuo do procedimento para todas sries geradas, os resultados foram


analisados calculando o erro mdio quadrtico, fora da amostra, ou seja, o modelo foi gerado
utilizando as observaes do conjunto de treinamento e em seguida foi feita a previso para os
valores do conjunto de teste. O clculo do erro foi feito de acordo com as equaes (7.5),
1 500 (srie( xi ) ARMA( xi ))2
500 i =1
1 500
(srie(xi ) PG (xi ))2
500
i =1
erro( hi ) =
1 500
(srie( xi ) GPBoost (xi ))2
500 i =1
1 500
(srie( xi ) BCIGP(xi ))2
500 i =1

(7.5)

onde: srie(xi) so os valores reais observados da srie; ARMA(xi) so os valores previstos


pelos modelos ARMA; GPBoost(xi) so os valores previstos utilizando o algoritmo GPBoost
e BCIGP(xi) so os valores obtidos pelo algoritmo BCIGP. Os valores so calculados no
conjunto de teste.
Na tabela (7.3) esto os valores do MSE das 500 sries geradas para cada parmetro
dentro da estrutura AR(1). Cada uma das colunas P1, P2, ..., Pj, representam os parmetros
considerados para esta estrutura, partindo da esquerda para a direita, com passo de 0,1 e os
valores e135, e136, ..., e150 representam os horizontes de previso analisados.

92

TABELA 7.3 MSE MDIO DAS 500 SRIES PARA A ESTRUTURA AR(1)
MSE AR(1)
ARMA
PG-Pura
e136
B1
BCIGP
ARMA
PG-Pura
e137
B1
BCIGP
ARMA
PG-Pura
e138
B1
BCIGP
ARMA
PG-Pura
e139
B1
BCIGP
ARMA
PG-Pura
e140
B1
BCIGP
ARMA
PG-Pura
e141
B1
BCIGP
ARMA
PG-Pura
e142
B1
BCIGP
ARMA
PG-Pura
e143
B1
BCIGP
ARMA
PG-Pura
e144
B1
BCIGP
ARMA
PG-Pura
e145
B1
BCIGP
ARMA
PG-Pura
e146
B1
BCIGP
ARMA
PG-Pura
e147
B1
BCIGP
ARMA
PG-Pura
e148
B1
BCIGP
ARMA
PG-Pura
e149
B1
BCIGP
ARMA
PG-Pura
e150
B1
BCIGP

P1
0,9522
1,0233
0,9663
1,1425
1,8065
1,2669
1,0413
1,0684
2,4164
1,1425
1,0667
0,9680
3,1069
1,1387
1,0469
1,0013
3,2906
1,0665
1,0021
0,9717
3,2970
1,1616
1,0821
1,0313
3,7910
0,9814
0,9244
0,8910
4,1995
1,0518
1,0084
0,9187
4,4809
1,0845
1,0689
0,9639
4,5527
1,0719
1,0203
0,9749
4,3709
1,1581
0,9448
0,8912
4,5453
1,0135
0,9539
0,8781
4,5619
1,2477
0,9491
0,9533
4,5275
0,9923
0,9487
0,9224
4,7239
1,1353
1,0586
5,2786

P2
0,4589
0,4567
0,4656
0,4441
0,8463
0,5503
0,5367
0,5113
1,0428
0,5486
0,5618
0,4971
1,1962
0,5274
0,5175
0,4794
1,2308
0,5146
0,5000
0,4621
1,2763
0,5086
0,4511
0,4051
1,2337
0,4768
0,4607
1,5279
1,2061
0,4932
0,4654
0,4244
1,2337
0,4874
0,4515
0,4087
1,0910
0,4458
0,4705
0,4223
1,2117
0,4996
0,5286
0,4909
1,1528
0,4781
0,4659
0,4353
1,1798
0,4932
0,5095
0,4497
1,0555
0,4615
0,4827
0,4906
1,0751
0,4104
0,3809
0,3527

P3
0,1025
0,1154
0,1130
0,1046
0,1738
0,1480
0,1512
0,1314
0,2113
0,1404
0,1541
0,1324
0,2061
0,1476
0,1541
0,1402
0,2416
0,1320
0,1325
0,1252
0,2233
0,1523
0,1429
0,1357
0,2574
0,1367
0,1295
0,1135
0,2606
0,1474
0,1462
0,1309
0,3183
0,1178
0,1302
0,1179
0,3332
0,1235
0,1561
0,1133
0,2882
0,2163
0,1724
0,3130
0,2557
0,1556
0,1440
0,1219
0,2315
0,2131
0,1775
0,1619
0,2801
0,1440
0,1541
0,1683
0,2600
0,1188
0,1180
0,0975

P4
0,0660
0,0791
0,0857
0,0802
0,0676
0,0474
0,0525
0,0459
0,1128
0,0968
0,0905
0,0880
0,0445
0,0411
0,0604
0,0544
0,1056
0,0818
0,1005
0,0821
0,1528
0,0879
0,1038
0,0819
0,1554
0,1089
0,1166
0,1256
0,0969
0,0729
0,0676
0,0548
0,1204
0,0722
0,0714
0,0701
0,0692
0,0605
0,0712
0,0686
0,0857
0,0635
0,0625
0,0690
0,0774
0,0882
0,0870
0,0828
0,0787
0,0559
0,0528
0,0449
0,0683
0,0473
0,0474
0,0432
0,0564
0,0400
0,0437
0,0299

P5
0,6113
0,6459
0,6881
0,5840
0,7828
0,6524
0,6380
0,5576
0,7123
0,6123
0,6403
0,5763
0,6827
0,5341
0,5567
0,4884
0,7351
0,6668
0,6477
0,5842
0,6986
0,6027
0,5843
0,5414
0,7694
0,6220
0,6441
0,5163
0,7172
0,6618
0,6166
0,5698
0,6258
0,4940
0,5090
0,4533
0,7542
0,6531
0,6249
0,5724
0,7443
0,5866
0,6055
0,5267
0,7593
0,6602
0,5914
0,5216
0,6408
0,5591
0,5536
0,5135
0,7142
0,6460
0,6490
0,5568
0,7383
0,6444
0,6316
0,5693

P8
0,6602
0,7537
0,7713
0,7048
0,9061
12,5038
0,8541
0,9410
1,0325
0,9478
0,9027
1,2107
1,0322
0,9792
0,9050
0,8025
0,9074
0,8651
0,8374
0,7341
0,9472
0,9458
0,8977
0,8280
1,0540
0,9713
0,9261
0,8577
1,0102
0,9882
0,9008
0,7980
0,9303
0,8264
0,8369
0,7552
0,8363
0,7935
0,7937
0,7124
1,0218
0,9807
0,9464
0,8816
0,9743
0,9001
0,8559
0,7738
0,8525
0,8033
0,8322
0,7246
0,8994
0,9172
0,9046
0,7868
0,9307
1,1732
0,9200
0,8189

P7
1,0153
1,1055
1,0665
0,9590
1,0265
1,0222
0,9726
0,8828
1,1560
1,1935
1,0981
1,0068
1,1911
1,4551
1,1239
1,4582
1,1902
1,1983
1,1504
1,0452
1,0985
1,3945
1,0768
0,9625
1,0239
1,2814
0,9908
0,9484
1,1003
1,1356
1,0177
0,9164
1,1644
1,2448
1,1072
1,0497
1,0868
1,1768
1,0474
8,3915
1,0927
1,2069
1,1240
1,0079
0,9481
0,9746
0,9153
0,8146
1,3024
1,2652
1,2297
1,1702
1,2101
1,2330
1,1403
1,0319
1,1548
1,1503
1,1113
1,0452

P8
P9
P15
P18
P19
Mdia
0,9761 0,5312 5,8741 4,1962 3,8506 1,6079
1,1393 0,5829 2,2558 1,7052 3,2271
1,0908
1,1393 0,5833 2,2965 1,7177 3,2726
1,0972
1,0254 0,5280 2,0544 1,6020 2,9453 1,0145
0,8788 0,5062 4,1043 3,4076 3,7389 1,5204
0,9915 0,6065 0,8255 1,1275 3,1441
1,9072
0,9915 0,5634 0,7436 1,1990 3,2176
0,9135
0,8923 0,4994 0,7323 1,1199 2,8960 0,8565
0,9652 0,5498 5,2608 2,7322 2,5220 1,5595
1,0948 0,6255 2,9702 1,5241 2,5000
1,1164
1,0948 0,6332 2,9462 1,4847 2,5194
1,0994
0,9854 0,5683 2,7342 1,3485 2,2923 1,0340
0,9672 0,4976 3,6281 3,3153 2,3939 1,5218
1,0956 0,5029 1,3335 1,8864 2,5226
1,0137
1,0956 0,5552 1,3064 1,9197 2,5443
0,9821
0,9860 0,4990 1,2007 2,1576 2,3260 0,9661
0,8383 0,4626 2,4915 2,1326 2,3229 1,3291
0,9995 0,4954 0,9462 1,2941 2,5147
0,8979
0,9995 0,5165 0,8839 1,3378 2,6584
0,8972
0,8995 0,4616 0,7969 1,2192 2,4455
0,8189
0,8969 0,4724 2,0265 1,9687 3,2547 1,3594
1,3158 0,5743 0,7421 1,2459 3,2535
0,9987
1,3158 0,5705 0,7226 1,2412 3,3381
0,9606
1,1842 0,4614 0,6542 6,6515 3,0304 1,3306
0,9728 0,5179 2,8715 1,5340 2,2673 1,3707
1,3179 22,1876 1,7936 1,3587 2,9584
2,8496
1,3179 0,5933 1,8613 1,3120 3,0688
1,0288
1,2861 0,7022 1,6828 1,2257 2,8278
1,0588
0,8576 0,5755 1,9112 2,9293 1,6482 1,3761
0,9096 1,8902 18,6550 2,8987 2,1351
2,5866
0,9096 0,6442 1,0903 2,8846 2,2364
0,9990
0,8186 0,5461 1,3028 2,5884 2,0104 0,9233
1,0240 0,5115 1,0850 2,4556 1,6141 1,2970
1,1045 0,5893 0,4895 2,5229 2,5122
0,9621
1,1045 0,5428 0,4789 2,4714 2,5395
0,9427
0,9940 0,5012 0,4725 2,2935 2,3189 0,8666
0,9477 0,5860 1,2869 1,8975 2,8628 1,3587
1,0552 0,6464 0,9279 1,8491 3,8813
1,0571
1,0552 0,6353 0,8658 1,8685 3,9282
1,0448
0,9496 0,5600 0,8223 1,7258 3,5887
1,5751
0,8802 0,5099 1,5789 4,2805 4,9902 1,7546
1,0162 0,6733 1,2449 4,2139 6,2016
1,5051
1,0162 0,5727 1,1843 4,1517 6,2879
1,4664
0,9146 0,5323 1,1067 3,8479 5,7261
1,3590
1,0134 0,5533 1,4147 2,0436 4,6041 1,5285
1,3674 0,6477 1,1749 2,2620 5,7313
1,2878
1,3674 0,6569 1,1453 2,2565 5,8288
1,2724
1,2306 0,5780 1,0595 2,0660 5,3036
1,1555
0,9444 0,4995 2,7966 3,8039 3,0263 1,6599
1,1180 0,6749 2,5767 3,9575 4,0344
1,4166
1,1180 0,5384 2,5772 3,9907 4,1444
1,3894
1,0062 0,4640 2,3187 3,7305 3,7620
1,2750
0,8105 0,5696 2,2555 3,4711 1,1786 1,4200
0,9552 0,7169 2,2123 3,7843 2,1049
1,1846
0,9552 0,6993 2,2239 3,8933 2,1286
1,1856
0,8597 0,5843 2,1602 3,4347 1,9228
1,0801
1,0807 0,4749 6,3139 5,8322 3,2017 2,1536
1,1604 0,8354 5,9629 6,4714 7,7428
2,2371
1,1604 0,5599 5,9857 6,4942 4,1128
1,8814
1,0444 0,4831 5,4569 5,8879 3,6751 2,0616

93

Algumas colunas foram ocultadas, simplesmente para efeito de enquadramento na


pgina. Na ltima coluna os valores correspondem mdia dos 19 parmetros dos MSE para
cada horizonte de previso. Os resultados obtidos para esta estrutura, mostram que o mtodo

BCIGP pode ser considerado como um mtodo alternativo de previses, j que os resultados
obtidos apresentam erros de previso menores do que os obtidos atravs dos outros mtodos
analisados. Para as demais estruturas: AR(2), MA(1), MA(2) e ARMA(1, 1), os resultados
tambm foram satisfatrios, pois os erros de previso obtidos (fora da amostra) so em geral,
menores do que os obtidos pelos demais mtodos. As outras tabelas contendo os resultados
obtidos para as demais estruturas esto apresentadas no Apndice C desta tese.
Modelo AR(1)
7
6
MSE

5
4
3
2
1
0
0

10

15

20
parmetro

ARMA

PG-Pura

B1

BCIGP

FIGURA 7.5 COMPORTAMENTO DOS MTODOS PARA O


1 VALOR PREVISTO e136 MODELO AR(1)

Modelo AR(1)
7
6
MSE

5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
parmetro
ARMA

PG-Pura

B1

BCIGP

FIGURA 7.6 COMPORTAMENTO DOS MTODOS PARA O


O LTIMO VALOR PREVISTO e150 - MODELO AR(1)

94

A figura (7.5) mostra o comportamento dos algoritmos implementados, de acordo com


os valores do MSE obtidos no conjunto de teste para o horizonte de previso um (e136), das
sries geradas para a estrutura AR(1) e a figura (7.6) mostra o comportamento dos mesmos
algoritmos, porm considerando o horizonte de previso 15 (e150) para o mesmo teste. Os
grficos representativos das demais estruturas, para os horizontes de previso um e quinze
esto apresentados no apndice C desta tese.
Na tabela (7.4) so apresentados as mdias dos MSEs dos parmetros de cada
estrutura. Observa-se que os valores mdios dos MSE so na maioria das vezes menor para o
algoritmo BCIGP, sendo em alguns casos maior do que os obtidos pelo GPBoost, que o
terceiro algoritmo analisado.
Nas tabela (7.5) so apresentados os resultados comparativos do desempenho dos
algoritmos utilizados atravs da Anlise de Varincia (ANOVA) e do teste Tukey-Kramer,
descritos no captulo V, para as sries geradas. Na coluna 2, so apresentados os grupos (ou
mtodos) analisados, numerados de 1 a 4, onde o nmero 1 corresponde metodologia
ARMA, o nmero 2, corresponde ao algoritmo de PG tradicional, o nmero 3 corresponde ao

GPBoost e o nmero 4 o algoritmo BCIGP; na coluna 3, so apresentadas as mdias dos


MSE de cada grupo para a quantidade de parmetros de cada estrutura; na coluna 4, so
apresentadas as mdias gerais entre os 4 grupos. A estatstica F apresentada na coluna 5.
Para o nvel de significncia = 0.05, a hiptese nula ser rejeitada, se a estatstica do teste F,
calculada, for maior do que o valor crtico Fs. Na coluna 6 apresentado o valor-p, que
representa a probabilidade de ser obtida uma estatstica F to grande ou maior do que aquela
obtida, se a hiptese nula for verdadeira. Analisando o valor-p, pode-se concluir se a hiptese
nula deve ou no ser rejeitada, sem a necessidade de recorrer tabela dos valores crticos de
F. Se o valor-p for menor do que o nvel de significncia , a hiptese nula rejeitada. A
partir da coluna 7, esto os resultados do teste Tukey-Kramer, nesta coluna so mostrados os
grupos que esto sendo comparados. Na coluna 9 esto os valores do intervalo crtico Q, se
os valores mostrados na coluna 8 forem superiores ao valor do intervalo crtico, existe
diferena entre os mtodos. O melhor dos mtodos, quando a diferena existe, est
representado na ltima coluna. A tabela apresentada mostra os resultados obtidos para a
estrutura MA(1). As tabelas que mostram os resultados da anlise de varincia das demais
estruturas esto apresentadas no Apndice C desta tese.

95

TABELA 7.4 MDIA DOS MSE DOS PARMETROS PARA CADA ESTRUTURA
Valor
Previsto
e136

e137

e138

e139

e140

e141

e142

e143

e144

e145

e146

e147

e148

e149

e150

MSE
Mdio
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP
ARMA
PG-Pura
B1
BCIGP

AR(1)

AR(2)

MA(1)

MA(2)

ARMA(1, 1)

2,3702
1,0567
1,0118
0,9282
2,3527
1,9907
1,1842
1,0924
2,0450
1,0470
1,0311
0,9583
2,1817
1,3314
1,2955
1,2194
2,0486
1,5099
1,3779
1,2547
1,9550
1,4487
1,2907
1,4669
1,6495
2,2842
1,1341
1,0966
1,4880
2,0030
0,9834
0,9053
1,2274
0,8461
0,8106
0,7475
1,4540
1,1212
1,1029
1,3978
1,6769
1,4171
1,3755
1,2677
1,2946
1,0576
1,0276
0,9326
1,3387
1,1235
1,0967
1,0049
1,2239
1,0304
1,0237
0,9286
1,7268
1,7379
1,5064
1,5922

4,3479
1,3176
1,1906
1,0997
4,1828
1,5090
1,3537
1,2563
4,0820
1,3674
1,1733
1,4734
4,1294
1,4605
1,2963
1,5489
4,2354
1,6394
1,4485
1,4844
4,5942
1,5345
1,3558
1,3466
4,5034
1,6545
1,1711
1,2458
4,7462
1,7681
1,3549
1,4738
3,6964
5,0540
1,2776
1,5608
3,6346
1,4859
1,2636
1,2616
3,3792
2,4862
1,2689
1,2078
3,4343
1,5164
1,3071
1,2561
3,3868
2,2805
1,2308
1,1477
3,5028
1,5118
1,2823
1,8203
3,4916
1,6753
1,4174
1,4630

2,3150
5,6063
1,1318
1,0781
1,8223
1,6281
1,1394
1,0260
1,8098
1,1456
1,0935
0,9838
1,9132
1,2253
1,1898
1,0972
1,7691
1,2392
1,1130
1,0077
1,8326
1,1601
1,1285
1,0123
1,8526
1,2233
1,1996
1,0695
1,8323
1,2425
1,1424
1,0188
1,7596
1,3345
1,1668
1,0914
1,8127
1,4670
1,1852
1,0703
1,8306
1,1538
1,1349
1,0377
1,8601
1,2334
1,1368
1,0224
1,7664
1,2059
1,0886
1,0428
1,7232
1,1609
1,1196
1,0069
1,7436
1,1366
1,0936
0,9879

3,0335
2,2456
2,0985
1,9234
2,7355
2,1690
2,0773
1,8843
2,6617
3,2616
2,0698
1,9117
2,6473
3,0242
2,0711
1,9318
2,6666
2,1816
2,0828
1,8970
2,6444
2,3654
2,0613
1,9397
2,6580
2,3011
2,0800
1,9264
2,6514
3,1361
2,0581
4,4017
2,6497
2,7877
2,2478
2,6743
2,6596
3,0190
2,0717
2,4415
2,6673
2,5006
2,0858
2,4169
2,6690
2,7557
2,0776
2,5989
2,6551
2,7182
2,0734
2,1184
2,6740
2,7705
2,1262
1,9977
2,6571
2,5503
2,0637
2,0916

1,7917
1,8133
1,1327
1,1087
2,0809
1,2657
1,1427
1,0553
2,2494
1,3300
1,1277
1,0897
2,3892
1,6402
1,1417
1,0871
2,4768
1,3522
1,1416
1,0806
2,5734
1,2922
1,1399
1,1006
2,6567
1,6019
1,1467
1,2413
2,6738
1,2913
1,1375
1,0651
2,7013
1,3619
1,1386
1,0664
2,7278
1,3692
1,1365
1,4385
2,7513
10,2940
1,1417
1,1677
2,7759
1,8779
1,1450
1,1471
2,7658
6,5438
1,2860
1,2057
2,8048
1,3648
1,1386
1,0578
2,8316
3,4325
1,1398
1,0977

96

TABELA 7.5 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA MA(1)


Mdia Mdia Estats.
Valor
pGrupos
Previsto
Grupo Geral
F
valor

e136

e137

e138

e139

e140

e141

e142

1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4

Grupos

2,3150
Grupo1 e 2
5,6063
Grupo1 e 3
1,1318
Grupo1 e 4
2,53284 0,9553 0,4139
1,0781
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
1,8223
Grupo1 e 2
1,6281
Grupo1 e 3
1,1394
Grupo1 e 4
1,4040 2,1062 0,0989
1,0260
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
1,8098
Grupo1 e 2
1,1456
Grupo1 e 3
1,0935
Grupo1 e 4
1,2582 6,0609 0,0005
0,9838
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
1,9132
Grupo1 e 2
1,2253
Grupo1 e 3
1,1898
Grupo1 e 4
1,3564 6,5183 0,0003
1,0972
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
1,7691
Grupo1 e 2
1,2392
Grupo1 e 3
1,1130
Grupo1 e 4
1,2822 5,6142 0,0009
1,0077
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
1,8326
Grupo1 e 2
1,1601
Grupo1 e 3
1,1285
Grupo1 e 4
1,2834 5,6546 0,0008
1,0123
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
1,8526
Grupo1 e 2
1,2233
Grupo1 e 3
1,1996
Grupo1 e 4
1,3363 5,2527 0,0015
1,0695
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4

Dif.
Abs.

3,2913
1,1832
1,2369
4,4745
4,5282
0,0537
0,1943
0,6829
0,7964
0,4887
0,6021
0,1134
0,6642
0,7163
0,8260
0,0521
0,1618
0,1097
0,6879
0,7234
0,8160
0,0355
0,1281
0,0926
0,5299
0,6561
0,7614
0,1261
0,2315
0,1054
0,6725
0,7042
0,8204
0,0317
0,1478
0,1162
0,6294
0,6530
0,7831
0,0236
0,1537
0,1301

Interv.
Crtico

8,0918

0,9791

0,5647

0,5463

0,5306

0,5811

0,5692

Comp.
mdias

Melhor
Grupo

Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais

X
X
X
X
X
X
X
X
X
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
X
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X

Nota: A legenda apresentada a seguir tem o mesmo significado para todas as tabelas do teste

ANOVA, inclusive para as tabelas que se encontram nos apndices.


1 Modelos ARMA; 2 Programao Gentica; 3 Algoritmo GPBoost; 4 Algoritmo BCIGP

97

TABELA 7.5 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA


MA(1) (CONTINUAO)
Valor
Mdia Mdia
Grupos
Previsto
Grupo Geral

e143

e144

e145

e146

e147

e148

e149

e150

Estats.
F

pvalor

1
2
3
4

1,8323
1,2425
1,1424
1,0188

1
2
3
4

1,7596
1,3345
1,1668
1,0914

1
2
3
4

1,8127
1,4670
1,1852
1,0703

1
2
3
4

1,8306
1,1538
1,1349
1,0377

1
2
3
4

1,8601
1,2334
1,1368
1,0224

1
2
3
4

1,7664
1,2059
1,0886
1,27594 5,3376 0,0013
1,0428

1
2
3
4

1,7232
1,1609
1,1196
1,0069

1
2
3
4

1,7436
1,1366
1,0936
0,9879

1,3090

7,2735 0,0001

1,3381

3,9063 0,0090

1,3838

4,0350 0,0076

1,2893

6,0779 0,0005

1,3132

5,4731 0,0011

1,2527

5,5767 0,0009

1,2404

5,1803 0,0016

Grupos

Dif.
Abs.

Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4

0,5898
0,6899
0,8135
0,1000
0,2237
0,1236
0,4251
0,5928
0,6682
0,1677
0,2430
0,0753
0,3457
0,6275
0,7424
0,2818
0,3967
0,1149
0,6768
0,6957
0,7929
0,0189
0,1161
0,0972
0,6267
0,7233
0,8377
0,0966
0,2110
0,1144
0,5604
0,6777
0,7235
0,1173
0,1631
0,0458
0,5623
0,6037
0,7163
0,0414
0,1541
0,1127
0,6070
0,6500
0,7557
0,0430
0,1487
0,1057

Interv.
Crtico

0,4972

0,5622

0,6126

0,5497

0,5955

0,5377

0,5045

0,5575

Comp.
mdias

Melhor
Grupo

Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais

2
3
4
X
X
X
X
3
4
X
X
X
X
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X

98

Um resumo dos resultados mostrado nas tabelas (7.6) a (7.9), so apresentados os


valores-p de cada um dos horizontes de previso, para as cinco estruturas e o melhor
algoritmo est representado em negrito. Nas linhas onde aparece a letra x no existe
diferena significativa entre os algoritmos e que qualquer um deles pode ser selecionado ao
acaso para efetuar as previses.
TABELA 7.6 VALOR - p AR (1)
Valor
Previsto
e136
e137
e138
e139
e140
e141
e142
e143
e144
e145
e146
e147
e148
e149
e150

AR(1)
p-valor
Melhor
ANOVA
Grupo
0,0758955
4
1,46E-07
X
6,71E-10
4
1,57E-08
X
3,63E-13
X
1,14E-14
X
2,60E-06
X
6,88E-15
X
1,38E-14
X
2,81E-08
X
0,1778037
X
1,25E-06
X
0,3044825
X
4,36E-14
X
0,0209229
X

TABELA 7.7 VALOR - p MA (1)


Valor
Previsto
e136
e137
e138
e139
e140
e141
e142
e143
e144
e145
e146
e147
e148
e149
e150

MA(1)
p-valor
Melhor
ANOVA
Grupo
0,4138558
X
0,098902
X
0,0004836
X
0,0002593
4
0,0008891
4
0,0008415
4
0,0014546
4
9,27E-05
4
0,0090384
4
0,0075967
4
0,0004726
4
0,0010775
4
0,0012959
4
0,0009356
4
0,0016053
4

VALOR - p AR (2)

Valor
Previsto
e136
e137
e138
e139
e140
e141
e142
e143
e144
e145
e146
e147
e148
e149
e150
E

AR(2)
p-valor
ANOVA
2,52E-12
2,67E-11
4,89E-11
2,90E-09
1,89E-08
1,34E-09
1,08E-06
3,50E-05
0,064436
9,88E-15
1,62E-06
1,04E-13
2,93E-05
7,70E-06
7,08E-12

VALOR - p

Valor
Previsto
e136
e137
e138
e139
e140
e141
e142
e143
e144
e145
e146
e147
e148
e149
e150

Melhor
Grupo
4
4
4
4
4
4
4
4
x
4
4
4
4
4
4

MA (2)

MA(2)
p-valor
Melhor
ANOVA
Grupo
9,35E-13
4
6,04E-11
4
0,004464
4
0,070179
x
9,51E-09
4
2,55E-06
4
1,05E-06
4
0,533148
x
0,669801
x
0,341698
x
0,287049
x
0,465983
x
0,022435
x
0,000156
4
0,037747
x

99

TABELA 7.8 VALOR - p ARMA (1,1)


Valor
Previsto
e136
e137
e138
e139
e140
e141
e142
e143
e144
e145
e146
e147
e148
e149
e150

ARMA(1, 1)
p-valor
Melhor
ANOVA
Grupo
0,0758955
x
1,46E-07
4
6,71E-10
4
1,57E-08
4
3,63E-13
4
1,14E-14
4
2,60E-06
4
6,88E-15
4
1,38E-14
4
2,81E-08
4
0,1778037
x
1,25E-06
4
0,3044825
x
4,36E-14
4
0,0209229
x

Para as estruturas AR(1) e ARMA(1,1) verifica-se que o valor-p menor que 0,01 em
74% dos casos (horizontes de previso); para a estrutura AR(2) o valor-p e menor que 0,01
em 94% dos casos; para MA(1) o valor-p menor que 0,01 para 87% dos casos e para a
estrutura MA(2) o valor-p menor que 0,01 para 54% dos casos, ou seja, para o nvel de
significncia de 1%, a hiptese nula de que a diferena mdia entre os MSE dos algoritmos
zero, rejeitada.

7.3 EXPERIMENTO UTILIZANDO PESOS 2

Nesta seo sero apresentados os resultados dos experimentos realizados utilizando a


atualizao dos pesos proposta no algoritmo apresentado no captulo V.
O experimento utilizando a atualizao de pesos foi aplicado a somente uma das
estruturas, pois o tempo de processamento para todos os dados propostos na seo anterior foi
consideravelmente alto e a utilizao do cluster de computadores da Universidade Federal do
Paran j estava em seu limite mximo. Assim, optou-se por verificar o desempenho do
algoritmo completo em uma das bases de dados. A estrutura escolhida ao acaso foi a MA(1).
As mesmas configuraes do teste anterior foram utilizadas, ou seja, para cada um dos
parmetros da estrutura MA(1), foram geradas 500 sries e para cada srie, foram feitas as

100

previses para os 4 algoritmos analisados. Os resultados da mdia dos MSE das 500 sries
encontram-se dispostos na tabela (7.10). Verifica-se que o mtodo teve um bom
comportamento, tendo apresentado erros de previso menores do que os outros mtodos
analisados.
TABELA 7.10 MSE MDIO PARA A ESTRUTURA MA(1) ATUALIZAO DE PESOS 2
MSE MA(1)P2
ARMA
PG-Pura
e136
B1
BCIGP
ARMA
PG-Pura
e137
B1
BCIGP
ARMA
PG-Pura
e138
B1
BCIGP
ARMA
PG-Pura
e139
B1
BCIGP
ARMA
PG-Pura
e140
B1
BCIGP
ARMA
PG-Pura
e141
B1
BCIGP
ARMA
PG-Pura
e142
B1
BCIGP
ARMA
PG-Pura
e143
B1
BCIGP
ARMA
PG-Pura
e144
B1
BCIGP
ARMA
PG-Pura
e145
B1
BCIGP
ARMA
PG-Pura
e146
B1
BCIGP
ARMA
PG-Pura
e147
B1
BCIGP
ARMA
PG-Pura
e150
B1
BCIGP

P1
1,9426
0,9832
0,9408
0,8358
5,3663
0,9459
0,9381
1,1990
5,9171
1,1319
1,0968
0,9635
5,7537
1,4775
1,3733
1,2381
5,2151
1,0420
1,0710
0,9410
5,1577
0,7914
0,9467
0,7814
5,2085
0,9065
0,9055
0,7205
4,9180
0,9310
0,9856
0,9138
4,9709
1,4054
1,3013
1,2072
5,2889
1,3618
1,3473
1,2944
5,9532
1,2714
1,4319
1,3508
6,1890
1,1846
1,1689
0,9558
5,2021
1,2339
1,2771
1,1904

P2
1,4588
0,9889
0,9767
1,9808
2,2476
0,9886
0,9407
0,8691
2,4518
1,3280
1,0996
1,0363
2,4986
0,9748
0,9815
0,9651
2,4750
1,2125
1,1537
1,0937
2,4440
1,2679
1,2235
1,1059
2,3991
0,9225
0,8562
0,7597
2,8184
1,1980
1,1200
1,0134
2,5869
1,4991
1,2571
1,1598
2,5349
1,2180
1,1649
1,0879
2,5756
1,2225
1,0085
0,9204
2,9263
1,2213
1,1496
1,0548
2,4992
1,4391
1,2410
1,1062

P3
1,4788
1,1166
1,2052
1,0820
2,4543
1,4495
1,2631
1,2108
1,9754
1,1158
1,0750
0,9698
2,1311
1,5084
1,1759
1,1281
1,8091
1,4967
1,2139
1,0555
1,7982
1,0698
1,0140
0,9114
1,7273
0,9721
0,9182
0,8756
1,8137
1,0519
1,0063
0,9371
1,4667
0,9266
0,9560
0,8796
1,6630
0,9709
0,8936
0,8349
1,7463
1,0391
1,0353
0,9397
1,9945
0,9281
0,9537
0,8576
1,5836
0,6600
0,6633
0,5971

P4
1,0890
1,0069
1,0109
0,8352
1,8508
1,3925
0,9875
0,8936
1,6532
0,9596
0,8529
1,8557
1,9588
5,6884
1,2935
1,1888
1,5190
1,5000
1,1613
0,9756
1,5003
1,7027
0,9845
1,6178
1,5967
1,1787
1,0990
0,9245
1,1805
7,2529
0,8925
0,8080
1,4940
1,0879
1,1975
1,0026
1,6558
1,2091
1,2899
1,1046
1,9438
1,2254
1,3022
1,1277
1,4392
1,1812
1,0010
0,9122
1,3056
1,0475
1,0068
0,8918

P5
1,0997
1,2894
1,3169
1,1020
1,5834
1,4447
1,3266
1,5668
1,3401
1,1995
1,2039
1,0140
1,3385
1,0746
1,1326
0,9598
1,3689
1,3249
1,1855
1,0824
0,8914
0,9725
0,9043
0,8308
1,1387
1,0028
1,0444
0,8449
1,7742
1,4178
1,3454
1,2060
1,1077
0,9877
0,7641
0,7038
1,1189
1,2028
1,2179
1,0991
0,9938
1,1028
0,9662
0,9609
1,2397
1,2746
1,0867
0,9458
1,2423
0,9909
1,0978
0,9238

P8
1,0491
2,2564
1,1673
1,0972
1,0368
1,0178
0,9132
0,7990
1,0976
1,0738
1,0432
0,9148
1,1592
1,1341
1,1302
0,9695
1,1005
1,1262
1,0571
1,0312
1,2026
1,0997
1,1975
1,0776
1,3733
1,1551
1,0902
0,8970
1,4047
1,3388
1,3533
1,2066
1,1533
0,8664
0,9843
0,8657
1,2713
1,1001
1,1475
0,9859
1,3436
1,3127
1,2680
1,1354
1,2708
1,3516
1,1695
1,0779
1,1928
1,2216
1,1579
1,0437

P7
1,0542
0,9621
1,2763
2,5313
1,2010
1,1218
1,1490
1,0068
1,2134
1,1238
1,3326
1,0701
1,4828
1,3467
1,3819
1,2619
1,1835
1,2167
1,2517
1,0398
1,1462
1,3131
1,2685
1,0565
1,1085
1,2959
1,1544
1,0070
1,3348
1,2811
1,2802
1,1559
0,9163
15,0044
0,9810
0,9402
0,8812
1,0406
1,0229
0,9501
1,2046
1,2376
1,2023
1,0883
1,2562
1,6572
1,3481
1,8812
0,9967
1,0032
1,0191
0,9265

P11
2,6897
4,6824
1,1558
0,9598
1,0186
1,3464
1,1829
1,0532
0,9323
1,0301
1,0415
0,8861
1,1612
1,2129
1,1151
1,0088
1,0461
1,1308
1,2196
1,0899
1,1999
1,3062
1,2786
1,1727
1,0241
1,2473
1,1364
1,1013
1,1548
1,3678
1,3102
1,0821
1,1368
1,2391
1,2373
1,0916
1,2233
11,5206
1,3251
1,1974
1,0071
1,1730
1,1727
1,0137
1,1705
1,4767
1,1635
1,0746
0,9838
1,2475
1,0922
0,9893

P16
3,3434
1,3333
1,2170
1,0214
1,7992
0,9417
0,9125
0,7933
1,2916
1,1054
0,9240
0,8461
1,4842
1,2230
1,1019
0,9593
1,3098
1,1398
1,0886
0,9250
1,3167
1,0568
1,0230
0,9885
1,5628
1,4681
1,3639
1,1762
1,3964
1,0434
1,1062
0,9901
1,5427
1,1738
1,2260
1,1064
1,6205
1,3925
1,2481
1,1702
1,4098
1,0789
0,8963
0,8594
1,6236
1,1871
1,1973
1,0759
1,3518
1,2511
1,2929
1,1653

P17
3,0012
1,2750
1,3750
1,1308
1,8284
1,2518
1,1860
1,1677
2,5770
1,2718
1,1784
1,0414
2,6675
1,2790
1,1238
0,9703
2,2871
1,0038
1,1524
1,0274
2,3317
1,0480
1,0392
0,9875
2,4785
1,3905
1,3911
1,3026
2,1014
0,8348
1,0128
0,8407
2,3169
1,2968
1,3410
1,2240
2,2071
1,2868
1,3529
1,1845
2,1513
1,1178
1,2324
1,1604
1,9823
1,0466
1,2148
1,0067
1,7588
1,0563
1,0258
0,8910

P18
4,1974
1,0728
1,0358
0,9621
2,3638
1,0040
0,9059
0,8365
2,3512
0,8756
0,7717
0,9998
2,3068
1,0218
0,9212
0,8713
2,6425
1,0574
0,9314
0,8469
2,7971
1,0906
1,0896
0,9790
2,2297
0,9575
0,8823
0,8007
2,3998
1,1756
1,1344
1,1579
2,2021
1,0991
1,0312
0,9294
2,3572
1,0409
0,9801
0,9031
2,7226
1,1513
1,1230
1,0208
2,0924
0,8259
0,7509
0,6660
3,2617
1,4852
1,3901
1,2553

P19
MDIA
6,8716 2,4396
1,5770 1,5453
1,5757 1,1878
1,4128 1,2459
4,7280 2,2899
1,5451 1,2042
1,7657 1,1226
1,4851 1,0734
4,8031 2,3003
1,4896 1,1421
1,6003 1,1017
1,5264 1,0937
4,6620 2,3837
1,0722 1,5845
1,2139 1,1621
1,1293 1,0542
4,4511 2,2007
1,1438 1,1995
1,2452 1,1443
1,0072 1,0096
5,5038 2,2741
1,4507 1,1808
1,4824 1,1210
1,3159 1,0688
5,4516 2,2749
1,4764 1,1644
1,5373 1,1149
1,3541 0,9803
4,7049 2,2501
1,5025 1,6996
1,3920 1,1616
1,1483 1,0383
5,0428 2,1614
1,6376 2,3520
1,6032 1,1567
1,4638 1,0478
5,0183 2,2367
1,4845 2,0691
1,5133 1,2086
1,3815 1,0994
4,8211 2,3227
1,1718 1,1754
1,1211 1,1467
0,9798 1,0464
5,0530 2,3531
1,1807 1,2096
1,2375 1,1201
1,1496 1,0548
4,7288 2,1756
1,1743 1,1509
1,2095 1,1228
1,4870 1,0389

101

Na tabela (7.11) esto os resultados da comparao dos cinco algoritmos, utilizando o


teste F ANOVA, seguido do teste Tukey-Kramer.
TABELA 7.11 - RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA MA(1) PESOS 2
Valor
Previsto

e136

e137

e138

e139

e140

Grupos

Mdia
Grupo

1
2
3
4
5

2,3150
5,6063
1,1318
1,1646
1,0781

1
2
3
4
5

1,8223
1,6281
1,1394
1,0547
1,0260

1
2
3
4
5

1,8098
1,1456
1,0935
1,0508
0,9838

1
2
3
4
5

1,9132
1,2253
1,1898
1,0312
1,0972

1
2
3
4
5

1,7691
1,2392
1,1130
0,9976
1,0077

Mdia
Geral

Estatstica
F

p-valor

2,2592

0,9939

0,4151

1,3341

2,3911

0,0565

1,2167

5,9412

0,0003

1,2913

7,2474

0,0000

1,2253

6,1981

0,0002

Grupos
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5

Dif.
Absoluta
3,2913
1,1832
1,1504
1,2369
4,4745
4,4417
4,5282
0,0328
0,0537
0,0865
0,1943
0,6829
0,7677
0,7964
0,4887
0,5734
0,6021
0,0847
0,1134
0,0287
0,6642
0,7163
0,7590
0,8260
0,0521
0,0948
0,1618
0,0427
0,1097
0,0670
0,6879
0,7234
0,8820
0,8160
0,0355
0,1941
0,1281
0,1586
0,0926
0,0660
0,5299
0,6561
0,7715
0,7614
0,1261
0,2416
0,2315
0,1155
0,1054
0,0101

Intervalo
Crtico

7,2062

0,8760

0,5115

0,4894

0,4746

Comp.
mdias

Melhor
Grupo

Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais

X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
2
3
4
5
X
X
X
X
X
X
2
3
4
5
X
X
X
X
X
X
2
3
4
5
X
X
X
X
X
X

102

TABELA 7.11 - RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA


MA(1) PESOS 2 (CONTINUAO)
Valor
Previsto

e141

e142

e143

e144

e145

Grupos

Mdia
Grupo

1
2
3
4
5

1,8326
1,1601
1,1285
1,0431
1,0123

1
2
3
4
5

1,8526
1,2233
1,1996
1,0093
1,0695

1
2
3
4
5

1,8323
1,2425
1,1424
1,0207
1,0188

1
2
3
4
5

1,7596
1,3345
1,1668
1,0621
1,0914

1
2
3
4
5

1,8127
1,4670
1,1852
1,0775
1,0703

Mdia
Geral

Estatstica
F

p-valor

1,2353

5,7674

0,0004

1,2709

5,9546

0,0003

1,2513

7,9020

0,0000

1,2829

4,4160

0,0026

1,3226

4,5910

0,0020

Grupos
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5

Dif.
Absoluta
0,6725
0,7042
0,7895
0,8204
0,0317
0,1170
0,1478
0,0853
0,1162
0,0309
0,6294
0,6530
0,8434
0,7831
0,0236
0,2140
0,1537
0,1903
0,1301
0,0603
0,5898
0,6899
0,8116
0,8135
0,1000
0,2218
0,2237
0,1217
0,1236
0,0019
0,4251
0,5928
0,6975
0,6682
0,1677
0,2724
0,2430
0,1047
0,0753
0,0294
0,3457
0,6275
0,7352
0,7424
0,2818
0,3896
0,3967
0,1078
0,1149
0,0072

Intervalo
Crtico

0,5230

0,5114

0,4449

0,5050

0,5488

Comp.
mdias

Melhor
Grupo

Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais

2
3
4
5
X
X
X
X
X
X
2
3
4
5
X
X
X
X
X
X
2
3
4
5
X
X
X
X
X
X
X
3
4
5
X
X
X
X
X
X
X
3
4
5
X
X
X
X
X
X

103

TABELA 7.11 - RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA


MA(1) PESOS 2 (CONTINUAO)
Valor
Previsto

e146

e147

e148

e149

e150

Grupos

Mdia
Grupo

1
2
3
4
5

1,8306
1,1538
1,1349
1,0291
1,0377

1
2
3
4
5

1,8601
1,2334
1,1368
1,0610
1,0224

1
2
3
4
5

1,7664
1,2059
1,0886
1,0195
1,0428

1
2
3
4
5

1,7232
1,1609
1,1196
1,0141
1,0069

1
2
3
4
5

1,7436
1,1366
1,0936
1,0820
0,9879

Mdia
Geral

Estatstica
F

p-valor

1,2372

6,3888

0,0001

1,2628

5,5715

0,0005

1,2246

5,6645

0,0004

1,2049

5,8585

0,0003

1,2087

4,8767

0,0013

Grupos
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo1 e 5
Grupo2 e 3
Grupo2 e 4
Grupo2 e 5
Grupo3 e 4
Grupo3 e 5
Grupo4 e 5

Dif.
Absoluta
0,6768
0,6957
0,8015
0,7929
0,0189
0,1247
0,1161
0,1058
0,0972
0,0086
0,6267
0,7233
0,7991
0,8377
0,0966
0,1724
0,2110
0,0758
0,1144
0,0386
0,5604
0,6777
0,7469
0,7235
0,1173
0,1865
0,1631
0,0692
0,0458
0,0234
0,5623
0,6037
0,7091
0,7163
0,0414
0,1468
0,1541
0,1055
0,1127
0,0072
0,6070
0,6500
0,6616
0,7557
0,0430
0,0546
0,1487
0,0116
0,1057
0,0941

Intervalo
Crtico

0,4926

0,5386

0,4840

0,4546

0,5093

Comp.
mdias

Melhor
Grupo

Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais

2
3
4
5
X
X
X
X
X
X
2
3
4
5
X
X
X
X
X
X
2
3
4
5
X
X
X
X
X
X
2
3
4
5
X
X
X
X
X
X
2
3
4
5
X
X
X
X
X
X

104

Na ltima coluna da tabela (7.11) esto representados os grupos que possuem


diferena significativa dos demais e o melhor dos grupos, ou seja, aquele que apresentou o
melhor desempenho est destacado em negrito. Pode-se verificar que em todos os casos,
quando a diferena foi detectada, o algoritmo que obteve o melhor desempenho foi o
algoritmo 5, que o algoritmo BCIGP utilizando a atualizao de pesos proposta no captulo
IV. Na tabela (7.12) so apresentados os resultados obtidos com o teste F ANOVA seguido do
teste Tukey-Kramer, para a estrutura MA(1), utilizando o algoritmo completo proposto no
captulo IV, BCIGP. Os resultados obtidos mostram que o mtodo BCIGP obteve o melhor
desempenho dentre os algoritmos que foram utilizados para fazer esta comparao. Para
apenas dois horizontes de previso, a metodologia no foi considerada significativamente
diferente das demais. Em todos os outros casos, o mtodo se mostrou mais eficiente.
TABELA 7.12 VALOR - p MA(1) PESOS 2
MA(1) - Pesos 2
Valor
p-valor
Melhor
Previsto ANOVA
Grupo
e136
e137
e138
e139
e140
e141
e142
e143
e144
e145
e146
e147
e148
e149
e150

0,4151
0,0565
0,0003
0,0000
0,0002
0,0004
0,0003
0,0000
0,0026
0,0020
0,0001
0,0005
0,0004
0,0003
0,0013

x
x
5
5
5
5
5
5
5
5
5
5
5
5
5

7.4 CONCLUSES

Aps a realizao de todos os testes com sries reais, financeiras e simuladas e


analisar os resultados, observou-se que o algoritmo BCIGP proposto nesta tese obteve um
bom desempenho na tarefa de previso de sries temporais. Em todos os testes realizados, seja

105

considerando o RMSE, o MSE mdio na simulao Monte Carlo, o teste t, o teste F


ANOVA seguido de Tukey-Kramer, o algoritmo mostrou-se bastante eficiente, tendo em
todos os casos, obtido erros de previso menores do que os obtidos pelos demais mtodos
analisados.

106

!' !

#
! !, !

* +
#
-

*!

este captulo implementada a verso do algoritmo BCI para os problemas de


regresso multivariada. Os algoritmos de Boosting existentes so propostos
para problemas de classificao e de regresso, desta forma, uma comparao
do desempenho do algoritmo com os algoritmos de Boosting existentes mostra que o mtodo
pode ser utilizado, no apenas na previso de sries temporais, mas em outros tipos de
problemas que possam ser refinados atravs desta tcnica. apresentado um breve histrico
relativo dos problemas de regresso e os resultados obtidos atravs do algoritmo BCI so
comparados aos obtidos por outros mtodos, tais como Redes Neurais Artificiais, M5 Model

Tree e os algoritmos de Boosting tradicionais.

8.1 BREVE HISTRICO SOBRE PROBLEMAS DE REGRESSO

Num problema de regresso, o que se deseja obter valores aproximados de uma


varivel contnua. Dada uma amostra com variveis de entrada, ou variveis preditoras, x =
{x1, x2, ..., xn} e a varivel de sada y, a tarefa de um regressor encontrar uma funo y =

f(x), dentro do espao de possibilidades. O problema de regresso difere dos problemas de

107

classificao pelo fato de que a varivel de sada y nos problemas de regresso contnua
enquanto que nos problemas de classificao discreta (WEISS; INDURKHYA, 1999). O
procedimento tradicional, geralmente utilizado para problemas de regresso, o problema
clssico de mnimos quadrados para regresso (SCHEFFE, 1959). Os mtodos de regresso
linear simples possuem suas limitaes, porm os mtodos vm sendo refinados ao longo dos
anos, tornando-se cada vez mais capazes de se ajustar aos dados. Naturalmente os modelos
mais complexos possuem um ajuste melhor. Com o avano da tecnologia dos computadores, e
com a possibilidade de se analisar maior volume de dados, o interesse dos pesquisadores tem
se voltado para modelos complexos no-lineares, destas pesquisas tm surgido vrios mtodos
novos (EFRON, 1988), tais como Projection Pursuit (FRIEDMAN; STUETZLE, 1981) e

Multivariate Adaptive Regression Splines (MARS) (FRIEDMAN, 1991). Novos mtodos tm


tambm sido estudados e desenvolvidos em outras reas, como Redes Neurais utilizando

Back-Propagation (McCLELLAND; RUMELHART, 1988).


Muitos problemas reais que podem ser resolvidos atravs de mtodos de regresso, em
especial, problemas que envolvem sries temporais multivariadas tambm podem ser
resolvidos atravs de mtodos de regresso mltipla.
Os mtodos de regresso atravs de rvores apresentam um bom desempenho quando
comparados a outros mtodos de regresso (BREIMAN et al., 1997). As rvores de regresso
mostram-se eficientes quando existe um alto grau de dependncia entre as variveis
(FRIEDMAN, 1991).

8.2 APLICAO DO MTODO BCI PROBLEMAS DE REGRESSO

Aps a verificao do bom desempenho do algoritmo BCI na Previso de Sries


Temporais (captulos VI e VII) o mesmo foi implementado para os problemas de regresso
multivariada.
Para efetuar uma avaliao do mtodo, foi utilizada a mesma base de dados do
trabalho de Solomatine (2003), retiradas do UCI repository (BLAKE, 1998) e do trabalho de
Drucker (1997). Desta maneira os resultados puderam ser comparados aos resultados obtidos

108

atravs das Redes Neurais Artificiais (multy-layer perceptron), M5 Model Tree e

Adaboost.RT. As bases de dados utilizadas foram: Housing, Auto-Mpg e CPU e Friedman #1.

8.2.1 Descrio das Bases de Dados

Os conjuntos de dados foram divididos em treinamento e teste, conforme apresentado


na tabela (8.1).
TABELA 8.1 CONJUNTOS DE DADOS
Instncias

Treinamento
(70%)

Teste
(30%)

CPU

209

137

72

Housing

506

337

169

Auto-Mpg

398

262

136

Friedman #1

1500

990

510

Conjuntos de Dados

Na tabela (8.2) est representado o nmero de variveis preditoras, nmero de variveis


no preditoras (classes) e o tipo da varivel de sada (Prevista).
TABELA 8.2 NMERO E TIPO DE VARIVEIS
Base de
Dados
CPU
Housing
Auto_Mpg
Friedman

No de Atributos No de Atributos
(Preditores)
(no Preditores)
6
2
13
0
7
1
5
1

Tipo da Varivel
Prevista
Contnua
Contnua
Contnua
Contnua

A base de dados denominada CPU, refere-se performance relativa de CPUs de 29


fabricantes diferentes de computadores. A base de dados Housing possui dados referentes aos
valores medianos de moradias no subrbio da cidade de Boston. A base Auto-Mpg contm
dados para a previso do consumo de combustvel por milha, medida em gales, de acordo
com as caractersticas de cada automvel, tais como nmero de cilindros, potncia do motor,
acelerao e outros itens. A base de dados Friedman foi gerada de acordo com os trabalhos de
Friedman (1991) e Drucker (1997), um problema de predio no linear, com 10 variveis

109

independentes geradas a partir da distribuio uniforme [0,1] e gerada de acordo com a


equao (8.2).

y = 10 sen (x1 x 2 ) + 20 ( x3 0 .5 )2 + 10 x 4 + 5 x5 + n

(8.2)

Onde n possui uma distribuio Normal com mdia zero e desvio padro 1. Somente 5
variveis preditoras so necessrias, mas o preditor tem a funo de distinguir as variveis que
no possuem habilidade de previso (x6 a x10) de acordo com as variveis preditoras (x1 a x5).

8.2.2 Preparao dos Dados

Os conjuntos de treinamento e teste foram selecionados aleatoriamente e sem


reposio do conjunto de dados original e de acordo com os dados da tabela (8.1). Foram
gerados 10 conjuntos de treinamento e teste. O algoritmo BCI foi implementado utilizando o

software R e o algoritmo utilizado para gerar as rvores de induo o CART (Classification


and Regression Tree) descrito em Breiman et al. (1984).

8.2.3 Atualizao dos pesos do algoritmo BCI para problemas de regresso

No captulo V foi apresentado o algoritmo BCI, a atualizao dos pesos feita


utilizando o coeficiente de correlao, conforme algoritmo apresentado no captulo IV (eq.
4.11), porm a proposta deste algoritmo foi feita para ser aplicada inicialmente a problemas
de previso com uma nica varivel. Desta forma foi necessrio fazer uma adaptao do
algoritmo para que o mesmo pudesse ser aplicado a problemas de previso com mais de uma
varivel e para que pudesse ser utilizado em rvores de induo.
A atualizao dos pesos segue a mesma metodologia de clculos exposta no captulo
IV, porm aps a obteno do primeiro vetor de pesos o conjunto de treinamento
modificado de forma que todos os atributos do conjunto de treinamento possam ser
atualizados.

110

Cada exemplo aparecer no conjunto de treinamento proporcionalmente ao seu peso.


Seja Pt = {p1 , p 2, ..., p m }, o vetor de pesos para a iterao Boosting t, m o nmero de
amostras do conjunto de treinamento e seja ri, uma partio do conjunto P, com i = {1, ..., M}
onde M o mximo do conjunto. Os valores de P menores que 0.5 so colocados na partio

r0 e o vetor de pesos P, comea a ser dividido, com intervalos de tamanho um, a partir do
ponto 0.5, conforme mostrado na figura (8.1).

0,5

1,5

2,5

3.5

...

FIGURA 8.1 PARTIO DO VETOR DE PESOS

Cada linha do conjunto de treinamento, foi re-inserida no conjunto de acordo com seu
valor de insero, proporcionalmente a . Os valores de , so estabelecidos de acordo com o
intervalo a que pi pertence. Os valores esto apresentados na tabela (8.3).
TABELA 8.3 CONJUNTOS DE DADOS
Intervalo

0,0 - 0,5
0,5 - 1,5
1,5 - 2,5
2,5 - 3,5
3,5 - 4,5
.
.

-1
2
3
4
.
.

O novo conjunto de treinamento gerado ento utilizado para gerar o novo modelo de
regresso. Com o modelo obtido, so gerados os valores de previso para o conjunto de teste.
Este procedimento foi repetido 10 vezes para cada conjunto de treinamento e teste, isto , foi
utilizada validao cruzada com 10 subconjuntos (folds). O numero de iteraes de Boosting
tambm 10. Assim, foram executados 10 algoritmos de Boosting para cada um dos 10
conjuntos de treinamento. Aps terem sido realizadas as 10 execues de Boosting, os valores
previstos so combinados de acordo com a equao proposta no algoritmo BCI (Quadro 4.3).
Os resultados foram comparados aos obtidos por MT (Model Tree), ANN (Artificial

Neural Network), Bagging, ANN, Adaboost.R e Adaboost.RT. Na tabela (8.4) so

111

apresentados os resultados obtidos da mdia dos RMSE de 10 diferentes conjuntos,


independentes de dados.
TABELA 8.4 COMPARAO DO RMSE NOS 10 CONJUNTOS DE TESTE
Bases
CPU
Housing
Auto-Mpg
Friedman #1

BCI
22,48
1,12
0,85
0,70

MT
34,65
3,62
3,01
2,19

Bagging
32,64
3,24
2,86
2,06

ANN
13,91
3,54
3,79
1,51

AdaBoost.R
24,45
3,23
2,84
1,82

AdaBoost.RT
26,52
3,23
2,96
1,72

Como se pode observar na tabela (8.4), o algoritmo BCIGP apresenta o menor RMSE
dos conjuntos de teste, exceto para a base de dados CPU, na qual o algoritmo ANN apresenta
um RMSE menor, porm apresenta resultado melhor quando, comparado aos demais
algoritmos de boosting.

112

# !

* %

este trabalho foi proposta uma nova metodologia de Boosting utilizando a


Programao Gentica como algoritmo base e os coeficientes de correlao
entre os valores observados e os valores previstos atravs da PG. O algoritmo

BCI proposto nesta tese foi inicialmente desenvolvido, para a previso de sries temporais. Os
primeiros experimentos realizados utilizando os coeficientes de correlao mostraram a
acurcia da tcnica na tarefa de previso. Assim a metodologia foi sendo aprimorada e foram
realizados testes no sentido de validar a tcnica tambm em sries geradas artificialmente, nas
estratgias de trading para sries financeiras e para os problemas de regresso multivariada.

9.1 CONCLUSO

A relevncia da metodologia proposta deve-se, especialmente ao fato, de que os


resultados obtidos so testados fora da amostra em todos os casos, e so melhores do que os
obtidos pelos demais mtodos que foram testados para realizar a mesma tarefa. Em geral, os
modelos obtidos, analisando os conjuntos de treinamento, fornecem modelos muito bons que
se ajustam bem aos dados, porm ao serem aplicados a novos exemplos no produzem os
mesmos resultados.
O algoritmo foi testado para realizar previses nos seguintes experimentos:

113

sries reais encontradas na literatura da previso de sries temporais;

sries financeiras, tendo sido feita a anlise de trading baseada nos resultados de
previso obtidas atravs do procedimento proposto;

simulao de sries artificiais utilizando uma Simulao Monte Carlo, na qual


foram testadas 214.000 sries temporais, contendo 150 valores observados,
tendo sido utilizado para o conjunto de treinamento 90% dos dados observados e
10% para teste. O modelo gerado no conjunto de treinamento foi utilizado para a
gerar os valores de previso do conjunto de teste. As sries foram geradas com
rudo que possui distribuio normal com mdia zero e desvio padro um;

uma extenso da metodologia BCI foi proposta para problemas de regresso


multivariada e os resultados foram comparados aos obtidos por outras tcnicas,
tendo apresentado resultados melhores.

A partir da realizao destes experimentos, conclui-se que a metodologia BCI


proposta mostrou-se bastante eficiente na tarefa de previso. Os resultados obtidos foram
comparados a outros mtodos de previso utilizado a Programao Gentica tradicional, o
algoritmo GPBoost e a metodologia Box & Jenkins. Alm de terem sido comparados os erros
de previso obtidos (RMSE e MSE), foram tambm aplicados testes de hipteses para a
avaliao do algoritmo proposto. Em todas as anlises, o algoritmo mostrou ser uma tcnica
alternativa para problemas de previso por apresentar resultados que apresentam erros de
previso menores do que os erros obtidos atravs de outras tcnicas, mesmo quando o
horizonte de previso considerado grande.

9.2 FUTUROS TRABALHOS

Como sugesto para futuros trabalhos sugere-se:

A implementao de um critrio de seleo dos preditores antes de ser aplicada a


metodologia proposta, pois observou-se, nos experimentos que existem
preditores ruins, que acabam por influenciar nos resultados finais. A gerao
destes preditores ruins deve-se s sementes aleatrias que so utilizadas na PG.
A utilizao de mais de uma semente inicial para a PG, poderia ser uma forma
para resolver este problema;

114

O estudo preliminar do tipo de srie a ser analisada, como verificao de


tendncia e sazonalidade, poderia ser uma boa estratgia para a escolha do
nmero de variveis a serem utilizadas na gerao do modelo de PG, porm isto
poderia acarretar um custo computacional elevado;

A implementao da previso um passo frente, para aplicao ao mercado


financeiro, j que os mtodos ingnuos de previso utilizam este critrio de
previso e os resultados obtidos com a utilizao destes modelos so muito bons,
com erros de previso pequenos;

115

REFERNCIAS
AKAIKE, H., Maximum likelihood identification of Gaussian autoregressive moving
average models. Biometrika, v. 60, p. 255-265, 1973.
AKAIKE, H., A new look at the statistical model identification. IEEE Transactions on
Automatic Control, AC-19, p.716-723, 1974.
AKAIKE, H., On entropy maximization principle. In: Applications of Statistics,
Amsterdam. Ed. P.R. Krishnaiah. p. 27-41, 1977.
ALLWEIN, E. L, SCHAPIRE, R. E. & SINGER, Y., Reducing multiclass to binary: A
unifying approach for margin classifiers. Journal of Machine Learning Research, v.1, p.
113-141, 2000.
BANZHAF; W. NORDIN, P.; KELLER, R. E. & FRANCONE, F. D., Genetic
Programming an introduction. Morgan Kaufmann, 1998.
BARBANCHO, A. G., Fundamentos e possibilidades da econometria. Rio de Janeiro.
Frum Editora, p. 18 32, 1970.
BICKLE, Y. & THIELE, L., A Mathematical Analysis of Tournament Selection. In:
ICGA95. L. J. Eshelman. Ed. San Francisco: Morgan Kaufmann Publishers, p. 9-16, 1995.
BLAKE, C. L. & MERZ, C. J., UCI Repostitory of machine learning databases, Irvine,
CA: Universtity of California, Dep. of Information and Computer Science, 1998. Available:
http://www.ics.uci.edu/~mlearn/MI.Repository.html. Consulta em agosto de 2006.
BOHM, W. & GEYER-SCHULZ, A Exact uniform initialization for genetic program.
Foundations of Genetic Algorithms IV. p 379-407. Morgan Kaufmann, 1996.
BOX, G. E. P & JENKINS G. M., Time series analysis: forecasting and control, Ed.
Rev.(1976). San Francisco: Holden-Day, 1970.
BOOSTING. Disponvel em: http://www.boosting.org/applications, 2006. Acesso em agosto
de 2006.
BREIMAN, L., FRIEDMAN, J., OLSHEN, R. & STONE, C., Classification and Regression
Tress, Wadsworth, Monterrey, CA, 1984.
BREIMAN L. Prediction Games and Arcing Algorithms . Neural Computation, v. 11, n. 7,
p. 1493-1518, 1997.
CHATFIELD, C., The analysis of time series. Chapman & Hall, New York, 6th Ed. 2000.
CHAVES, A. N., Bootstrap em Sries Temporais. Rio de Janeiro. 208f. Tese (Doutorado
em Engenharia Eltrica), Universidade Federal do Rio de Janeiro, 1991.

116

CHELLAPILLA, K., Evolutionary programming with tree mutations: Evolving


computer programs without sub-tree crossover. Genetic Programming. In: Proc. Second
Annual Conference of San Francisco, CA. Morgan Kauffmann, p. 432-438, 1997.
CORRA, H. L.; GIANESI, I. G. N. & CAON M., Planejamento, programao e controle
da produo: MRP II/EPR: conceitos, uso e implantao. 3 ed. So Paulo: Gianesi Corra
& associados: Atlas, 2000.
CORTEZ, P. A. R., Modelos Inspirados na Natureza para a Previso de Sries
Temporais. Braga, 2002. 188 f. Tese (Doutorado em Informtica) Departamento de
Informtica, Universidade do Minho.
DARWIN, C., A origem das Espcies e a Seleo Natural. Ed. Hemus, 5 Ed., 2000.
DRUCKER H., Improving regression using boosting techniques. In: International
Conference on Machine Learning, 1997, Orlando: Proceeding of International Conference on
Machine Learning, ICML97.
DRUCKER H., Boosting using Neural Networks. In A. J. C, Sharkey (ed.), In Combining
Artificial Neural Nets. p. 51-77, London, Springer-Verlag, 1999.
DUAN, M. & POVINELLI, R. Estimating Time Series Predictability Using Genetic
Programming. In: Cihan H. Dagli editor, Intelligent Engineering Systems Through Artificial
Neural Networks (ANNIE 2001), pages 215-220, St. Louis, Missouri, USA, 2001
DUFFY, N. & HELMBOLD, D. P., Leveraging for regression. Procedures of the 13th
Annual Conference on Computer Learning Theory, p. 208-219, San Francisco: Morgan
Kaufmann, 2000.
DUNIS, C & JALILOV, J., Neural Network regression and alternative forecasting
techniques for predicting financial variables. Neural Network World, v. 2, p. 113-139,
2002.
ECONOMATICA, Disponvel em: http://www.economatica, 2006. Acesso em agosto de
2006.www.economatica.com
EFRON, B., Computer-intensive Methods in Statistical Regression. SIAM Review, v. 30
n. 3, 421-449, 1988.
FREUND Y. & SCHAPIRE, R. E., Experiments with a new boosting algorithm. Machine
Learning. Proceedings of the Thirteenth Conference, ed: L. Saitta, Morgan Kaufmann, p. 148156, 1996.
FREUND Y. & SCHAPIRE, R.E., A decision-theoritic generalization of on-line learning
and an application to boosting. Journal of Computer and System Sciences, v. 55 n. p. 119139, 1997.

117

FRIEDMAN, J., Multivariate Adaptive Regression Splines. Annals of Statistics, v.19 n.1,
p.1-141, 1991.
FRIEDMAN, J.; HASTIE, T.; TIBSHIRANI, R. Additive Logistic Regression: a Statistical
view of boosting. Thecnical Report . Stanford University Statistics Department, 1998.
FRIEDMAN, J.; HASTIE, T. & TIBSHIRANI. Greedy Function Approximation: A
Gradient Boosting Machine. In: Annals of Statistics, v. 29, n. 5, p. 1189-1232, 2001.
GECCO, Genetic and Evolutionary Computation Conference. 2002, 2006.
GREFENSTETTE, J. J. & BAKER, J. E., How genetic algorithms work: A critical look at
implicit parallelism. In Proc. 3rd International Conference on Genetic Algorithms, p. 20-27.
San Mateo. CA. Morgan Kaufmann. San Francisco, CA, 1989.
HAMILTON, J. D., Time Series Analysis. Princeton University Press. New Jersey, 2004.
HASTIE, T.; TIBSHIRANI, R. & FRIEDMAN, J., The elements of Statistical Learning.
Springer Science+Business Media. New York, 10013, USA, 2001.
HOLLAND J. H., Adaptation in Natural and Artificial Systems: An Introductory
Analysis with Applications to Biology, Control and Artificial Intelligence. Ann Arbor,
MI: University of Michigan Press. 1975.
HORNER, H. A C++ class library for genetic programming. Technical Report. The Vienna
University of Economics, Vienna, Austria, 1996.
HUI, A., Using Programming to perform Time-Series Forecasting of Stock Prices. Book:
Genetic Algorithms and Genetic Programming. Editor: John Koza, p. 83-90. Stanford,
California. 2003.
IBA H., Bagging, boosting, and bloting in genetic programming. In: BDE, p. 1053-1060,
1999.
KABOUDAN, M., A Measure of Time Series Predictability Using Genetic Programming
Applied to Stock Returns. Journal of Forecasting, v. 18, p. 345 - 357, 1999.
KABOUDAN, M., Genetic Programming Prediction of Stock Prices. Computational
Economics. v. 16, n.3, p. 207 236, 2000.
KABOUDAN, M., TSGP Time Series Genetic Programming. School of Business,
university of Redlands, 2002. www.compumetrica.com
KOZA, J. R. Hierarquical genetic algorithms operating on populations of computer
programs. Proceedings of the 11th International Joint Conference on Artificial Intelligent
(IJCAI-89). Detroit, MI. Pp 768-774. Morgan Kaufmann, 1989.

118

KOZA, J. R., Genetic Programming:On the Programming of Computers by Means of


Natural Selection. MIT Press, 1992.
KRAMER, M. D. & ZHANG, D. A Genetic Programming System. In: The 24th Annual
International Computer Software and Applications Conference, p. 614-619, IEEE Press, 2000.
LEVINE, D. M.; STEPHAN, D.; KREHBIEL, T. C. & BERENSON, M. L.; Statistics for
Managers using MS EXCEL, 3rd Edition, 2002.
LUKE, S., Two fast tree-creation algorithms for genetic programming. IEEE Transactions
in Evolutionary Computation, v. 4, n.3, p. 274-283. IEEE Press. September, 2000.
LUKE, S. & PAINAT, L., A survey and comparison of tree generation algorithms.
Proceedings of the 6th Annual Conference in Genetic Programming (GECCO 2001).
Springer-Verlag, 2001.
MAKRIDAKIS, S. & WHEELWRIGHT, S., Forecasting Methods for Management. John
Wiley & Sons, New York, Fifth edition, 1989.
MAKRIDAKIS, S. WHEELWRIGHT, S. C. & McGEE, V. E. Forecasting: Methods and
Applications. 2nd ed. New York: John Wille & Sons, 1983.
McCLELLAND, J. & RUMELHART, D., Explorations in Parallel Distributed Processing,
MIT Press, Cambridge, Ma, 1988.
MICHALEWICZ, Z. Genetic Algorithms + Data Structures = Evolution Programs. IESpringer-Verlag, 3rd Ed. New York, 1997.
MORETTIN; TOLOI, P. A. & TOLOI, C. M. C. Modelos para previso de sries
temporais. In : 13 Colquio Brasileiro de Matemtica. Rio de Janeiro, 1981.
MORETTIN; TOLOI, P. A. & TOLOI, C. M. C. Anlise de sries temporais. Ed. Edgard
Blucher LTDA. So Paulo, 2004.
MUHLENBEIN, H. & SCHIERKAMP-VOOSEN, D. Predictive models for the breeder
genetic algorithms. Evolutionary Computation, v.1, n.1, p. 25-49. MIT Press, 1993.
OLIVEIRA, S. R., Sistemas Inteligentes: fundamentos e aplicaes. p. 54-56. Barueri:
Monole, 2003.
PARIS; ROBILLIARD; FONLUPT, G.; ROBILLIARD D. & FONLUPT C. Applying
Boosting Techniques to Genetic Programming. Lecture Notes In Computer Science,
London, v. 2310, p. 267-280, 2001.
POVINELLI, R. J., Identifying Temporal Patterns for Characterization and Prediction of
Financial Time Series Events. Ph.D. Dissertation, Marquette University, 1999.

119

QUINLAN, J. R. Bagging, boosting e C4.5., Procedures of the 13th National Conference on


Artificial Intelligence, Portaland, OR, p.725-730, 1996.
RISSANEN, J., Modelling by shortest data description. Automatica, v.14, p.465-471, 1978.
RODRIGUES, E. L. M. Evoluo de funes em programao gentica orientada a
gramticas. Dissertao (Mestrado em Informtica). Universidade Federal do Paran, 2002.
SANTOS P. M; LUDEMIR, T. B. & PRUDNCIO, R.B.C. Seleo de Modelos de Previso
de Sries Temporais baseada em Informaes de Performance. In: VIII Simpsio
Brasileiro de Redes Neurais, So Luis, MA, 2004.
SCHAPIRE R. E., The strenght of weak learnability. In: Machine Learning, p.197-227,
1990.
SCHAPIRE R. E. & FREUND Y. Experiments with a new boosting algorithm. In:
MACHINE LEARNING: Proceedings of the Thirteenth International Conference, p.148-156,
1996.
SCHAPIRE R. E. & SINGER., Improved boosting algorithms using confidence rated
predictions. In: Proceedings of the Eleventh Annual Conference on Computational Learning
Theory, p.80 91, 1998.
SCHAPIRE R. E., Theorical views of boosting. In: Computational Learning Theory: Fourth
European Conference, EuroCOLT99, p.1-10, 1999.
SCHAPIRE R. E. & FREUND, Y., A short introduction to boosting. Journal of Japanese
Society for Artificial Intelligence, v.14, n.5, p.771-780, 1999b.
SCHEFFE, H., The Analysis of Variance. John Wiley, New York, 1999.
SCHWEFEL, H., Evolution and optimum seeking. Sixth-Generation Computer Technology
Series. John Wiley & Sons. New York, 1995.
SCHWARZ, G., Estimating the dimension of a model. Annals of Statistics, v. 6, p. 461-464,
1978.
SOLOMATINE, D. P. & DULAL, K. N., Model trees an alternative to neural networks in
rainfall-runoff modelling. Hydrological Sciences. Journal-des Sciences Hydrologiques, v. 48
n.3, p. 339-441, 2003
SOLOMATINE, D. P. & SHRESTHA, D. L., Adaboost.RT: a Boosting Algorithm for
Regression Problems. IEEE, p. 1163-1168, 2004.
SOUZA, L. V.; COSTA, E. O. & POZO, A. T. R., Anlise da Capacidade da Programao
Gentica na Previso de Sries Temporais. In: Congresso de Mtodos Numricos en
Ingeniera, Anais do Congresso de Mtodos Numricos en Ingeniera. Granada, Espanha, p.
18, 2005a.

120

SOUZA, L. V.; COSTA, E. O. & POZO, A. T. R., Previso de Sries Temporais utilizando
Programao Gentica. In: XXXVII Simpsio Brasileiro de Pesquisa Operacional.
Gramado, RS, Brasil, setembro 2005b.
TERADA, P. D., Compilers and Compiler Generators, an introduction with C++.
McGraw-Hill, Makron, 1991
TRENTIN, M. G., Planejamento Estratgico de Materiais: Uma aplicao dos mtodos
automticos de previso de sries temporais. Curitiba, 2002. Dissertao (Mestrado em
Mtodos Numricos em Engenharia). UFPR.
WEISS, S. M. & INDURKHYA, N. Estimating performance for voted decision trees. IBM
Research Division Technical Report. In: Intelligent data Analysis (IDA), 1999.
WHITLEY, D., The genitor algorithm and selection pressure: Why rank-based allocation
of reproductive trial is best. In: Schaffer, J. D., editor, Proc. 3rd Int. Conference on Genetic
Algorithm, pp 116-121, San Mateo, CA. Morgan Kaufmann, San Francisco, CA, 1989.
WOLD, H., A Study in the ysis of Stationary Time Series. Almguist & Wiksell. 1st. ed.,
Stocolm, 1938.
ZEMEL, R. & PITASSI, T., A gradient-based boosting algorithm for regression
problems. Leen, T. K. Dietterich, T. G., & Tresp, V. (Eds.), Advances in Neural Information
Processing Systems 13. MIT press, 2001.
ZOU H. & YANG, Y., Combining time series models for forecasting. International Journal
of forecasting, v.20, p. 69-84, 2004.
ZONGKER, D. & PUNCH, B., Lil-gp 1.0 Users manual. Michigan State University, USA,
1995.

121

APNDICE A

CRITRIO DE INFORMAES DE AKAIKE (AIC)

O critrio de informaes de Akaike um procedimento de identificao do modelo a


ser utilizado para uma determinada srie. Em seu trabalho, Akaike (AKAIKE, 1973/1974)
sugere que o modelo a ser escolhido seja aquele cujas ordens k e l minimizem o critrio.

AIC (k , d ,l ) = N ln 2 +

N
2(k + l + 1 + d 0 ) + N ln 2 + N
N d

(A.1)

Onde:

d0 =

1, d = 0
0, d 0

e 2 o estimador de mxima verossimilhana de 2 . Quando a comparao feita entre


muitos modelos, os dois ltimos termos da equao (1) podem ser eliminados. Assim,
considerando-se a srie apropriadamente diferenciada, o critrio de Akaike passa a ser
representado pela equao (A.2)

AIC (k ,l ) = N ln a2 + 2(k + l + 2 )

(A.2)

como critrio para determinao das ordens p e q do modelo ARMA a ser utilizado. Em
seguida, designa-se valores para K e L que sero seus limites superiores e so realizadas todas
as combinaes possveis de k e l, com 0

Ke0

L, geralmente K e L so funes de

N, por exemplo K = L = ln(N).


Reescrevendo a equao (A.1), tem-se:
AIC (k , l ) = ln 2a + 2(k + l )

(A.3)

Os valores que minimizam (A.1) so os mesmos que minimizam (A.3). Dependendo


dos valores estabelecidos para K e L, muitos ajustes devero ser feitos a fim de se obter o

122

mnimo de AIC. Alguns exemplos de aplicao do critrio AIC podem ser encontrados em
(MORETTIN; TOLOI, 1979).
No caso dos modelos auto-regressivos de ordem p, AR(p), o critrio AIC reduz-se a:

AIC (k ) = ln k2 + 2 K , k

(A.4)

Em 1976, Shibata demonstra que o critrio MAICE fornece estimativas inconsistentes do


processo AR. Em 1980, Hannan generalizou o resultado de Shibata para o processo ARMA
(p, q) (MORETTIN; TOLOI, 2004). Vrias correes foram propostas para melhorar o
processo AIC, de forma que o modelo selecionado no possua uma ordem superior
necessria para a srie que est sendo analisada. Uma destas correes foi proposta por
Hurvich e Tsai em 1989, sua proposta apresenta o critrio da forma apresentada na equao
(A.5).
AIC c (k ) = AIC (k ) +

2(k + 1)(k + 2 )
,k
N k+2

(A.5)

Eles mostraram que quando N pequeno, ou quando K uma frao moderadamente


grande de N, esta correo til.
Em 1979, Akaike prope uma extenso desta correo que est representada na
equao (A.6)
AIC (k ) = N ln k2 + K , k

(A.6)

onde uma constante.


Em 1977, Tong apresenta uma discusso na qual mostra que, assintoticamente, a
probabilidade de selecionar um modelo de ordem correta, quando se minimiza AIC(k),
aumenta quando cresce. Alm disso, Hannan mostra em 1980 que o critrio AIC(k) com
= (N) fortemente consistente para qualquer (N) > 2ln ln (N) (MORETTIN; TOLOI,
2004).

123

APNDICE B

DESCRIO DAS SRIES REAIS

Neste apndice ser feita uma descrio das sries reais utilizadas no primeiro
experimento do captulo VI. Os dados destas sries temporais podem ser obtidas em
http://www.ime.usp.br/~pam/ST.html
Atmosfera Registram as temperaturas em graus centgrados (oC). Observaes dirias

tomadas s 12:00 na cidade de So Paulo, durante o perodo de 1 de janeiro a


31 de dezembro de 1997;
Bebida Produo fsica industrial (PIB). Observaes mensais, no perodo de janeiro de

1985 a julho de 2000.


Consumo Vendas fsicas na regio metropolitana de So Paulo. Observaes mensais no

perodo de janeiro de 1984 a outubro de 1996.


ICV ndice do custo de vida no municpio de So Paulo. Observaes mensais de janeiro de

1970 a junho de 1980.


Lavras Precipitao atmosfrica no municpio de Lavras MG. Observaes mensais de

janeiro de 1966 a dezembro de 1997.


Manchas Nmero de Manchas solares de Wolfer. Observaes anuais de 1724 a 1924.

124

APNDICE C
Neste apndice so apresentadas as tabelas com MSE mdio das 500 sries para cada
um dos parmetros e para os 15 horizontes de previso. Algumas linhas e colunas destas
tabelas foram suprimidas, meramente para fins de apresentao.
TABELA C1 RESULTADOS DA DO MSE MDIO PARA AS 500 SRIES DA ESTRUTURA MA(1)
MSE MA(1)
ARMA
PG-Pura
e136
B1
BCIGP
ARMA
PG-Pura
e137
B1
BCIGP
ARMA
PG-Pura
e138
B1
BCIGP
ARMA
PG-Pura
e139
B1
BCIGP
ARMA
PG-Pura
e140
B1
BCIGP
ARMA
PG-Pura
e141
B1
BCIGP
ARMA
PG-Pura
e142
B1
BCIGP
ARMA
PG-Pura
e143
B1
BCIGP
ARMA
PG-Pura
e148
B1
BCIGP
ARMA
PG-Pura
e149
B1
BCIGP
ARMA
PG-Pura
e150
B1
BCIGP

P1
1,8073
83,7022
0,9301
1,2387
5,1475
0,9462
1,0820
0,9472
5,4861
1,0459
0,9858
0,8867
5,4291
1,5529
1,3865
1,2215
5,0006
1,0142
1,0414
1,0091
4,9626
0,8320
0,8408
0,7579
4,8753
0,8437
0,9010
0,7259
4,4121
0,9978
1,0699
0,9404
4,7903
1,2806
1,3768
1,3425
4,1228
0,9435
1,0325
0,8882
4,9377
1,2370
1,3226
1,1355

P2
1,4279
0,9901
0,9874
0,8402
2,1638
0,9954
0,9628
0,8170
2,3233
1,1426
1,2715
1,0620
2,4519
1,0655
1,0489
0,9205
2,4324
1,1759
1,1470
1,0223
2,4068
1,2880
1,3203
1,1399
2,3547
0,7989
0,9403
0,8443
2,7973
1,1547
1,1402
0,9738
2,2956
0,7871
0,8934
0,7820
2,0101
0,7197
0,7453
0,6694
2,4864
1,3181
1,2112
1,1446

P3
1,4798
1,0939
1,1435
1,0595
2,4561
1,3734
1,2975
1,2490
1,9689
1,0960
1,0814
0,9899
2,1267
1,4009
1,1526
1,0820
1,8302
1,3514
1,2000
1,0955
1,7932
1,0470
1,0223
0,9320
1,7383
0,9757
0,9446
0,8607
1,8116
1,0482
1,0001
0,8780
1,9993
1,0173
1,0797
0,9593
1,8843
1,0674
1,0224
0,9476
1,5950
0,7286
0,6644
0,7202

P4
1,1015
1,9166
0,9163
0,8421
1,8508
1,0785
1,0032
0,8915
1,6546
0,9468
1,0632
0,9182
1,9668
1,2177
1,4378
1,1256
1,5192
1,0117
1,0589
0,9011
1,5148
0,9410
1,0827
0,8564
1,6458
1,1336
1,3329
1,0923
1,2313
0,8313
0,8445
0,7905
1,6461
1,1691
1,2342
1,0232
1,5562
1,0787
0,9994
0,9509
1,3445
0,9478
0,9697
0,8728

P5
0,9595
1,3962
1,3913
1,4341
1,0263
1,5078
1,5524
1,3497
1,0542
1,3490
1,2488
1,2210
1,3012
1,7326
1,7777
1,6619
1,5237
1,9032
1,8265
1,6721
1,0847
1,6660
1,5798
1,5489
1,2775
1,7653
1,9855
1,7769
1,6922
1,8248
1,9419
1,6834
1,2517
1,4820
1,3999
1,3084
1,1588
1,6308
1,6732
1,4910
1,1586
1,3618
1,4661
1,2805

P8
1,0654
1,1162
1,0444
1,5482
1,0737
0,9730
0,9350
0,8249
1,1271
1,0036
1,0030
0,8959
1,1654
1,0677
1,0334
0,9416
1,1011
1,3695
1,1717
1,0545
1,2202
1,1933
1,1558
1,0625
1,3871
1,1572
1,0519
0,9667
1,4455
1,2684
1,2216
1,1271
1,0316
0,9537
0,8757
0,7744
0,9320
0,9913
0,8815
0,8279
1,1936
1,1444
1,0859
0,9932

P14
2,5044
0,9151
0,9698
0,8914
1,1365
1,0055
0,9109
0,8280
1,1794
1,0626
0,9955
0,8891
1,0526
0,9415
0,9004
0,7871
1,1258
1,1182
1,0515
0,9209
0,9705
0,9140
0,8759
0,8450
1,4036
1,3311
1,2729
1,1398
1,3716
1,2622
1,0630
0,9476
1,1270
1,3551
0,9988
1,9210
1,1669
1,2977
1,2091
1,0595
1,1953
1,2802
1,0982
1,1041

P15
2,1605
1,1270
0,9312
0,8268
1,0127
1,0341
0,9340
0,8111
1,3157
1,0981
1,1078
0,9555
1,4367
0,9938
0,9908
0,8832
1,1765
1,2931
1,0470
0,9330
1,0564
0,9568
0,9242
0,8023
1,1277
1,2063
1,0693
0,9461
1,4336
1,0756
1,0834
0,9798
1,2831
1,0228
0,9730
0,8919
1,1122
0,8525
0,7962
0,7270
1,6063
1,4672
1,3951
1,2280

P16
3,3434
1,2577
1,1945
1,0711
1,7992
1,0529
0,9361
0,8158
1,2916
0,9296
0,8305
0,8041
1,4842
1,1197
1,1281
1,0108
1,3098
1,2297
1,1097
0,9964
1,3167
1,1688
1,0887
0,9717
1,5628
1,4157
1,3635
1,1583
1,3964
1,1279
1,0575
0,9658
1,2952
0,9725
0,8833
0,8584
1,4404
1,0803
1,0880
0,9969
1,3518
1,3320
1,2271
1,1336

P17
3,0012
1,2491
1,2338
1,1036
1,8284
1,4271
1,3293
1,2105
2,5770
1,1880
1,1830
1,0970
2,6675
1,2947
1,0822
0,9882
2,2871
1,0487
0,9744
0,8255
2,3317
0,9909
0,9998
0,9486
2,4785
1,3279
1,3389
1,2022
2,1014
0,8636
0,8534
0,7751
1,8431
1,0939
1,0119
0,9288
1,8083
1,1768
1,1447
1,0401
1,7588
0,9693
0,9343
0,8347

P18
4,1974
1,1470
1,0709
0,9531
2,3638
1,0728
0,8779
0,8778
2,3512
0,7776
0,7558
0,6849
2,3068
0,9937
1,0119
0,9176
2,6425
0,9388
0,9017
0,8469
2,7971
1,1870
1,0766
0,9903
2,2297
0,8899
0,8536
0,7737
2,3998
1,1588
1,0786
1,0155
2,7011
1,4778
1,2769
1,1487
2,8186
1,2285
1,1746
1,0600
3,2617
1,5271
1,4507
1,2847

P19
Mdia
6,8773 2,4938
1,5686 8,1233
1,5208 1,1112
1,3918 1,1000
4,7337 2,2161
1,4601 1,1606
1,4497 1,1059
1,3310 0,9961
4,8036 2,2611
1,5345 1,0979
1,4739 1,0834
1,3110 0,9763
4,6677 2,3381
1,2537 1,2195
1,1511 1,1751
1,7575 1,1081
4,4513 2,2000
1,2301 1,2237
1,0432 1,1311
0,9990 1,0230
5,5159 2,2475
1,5593 1,1453
1,3470 1,1095
1,1948 1,0042
5,5081 2,2991
1,4852 1,1942
1,5304 1,2154
1,3899 1,0731
4,8008 2,2411
1,3249 1,1615
1,1860 1,1283
1,0889 1,0138
4,7902 2,1712
1,2213 1,1528
1,1385 1,0952
1,0354 1,0812
5,0569 2,0890
1,5380 1,1338
1,4711 1,1032
1,4409 1,0083
4,7427 2,2194
1,1969 1,2092
1,0122 1,1531
0,9354 1,0556

125

TABELA C2 RESULTADOS DA DO MSE MDIO PARA AS 500 SRIES DA ESTRUTURA AR(2)


MSE AR(2)
ARMA
PG-Pura
e136
B1
BCIGP
ARMA
PG-Pura
e137
B1
BCIGP
ARMA
PG-Pura
e138
B1
BCIGP
ARMA
PG-Pura
e139
B1
BCIGP
ARMA
PG-Pura
e140
B1
BCIGP
ARMA
PG-Pura
e141
B1
BCIGP
ARMA
PG-Pura
e142
B1
BCIGP
ARMA
PG-Pura
e143
B1
BCIGP
ARMA
PG-Pura
e144
B1
BCIGP
ARMA
PG-Pura
e145
B1
BCIGP
ARMA
PG-Pura
e146
B1
BCIGP
ARMA
PG-Pura
e147
B1
BCIGP
ARMA
PG-Pura
e148
B1
BCIGP
ARMA
PG-Pura
e149
B1
BCIGP
ARMA
PG-Pura
e150
B1
BCIGP

P1
1,0802
7,2094
1,2341
1,0855
4,8487
2,3544
1,2032
1,0394
12,8973
1,5221
1,2717
1,2972
24,8881
2,7826
1,3638
1,2213
40,1308
1,4557
1,3233
1,1855
57,9008
2,8662
1,2027
1,1989
76,3452
1,7251
1,1303
1,0961
92,8756
22,7279
1,2480
1,3090
1,5260
1,2953
1,2926
1,3838
1,7414
1,3318
1,2868
1,2622
1,4519
1,2932
1,1749
1,1431
1,7248
1,4267
1,3185
3,0574
1,6248
1,3822
1,3798
1,2171
1,5818
1,2915
1,2895
1,1744
1,9268
1,4565
1,2757
3,3563

P2
30,4184
5,7822
5,1413
4,5957
26,2853
6,1254
5,4885
6,5075
24,7732
9,3548
5,0143
4,5473
22,6164
5,6362
5,2595
4,8055
19,9142
5,1691
4,7760
4,5534
21,1050
5,6992
5,1438
6,4460
18,5512
5,6469
5,1020
4,6036
15,9869
5,1451
4,9167
4,4090
16,7639
5,9317
5,5162
5,1028
14,3084
5,3188
4,8494
10,9423
14,3757
5,7363
5,4490
4,8539
14,3862
6,2440
5,8859
5,5592
11,9728
5,9932
5,7450
5,3115
12,3031
5,7968
5,4314
4,9147
10,9129
5,3119
4,9397
4,4785

P3
27,2204
1,3014
1,2588
1,1383
26,6214
1,3099
1,1850
1,0681
25,6531
1,2829
1,1403
1,0242
23,8962
1,2856
1,1810
1,0972
21,4903
1,2463
1,0880
0,9989
21,1283
1,1974
1,0731
0,9907
20,9183
1,2412
1,1079
1,0283
19,9769
1,2343
1,0414
0,9611
19,8103
1,2876
1,1843
1,0920
19,8260
1,5140
1,2742
1,1365
18,0474
1,2243
1,0262
0,9346
16,8247
1,3643
1,2136
1,2431
16,8477
1,2929
1,1975
1,8183
17,6594
1,4642
1,1464
1,1558
17,0416
1,3237
1,2433
1,1414

P4
19,1999
1,2973
1,1543
1,0782
17,5784
1,4221
1,2552
1,1602
18,7672
1,4114
1,2026
1,1098
18,6023
1,3203
1,1476
1,1498
16,5470
1,1257
0,9736
0,8949
15,4964
1,2540
1,1025
1,0162
16,2920
1,2672
1,1208
1,0285
16,2265
3,8372
1,1356
1,4604
14,3815
1,2673
1,1866
1,1042
13,2495
1,2831
1,1664
1,0342
13,9645
1,2801
1,1103
1,0337
13,7947
1,2421
1,1768
1,0731
12,7637
1,5128
1,3116
1,3924
12,5267
1,2896
1,1090
1,0719
13,0269
1,2440
1,0928
0,9972

P5
15,9212
1,1840
1,1235
1,0653
14,7372
1,2871
1,2177
1,1144
14,0630
1,4412
1,3595
1,3494
13,7678
1,2176
1,2154
1,0721
12,9552
1,1421
1,1588
1,0658
12,4722
1,1746
1,2491
1,1651
11,6596
1,1906
1,2436
1,1308
11,7152
1,3756
1,3301
1,1569
11,7778
1,2569
1,2087
1,6563
10,7788
1,2400
1,1989
1,0491
10,3335
1,2085
1,1718
1,0861
10,1737
1,1664
1,1574
1,0589
9,8661
1,2434
1,2999
1,1412
9,9771
1,7125
1,2718
1,2074
9,4549
1,1526
1,1409
1,0389

P6
1,1224
1,2542
1,2357
1,1588
1,1453
1,6537
1,2575
1,1519
1,8867
1,2350
1,1937
1,0824
2,1022
1,1218
1,0808
0,9959
2,6010
1,1823
1,1376
1,0453
2,9042
1,2178
1,1260
1,0519
2,8273
1,3700
1,2844
1,1669
3,5491
1,3261
8,4110
5,8323
3,2493
1,1417
1,0898
1,1655
3,6646
1,1490
1,1127
1,0291
3,9041
1,3783
1,1495
1,0756
3,9345
1,2452
1,2003
1,0837
4,2312
1,2944
1,2297
1,1435
4,5445
1,2725
1,1745
1,0586
4,3041
1,2865
1,0403
1,5726

P7
12,4174
1,2402
1,2418
1,1102
11,2089
1,2946
1,3240
1,1782
11,7266
1,1564
1,1689
1,0941
10,4568
1,3319
1,3017
1,1539
10,5260
1,1643
1,1696
1,1869
9,8654
1,2292
1,2377
1,1200
8,9483
1,3071
1,3179
1,1647
9,0154
1,3286
1,3364
1,5620
8,2570
1,2092
1,2357
1,1278
8,8848
1,2575
1,1883
1,0955
8,3059
1,2495
1,3103
1,7796
7,7295
1,2831
1,2975
1,1843
8,3458
1,6200
1,1762
1,0690
7,7927
1,1876
1,2176
1,0957
7,9229
1,2510
1,1761
1,1614

P8
11,1114
1,3701
1,2001
1,0571
11,3507
1,2462
1,2796
1,1662
10,6651
1,3404
1,3574
1,2456
10,0440
1,2932
1,2693
2,4237
9,4413
1,2257
1,2580
1,1128
9,5064
1,2779
1,2950
1,1885
9,0586
1,1374
1,1794
1,0543
8,8684
1,1978
1,2025
1,0774
8,6419
1,1925
1,2565
1,3326
8,2555
1,2755
1,1776
1,0693
7,8002
1,2384
1,1904
1,1099
7,5343
1,3762
1,3397
1,2099
7,7868
1,2691
1,2400
1,1407
7,3195
1,1802
1,2497
1,1311
7,1098
1,2406
1,3001
1,1430

P9
10,1633
1,2667
1,0551
1,0057
9,7828
1,2073
1,1745
1,0862
9,3283
1,2227
1,1527
1,7626
8,8330
1,2969
1,1985
1,0658
9,1637
1,1716
1,1229
1,0089
7,8496
1,3622
1,2422
1,1237
8,6535
1,4149
1,2238
1,1131
7,1558
1,4064
1,2151
1,1200
8,1574
1,3707
1,2709
1,1564
7,3526
1,3172
1,1575
1,0620
7,4655
1,2155
1,1465
1,0426
7,2597
1,1993
1,0814
0,9655
6,7437
1,4438
1,2643
1,6593
7,1576
1,2745
1,1587
1,0620
6,0829
1,2411
1,1600
4,1752

P11
P12
Mdia
1,0091
0,9146 4,3479
1,1965
1,1477 1,3176
1,1270
1,1374 1,1906
1,0576
0,9879 1,0997
1,0563
1,1107 4,1828
1,1823
1,2025 1,5090
1,1461
1,1891 1,3537
1,2760 1,2563
1,0517
1,8587
1,9538 4,0820
1,2654
1,3917 1,3674
1,2351
1,4682 1,1733
1,1619
1,2349 1,4734
2,0606
2,1276 4,1294
1,2193
1,5794 1,4605
1,1577
1,3708 1,2963
1,0637
1,1815 1,5489
2,5578
2,4234 4,2354
2,4261
1,3668 1,6394
1,2723 1,4485
1,1083
12,2212
1,0942 1,4844
2,5637
3,0887 4,5942
1,2084
1,3480 1,5345
1,1708
1,3394 1,3558
1,1469
1,2254 1,3466
3,0144
2,7725 4,5034
1,3995
1,5712 1,6545
1,2454
1,1701 1,1711
1,1514
1,0561 1,2458
3,0709
3,5252 4,7462
1,2838
1,1424 1,7681
1,1835 1,3549
1,2021
1,9981
1,0517 1,4738
3,5778
3,4480 3,6964
1,3370 182,9982 5,0540
1,2722
1,3003 1,2776
2,7954 1,5608
1,1959
3,7720
4,2307 3,6346
2,5584
1,3855 1,4859
1,1092
1,4729 1,2636
1,0458
1,3482 1,2616
3,8769
4,0398 3,3792
2,3435
1,2296 2,4862
1,1934
1,2053 1,2689
1,1175
1,1124 1,2078
3,8329
4,3897 3,4343
1,1735
1,2556 1,5164
1,0950
1,3075 1,3071
1,0011
1,1877 1,2561
4,3591
4,4856 3,3868
1,4024
1,1987 2,2805
1,2336
1,1809 1,2308
1,1274
1,0637 1,1477
4,3245
4,5140 3,5028
1,2525
1,9175 1,5118
1,1476
1,3103 1,2823
1,0709
1,2071 1,8203
4,6121
5,0135 3,4916
1,1382
1,3005 1,6753
1,3088 1,4174
1,0783
1,3417
1,1988 1,4630

126

TABELA C3 RESULTADOS DA DO MSE MDIO PARA AS 500 SRIES DA ESTRUTURA MA(2)


MSE MA(2)
ARMA
PG-Pura
e136
B1
BCIGP
ARMA
PG-Pura
e137
B1
BCIGP
ARMA
PG-Pura
e138
B1
BCIGP
ARMA
PG-Pura
e139
B1
BCIGP
ARMA
PG-Pura
e140
B1
BCIGP
ARMA
PG-Pura
e141
B1
BCIGP
ARMA
PG-Pura
e142
B1
BCIGP
ARMA
PG-Pura
e143
B1
BCIGP
ARMA
PG-Pura
e144
B1
BCIGP
ARMA
PG-Pura
e145
B1
BCIGP
ARMA
PG-Pura
e146
B1
BCIGP
ARMA
PG-Pura
e147
B1
BCIGP
ARMA
PG-Pura
e148
B1
BCIGP
ARMA
PG-Pura
e149
B1
BCIGP
ARMA
PG-Pura
e150
B1
BCIGP

P1
5,4594
6,0223
6,0982
5,4091
5,0318
5,5272
5,6263
5,0096
5,0623
5,9637
5,6849
5,2235
5,8466
7,5813
6,3823
5,9161
5,4165
5,7407
6,1127
5,4851
5,1189
6,0379
5,9841
5,4048
5,4936
6,0012
7,1691
6,0887
4,9845
5,4914
5,3728
5,1058
5,5831
6,3746
5,8153
5,6573
5,2977
5,6472
5,6054
5,1691
5,3492
6,4009
5,9971
5,3648
5,3690
6,2145
5,9349
5,3765
5,2617
5,5399
5,6786
5,3160
5,7131
6,2896
6,7234
6,4839
5,7051
5,8408
5,9287
5,9638

P2
4,8009
5,0640
5,1096
5,1738
4,5225
5,0498
4,9852
4,7712
4,9960
5,3801
5,4076
5,1070
4,4018
5,1918
5,0360
4,5898
4,6826
5,4421
5,1042
4,7612
4,8354
5,5150
5,3549
4,8129
4,7302
5,4193
5,2741
4,8483
4,4928
5,0442
4,9064
4,2915
4,4468
4,9296
4,8898
4,4641
4,1004
5,0257
4,7905
4,5341
4,7882
5,0611
5,0849
4,4839
4,3878
4,8319
4,9676
4,4514
4,2105
4,6902
4,5872
4,4014
4,7585
5,2288
5,0059
4,6709
4,8405
5,3527
5,1876
4,7971

P3
1,0284
1,4835
1,4604
1,5305
2,0600
1,4823
1,5018
1,2940
2,6580
1,5202
1,5264
1,3070
3,3906
1,6535
1,5829
1,3924
3,4089
1,4618
1,4815
1,2526
2,9969
1,4428
1,4888
1,2978
2,6478
1,5690
1,5728
1,3695
2,9623
1,5200
1,5143
1,3157
3,1804
1,9550
1,4983
1,3059
2,9206
1,4885
1,4805
1,3220
3,0257
1,5516
1,5015
1,3011
2,9568
1,4266
1,4014
1,2028
2,8659
2,3636
1,3885
2,4220
2,9308
1,5066
1,5675
1,3427
3,1043
2,5827
1,5002
1,3103

P4
3,6715
3,7383
3,7673
3,4506
3,8187
3,6222
3,5851
3,3396
3,6677
3,9252
4,5971
3,9293
4,1714
4,3501
4,3711
3,9812
3,5268
3,5871
3,7694
3,6740
3,7578
4,1115
3,7972
3,4125
3,4588
3,5727
3,6298
3,2812
3,7131
5,2046
3,9475
3,5404
3,4794
3,8388
3,8967
3,5474
3,2318
3,8395
3,7222
3,3961
3,3060
3,6148
7,8041
3,1797
3,3791
4,3725
3,6349
3,3853
3,6397
4,0420
3,7301
3,4403
3,4957
3,8465
3,7197
3,3764
3,9386
4,0424
3,9027
3,5387

P5
3,6004
3,3566
3,1004
2,8332
4,0626
3,7215
3,3060
3,0279
2,8745
3,4105
2,8718
2,5572
3,3106
3,7962
3,1298
4,6292
3,2395
3,2852
3,0418
2,7297
3,2047
3,0724
2,9931
2,7098
2,7453
2,8506
2,6952
2,4062
3,0555
3,2519
3,0152
2,6498
3,0329
3,1769
2,8843
2,5627
2,9088
2,9926
2,8156
2,5151
3,0926
3,3126
2,9086
3,7847
3,1202
3,4735
3,0941
3,1981
3,1329
3,3190
3,0029
2,6906
2,8962
3,1592
2,8493
2,5716
2,8196
2,8517
2,7305
2,4695

P8
5,5681
4,9471
4,9008
4,4084
4,7411
4,9376
4,6315
4,1936
4,5620
4,4963
4,5226
4,3429
4,5128
4,7896
4,4398
3,9586
4,7385
5,0845
5,1178
5,9195
4,3695
4,6498
4,8267
4,2923
4,1495
4,5518
4,3382
4,7140
4,6118
4,7496
4,5497
4,2377
4,3849
4,6553
4,4882
4,3798
4,6347
4,4469
4,6280
4,1133
4,8387
5,2284
4,7045
8,6834
4,7786
5,1689
5,1408
4,6958
4,5550
4,2684
4,4418
4,2868
5,1384
5,3245
5,3490
5,0149
4,7408
4,5980
4,9105
4,4304

P7
1,8078
2,1112
2,1099
1,8607
1,9265
2,0866
2,2429
2,0167
2,3240
2,3435
2,2018
1,9833
2,0900
1,8854
1,8869
1,6989
2,3319
2,3673
2,0987
1,8800
2,2785
2,1108
2,1601
1,9085
2,4092
2,2705
2,1987
1,9547
2,1175
5,1162
2,0068
1,8541
2,3393
2,2137
2,1255
1,9156
2,2128
2,1080
2,1783
2,0038
2,3415
2,3050
2,2912
2,0513
2,1658
1,9567
1,9469
1,7327
2,3194
2,1353
2,1118
1,8499
2,1831
1,9895
2,0385
1,8705
2,2447
2,2869
2,1987
2,0360

P8
1,6048
1,8420
1,7300
1,5394
1,6948
1,9647
1,8701
1,7049
1,9058
2,3411
1,5396
1,4771
2,1286
1,7065
1,6502
1,5234
1,8340
1,6110
1,5576
1,3809
2,0438
1,7029
1,6195
1,4584
2,1193
1,9819
1,8044
1,6183
1,8681
1,6014
1,5699
1,4111
2,0929
1,8276
1,6910
2,3412
2,1117
1,8471
1,7725
2,6830
1,9418
1,7578
1,6363
1,4747
2,1155
1,9153
1,7532
1,5232
2,0182
1,6930
1,5521
1,4081
2,1260
1,8283
1,7329
1,5703
2,1117
1,7357
1,6635
1,5037

P9
1,2183
1,9154
1,4438
1,2937
1,3091
1,5636
1,4683
1,2926
2,0380
1,7167
1,5698
1,4009
1,8751
1,5989
1,5027
1,3577
1,9197
1,5554
1,5030
1,3527
1,8353
1,5242
1,3948
1,2487
1,7650
1,4653
1,3941
1,2491
1,8620
1,5787
1,4171
5,8488
1,7802
1,4604
1,3999
1,2547
1,6556
1,3786
1,3151
1,1590
1,8679
1,5788
1,4251
1,2946
1,8170
1,5800
1,4274
1,2943
1,7621
1,5223
1,4051
1,2525
1,9216
1,5794
1,4515
1,2897
1,8661
1,6710
1,4677
1,3142

P10
2,3741
1,4451
1,2078
1,0649
2,4049
1,5222
1,4170
1,2321
1,7015
1,4709
1,4006
1,2630
1,9356
1,4180
1,3776
1,2842
1,8497
1,3729
1,4107
1,9813
1,7411
1,5190
1,4590
1,3165
1,6833
1,4311
1,4283
1,2784
1,8165
1,3483
1,3983
1,1769
1,9079
1,7118
1,5679
1,3369
1,9360
1,8088
1,5229
1,3472
1,7823
1,3757
1,3630
1,2053
1,7592
1,4425
1,4167
1,2322
1,9242
1,4909
1,5754
1,4293
1,6443
1,4002
1,3762
1,1971
1,8467
1,3964
1,4041
1,1535

P11
Mdia
2,5054 3,0581
1,2795 3,0186
1,1607 2,9172
1,0506 2,6923
2,5760 3,1044
1,4392 2,9924
1,3931 2,9116
1,2334 2,6469
1,7188 3,0462
1,3436 3,0829
1,3430 2,9696
1,1997 2,7083
1,9467 3,2373
1,4779 3,2227
1,3508 2,9737
1,1962 2,8661
1,8351 3,1621
1,3432 2,9865
1,2576 2,9505
1,1259 2,8675
1,6844 3,0788
1,3608 3,0043
1,2952 2,9430
1,1932 2,6414
1,6623 2,9877
1,5479 2,9692
1,3663 2,9883
2,0811 2,8081
1,8349 3,0290
1,3477 3,2958
1,2913 2,8172
1,1424 2,9613
1,8573 3,0986
1,4071 3,0501
1,3881 2,8768
1,3655 2,7392
1,9213 2,9938
1,4417 2,9113
1,3628 2,8358
1,2202 2,6784
1,7221 3,0960
1,3622 3,0499
1,2469 3,2694
1,6203 3,1313
1,6932 3,0493
1,3927 3,0705
1,3513 2,9154
1,4445 2,6852
1,8515 3,0492
1,5830 2,9680
1,4434 2,8106
2,2771 2,7976
1,7532 3,1419
1,3442 3,0452
1,2694 3,0076
1,1152 2,7730
1,8183 3,1851
1,3389 3,0634
1,2712 2,9241
1,1342 2,6956

127

Nas figuras C1 e C2 encontram-se os grficos representativos dos erros de previso


para os horizontes um e quinze, das sries geradas pela estrutura AR(2).

MSE

Modelo AR(2)
35
30
25
20
15
10
5
0
0

10

20

30

ARMA

40

50

PG-Pura

60
B1

70
BCIGP

80

90

parmetro

FIGURA C1 COMPORTAMENTO DOS MTODOS PARA O


1 VALOR PREVISTO e136 MODELO AR(2)

MSE

Modelo AR(2)

31
26
21
16
11
6
1
0

10

20

30

ARMA

40
PG-Pura

50

60
B1

70
BCIGP

80

90

parmetro

FIGURA C2 COMPORTAMENTO DOS MTODOS PARA O


LTIMO VALOR PREVISTO e150 MODELO AR(2)

128

Nas figuras C3 e C4 encontram-se os grficos representativos dos erros de previso


para os horizontes um e quinze, das sries geradas pela estrutura MA(1).
Modelo MA(1)
100
80
MSE

60
40
20
0
0

9 10 11 12 13 14 15 16 17 18 19 20
parmetro

ARMA

PG-Pura

B1

BCIGP

FIGURA C3 COMPORTAMENTO DOS MTODOS PARA O


1 VALOR PREVISTO e136 MODELO MA(1)

MSE

Modelo MA(1)
6
5
4
3
2
1
0
0

9 10 11 12 13 14 15 16 17 18 19 20
parmetro

ARMA

PG-Pura

B1

BCIGP

FIGURA C4 COMPORTAMENTO DOS MTODOS PARA O


LTIMO VALOR PREVISTO e150 MODELO MA(1)

129

Nas figuras C5 e C6 encontram-se os grficos representativos dos erros de previso


para os horizontes um e quinze, das sries geradas pela estrutura MA(2).

MSE

Modelo MA(2)
12
10
8
6
4
2
0
0

10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200
ARMA

PG-Pura

B1

BCIGP

parmetro

FIGURA C5 COMPORTAMENTO DOS MTODOS PARA O


1 VALOR PREVISTO e136 MODELO AR(1)

MSE

Modelo MA(2)
12
10
8
6
4
2
0
0

10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200
parmetro
ARMA

PG-Pura

B1

BCIGP

FIGURA C6 - COMPORTAMENTO DOS MTODOS PARA O


LTIMO VALOR PREVISTO e150 MODELO MA(2)

130

Nas figuras C7 e C8 encontram-se os grficos representativos dos erros de previso


para os horizontes um e quinze, das sries geradas pela estrutura ARMA(1, 1).

Modelo ARMA(1,1)
40

MSE

30
20
10
0
-10 0

10

20

30

40

50

60

70

80

90

100

parmetro
ARMA

PG-Pura

B1

BCIGP

FIGURA C7 COMPORTAMENTO DOS MTODOS PARA O


1 VALOR PREVISTO e136 MODELO ARMA(1, 1)

MSE

Modelo ARMA(1,1)
120
100
80
60
40
20
0
0

10

20

30

ARMA

40
PG-Pura

50

60
B1

70
BCIGP

80

90

100

parmetro

FIGURA C8 COMPORTAMENTO DOS MTODOS PARA O


LTMO VALOR PREVISTO e150 MODELO ARMA(1, 1)

131

As tabelas de C4 a C7 contm os resultados do teste F ANOVA e do teste TukeyKramer.


TABELA C4 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA AR(1)
Valor
Previsto

e136

e137

e138

e139

e140

e141

e142

e143

Grupos

Mdia Mdia Estats.


p-valor
Grupo Geral
F

1
2
3
4

2,3702
1,0567
1,0118
0,9282

1
2
3
4

2,3527
1,9907
1,1842
1,0924

1
2
3
4

2,0450
1,0470
1,0311
0,9583

1
2
3
4

2,1817
1,3314
1,2955
1,2194

1
2
3
4

2,0486
1,5099
1,3779
1,2547

1
2
3
4

1,9550
1,4487
1,2907
1,4669

1
2
3
4

1,6495
2,2842
1,1341
1,0966

1
2
3
4

1,4880
2,0030
0,9834
0,9053

1,3417

6,8196

0,0759

1,6550

2,2025

0,0000

1,2704

5,8125

0,0000

1,5070

1,8080

0,0000

1,5478

0,9972

0,0000

1,5403

0,3820

0,0000

1,5411

0,8351

0,0000

1,3449

1,0502

0,0000

Grupos

Dif.
Abs.

Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4

1,3135
1,3584
1,4420
0,0450
0,1285
0,0836
0,3620
1,1685
1,2603
0,8065
0,8983
0,0918
0,9980
1,0139
1,0867
0,0159
0,0887
0,0727
0,8503
0,8862
0,9623
0,0359
0,1120
0,0761
0,5387
0,6707
0,7939
0,1320
0,2552
0,1232
0,5063
0,6643
0,4881
0,1580
0,0182
0,1762
0,6347
0,5154
0,5529
1,1501
1,1876
0,0375
0,5150
0,5047
0,5827
1,0196
1,0977
0,0781

Interv.
Crtico

0,9792

1,5429

0,7987

1,2505

1,3023

1,7299

2,2621

1,8471

Comp.
mdias

Melhor
Grupo

Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais

2
3
4
X
X
X
X
X
X
X
X
X
2
3
4
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X

132

TABELA C4 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA


AR(1) (CONTINUAO)
Valor
Previsto

e144

e145

e146

e147

e148

e149

e150

Grupos

Mdia Mdia Estats.


p-valor
Grupo Geral
F

1
2
3
4

1,2274
0,8461
0,8106
0,7475

1
2
3
4

1,4540
1,1212
1,1029
1,3978

1
2
3
4

1,6769
1,4171
1,3755
1,2677

1
2
3
4

1,2946
1,0576
1,0276
0,9326

1
2
3
4

1,3387
1,1235
1,0967
1,0049

1
2
3
4

1,2239
1,0304
1,0237
0,9286

1
2
3
4

1,7268
1,7379
1,5064
1,5922

0,9079

1,5880

0,0000

1,2690

0,3824

0,0000

1,4343

0,2636

0,1778

1,0781

0,3021

0,0000

1,1409

0,2759

0,3045

1,0517

0,3284

0,0000

1,6408

0,0572

0,0209

Grupos

Dif.
Abs.

Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4

0,3814
0,4168
0,4799
0,0355
0,0985
0,0631
0,3328
0,3511
0,0562
0,0183
0,2766
0,2949
0,2598
0,3014
0,4091
0,0416
0,1493
0,1078
0,2370
0,2670
0,3620
0,0300
0,1250
0,0950
0,2152
0,2420
0,3338
0,0268
0,1186
0,0918
0,1934
0,2001
0,2952
0,0067
0,1018
0,0951
0,0111
0,2204
0,1347
0,2315
0,1458
0,0857

Interv.
Crtico

0,6399

1,0992

1,2568

1,0409

1,0000

0,8036

1,7333

Comp.
mdias

Melhor
Grupo

Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais

X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X

133

TABELA C5 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA AR(2)


Valor
Previsto

e136

e137

e138

e139

e140

e141

e142

e143

Grupos

Mdia
Grupo

1
2
3
4

4,3479
1,3176
1,1906
1,0997

1
2
3
4

4,1828
1,5090
1,3537
1,2563

1
2
3
4

4,0820
1,3674
1,1733
1,4734

1
2
3
4

4,1294
1,4605
1,2963
1,5489

1
2
3
4

4,2354
1,6394
1,4485
1,4844

1
2
3
4

4,5942
1,5345
1,3558
1,3466

1
2
3
4

4,5034
1,6545
1,1711
1,2458

1
2
3
4

4,7462
1,7681
1,3549
1,4738

Mdia
Geral

Estats.
F

1,9889

20,4244

2,0754

18,5868

2,0240

18,1191

2,1087

14,9967

2,2019

13,5796

2,2077

15,5852

2,1436

10,5537

2,3357

7,9880

p-valor

2,52E-12

2,67E-11

4,89E-11

2,90E-09

1,89E-08

1,34E-09

1,08E-06

3,50E-05

Grupos

Dif.
Abs.

Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4

3,0304
3,1574
3,2482
0,1270
0,2178
0,0908
2,6737
2,8290
2,9265
0,1553
0,2528
0,0975
2,7146
2,9087
2,6086
0,1941
0,1060
0,3001
2,6688
2,8330
2,5805
0,1642
0,0883
0,2525
2,5960
2,7869
2,7510
0,1909
0,1550
0,0359
3,0597
3,2385
3,2476
0,1788
0,1879
0,0092
2,8489
3,3324
3,2576
0,4834
0,4087
0,0748
2,9781
3,3914
3,2724
0,4132
0,2943
0,1189

Interv.
Crtico

1,2723

1,1928

1,1814

1,2736

1,3454

1,4733

1,7837

2,0876

Comp.
mdias

Melhor
Grupo

Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais

2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X

134

TABELA C5 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA


AR(2) (CONTINUAO)
Valor
Previsto

e144

e145

e146

e147

e148

e149

e150

Grupos

Mdia
Grupo

1
2
3
4

3,6964
5,0540
1,2776
1,5608

1
2
3
4

3,6346
1,4859
1,2636
1,2616

1
2
3
4

3,3792
2,4862
1,2689
1,2078

1
2
3
4

3,4343
1,5164
1,3071
1,2561

1
2
3
4

3,3868
2,2805
1,2308
1,1477

1
2
3
4

3,5028
1,5118
1,2823
1,8203

1
2
3
4

3,4916
1,6753
1,4174
1,4630

Mdia
Geral

Estats.
F

2,8971

2,4347

1,9114

24,8156

2,0855

10,2561

1,8784

22,9336

2,0114

8,1202

2,0293

9,1038

2,0117

19,6169

p-valor

0,0644

9,88E-15

1,62E-06

1,04E-13

2,93E-05

7,70E-06

7,08E-12

Grupos

Dif.
Abs.

Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4

1,3576
2,4188
2,1356
3,7764
3,4932
0,2832
2,1488
2,3711
2,3730
0,2223
0,2243
0,0020
0,8929
2,1103
2,1714
1,2173
1,2785
0,0611
1,9179
2,1272
2,1781
0,2093
0,2603
0,0509
1,9910
2,2205
1,6825
0,2295
0,3085
0,5380
1,8163
2,0742
2,0286
0,2579
0,2123
0,0456
1,8163
2,0742
2,0286
0,2579
0,2123
0,0456

Interv.
Crtico

4,2065

0,8453

1,1903

0,7952

1,3475

1,2180

0,8183

Comp.
mdias

Melhor
Grupo

Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Diferentes
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais

X
X
X
X
X
X
2
3
4
NA
NA
NA
2
3
4
3
4
NA
2
3
4
NA
NA
NA
2
3
4
NA
NA
NA
2
3
4
NA
NA
NA
2
3
4
NA
NA
NA

135

TABELA C6 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA MA(2)


Valor
Previsto

e136

e137

e138

e139

e140

e141

e142

e143

Grupos

Mdia Mdia
Grupo Geral

1
2
3
4

3,0335
2,2456
2,0985
1,9234

1
2
3
4

2,7355
2,1690
2,0773
1,8843

1
2
3
4

2,6617
3,2616
2,0698
1,9117

1
2
3
4

2,6473
3,0242
2,0711
1,9318

1
2
3
4

2,6666
2,1816
2,0828
1,8970

1
2
3
4

2,6444
2,3654
2,0613
1,9397

1
2
3
4

2,6580
2,3011
2,0800
1,9264

1
2
3
4

2,6514
3,1361
2,0581
4,4017

Estats.
F

2,3252

21,2007

2,2165

17,9565

2,4762

4,4276

2,4186

2,3696

2,2070

14,0977

2,2527

9,9198

2,2414

10,5802

3,0618

0,7324

p-valor

9,35E-13

6,04E-11

4,46E-03

7,02E-02

9,51E-09

2,55E-06

1,05E-06

5,33E-01

Grupos

Dif.
Abs.

Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4

0,7879
0,9350
1,1101
0,1470
0,3222
0,1751
0,5665
0,6582
0,8512
0,0917
0,2847
0,1930
0,5999
0,5919
0,7499
1,1918
1,3499
0,1580
0,3769
0,5762
0,7155
0,9531
1,0924
0,1393
0,4851
0,5838
0,7696
0,0988
0,2846
0,1858
0,2790
0,5831
0,7046
0,3041
0,4256
0,1215
0,3569
0,5780
0,7315
0,2211
0,3747
0,1536
0,4846
0,5934
1,7503
1,0780
1,2657
2,3437

Interv.
Crtico

0,3876

0,3143

1,0643

1,2036

0,3184

0,3660

0,3553

4,2378

Comp.
mdias

Melhor
Grupo

Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Iguais
Diferentes
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais

2
3
4
X
X
X
2
3
4
X
X
X
X
X
X
3
4
X
X
X
X
X
X
X
2
3
4
X
X
X
X
3
4
X
4
X
2
3
4
X
4
X
X
X
X
X
X
X

136

TABELA C6 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA


MA(2) (CONTINUAO)
Valor
Previsto

e144

e145

e146

e147

e148

e149

e150

Grupos

Mdia Mdia
Grupo Geral

1
2
3
4

2,6497
2,7877
2,2478
2,6743

1
2
3
4

2,6596
3,0190
2,0717
2,4415

1
2
3
4

2,6673
2,5006
2,0858
2,4169

1
2
3
4

2,6690
2,7557
2,0776
2,5989

1
2
3
4

2,6551
2,7182
2,0734
2,1184

1
2
3
4

2,6740
2,7705
2,1262
1,9977

1
2
3
4

2,6571
2,5503
2,0637
2,0916

Estats.
F

2,5899

0,5185

2,5480

1,1176

2,4177

1,2621

2,5253

0,8523

2,3913

3,2302

2,3921

5,2012

2,8398

p-valor

6,70E-01

3,42E-01

2,87E-01

4,66E-01

2,24E-02

1,56E-03

3,77E-02

Grupos

Dif.
Abs.

Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4

0,1380
0,4019
0,0246
0,5398
0,1133
0,4265
0,3594
0,5879
0,2181
0,9473
0,5775
0,3698
0,1667
0,5815
0,2504
0,4148
0,0837
0,3311
0,0867
0,5915
0,0701
0,6782
0,1569
0,5213
0,0631
0,5817
0,5367
0,6448
0,5997
0,0451
0,0965
0,5478
0,6763
0,6443
0,7728
0,1285
0,1069
0,5934
0,5656
0,4865
0,4587
0,0278

Interv.
Crtico

1,1924

1,3667

0,7924

1,2041

0,6939

0,6175

0,6634

Comp.
mdias

Melhor
Grupo

Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais

X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
X
4
3
4
X
X
X
X
X
X
X

137

TABELA C7 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA ARMA(1,1)


Valor
Previsto

e136

e137

e138

e139

e140

e141

e142

e143

Grupos

Mdia
Grupo

1
2
3
4

1,7917
1,8133

1
2
3
4

2,0809
1,2657
1,1427
1,0553

1
2
3
4

2,2494
1,3300
1,1277
1,0897

1
2
3
4

2,3892
1,6402
1,1417
1,0871

1
2
3
4

2,4768
1,3522
1,1416
1,0806

1
2
3
4

2,5734
1,2922
1,1399
1,1006

1
2
3
4

2,6567
1,6019
1,1467
1,2413

1
2
3
4

2,6738
1,2913
1,1375
1,0651

1,1327
1,1087

Mdia
Geral

Estats.
F

1,4616

2,3097

1,3861

12,0455

1,4492

16,1096

1,5646

13,7188

1,5128

21,9461

1,5265

24,6964

1,6616

9,9050

1,5419

25,0980

p-valor

7,59E-02

1,46E-07

6,71E-10

1,57E-08

3,63E-13

1,14E-14

2,60E-06

6,88E-15

Grupos

Dif.
Abs.

Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4

0,0216
0,6590
0,6830
0,6807
0,7047
0,0240
0,8152
0,9382
1,0256
0,1230
0,2104
0,0874
0,9194
1,1217
1,1597
0,2024
0,2404
0,0380
0,7490
1,2475
1,3021
0,4985
0,5531
0,0545
1,1245
1,3352
1,3961
0,2107
0,2716
0,0609
1,2812
1,4335
1,4728
0,1523
0,1916
0,0393
1,0548
1,5100
1,4153
0,4552
0,3606
0,0947
1,3824
1,5362
1,6086
0,1538
0,2262
0,0724

Interv.
Crtico

0,9456

0,4953

0,4943

0,5945

0,5087

0,5160

0,8019

0,5538

Comp.
mdias

Melhor
Grupo

Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais

X
X
X
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
X
2
3
4
X
X
NA
2
3
4
X
X
X
2
3
4
X
X
X

138

TABELA C7 RESULTADOS DA ANOVA E TESTE TUKEY-KRAMER PARA A ESTRUTURA


ARMA(1,1) (CONTINUAO)
Valor
Previsto

e144

e145

e146

e147

e148

e149

e150

Grupos

Mdia
Grupo

1
2
3
4

2,7013
1,3619
1,1386
1,0664

1
2
3
4

2,7278
1,3692
1,1365
1,4385

1
2
3
4

2,7513
10,2940
1,1417
1,1677

1
2
3
4

2,7759
1,8779
1,1450
1,1471

1
2
3
4

2,7658
6,5438
1,2860
1,2057

1
2
3
4

2,8048
1,3648
1,1386
1,0578

1
2
3
4

2,8316
3,4325
1,1398
1,0977

Mdia Estatstica
Geral
F

1,5670

24,5447

1,6680

13,2822

3,8386

1,6479

1,7365

10,4476

2,9503

1,2135

1,5915

23,6259

2,1254

3,2823

p-valor

1,38E-14

2,81E-08

1,78E-01

1,25E-06

3,04E-01

4,36E-14

2,09E-02

Grupos

Dif.
Abs.

Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4
Grupo1 e 2
Grupo1 e 3
Grupo1 e 4
Grupo2 e 3
Grupo2 e 4
Grupo3 e 4

1,3394
1,5627
1,6349
0,2232
0,2954
0,0722
1,3587
1,5914
1,2893
0,2327
0,0693
0,3021
7,5427
1,6096
1,5836
9,1523
9,1263
0,0260
0,8981
1,6309
1,6289
0,7328
0,7308
0,0020
3,7781
1,4798
1,5601
5,2578
5,3382
0,0803
1,4401
1,6662
1,7471
0,2262
0,3070
0,0809
0,6009
1,6918
1,7339
2,2927
2,3349
0,0421

Intervalo
Crtico

0,5645

0,7191

12,4174

0,8738

8,2828

0,6150

2,3928

Comp.
mdias

Melhor
Grupo

Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Diferentes
Diferentes
Diferentes
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais
Iguais

2
3
4
X
X
X
2
3
4
X
X
X
X
X
X
X
X
X
2
3
4
X
X
X
X
X
X
X
X
X
2
3
4
X
X
X
X
X
X
X
X
X