2009 Andrepinz - Vfinal PDF

ANDR PINZ BORGES
DESCOBERTA DE REGRAS DE CONDUO DE

TRENS DE CARGA
Dissertao apresentada ao Programa de

Ps-Graduao em Informtica da Pontifcia
Universidade Catlica do Paran como re-
quisito para obteno do ttulo de mestre em
Informtica Aplicada.
Curitiba
Julho/2009
ANDR PINZ BORGES
DESCOBERTA DE REGRAS DE CONDUO DE

TRENS DE CARGA
Dissertao apresentada ao Programa de Ps-

Graduao em Informtica da Pontifcia Uni-
versidade Catlica do Paran como requisito
para obteno do ttulo de mestre em Inform-
tica Aplicada.
rea de Concentrao: Agentes de Software
Orientador: Prof. Dr. Edson Emlio Scalabrin

Co-orientador: Prof. Dr. Fabrcio Enembreck
Curitiba
Julho/2009
Borges, Andr Pinz
Descoberta de Regras de Conduo de Trens de Carga. Curitiba. 10-07-2009
Dissertao Pontifcia Universidade Catlica do Paran. Programa de Ps-

Graduao em Informtica.
1. Classificao 2. Conduo de Trens 3. Minerao de Dados. I. Pontifcia U-

niversidade Catlica do Paran. Centro de Cincias Exatas e Tecnologia. Pro-
grama de Ps-Graduao em Informtica II - t
FOLHA DE APROVAO
Andr Pinz Borges

DESCOBERTA DE REGRAS DE CONDUO DE TRENS DE CARGA
Dissertao apresentada ao Programa de

Ps-Graduao em Informtica da Pontifcia
Universidade Catlica do Paran como re-
quisito para obteno do ttulo de mestre em
Informtica Aplicada.
Banca examinadora
Prof. Dr. Instituio:
Julgamento: Assinatura:
Dedicatria
Aos meus pais, incentivadores
e motivos pela busca ao meu
crescimento.
i
Agradecimentos
Deus, por ter me fornecido capacidade para desenvolver este trabalho e fazer
escolhas corretas at o presente momento.
Aos meus pais, por terem sempre me apoiado nas minhas decises.
Aos professores Dr. Edson Emlio Scalabrin e Dr. Fabrcio Enembreck pelas ho-
ras dedicadas realizao deste projeto. Em especial ao professor Edson, que me repas-
sou seus conhecimentos e me incentivou ao longo desta pesquisa, sendo um orientador
exemplar.
Aos demais colegas integrantes do projeto PAI-L, pelas idias e colaboraes

para que este trabalho produzisse frutos e atingisse os objetivos propostos.
E a todos que me ajudaram direta ou indiretamente para que esse trabalho fosse
realizado.
ii
Sumrio
AGRADECIMENTOS................................................................................................................................ II
SUMRIO ............................................................................................................................................. III
LISTA DE FIGURAS ................................................................................................................................. V
LISTA DE TABELAS ............................................................................................................................... VII
LISTA DE SMBOLOS............................................................................................................................ VIII
LISTA DE TERMOS ................................................................................................................................. IX
RESUMO ................................................................................................................................................ X
ABSTRACT ............................................................................................................................................ XI
CAPTULO 1 - INTRODUO................................................................................................................... 1
1.1 MOTIVAO ...................................................................................................................................... 3
1.2 OBJETIVOS......................................................................................................................................... 4
1.3 HIPTESE .......................................................................................................................................... 4
1.4 CONTRIBUIES.................................................................................................................................. 5
1.5 ESTRUTURA DO DOCUMENTO................................................................................................................ 5
CAPTULO 2 - CONDUO DE TRENS ..................................................................................................... 6
2.1 MOVIMENTAO DO TREM ................................................................................................................... 8
2.2 FREIOS DE UMA LOCOMOTIVA ............................................................................................................. 10
2.3 TRECHOS ONDULADOS ....................................................................................................................... 11
2.4 TRECHOS EM CRISTAS ........................................................................................................................ 12
2.5 PARTIDA E PARADA DO TREM .............................................................................................................. 13
2.6 EQUAES DE DAVIS ......................................................................................................................... 18
2.6.1 Resistncias Normais e Acidentais ..................................................................................... 18
2.6.2 Esforo Trator e Fora de Acelerao ................................................................................. 20
2.6.3 Deslocamento ..................................................................................................................... 21
2.6.4 Consumo ............................................................................................................................. 23
2.6.5 Equaes de Davis Modificadas ......................................................................................... 24
2.6.6 Exemplo de aplicao ......................................................................................................... 26
2.7 CONSIDERAES FINAIS ...................................................................................................................... 28
CAPTULO 3 - DESCOBERTA AUTOMATIZADA DO CONHECIMENTO ..................................................... 30
3.1 O PROCESSO DE DESCOBERTA DO CONHECIMENTO ................................................................................... 30
3.2 PR-PROCESSAMENTO ....................................................................................................................... 31
3.2.1 Transformao dos dados .................................................................................................. 31
3.2.1.1 Remoo de rudos ........................................................................................................ 32
3.2.1.2 Seleo de atributos ...................................................................................................... 32
3.3 MINERAO DE DADOS...................................................................................................................... 33
3.3.1 Software WEKA .................................................................................................................. 34
3.4 APRENDIZAGEM DE MQUINA............................................................................................................. 34
3.4.1 Aprendizagem Simblica de Mquina ................................................................................ 35
3.4.2 Aprendizagem Indutiva ...................................................................................................... 35
3.5 MTODOS DE CLASSIFICAO .............................................................................................................. 36
3.5.1 Algoritmo C4.5 .................................................................................................................... 37
3.5.1.1 Algoritmo JRIP................................................................................................................ 45
3.5.2 Mtodo BAGGING com o algoritmo C4.5 ........................................................................... 46
3.5.3 Mtodo BOOSTING com o algoritmo C4.5.......................................................................... 50
3.6 VALIDAO CRUZADA ........................................................................................................................ 55
3.7 TESTE ESTATSTICO ............................................................................................................................ 57
3.8 TRABALHOS RELACIONADOS ................................................................................................................ 58
3.9 CONSIDERAES FINAIS ..................................................................................................................... 59
iii
CAPTULO 4 - METODOLOGIA .............................................................................................................. 61
4.1 MODELAGEM DOS DADOS .................................................................................................................. 61
4.2 ORIGEM E FORMATO DOS DADOS ......................................................................................................... 62
4.2.1 Remoo de Rudos ............................................................................................................ 64
4.2.2 Incluso de Novos Atributos ............................................................................................... 65
4.2.3 Seleo de Atributos ........................................................................................................... 72
4.2.4 Transformao de Atributos ............................................................................................... 72
4.3 APLICAO DOS ALGORITMOS DE MINERAO ....................................................................................... 73
4.4 CONSIDERAES FINAIS ..................................................................................................................... 75
CAPTULO 5 - SIMULADOR ................................................................................................................... 76
5.1 DESCRIO GERAL DO SIMULADOR ...................................................................................................... 76
5.2 EXEMPLOS DE CLCULOS .................................................................................................................... 78
5.3 USO DOS CLASSIFICADORES ................................................................................................................. 81
5.4 PROCEDIMENTOS DE REFINAMENTOS .................................................................................................... 83
5.4.1 Controle de Patinao ........................................................................................................ 83
5.4.2 Falta de Potncia ................................................................................................................ 85
5.4.3 Marcha Excessiva ............................................................................................................... 86
5.5 EXECUO DE UMA VIAGEM ............................................................................................................... 87
5.6 CONSIDERAES FINAIS ...................................................................................................................... 93
CAPTULO 6 - RESULTADOS .................................................................................................................. 95
6.1 FASE DE APRENDIZAGEM .................................................................................................................... 97
6.2 FASE DE APLICAO DE CLASSIFICADORES ............................................................................................ 101
6.2.1 Aplicao do Conhecimento Descoberto .......................................................................... 103
6.2.1.1 Viagem A ..................................................................................................................... 105
6.2.1.2 Viagem B...................................................................................................................... 107
6.2.2 Anlise da Similaridade da Conduo .............................................................................. 109
6.3 CONSIDERAES FINAIS ................................................................................................................... 114
CAPTULO 7 - CONCLUSES ............................................................................................................... 116
7.1 LIMITAES ................................................................................................................................... 117
7.2 TRABALHOS FUTUROS ...................................................................................................................... 118
REFERNCIAS BIBLIOGRFICAS .......................................................................................................... 119
iv
Lista de Figuras
FIGURA 1. BOLETIM DE VIA. (ALL, 2008) .............................................................................................. 8

FIGURA 2. BOLETIM DE SERVIO. (ALL, 2008) ....................................................................................... 9
FIGURA 3. EXEMPLO DE COMUNICAO PADRO. (ALL, 2008) ............................................................... 14
FIGURA 4. ETAPAS DO PROCESSO DE KDD. ........................................................................................... 31
FIGURA 5 - EXEMPLO DE RVORE DE DECISO. ...................................................................................... 41
FIGURA 6 - RVORE DE DECISO NO FORMATO DE REGRAS. ..................................................................... 42
FIGURA 7 - CLASSIFICADOR 1. C4.5 COM ATRIBUTOS CONTNUOS. ........................................................... 43
FIGURA 8 - CLASSIFICADOR 1. C4.5 COM ATRIBUTOS CONTNUOS (VERSO GERADA PELO SOFTWARE WEKA).
............................................................................................................................................ 43
FIGURA 9 - CLCULO DE LIMIARES DO ATRIBUTO PRESSO DOS FREIOS. ..................................................... 44
FIGURA 10 - MATRIZ DE CONFUSO. ................................................................................................... 44
FIGURA 11 - CLASSIFICADOR 2. BAGGING L1 E T1. ........................................................................... 49
FIGURA 14 - CLASSIFICADOR 5. BOOSTING L-1 E T-1........................................................................ 53
FIGURA 15 - CLASSIFICADOR 6. BOOSTING L-2 E T-2........................................................................ 54
FIGURA 16 - MODELO CONCEITUAL PARCIAL PARA REPRESENTAR UMA VIAGEM DE TREM EM UMA VIA FRREA.
............................................................................................................................................ 62
FIGURA 17 - EXEMPLO DO ARQUIVO DE VIAGEM. .................................................................................. 63
FIGURA 18. DADOS PARCIAIS DO PERFIL DE UMA VIA FRREA. .................................................................. 68
FIGURA 19 SITUAES DE CRISTA ..................................................................................................... 69
FIGURA 20 SITUAO DE DEPRESSO................................................................................................ 69
FIGURA 21 PONTOS CANDIDATOS PARA CARACTERIZAR CRISTAS E DEPRESSES AO LONGO DO TREM........... 69
FIGURA 22. SEGMENTAO DE UM TREM EM TRS PONTOS PARA A IDENTIFICAO DE CRISTAS E DEPRESSES.
............................................................................................................................................ 70
FIGURA 23. EXEMPLO DE REGRAS NO FORMATO WEKA. ......................................................................... 77
FIGURA 24. MODELO CONCEITUAL DO INTERPRETADOR DE REGRAS. ......................................................... 77
FIGURA 25. FORMA DE VOTAO DOS CLASSIFICADORES. ....................................................................... 82
FIGURA 26- EXEMPLO DE PONTO DE MEDIDA NO ARQUIVO XML ............................................................. 88
FIGURA 27- MODELO REPRESENTATIVO DO ALGORITMO DE VIAGEM......................................................... 90
FIGURA 28 - FASE DE APRENDIZAGEM. ................................................................................................ 96
FIGURA 29 - FASE APLICAO DO CONHECIMENTO APRENDIDO................................................................ 96
FIGURA 30 NMERO DE REGISTROS VS CLASSES: CN. .......................................................................... 97
FIGURA 31 NMERO DE REGISTROS VS CLASSES: C4. ........................................................................... 97
v
FIGURA 32 TRECHO REAL DA VIA FRREA: DE LONDRINA (PR) AT PAIANDU (PR) ................................ 101
FIGURA 33 USO DOS PONTOS DE ACELERAO PELA MAQUINISTA SER HUMANO. ................................... 102
FIGURA 34 - RESULTADO DA SIMULAO PARA A CONFIGURAO A USANDO AS REGRAS DESCOBERTAS POR
MEIO DO MTODO JRIP+BOOSTING....................................................................................... 104
FIGURA 35 - RESULTADO DA SIMULAO PARA A CONFIGURAO B USANDO AS REGRAS DESCOBERTAS POR

FIGURA 36 - RESULTADO DA SIMULAO PARA A CONFIGURAO C USANDO AS REGRAS DESCOBERTAS POR

FIGURA 37 - USO DOS PONTOS DE ACELERAO NAS VIAGENS 1, 3 E 6 PARA AS CONFIGURAES A, B E C ... 105
FIGURA 38 DADOS DA VIAGEM A USANDO UM CLASSIFICADOR JRIP. ................................................... 106
FIGURA 39 - REGRAS FREQENTEMENTE UTILIZADAS PELO CLASSIFICADOR .............................................. 106
FIGURA 40 EXEMPLO DE VIAGEM ANTES (A) E APS (B) A REMOO DAS PARADAS. ............................... 107
FIGURA 41 DADOS DA VIAGEM B USANDO UM CLASSIFICADOR JRIP. ................................................... 108
FIGURA 42 - REGRA UTILIZADA PELO CLASSIFICADOR JRIP SEM DADOS DE PARADAS. ................................. 108
FIGURA 43 DIFERENAS ENTRE PONTOS DE ACELERAO SUGERIDOS PELO CLASSIFICADOR E APLICADOS PELO
MAQUINISTA CONJUNTO DE TREINAMENTO CN E MTODO JRIP. ................................................ 110
FIGURA 44 - DIFERENAS ENTRE PONTOS DE ACELERAO SUGERIDOS PELO CLASSIFICADOR E APLICADOS PELO
MAQUINISTA CONJUNTO DE TREINAMENTO CN E MTODO JRIP+BAGGING................................ 110
MAQUINISTA CONJUNTO DE TREINAMENTO CN E MTODO JRIP+BOOSTING. ............................. 111
MAQUINISTA CONJUNTO DE TREINAMENTO CN E MTODO TODOS. ........................................... 112
vi
Lista de Tabelas
TABELA 1. TEMPO NECESSRIO PARA REDUO DA PRESSO DOS FREIOS. .................................................. 13

TABELA 2. PROCEDIMENTOS PARA A PARADA DO TREM. ......................................................................... 15
TABELA 3. PROCEDIMENTOS TOMADOS DURANTE A PARTIDA DO TREM. .................................................... 16
TABELA 4. CONJUNTO DE TREINAMENTO. (EXEMPLO ADAPTADO DE (QUINLAN, 1993)) ........................... 39
TABELA 5. CONJUNTO DE TREINAMENTO COM VALORES CONTNUOS. (EXEMPLO ADAPTADO DE (QUINLAN,
1993))........................................................................................................................................... 43
TABELA 6. CONJUNTO DE TREINAMENTO. (EXEMPLO ADAPTADO DE (QUINLAN, 1993)) ............................ 47
TABELA 7. CONJUNTO DE APRENDIZAGEM L1. ....................................................................................... 48
TABELA 8. CONJUNTO DE APRENDIZAGEM L2 ........................................................................................ 48
TABELA 9. CONJUNTO DE APRENDIZAGEM L3 ....................................................................................... 48
TABELA 10. CONJUNTO DE TREINAMENTO. (EXEMPLO ADAPTADO DE (QUINLAN, 1993)) .......................... 53
TABELA 11. PESOS ATUALIZADOS. ....................................................................................................... 54
TABELA 12. CONJUNTO DE TREINAMENTO, (EXEMPLO ADAPTADO DE (QUINLAN, 1993)) .......................... 54
TABELA 13. RESUMO DE DADOS DE DIFERENTES VIAGENS. ...................................................................... 64
TABELA 14. ATRIBUTOS DERIVADOS POR MEIO DE CLCULOS ................................................................... 66
TABELA 15 - VALORES CALCULADOS A PARTIR DA SEGMENTAO DE UM TREM EM ONZE PONTOS PARA A
IDENTIFICAO DE CRISTAS E DEPRESSES............................................................................................. 70
TABELA 16 - FUNES DE CLCULO, PERCEPO, ATUAO E CLASSIFICAO............................................. 91

TABELA 17 TAXAS DE ACERTO DOS CLASSIFICADORES OBTIDOS POR MEIO DO MTODO JRIP. ..................... 98
TABELA 18 - TAXAS DE ACERTO DOS CLASSIFICADORES OBTIDOS POR MEIO DO MTODO JRIP+BAGGING...... 98
TABELA 19 - TAXAS DE ACERTO DOS CLASSIFICADORES OBTIDOS POR MEIO DO MTODO JRIP+BOOSTING. ... 99
TABELA 20 - TESTE DE FRIEDMAN PARA OS CLASSIFICADORES OBTIDOS PARA CONJUNTOS DE TREINAMENTOS DE
TAMANHOS DIFERENTES. ................................................................................................................. 100
TABELA 21 - CONFIGURAES DOS EXPERIMENTOS ENTRE TERMOS DE COMPOSIO E COMPRIMENTO DO

TRECHO DE VIA............................................................................................................................... 103
TABELA 22 - RESULTADOS USANDO CLASSIFICADORES OBTIDOS A PARTIR DO CONJUNTO DE TREINAMENTO CN.

................................................................................................................................................... 112
TABELA 23 - RESULTADOS USANDO CLASSIFICADORES OBTIDOS A PARTIR DO CONJUNTO DE TREINAMENTO C4.
................................................................................................................................................... 113
TABELA 24 - RESULTADOS USANDO CLASSIFICADORES OBTIDOS A PARTIR DO CONJUNTO DE TREINAMENTO SN.
................................................................................................................................................... 113
TABELA 25 - RESULTADOS USANDO CLASSIFICADORES OBTIDOS A PARTIR DO CONJUNTO DE TREINAMENTO S4.
................................................................................................................................................... 114
vii
Lista de Smbolos
BAGGING Bootstrap Aggregating
BOOSTING Meta-algoritmo de minerao de dados
CBL Computador de bordo das locomotivas
HP Horse Power
JRIP Algoritmo RIPPER implementado na linguagem Java
KDD Knowledge discovery in databases
Kgf Quilograma por tonelada
Litros por tonelada bruta transportada (medida de consumo

LTKB
das locomotivas)
PAI-L Piloto Automtico Inteligente para Locomotivas
PSI libras por polegada quadrada (pound force per square inch)
viii
Lista de Termos
Ponto de acelerao Componente anlogo marcha de um carro/caminho
Ponto de acelerao Corresponde a aplicao de qualquer ponto de acelerao

aberto entre 1 e 8
Ponto de acelerao
Corresponde a no aplicao de um ponto de acelerao
fechado
Conjunto de normas e procedimentos que garantem a circu-
Licena
lao segura de um trem
Agrupamento formado por dados com caractersticas em
Cluster
comum
Observao que no corresponde ao modelo dos dados ge-
Outlier
rado pelo classificador
Ponto de acelerao Componente anlogo marcha de um carro/caminho
Ponto de acelerao Corresponde a aplicao de qualquer ponto de acelerao

aberto entre 1 e 8
Ponto de acelerao
Corresponde a no aplicao de um ponto de acelerao
fechado
Conjunto de normas e procedimentos que garantem a circu-
Licena
lao segura de um trem
ix
Resumo
Este trabalho visa descobrir padres para ajudar o maquinista na conduo de um trem.
A consecuo deste objetivo passa pela aplicao de tcnicas de aprendizagem de m-
quina e descoberta de conhecimento a partir de conjuntos de dados de viagens de trens
de cargas. O principal resultado a definio de uma metodologia para a obteno de
padres de conduo segura (e.g. velocidade mxima permitida) e econmica (tempo
mximo para uma viagem, consumo mnimo de combustvel). O problema de escalabi-
lidade em minerao de dados foi tratado por meio do uso de mtodos robustos, tais
como, BAGGING e BOOSTING. Os padres descobertos foram testados de forma ob-
jetiva. O processo consistiu, de um lado, aplicar tais padres para selecionar aes, por
meio de um simulador, a serem aplicadas medida que o trem movia-se, e de outro la-
do, quantificar a similaridade entre a conduo executada pelo simulador e a conduo
executada pelo maquinista ser humano. Foi observada uma similaridade em torno de
85% entre a conduo simulada e a real.
Palavras-chave: Classificao, Conduo de Trens, Minerao de Dados.
x
Abstract
This work aims to find patterns to help the machinist when driving a train.
Achieving this objective through by implementation machine learning techniques and
knowledge discovery from data sets of travel train loads. The main result is the defini-
tion of a methodology to obtain patterns of safe driving (e.g. maximum speed permitted)
and economical (maximum time for a trip, less fuel consumption). The problem of sca-
lability in data mining has been addressed through the use of robust methods such as
BAGGING and BOOSTING. The patterns discovered were tested in an objective way.
The process consisted, of a part, in apply these patterns to select actions, using a simula-
tor, to be applied as the train moved up, and also to quantify the similarity between the
conduct performed by driving simulator and implemented the human driver. There was
a similarity around 85% between the simulated and real driving.
Keywords: Classification, Drive trains, Data Mining.
xi
1
Captulo 1
Introduo
Esta dissertao enquadra-se no contexto do Projeto PAI-L (Piloto Automtico

Inteligente para Locomotivas). O objetivo geral do PAI-L a pesquisa & desenvolvi-
mento de um software de conduo assistida para locomotivas de trens de carga. Para
tal, as locomotivas devem ser dotadas de um computador apropriado, orientando a con-
duo de uma viagem e buscando reduzir o consumo de combustvel, o nmero de aci-
dentes, o congestionamento da malha ferroviria, e o tempo de viagem. O PAI-L um
projeto em desenvolvimento no LAS (Laboratrio de Agentes de Software) da PUCPR
(Pontifcia Universidade Catlica do Paran), em parceria com empresas que atuam no
setor e financiado pela FINEP1 (Financiadora de Estudos e Projetos). O projeto objeto
desta dissertao um subprojeto do PAI-L. A sua abordagem principal concerne uti-
lizao de tcnicas de aprendizagem de mquina para a descoberta de padres relevan-
tes de conduo segura e econmica de trens a partir de bases de dados que incluem os
perfis de vias, as caractersticas dos trens, os histricos das viagens (dados lidos dos
equipamentos de medidas: presso de freio, velocidade, posio, etc.).
Em termos gerais, utilizar tcnicas computacionais para auxiliar o processo de
tomada de deciso uma prtica cada vez mais aplicada por empresas de diversos seto-
res. Aprimoramentos ocorridos nos ltimos anos, na rea informtica, propiciam o a-
vano em reas que utilizam sistemas informatizados, bem como sistemas embarcados,
possibilitando uma integrao mais ampla de diferentes reas do conhecimento (ex:
mecatrnica, computao, inteligncia artificial). Tal integrao propicia, por exemplo,
a obteno de dados confiveis por meio de sistemas embarcados, sendo o computador
de bordo de um trem um exemplo de sistema embarcado. Os dados lidos so confiveis
medida que se tem a disposio sensores que permitem gerar grandes quantidades de
dados com baixo nvel de rudo, disponibilizando-os na forma de uma base de dados
informatizada.
1
Convnio 3560/06.
2
Grandes volumes de dados podem viabilizar inmeras descobertas. Todavia, a

tarefa de anlise destes grandes volumes de dados no trivial. A forma como uma m-
quina operada revela a experincia do operador (maquinista), bem como as suas atitu-
des corretas ou no, que em algumas vezes so imperceptveis ao olho do ser humano.
Tais sutilezas podem ser percebidas/descobertas por meio de tcnicas de minerao de
dados, como por exemplo, a descoberta de padres de comportamentos de pilotos de
aeronaves (ISAAC, et al., 2003) (STOLZER, et al., 2007). Analogamente, no contexto
desta dissertao, tm-se o interesse em analisar dados de viagens de trens coletados por
diferentes sensores. A anlise dos dados visa identificar, por exemplo, diferentes com-
portamentos executados ou atitudes tomadas pelos maquinistas em diferentes situaes
rotineiras de conduo de um trem de transporte de carga. importante salientar que a
tarefa de conduzir um trem exige habilidades empricas do operador medida que as
diferentes composies de trens e as diferentes caractersticas da via frrea fazem com
que uma viagem A seja diferente de uma viagem B, mesmo quando tais viagens so rea-
lizadas em um mesmo trecho.
Canonicamente, por tratar-se de um trabalho de pesquisa de descoberta de pa-
dres, cujas tarefas de minerao foram realizadas sobre dados reais nunca antes subme-
tidos a tal processo, a dificuldade primeira foi preparao da base de dados. Desta
forma, a primeira etapa do trabalho foi um estudo dos modelos dos dados sobre viagens
de transporte ferrovirio de cargas. Tais dados foram coletados a partir de um conjunto
de sensores instalados, em particular, na locomotiva mestra de um trem. A segunda eta-
pa foi o enriquecimento da base de dados. Tal processo gerou uma nova base de dados,
contendo dados filtrados por meio de tcnicas de seleo e insero de novos atributos
relevantes ao problema, com o objetivo de subsidiar diferentes experimentos de desco-
bertas de padres e indicar os atributos relevantes ao problema em estudo.
A partir da aplicao de algoritmos de aprendizagem supervisionada, como por
exemplo, C4.5 e de mtodos de aprendizagem baseados na combinao de classificado-
res, como BAGGING e BOOSTING, um conjunto de regras foi gerado com base em
amostras que representaram proporcionalmente os dados. A utilizao de tcnicas de
amostragem foi necessria devido complexidade dos dados em termos de nmero de
exemplos, atributos e valores de cada atributo. O interesse primeiro no uso do C4.5,
BAGGING e BOOSTING portou essencialmente na gerao de regras de fcil compre-
enso. A escolha das boas regras de conduo de trens foi, em um primeiro momento,
realizada pelo prprio algoritmo de aprendizagem de mquina, na medida em que ele
3
gerou classificadores com pequenas taxas de erro, da ordem de 19.5%. Esta ltima ser-
viu como parmetro de filtragem de regras aplicveis conduo dos trens.
A validao dos padres descobertos foi realizada por meio da aplicao da va-
lidao cruzada, do clculo do cosseno e do Teste de Friedman. Outra forma de avalia-
o consiste em testar as regras obtidas em um simulador de viagens de trens; para tal
foi definido um simulador de conduo, que tenta reproduzir o comportamento do ma-
quinista, por meio da aplicao das regras de conduo descobertas. No interior do si-
mulador, as aes sugeridas por tais regras so sempre testadas antes de serem aplica-
das; caso o teste indique que a ao selecionada produzir uma situao potencialmente
indesejada (e.g. patinagem das rodas), um processo iterativo colocado em prtica para
corrigir-la. A eficincia do simulador foi medida por meio do clculo do cosseno, com-
parando os pontos de acelerao resultantes da classificao com os pontos de acelera-
o aplicados de pelo maquinista. O clculo do cosseno foi usado para medir o quo
prxima foi a conduo realizada pelo simulador e pelo maquinista ser humano. Por
fim, a aplicao do Teste de Friedman visou verificar as diferenas entre os classifica-
dores, co-validando a medida de similaridade.
1.1 Motivao
A competitividade no mundo globalizado altamente acirrada. A eficincia e a

eficcia dos processos so mandatrias. O custo do transporte de cargas no Brasil , em
geral, um fator que reduz significativamente os valores repassados, por exemplo, aos
produtos alimentcios. Em outras palavras, os elevados consumos de combustveis ge-
ram elevados custos de fretes, o que impede maiores investimentos diretos das empresas
neste tipo de transporte, alm de dificultar indiretamente as importaes e exportaes
de produtos.
O estilo de conduo de um trem influi diretamente no consumo de combustvel.
Tecnicamente, um ponto de acelerao demora em mdia de 2 a 3 segundos para gerar a
potncia no motor (ALL, 2008). No h um ponto especfico que possa ser sempre en-
grenado num determinado ponto da via, pelo fato de que cada viagem nica; as fre-
qentes mudanas de velocidade mxima permitida em um mesmo trecho de uma via
frrea, a distribuio da carga nos veculos ao longo do trem, as condies meteorolgi-
cas e as caractersticas das locomotivas tornam a repetio de uma configurao quase
impossvel.
4
Entretanto, pde-se constatar que a anlise cuidadosa das regras obtidas em um

processo de descoberta de conhecimentos permitiu a elaborao de diretrizes de condu-
o potencialmente aplicveis; testadas em um ambiente computacional simulado.
1.2 Objetivos
O objetivo geral deste trabalho descobrir padres a partir de dados coletados

por meio de diferentes sensores instalados em um trem. Tais padres devem servir co-
mo forma de reduzir os esforos empregados na escolha do melhor ponto de acelerao.
Desta forma este trabalho compreende em estudar os dados histricos das via-
gens de trens de carga e empregar tcnicas computacionais propostas por Quinlan
(1993), Freund e Shapire (1996) e Breiman (1996).
Os objetivos especficos so:
Realizar um estudo detalhado sobre dados histricos de viagens de trens de
cargas, visando compreend-los e enriquec-los;
Extrair, a partir dos dados estudados e enriquecidos, conhecimentos/regras
teis elaborao de polticas de aes conduo de trens de cargas;
Validar as regras obtidas;
Definir um mdulo de software de conduo simulada que mostre aplica-
bilidade potencial das regras descobertas vis--vis a elaborao de uma pol-
tica realista de aes.
1.3 Hiptese
O presente trabalho prope a extrao de regras confiveis e compreensveis de

conduo frrea a partir dos dados histricos de viagens e perfis de via, que evidenciem
uma conduo econmica e segura de um trem. Acredita-se que a aplicao de tcnicas
de descoberta de conhecimento, sobretudo algoritmos de minerao de dados gerem
solues eficazes para o problema. A aplicao de algoritmos de minerao de dados
mostra-se eficaz na descoberta de regras em bases de dados de diferentes reas de apli-
cao. As regras descobertas devem permitir a construo de um simulador que imite a
conduo de trens realizada por um maquinista ser humano. Tal imitao deve ser quan-
tificada por meio de uma medida de similaridade de conduo.
5
1.4 Contribuies
As contribuies cientficas do presente trabalho so: (i) a obteno e a valida-

o de regras de conduo de locomotivas teis elaborao de polticas de aes po-
tencialmente realistas; e (ii) a definio de um simulador de conduo, mostrando a a-
plicabilidade potencial das regras descobertas vis--vis elaborao de polticas de a-
es potencialmente realistas.
1.5 Estrutura do Documento
As sees subseqentes esto organizadas da seguinte forma: o Captulo 2 apre-

senta um estudo sobre algumas regras de conduo que so estudadas pelos maquinistas
durante um treinamento. O Captulo 3 apresenta a fundamentao terica vis--vis o
objeto principal do estudo, a minerao de dados. So descritos em detalhes o algoritmo
C4.5 e mtodos de combinao de classificadores BAGGING e BOOSTING, bem como
o mtodo de validao cruzada. O Captulo 4 apresenta em detalhes a metodologia. O
Captulo 5 apresenta o ambiente de simulao de viagens desenvolvido com o objetivo
de usar o conhecimento descoberto, cuja concretizao um software de simulao. O
Captulo 6 apresenta os resultados da pesquisa e uma discusso sobre os mesmos, e por
fim, as nossas consideraes finais sobre o andamento do projeto de pesquisa so apre-
sentadas no Captulo 7.
6
Captulo 2
CONDUO DE TRENS
Conduzir um trem uma tarefa complexa. O conjunto de conhecimentos e habi-

lidades para uma conduo eficiente e segura, no particular, diferente daquele obser-
vado na conduo de veculos de passeio e caminhes; a aplicao de freios e tempo de
acelerao so exemplos destas diferenas.
O estilo de conduo de um trem influi diretamente no consumo de combustvel.
Cada ponto de acelerao (componente anlogo marcha de um caminho) gera uma
determinada fora e um determinado consumo. A ttulo de ilustrao, uma locomotiva
C30 oferece ao seu condutor dez pontos diferentes de acelerao, respectivamente com
as seguintes potncias, medidas em HP (horse power) e consumos, medidos em LTKB
(Litros por Tonelada Bruta Transportada): <-1, 0, 0.317> <0, 0, 0.3168> <1, 100,
0.567> <2, 275, 1.0668> <3, 575, 1.95> <4, 960, 3.033> <5, 1440, 4.533> <6, 1930,
6.183> <7, 2500, 7.6998> <8, 2940, 9.4002>. A troca de pontos de acelerao no
obrigatoriamente seqencial. Esta liberdade de manuseio dos pontos de acelerao no
simplifica a tarefa. H, em funo de um conjunto de caractersticas particulares e di-
nmicas, uma grande dificuldade para definir uma poltica de conduo padro. Em
outras palavras, no h, por exemplo, um ponto especfico de acelerao que possa
sempre ser empregado, de forma eficiente, em um determinado ponto de uma via. Tal
particularidade decorre do fato que cada viagem nica; mudanas de velocidades m-
ximas permitidas, a distribuio da carga nos veculos ao longo do trem, a curvatura da
via, as condies meteorolgicas e as caractersticas das locomotivas dificilmente se
repetem. Um bom estilo de conduo deve observar os seguintes princpios: (i) evitar
danos a via, ao meio ambiente, aos equipamentos e a carga transportada; (ii) realizar
uma viagem no menor tempo possvel; e (iii) minimizar o consumo de combustvel.
Para realizar uma boa viagem necessrio que alguns procedimentos sejam to-
mados, de modo a aproveitar da melhor forma possvel o combustvel convertido em
energia mecnica, gerando o movimento. Estes procedimentos so:
7
Planejar as operaes a serem tomadas buscando sempre aproveitar o perfil do

terreno e observar atentamente as restries de velocidades impostas na via. O
conhecimento e a antecipao de uma ao so essenciais, por exemplo, no se
deve acelerar demasiadamente o trem se logo em seguida h uma restrio de
reduo de velocidade ou uma parada obrigatria;
Dar partida no trem ou acelerar apenas quando os freios de todo trem estejam
completamente soltos. Aumentar gradativamente os pontos de acelerao em in-
tervalos de dois a trs segundos, para o trem absorver melhor a potncia do pon-
to de acelerao engrenado antes de avanar ao prximo;
Procurar manter velocidade constante ao passar por uma crista, i.e., uma rampa
ascendente seguida de uma longa rampa descendente. Este procedimento visa
fazer com que quando a maior parte do trem j esteja na rampa descendente o
acelerador j esteja fechado (sem aplicar um ponto de acelerao) e o freio di-
nmico escolhido para encolher suavemente a folga (intervalo que permanece
entre dois vages e/ou locomotivas) e controlar a velocidade;
Utilizar o mnimo possvel o acelerador aberto (aplicando qualquer ponto de
acelerao entre 1 e 8) com os freios aplicados. Este procedimento realizado
apenas quando as folgas precisam estar esticadas. As folgas em um trem no po-
dem ser eliminadas. Cabe ao maquinista control-las durante a viagem por meio
da utilizao adequada do acelerador e dos freios.
Os procedimentos e as regras de conduo mencionadas ao longo deste captulo

foram descritos com base em (ALL, 2008). Algumas regras de conduo aqui mencio-
nadas no foram implementadas devido falta de recursos.
As folgas ocorrem quando uma parte do trem se move mais rpida ou mais len-
tamente do que a outra parte do mesmo. As causas so, por exemplo, o tempo decorrido
entre a aplicao do freio ao longo do trem, a variao de atrito, as diferenas na frena-
gem de vages vazios e carregados e as variaes no perfil do trecho. Um trem com
aproximadamente cinqenta veculos tende a ter sete metros de folga, nmero este que
pode chegar a quinze metros e quarenta centmetros para trens com cem veculos e de-
zenove metros e oitenta centmetros para trens com centro e trinta veculos. Para evitar
os impactos resultantes das folgas deve-se manter a aplicao do freio dinmico at que
8
os freios no estejam mais sendo aplicados. A forma de aplicao de freios e seus tipos
sero discutidos ao longo deste captulo.
2.1 Movimentao do trem
A movimentao do trem faz-se pelo maquinista e com base em dois boletins. O

boletim A destinado para anunciar qualquer situao que interfira na conduo segura
de um trem, como por exemplo, restries temporrias da via, velocidade mxima per-
mitida decorrente de algum acidente no trecho ou desnivelamento (ver Figura 1). Tais
restries aparecem tambm nas licenas repassadas ao maquinista durante a execuo
de uma viagem. A licena consiste de um conjunto de normas e procedimentos que ga-
rantem a circulao segura de um trem. Neste boletim tambm esto presentes informa-
es referentes s entradas e sadas nos ptios. O boletim B utilizado para anunciar a
presena de pessoas e equipamentos trabalhando na via. Este boletim de servio substi-
tui qualquer instruo especial ou regulamentao que discorde dele sendo numerado,
emitido ou cancelado pelo Diretor de Operaes da via (ver Figura 2).
Figura 1. Boletim de via. (ALL, 2008)

9
As restries de velocidade so dinmicas: uma vez encontrado um problema na

via que necessite de uma reduo de velocidade, uma mensagem automaticamente
enviada a todos os maquinistas que passaro por aquele trecho. Se o maquinista estiver
passando pelo ponto que teve velocidade alterada, uma mensagem mostrada no CBL
(Computador de Bordo das Locomotivas), e o mesmo tem 1 minuto para reduzir a velo-
cidade do trem abaixo da velocidade mxima permitida.
Figura 2. Boletim de servio. (ALL, 2008)
recomendado que o maquinista mantenha o trem sempre de dois a trs km/h

abaixo da velocidade linear/cruzeiro para evitar perder velocidade e, conseqentemente,
diminuir consumo. desejado tambm que o transporte de uma carga seja feito no me-
lhor tempo possvel; vages e locomotivas so recursos escassos e de alta monta. Deve-
se ento buscar um compromisso, sem desrespeitar as restries constantes nos boletins,
entre menor tempo de viagem e menor consumo de combustvel.
10
A velocidade mxima de um trecho intangvel dependendo das caractersticas

do trem. Isto pode ocorrer, por exemplo, para satisfazer restries de velocidade de um
modelo especfico de locomotiva. H trechos onde um determinado tipo de locomotiva
no pode mover-se mais rpido que trinta e cinco km/h, mas a velocidade mxima per-
mitida de cinqenta km/h.
2.2 Freios de uma Locomotiva
Uma locomotiva possui trs tipos diferentes de freios, cuja presso medida em
psi (pound force per square inch, em portugus, libra por polegada quadrada) indi-
cada ao maquinista por meio de um dispositivo telemtrico. So eles:
Independente: a ao do freio ocorre somente nas locomotivas, no sendo re-
plicado aos vages. recomendvel sua utilizao de forma isolada para a redu-
o de velocidade. Deve-se observar para tanto que a velocidade esteja abaixo
de vinte km/h. O seu uso inadequado pode ocasionar acidentes, bem como rodas
deformadas e trincadas. A resposta deste tipo de freio praticamente instant-
nea, diferente dos freios presentes nos vages que possuem um tempo de respos-
ta maior (cerca de um segundo para cada vago do trem). A restrio de veloci-
dade imposta para evitar que se busque melhorar o consumo de combustvel
em detrimento do equipamento. Normalmente, a primeira locomotiva respon-
svel por sessenta e cinco por cento do emprego do ar para o freio, a segunda lo-
comotiva com vinte por cento e a terceira com quinze por cento; valores defini-
dos pelo fabricante e no configurveis.
Dinmico: pode ser comparado com o freio motor de um veculo de passeio.
Tem sua utilizao recomendada quando a velocidade do trem est entre vinte e
trinta km/h. Sua aplicao requer uma espera de dez segundos para a aplicao
do freio dinmico. Se a velocidade do trem for acima de dez km/h no deve ser
utilizado juntamente com o freio independente. Deve-se aplic-lo, em situao
de parada em descida e com velocidade abaixo de dez km/h, juntamente com o
freio independente para compensar a perda de eficcia do freio dinmico. A ace-
lerao durante a frenagem dinmica tem por objetivo fazer com que o motor
trabalhe mais, gerando ar para refrigerar os motores de trao. Da mesma forma
que o ampermetro mostra a potncia gerada para mover uma locomotiva, duran-
11
te o uso do freio dinmico, o ampermetro tambm serve como parmetro para

medir a potncia do freio dinmico.
Automtico: corresponde ao freio aplicado aos vages, resultante da soltura do
ar no encanamento dos freios. A primeira aplicao de freios deve variar de cin-
co a oito psi, visto que redues com valor inferior a cinco psi podem resultar
em situaes como freios agarrados ou alvios indesejados. Tal aplicao de
freios deve ser efetuada por vinte segundos, e completada com a aplicao re-
querida pela situao, sempre tendo a intensidade medida por meio do manme-
tro. Uma vez aplicado, a soltura do freio automtico no deve ser realizada logo
aps uma aplicao do mesmo. Cabe ao maquinista a ao de aumentar a redu-
o dos freios para dez psi antes de fazer a soltura, evitando que o freio fique
agarrado.
Um maquinista no pode fazer mais do que certo nmero de aplicaes de freio

ao longo da viagem. Por exemplo, no pode fazer mais que dezessete aplicaes de freio
no trecho entre a cidade Curitiba (PR) e a cidade Morretes (PR). Caso o nmero de apli-
caes supere este limite, uma averiguao realizada para descobrir o motivo de tais
aplicaes. Caso ele faa uma aplicao de freios errada, antes da terceira aplicao o
trem deve ser parado por motivo de segurana. O que determina a frenagem do trem o
perfil no qual ele est movendo-se. recomendado que utilize cinqenta por cento da
capacidade de psi para manter a velocidade do trem e a outra metade para uma eventual
parada, por exemplo: se h disponvel vinte seis psi (maioria das locomotivas utiliza
este valor), ento treze psi podem ser usados para manter a velocidade e outros treze psi
para uma eventual parada. Se observar que o trem precisa de mais de treze psi ou mais
que quinze psi para manter a velocidade, o procedimento padro parar e verificar o
que pode estar acontecendo.
2.3 Trechos Ondulados
Um trecho de via frrea ondulado caracteriza-se por mudanas freqentes nas

suas rampas, geralmente ocorrendo trs ou mais mudanas ascendentes ou descenden-
tes. Neste tipo de terreno, o maquinista deve observar atentamente a relao ao ajuste
das folgas, uma vez que parte do trem tende a estar esticado enquanto a outra parte est
com as folgas encolhidas. Ao percorrer trechos fortemente ondulados, ou seja, trechos
12
com rampas maiores que um por cento, as foras aplicadas nos engates tendem a serem
maiores; a experincia do maquinista faz-se aqui fundamental para movimentar o trem.
A velocidade do trem em trecho ondulado deve ser controlada acelerando ou de-
sacelerando o trem, fazendo uma reduo mnima quando a locomotiva comear a des-
cer o primeiro declive. Quando a cauda do trem passar por uma bacia e comear a subir,
a folga do trem tender a distender-se, ocasionando aumento nas foras internas do
trem. Em geral, para evitar danos, a velocidade do trem deve ser mantida constante em
trechos ondulados, observando a aplicao dos freios e em pontos de acelerao mais
baixos possveis. Caso necessite desacelerar o trem, ento se deve utilizar o freio din-
mico quando disponvel, ou pelo acelerador juntamente com o freio automtico.
Quando o trem estiver na parte ascendente da rampa devem-se utilizar pontos de
acelerao mais baixos, caracterizando o efeito atrasados dos aclives. Caso o freio au-
tomtico tenha sido aplicado, ento se deve reduzir a velocidade quando o trem comear
a descer o primeiro declive, reduzindo ainda de dois a trs psi se necessrio. No re-
comendvel utilizar o freio dinmico ao desacelerar um trem em rampas onduladas.
recomendvel iniciar o trecho ondulado em uma velocidade mais baixa do que a veloci-
dade requerida do trecho.
2.4 Trechos em Cristas
As cristas so trechos em que h um longo aclive seguido de um longo declive,

no sendo possvel especificar uma medida de um trecho longo. Segundo especialistas
em conduo, um trecho de trs quilmetros pode ser considerado longo quando um
trem de um quilmetro de extenso o percorre, sendo que o mesmo trecho pode ser con-
siderado curto para um trem de trs quilmetros de extenso.
Durante a aproximao de uma crista deve-se reduzir o ponto de acelerao
quando as locomotivas ultrapassarem o topo da crista. O acelerador e o freio automtico
podem ser usados simultaneamente para manter um nvel seguro em relao aos engates
dos veculos do trem. Outra abordagem possvel a utilizao apenas do freio dinmico
ao entrar numa crista. Para isto deve-se reduzir gradualmente o ponto de acelerao,
observando atentamente velocidade das locomotivas ao ultrapassar o topo da crista.
Aps colocar o trem ponto zero recomendvel esperar dez segundos at acionar o freio
dinmico. O trem deve se inscrever na crista a uma velocidade tal que, quando o mes-
mo estiver na descendente, a velocidade mxima do trecho no seja ultrapassada.
13
possvel tambm utilizar o freio dinmico juntamente com o freio automtico.

Neste caso deve-se aliviar o acelerador gradativamente, completando com redues nos
pontos de acelerao quando as locomotivas estiverem ultrapassando o topo da crista.
Aps ajustadas s folgas do trem deve-se incrementar a frenagem de cinqenta por cen-
to a setenta e cinco por cento da capacidade para ento reduzir o freio automtico. Se
necessrio, deve-se fazer redues de dois a trs psi para controlar a velocidade do trem.
Pode acontecer que trem esteja numa velocidade baixa e com ponto de acelera-
o alto. Isto significa que o mesmo est em um trecho de rampa. Tal situao se expli-
ca pelo fato do trem no conseguir alcanar a velocidade mxima permitida, apesar de
utilizar um alto ponto de acelerao. Quando metade do trem estiver na crista, o acele-
rador j deve estar no ponto de acelerao neutro para comear a frear o trem.
2.5 Partida e Parada do Trem
A partida do trem o procedimento que mais consome combustvel. Ela depen-

de de fatores como: tipo de locomotiva utilizado, comprimento do trem, distribuio da
carga, estados das folgas (esticadas ou encolhidas), condies meteorolgicas (alterao
do coeficiente de atrito) e perfil da via. Ela segue um protocolo bem-definido. O maqui-
nista (L) deve, ao iniciar a movimentao do trem, informar ao controlador de trfego
(CT) sua posio, o cdigo da locomotiva e receber como retorno informaes do trecho
por onde passar o trem (ver exemplo, Figura 3).
fundamental durante a partida relaxar todos os freios do trem. O esforo trator
neste inicio dos movimentos elevado. A liberao completa dos freios depende do
comprimento do trem e pode variar de sete segundos a dez segundos, quando h, por
exemplo, oitenta veculos. Dependendo da posio do retentor do freio (componente
responsvel por restringir a sada de ar) o tempo de reduo do cilindro de freio de cin-
qenta psi para cinco psi (equivalente a vinte psi no encanamento geral) pode chegar a
cento e quarenta segundos (cf. Tabela 1).
Tabela 1. Tempo necessrio para reduo da presso dos freios.

Posio do Retentor Tempo
Direita 20 segundos
Restrita 55 segundos
Super-restrita 140 segundos
14
Um trem de oitenta vages parado com uma reduo de vinte psi no encanamen-
to geral e com retentores na posio super-restrita (onde h uma forte presso no enca-
namento de freios), aps posicionar o manipulador do freio automtico para a posio
de alvio dever aguardar no mnimo cento e cinqenta segundos para arrancar o trem.
Figura 3. Exemplo de comunicao padro. (ALL, 2008)
Em locais com curvas e contracurvas recomendvel que se utilize mesma po-

tncia necessria para a partida do trem. Uma potncia maior pode trazer danos carga,
diminuindo a possibilidade de estiramento devido a excessivo esforo de trao em cur-
vas que podem descarrilar ou tombar um trem. A medio de quanta potncia est sendo
15
empregada pode ser inferido por meio de um componente da locomotiva, chamado am-
permetro.
Os procedimentos tomados para a parada dos trens so resumidos na Tabela 2.
Em um trecho em nvel, um trem pode ser parado empregando o mtodo das folgas esti-
cadas ou encolhidas. Para tal, devem ser consideradas as seguintes informaes: forma-
o do trem, velocidade do trem, condies do equipamento de freios e folgas.
Tabela 2. Procedimentos para a parada do trem.

1. Utilize o acelerador para manter as folgas esticadas;
2. Reduza a presso de freios do encanamento geral de 5 a 8 psi, aplicando o
freio automtico;
3. Mantenha os freios das locomotivas aliviados;
Trecho em nvel
4. Reduza os pontos de acelerao, fechando o acelerador e controlando assim
(folgas esticadas)
a velocidade e foras internas do trem;
5. Aplique de 2 a 3 psi para complementar a parada, se necessrio;
6. Aplique o freio independente;
7. Coloque o acelerador em vazio quando o trem parar.
1. Se o trem estiver em trao ento:
a. Feche gradualmente o acelerador;
b. Aguarde 10 segundos;
c. Selecione a frenagem dinmica;
d. Encolha as folgas usando o freio dinmico.
2. Se h distncia suficiente para parar, ento reduza o encanamento de freios
geral de 5 a 8 psi, mantendo os freios das locomotivas aliviados;
Trecho em nvel
3. Caso necessrio, reduza de 2 a 3 psi para aumentar a desacelerao e reduzir
(folgas encolhidas)
as foras sobre as locomotivas.
4. Ao aplicar o passo 3, deve-se manter aliviados os freios das locomotivas e a
frenagem dinmica incrementada.
5. Quando a velocidade cair ao ponto do freio dinmico perder a eficincia,
use o freio independente para manter as locomotivas encostadas no trem;
6. aproximadamente 60 metros do local da parada deve-se reduzir o enca-
namento geral, mantendo as folgas encolhidas usando o freio independente.
1. Reduza de 5 a 8 psi os freios, mantendo-os aliviados;
2. Decremente o acelerador medida que a velocidade diminui, para prevenir
o incremento da amperagem;
3. Reduza o encanamento geral de freios de 2 a 3 psi conforme necessrio;
4. aproximadamente 15 metros do local de parada aplique areia para as lo-
Rampas ascendentes
comotivas pararem sobre a areia;
5. Quando paradas, aplique o freio independente nas locomotivas;
6. Posicione o acelerador em vazio;
7. No aplique menos que 10 psi para evitar que os freios fiquem agarrados
durante o alivio dos mesmos.
Neste perfil de via, possvel tanto a aplicao do freio automtico juntamente
com o freio dinmico ou de forma isolada.
Freio Dinmico e Automtico:
1. Encolha as folgas do trem usando o freio dinmico;
2. Reduza de 5 a 8 psi o encanamento geral dos freios;
3. Reduza o encanamento geral de freios de 2 a 3 psi conforme necessrio;
Rampas descendentes
4. Quando a velocidade alcanar 10 km/h aplique o freio independente para
leves
manter o trem encolhido;
5. Quando alcanar uma distncia suficiente para parar reduza o encana-
mento geral, mantendo as folgas encolhidas por meio do uso do freio in-
dependente.
Freio automtico:
1. Reduza o ponto de acelerao at alcanar uma distncia suficiente para
16
parada;
2. Reduza no mnimo de 5 a 8 psi no encanamento geral independente das
locomotivas;
3. Reduza 2 a 3 psi se necessrio;
4. Antes da parada faa uma reduo final necessria para a parada impe-
dindo que as folgas do trem se estiquem;
5. Aplique o freio independente.
Os procedimentos abaixo devem ser tomados sempre cuidando para que no
ocorram deslizamentos.
1. Aplique o freio dinmico para controlar a velocidade;
2. Quando alcanar uma distncia suficiente para parar reduza de 5 a 8 psi,
mantendo o freio independente da locomotiva totalmente aliviado;
Fortes rampas
3. Reduza 2 a 3 psi se necessrio;
descendentes
4. Mantenha o freio dinmico totalmente aplicado;
5. Mantenha o freio independente aliviado;
6. Quando o freio dinmico perder a eficincia
a. Se a velocidade for baixa, aplique gradualmente o freio man-
tendo o trem encolhido.
Tal condio depende da folga e da localizao do trem em relao depres-
so.
Ao aproximar-se de uma depresso desacelere o trem, mantendo as folgas esti-
Depresso
cadas por meio da utilizao do freio automtico e do acelerador.
Se a aproximao ocorrer j em rampa descendente com freio dinmico ativa-
do, uma desacelerao com folga encolhida pode ser feita por meio do freio
automtico.
Se a folga do trem estiver esticada:
1. Mantenha as folgas esticadas controlando a trao do trem;
2. Aplique o freio automtico;
3. Reduza o ponto de acelerao gradualmente para controlar a velocidade e
as foras internas do trem;
Trechos ondulados Se a folga do trem estiver encolhida:
1. Aplique o freio dinmico;
2. Aplique freio automtico at que a velocidade do trem possa atingir um
valor onde o freio dinmico no seja mais eficiente;
3. Aplique ento o freio independente para manter a cabeceira do trem en-
colhida.
A Tabela 3 resume os diferentes procedimentos que devem ser tomados durante

a partida do trem com base no perfil da via.
Tabela 3. Procedimentos tomados durante a partida do trem.

1. Solte o freio automtico;
2. Alivie o freio independente
3. Mova o manpulo do acelerador para o primeiro ponto, acompanhando
sempre o incremento da corrente no ampermetro;
4. Aguarde alguns segundos;
Trechos em nvel 5. Avance para o segundo ponto de acelerao, caso precise de mais potncia
para movimentar o trem;
6. Se necessrio avance at o terceiro ou quarto ponto de acelerao;
7. Se o trem no se movimentar, retorne para a posio vazio e inspecione o
trem;
8. No ultrapasse os 2 km/h at que todo o trem esteja se movimentando.
17
1. Posicione o freio automtico na posio de alvio;

2. Incremente o ponto de acelerao at que exista potncia suficiente para
no deixar o trem recuar;
3. Alivie ento o freio independente das locomotivas;
4. Se necessrio avance at o terceiro ou quarto ponto de acelerao;
Rampas ascendentes 5. Reduza a acelerao caso ocorra uma indicao de patinao;
(folgas esticadas) 6. Despeje areia nos trilhos caso o passo 5 ocorra;
7. Se o trem no partir com o quinto ponto de acelerao ento
a. Reduza a acelerao at o trem permanecer parado por si s;
b. Aplique o freio independente;
c. Se necessrio aplique o freio automtico;
d. Verifique porque o trem no parte.
1. Aplique totalmente o freio independente;
2. Mova o manpulo do freio automtico at a posio de alvio;
3. Aguarde o carregamento do ar do trem e gradualmente;
Rampas descendentes
4. Alivie o freio independente somente o suficiente para que o trem comece a
(folgas encolhidas)
se movimentar gradualmente;
5. Quando todo o trem estiver em movimento, utilize o freio independente
para controlar a velocidade e folgas durante a partida;
1. Certifique-se que o sistema de freio esteja totalmente recarregado presso
de trabalho;
2. Mantenha as folgas encolhidas e freio independente totalmente aplicado;
3. Aplique o mximo possvel do freio dinmico;
4. Observe o incremento da acelerao;
Fortes rampas 5. Solte o freio automtico, acompanhando sempre a recuperao do ar;
descendentes 6. Controle a velocidade com o freio independente ao iniciar o movimento da
seguinte forma:
a. Mantenha as folgas encolhidas at a atuao do freio dinmico;
b. Complete a operao reduzindo o servio no freio automtico.
7. Finalize a aplicao do freio automtico para controlar a velocidade do
trem antes de atingir a velocidade estipulada para o trecho.
Tal condio depende da folga e da localizao do trem em relao depresso.
1. Mantenha a velocidade da locomotiva baixa at que todo o trem esteja em
movimento;
Depresso a. Para isto, controle a acelerao e, se necessrio, utilize o freio indepen-
dente.
2. Acelere o trem aliviando gradualmente o freio independente e incremen-
tando o ponto de acelerao.
1. Reduza a acelerao do trem ao aproximar-se da bacia da depresso, redu-
zindo os pontos de acelerao ou usando o freio automtico;
2. Por meio da modulao do acelerador, evite que o trem acelere aps a
cabeceira entrar na bacia;
Acelerao aps
3. Aumente a acelerao antes que a cabeceira do trem entre na rampa ascen-
desacelerao em
dente;
trechos de depresses
4. Aumente a acelerao at a cauda do trem alcance o fundo da bacia, impe-
dindo assim o encolhimento da folga;
5. Reduza a acelerao quando a cauda comear a subir a rampa ascendente
de modo a ajustar a folga.
Com a cabeceira em declive:
1. Alivie o freio independente lentamente, controlando para que todo o trem
esteja em movimento;
2. Se o trem no movimentar, deve-se aplicar o mnimo de trao at que
todo o trem esteja em movimento;
a. A acelerao deve ser suave de modo a evitar a gerao de foras inter-
Trechos ondulados
nas nas folgas dos trens.
Com a cabeceira em aclive:
1. Aplique a trao gradualmente, impedindo que a cabeceira do trem recue
quando o freio for aliviado;
2. Alivie totalmente o freio independente;
3. Avance o acelerador at o trem todo esteja em movimento.
18
Acelerao do trem:
1. Mantenha a velocidade constante enquanto o trem estiver percorrendo
trechos ondulados.
1. Deve-se primeiro verificar o sentido da fora resultante aps o alivio do
freio automtico;
2. Alivie gradualmente o freio independente das locomotivas, permitindo o
Cristas
movimento lento para frente;
3. Aumente gradativamente o acelerador;
4. Quando a cauda comear a movimentar-se, acelere gradativamente o trem.
Basicamente, todos os procedimentos de acelerao envolvem a aplicao de es-

foros tratores vis--vis a superar foras contrrias ou resistncias. A formalizao pri-
meira para clculos de tais resistncias foi publicada por Davis em 1926.
2.6 Equaes de Davis
As equaes de Davis, publicadas em 1926, descrevem os clculos das resistn-

cias que um trem deve superar para deslocar-se de um ponto a outro na via frrea.
Para facilitar a compreenso das equaes necessrio observar as seguintes e-
quivalncias nas unidades de medidas aqui enumeradas:
1t (tonelada numrica) = 1,1 short-ton (tonelada inglesa);
1lb/ton (libra/short-ton) = 0,5 Kg/t ou Kgf (quilograma por tonelada ou quilo-
grama fora);
1 km = 0.622 mi (milhas).
2.6.1 Resistncias Normais e Acidentais
Segundo Brina (1982), a resistncia de um trem em Kg/t consiste em um conjun-

to de foras contrrias ao movimento. Ela considerada no ponto de contato entre as
rodas e os trilhos. Ela oposta ao esforo trator nas rodas da locomotiva. A Equao 1
define tal resistncia.
( ) (
RTotal = nl .Pl Rnl' + Rcl' + R' + Ri' + nv .Pv Rnv' + Rcv' + R' + Ri' ) (1)
A resistncia pode ser decomposta em:
RTotal a resistncia total (em Kgf);

nl o nmero de locomotivas;
19
nv o numero de vages;
Pv o peso do vago (em toneladas);
Pl o peso locomotiva (em toneladas);

R nl' a resistncia normal da locomotiva (em Kgf);
R'
nv a resistncia normal do vago (em Kgf);
R'
cl a resistncia de curva da locomotiva (em Kgf);

R cv' a resistncia de curva do vago (em Kgf);
R'
a resistncia de inrcia (em Kgf);
R'
i a resistncia de rampa (em Kgf);
As resistncias se dividem em dois grupos: normais e acidentais. As normais so

aquelas presentes quando o veculo encontra-se em nvel e em reta. J as acidentais de-
correm de certas circunstncias especficas, tais como: incio de movimento, curvas e
rampas.
A resistncia normal da locomotiva determinada pela Equao 2.
29 0,0024 A V (2)
Rnl = 1,3 + + 0,03 V +
w w n
Onde:
w o peso por eixo da locomotiva (em short-ton),
V a velocidade (em milhas/hora),
A a rea frontal da locomotiva (em square-feet) e
n o nmero de eixos da locomotiva.
A resistncia normal de cada vago determinada pela Equao 3.
29 0,0024 A V (3)
Rnv = 1.3 + + 0,045 V +
w w n
Onde:
w o peso por eixo do vago em toneladas (short-ton),
V a velocidade (em milhas/hora),
A a rea frontal do vago (square-feet) e
20
n o nmero de eixos do vago.
As resistncias de curvas para locomotivas e vages so definidas respectiva-

mente pela Equao 4 e Equao 5.
100 (4)
Rcl = 0,2 + ( p + b + 3,8)
R
500 b (5)
Rcv =
R
Onde:
R corresponde ao valor do raio da curva (em metros),
p ao valor da base rgida e
b o tamanho da bitola (em metros).
A resistncia inercial calculada com base na Equao 6. Ela fornece a fora

que deve ser aplicada no veculo para que o mesmo modifique seu estado de movimento
atual (e.g. partir de repouso para movimento).
VF2 VI2 (6)

R = 4

Onde:
VF e VI correspondem s velocidades finais e iniciais (em milhas/hora); e
corresponde ao deslocamento desejado (em metros).
Por ltimo, a Equao 7 nos fornece o valor da resistncia de rampa.
R i = 10 i (7)
Onde:
i corresponde ao percentual de inclinao de certo ponto da via.
2.6.2 Esforo Trator e Fora de Acelerao
O esforo trator a fora total que um veculo tem disponvel para aplicar na sua
movimentao, conforme Equao 8. O resultado uma fora em kgf.
21
273.24 0.82 HP (8)

Ft =
V
Onde:
V a velocidade final (em Km/h);
HP a potncia de uma locomotiva (em horse power);
273.24 uma constante definida empiricamente; e
0.82 o valor da perda de rendimento entre os motores diesel e eltrico.
Para que ocorra o deslocamento do trem sem patinagem uma fora tratora m-
xima aplicada em um determinado instante deve ser estabelecida. Esta fora tratora m-
xima determinada pela Equao 9.
P f (9)
Ftm =
1 + (0,01 V )
Onde:
P o peso (em toneladas);
V velocidade mdia (em Km/h); e
f coeficiente de aderncia;
A fora disponvel para acelerao determinada pela diferena entre a fora de

trao mxima e o conjunto das resistncias. Esta relao dada pela Equao 10. O
valor resultado expresso em Kgf.
Fac = Ftm RTotal (10)
2.6.3 Deslocamento
O deslocamento de um trem existe quando a potncia superior s somas das re-

sistncias contrrias sem ultrapassar um limite de aderncia entre as rodas e os trilhos,
evitando assim patinagens. Para que esse movimento ocorra, o esforo trator efetivo no
deve superar o esforo trator aderente. Analogamente, o esforo trator efetivo no pode-
r ser menor que a soma de todas as resistncias. O clculo de deslocamento de um
trem est expresso na Equao 11. O valor resultado expresso em metros.
22
P (VF VI ) (11)
= 4
Fac
Onde:
P o peso do trem (em toneladas);
VF a velocidade final (em Km/h);
VI velocidade inicial (em Km/h); e
Fac a fora aceleradora (em Kgf).
A variao do tempo determinada pela Equao 12. O valor resultado ex-

presso em horas.
(12)
t = 7,2
VF +VI
Onde:
a variao do deslocamento (em quilmetros);
VF a velocidade final (em Km/h); e
VI velocidade inicial (em Km/h).
A velocidade mdia do trem pela razo entre duas grandezas: distncia percorri-
da expressa em quilmetros e tempo gasto expresso em horas (Equao 13). Multipli-
cando o valor obtido por 3.6 tem-se a velocidade em quilmetros por hora.
(13)
Vm =
t
Onde:
a variao do deslocamento (em metros);
t a variao do tempo (em segundos);
O clculo do deslocamento final de um trem, em um trecho de n quilmetros,

pode ser efetuado em k fraes deste trecho. Analogamente, pode-se aplicar o mesmo
procedimento para o clculo do tempo gasto final. tambm possvel obter a fora tra-
tora mxima, bem como a resistncia total e a fora aceleradora para sub-trecho k. Esta
ltima necessria para alcanar uma determinada velocidade para sub-trecho k. Desta
forma, o deslocamento final do trem determinado pela soma dos k deslocamentos (E-
quao 14), do mesmo modo, o tempo gasto final determinado pela soma dos tempos
23
parciais gastos (Equao 15). A acelerao pode ser calculada com base na Equa-
o 16.
n (14)
final = k
k =1
n (15)
t final = tk
k =1
= Fac
g (16)
P
Onde:
lk a variao de deslocamento de sub-trecho k (em metros);
tk a variao do tempo de deslocamento de sub-trecho k (em minutos);
Fac a fora de acelerao (em Kgf);
P o peso do trem (em toneladas);
g a acelerao da gravidade (em metros/segundo2).
Apesar da acelerao poder ser calculada em funo da fora de acelerao, da

acelerao da gravidade e do peso do trem, a mesma no aplicada, pois o valor da ace-
lerao buscada sempre de dois km/h.
As diferentes equaes vistas anteriormente so importantes para os clculos de
resistncia de um trem sobre um via frrea e tambm para os clculos de esforos para
mover este trem em certa velocidade. Uma varivel importante no transporte de cargas
comerciais o consumo de combustvel da(s) locomotiva(s) usada(s) para mover um
trem em situaes diversas: partida, em acelerao, em desacelerao, etc.
2.6.4 Consumo
O consumo acumulado de uma viagem de trem calculado com base na Equa-

o 17. O valor resultado expresso em LTKB2.
CA (17)
LTKB = 1000
DA
P
1000
2
A sigla LTKB significa: litros por tonelada bruta transportada.
24
Onde:
CA o consumo acumulado da viagem (em litros);
P o peso do trem (em toneladas); e
DA a distncia percorrida da viagem (em quilmetros).
Como j foi dito, o estilo de conduo de um trem influi diretamente no consu-

mo de combustvel. Cada ponto de acelerao de uma locomotiva gera uma determinada
fora e um determinado consumo. A ttulo de ilustrao, uma locomotiva do tipo C30
disponibiliza um conjunto PA={<p1,hp1,cp1>,<p2,hp2,cp2>, ...,<p10,hp10,cp10>} com dez
pontos diferentes de acelerao, onde p1 o identificador do primeiro ponto de acelera-
o, hp1 a potncia nominal do primeiro ponto de acelerao, cp1 o consumo nomi-
nal do primeiro ponto de acelerao, e assim por diante. A Equao 18 fornece o con-
sumo nominal para um intervalo t por hora.
t (18)
C= cp
60
Onde:
cp o consumo nominal de um determinado ponto de acelerao (em litros);
t a variao do tempo (em minutos);
2.6.5 Equaes de Davis Modificadas
Diferentes modificaes as equaes de Davis foram efetuadas para atender di-

ferentes propsitos e situaes. Em Tuthill (1948, p. 376) apud (AVALLONE, et al.,
1996), tem-se uma alterao para o clculo de resistncia de um trem para acelerao
at quarenta milhas/hora (Equao 19). Deve-se notar que, para velocidades entre cin-
qenta e setenta milhas/hora, os valores resultantes das resistncias so calculadas com
a equao 19.
R= 1.3 W + 29 n + 0.045 W V + 0.0005 A V 2 (19)
Onde:
W o peso por eixo de uma locomotiva (em short-ton);
V a velocidade (em milhas/hora);
25
A a rea frontal da locomotiva (em square-feet); e

n o nmero de eixos de uma locomotiva.
A Equao 20 derivada da equao precedente. A modificao situa-se no seu

ltimo termo, onde a rea frontal desconsiderada. Entretanto, a constante deste termo
multiplicada por noventa.
R= 1.3 W + 29 n + 0.045 W V + 0.045 V 2 (20)
A equao de Davis tambm foi modificada para se adaptar a ferrovia canaden-

se, onde tambm no considerada a rea frontal (Equao 21). A Equao 22 uma
adaptao para trailers e containeres. Ambas as equaes apresentam as mesmas vari-
veis da Equao 20, mas os valores das constantes sofrem ajustes.
R= 0.6 W + 20 n + 0.01W V + 0.07 V 2 (21)
R= 0.6 W + 20 n + 0.01 W V + 0.2 V 2 (22)
Em Toten (1937) apud (AVALLONE, et al., 1996) o autor props modificaes

da equao de Davis para carros de passageiros, onde a particularidade porta sobre o
tamanho de cada veculo L em ps. A Equao 23 para trens de passageiros considera-
dos modernos na poca e a Equao 24 para trens de passageiros considerados anti-
gos.
R= 1.3 W + 29 n + 0.045 W V + [0.00005 + 0.060725 ( L / 100 ) 0.88 ] V 2 (23)
R= 1.3 W + 29 n + 0.045W V + [0.00005+ 0.1085( L / 100)0.7 ] V 2 (24)
Onde:
L o comprimento de um veculo de passageiros (em ps).
26
As equaes de Davis apresentadas anteriormente so a base de muitas outras

equaes para o mesmo propsito, mas com pequenas modificaes para atender algu-
mas particularidades.
Na seqncia ilustrar-se- uma aplicao das principais equaes de Davis, sem
modificaes, visando simular a movimentao de um trem.
2.6.6 Exemplo de aplicao
O exemplo de aplicao das equaes de Davis segue a mesma abordagem mos-

tra em (BRINA, 1982) e (PIRES, et al., 2005). O cenrio consite em deslocar em linha
reta e em nvel um trem com a seguinte configurao:
1 locomotiva
100 toneladas cada locomotiva;
10 vages
50 toneladas cada vago;
[0, 4] intervalo de velocidades (em Km/h);
8 ponto de acelerao da locomotiva desempenha a potncia de 1957.5 kgf;
600 toneladas peso total do trem (1 x 100 + 10 x 50).
O primeiro passo da simulao consiste em movimentar o trem, variando a velo-

cidade de zero a dois quilmetros/hora.
Velocidade mdia em Km/h: 1

Velocidade mdia em milhas/hora: 1 x 0,622 = 0,622
100
Peso por eixo da locomotiva: 1.1 = 27,5 toneladas/eixo
4
50
Peso por eixo do vago: 1.1 = 13.75 toneladas/eixo
4
273.24 0.82 1957,5
Ftrator = = 219295.6 kgf
2
29 0,0024 110 0.622
Rnl = 1,3 + + 0,03 0.622 + = 2.374134 libras/ton
27.5 27.5 4
Rnl = 2.374134 0,5 = 1.187067 kg/ton
29 0,0024 85 0.622
Rnv = 1.3 + + 0,045 0.622 + = 3.438516 libras/ton
13.75 13.75 4
27
Rnl = 3.438516 0,5 = 1.719258 kg/ton
RTotal = 1 .100 (1.187067 + 0 + 0 + 0 ) + 10 .50 (1.719258 + 0 + 0 + 0 )

RTotal = 978.3357 kgf
Na seqncia so calculados os valores para a fora de acelerao, deslocamen-

to, tempo gasto e consumo:
Fac = 219295.6 978.3357 = 218317.3 kgf

600 ( 2 0 )
= 4 = 0.043973 metros
218317.3
0.043973
t = 7,2 = 0.158302 segundos
2+0
218317.3
= = 3,568269
600000
9 . 80665
0.158302
Consumo = 7.78 = 0.020526 litros/minutos
60
O segundo passo da simulao consiste em movimentar o trem, variando a velo-

cidade de dois a quatro quilmetros/hora.
Velocidade mdia em Km/h: 3

Velocidade mdia em milhas/hora: 3 * 0,622 = 1.244
100
Peso por eixo da locomotiva: 1.1 = 27,5 toneladas/eixo
4
50
4
273.24 0.82 1957,5
Ftrator = = 109647.8
4
29 0,0024 110 1.244
Rnl = 1,3 + + 0,03 1.244 + = 2.39558 libras/ton
27.5 27.5 4
Rnl = 2.39558 0,5 = 1.19779 kg/ton
29 0,0024 85 1.244
Rnv = 1.3 + + 0,0451.244 + = 3.470811 libras/ton
13.75 13.75 4
Rnv = 3.470811 0,5 = 1.735405 kg/ton
28
RTotal = 1 .100 (1.19779 + 0 + 0 + 0 ) + 10 .50 (1.735405 + 0 + 0 + 0 )

RTotal = 987.4817 kgf
Na seqncia so calculados os valores para a fora de acelerao, deslocamen-

to, tempo gasto e consumo e consumo acumulado (LTKB):
Fac = 109647.8 987.4817 = 108660.3 kgf

600 (4 2)
= 4 = 0.265046 metros
108660.3
0.265046
t = 7,2 = 0.318055 segundos
42
108660.3
= = 17.75989
600000
9.80665
0.318055
Consumo = 7.78 = 0.041241 litros/minutos
60
LTKB =
(0.020526 + 0.041241 ) 1000 = 0.333138
0.309019
600
1000
Para os clculos dos dois passos mostrados, tm-se os seguintes resultados:

Tempo gasto total de 0.476357 segundos, sendo 0.158302 segundos para
passar de 0 at 2 km/h e 0.318 segundos para passar de 2 at 4 km/h;
Deslocamento total de 0.309019 metros, sendo 0.043973 metros para passar
de 0 at 2 km/h e 0.265 metros) para passar de 2 at 4 km/h; e
O consumo para passar 0 at 4 km/h 0,333 LTKB.
2.7 Consideraes finais
A conduo de um trem de carga uma tarefa complexa. Esta complexidade

manifesta-se nos seguintes termos: um grande conjunto de variveis precisa ser levado
em conta para dar partida, bem como para manter os veculos e os seus engates em equi-
lbrios, geralmente, sobre vias frreas com perfis verticais e horizontais sinuosos. Este
equilbrio assegurado basicamente por meio do correto uso dos diferentes tipos freios
(independente, dinmico e automtico) e acelerador. Dada esta complexidade, a forma-
29
o de um bom maquinista dispendiosa, porm necessria. importante salientar que

uma formao que visa o desenvolvimento de habilidades especificas, o que requer
grande nmero de conhecimentos prticos; e os resultados melhoram medida que as
experincias so enriquecidas ao longo dos anos.
A disponibilidade de experincias na forma de um sistema baseado em conhe-
cimentos se justifica plenamente, em particular, para funcionar como auxlio tomada
de deciso para um iniciante ou memria de situaes raras para um maquinista experi-
ente.
Os conhecimentos advindos das experincias de conduo de um trem podem
ser adquiridos, basicamente, por meio de entrevistas com especialistas em conduo ou
por meio da explorao dos registros de dados sobre as aes tomadas por um maqui-
nista. Esta explorao pode ser feita por meio da aplicao de tcnicas de descobertas
automticas de conhecimentos a partir de bases de dados. sobre este segundo vis que
os prximos captulos so delineados.
30
Captulo 3
DESCOBERTA AUTOMATIZADA DO
CONHECIMENTO
Neste captulo so examinados em detalhes alguns mtodos de aprendizagem de

mquina simblica, tcnicas de validao e anlise do desempenho de classificadores.
Cada classificador pode assumir a forma de uma rvore de deciso ou a forma de um
conjunto ordenado de regras. De forma pragmtica, os estudos portam essencialmente
sobre os seguintes temas:
Aprendizagem de mquina simblica realizada por meio do algoritmo C4.5
e os mtodos de combinao de classificadores BAGGING e BOOSTING;
Seleo de atributos como uma forma de reduo da complexidade dos da-
dos por meio da filtragem de atributos irrelevantes;
Avaliao de classificadores realizada por meio da tcnica de validao cru-
zada;
Avaliao dos conhecimentos aplicados na forma de um simulador de con-
duo, que deve imitar o comportamento de um maquinista ser humano.
Os melhores classificadores so incorporados ao simulador de conduo de trens

para auxiliar na definio das polticas de aes.
3.1 O processo de descoberta do conhecimento
O processo de descoberta de conhecimento KDD (Knowledge Discovery in Da-

tabases) visa extrair conhecimentos de maneira automatizada e til a partir de dados
sobre certo domnio de problema (FAYYAD, 1996) (MAIMON, et al., 2005). Ele re-
quer, em geral, etapas tais como: pr-processar, minerar os dados a partir de conjunto de
fatos e ps-processar o conhecimento obtido. Obtm-se como resultado um padro, on-
de a partir dele pode-se criar um modelo que represente os dados de modo geral; i.e., a
criao de uma descrio do conjunto de dados por meio de um processamento dos da-
31
dos. A Figura 4 ilustra as etapas do processo de KDD, as quais so discutidas ao longo

do Captulo 4.
Figura 4. Etapas do processo de KDD.
O processo de descoberta de conhecimentos, em nossos experimentos, abordou

todas as suas etapas. Os fatos registrados na base de dados so inerentes a medidas obti-
dos por meio de sensores instalados em locomotivas.
3.2 Pr-processamento
Segundo (FAYYAD, et al., 1996) o pr-processamento dividido em: remover

rudos do conjunto de dados obtendo somente as informaes teis no processo de
construo do modelo, decidir a forma de tratamento para dados faltantes, selecionar os
atributos de modo a reduzir a dimensionalidade do problema e incluir novas caracters-
ticas teis no processo de descoberta do conhecimento.
3.2.1 Transformao dos dados
Nesta etapa os dados so transformados ou consolidados para a etapa de minera-

o. Uma das aes possveis normalizar os dados, onde so criadas escalas para os
dados com pequenos intervalos, reduzindo assim a discrepncia entre os valores (HAN,
et al., 2006).
32
3.2.1.1 Remoo de rudos
Ainda segundo (FAYYAD, et al., 1996), uma grande quantidade de dados

ruidosos torna difcil a tarefa de identificar padres que representem os dados. Um rudo
um erro ou varincia aleatria de uma varivel cujos valores so conhecidos (HAN, et
al., 2006), podendo ser gerado por erro na leitura dos dados ou simplesmente erro na
entrada manual dos dados.
Uma das tcnicas utilizadas na literatura para identificao de rudos o
algoritmo de agrupamento (clustering). Neste, valores similares de um atributo so
identificados e organizados em grupos, tambm chamados de clusters. Um algoritmo de
agrupamento difundido na literatura o k-means (MACQUEEN, 1967). Nele, so
formados grupos de dados (conjunto de clusters) com valores semelhantes, onde os que
possuirem valores fora do conjunto de clusters so considerados rudos ou outliers.
3.2.1.2 Seleo de atributos
A seleo de atributos pode ser vista como uma etapa de filtragem de dados ou
como um mtodo para aprimorar o modelo gerado pelo algoritmo utilizado. importan-
te notar que o objetivo encontrar o melhor subconjunto, mas isto requer escolher quais
atributos sero utilizados durante a etapa de classificao, e dentre estes, quais so os
melhores segundo um determinado critrio. Uma vez feita esta distino, algumas ca-
ractersticas (atributos) podem ser removidas da base de dados ou desconsideradas du-
rante o processo de aprendizagem, o que deve aumentar o desempenho do classificador
e possibilitar tambm uma menor taxa de erro (HUAN, et al., 1998) (LIU, et al., 2005).
A busca pelos subconjuntos gerados pode ser completa, ou exaustiva (Exhausti-
ve Search), garantindo que o melhor resultado seja encontrado, desde que um resultado
completo seja encontrado. Um resultado considerado completo quando a busca abran-
ge todas as combinaes de atributos possveis. Isto pode ser realizado de forma se-
qencial inserindo ou removendo atributos, bem como de forma aleatria gerando um
conjunto inicial aleatrio e, a partir dele, edificando conjuntos de modo seqencial ou
aleatrio (LIU, 1998).
O primeiro passo no processo de seleo de atributos gerar, a partir de um con-
junto de dados, um subconjunto por meio da adio (forward) ou remoo (backward)
atributos e tambm medir a sua qualidade. Caso o subconjunto gerado seja satisfatrio,
atendendo o critrio de parada, ele considerado como o resultado da gerao, caso
33
contrrio um novo subconjunto gerado e o processo repetido. A qualidade de um

subconjunto pode ser medida por trs mtodos distintos:
Filtro: a avaliao feita de acordo com um critrio de parada que uma
medida independente do algoritmo de aprendizagem e aplicada em um ni-
co atributo por vez. Em problemas que utilizam bases de dados reais e com
grande quantidade de atributos, o mtodo de filtragem mostra-se computa-
cionalmente menos custoso em relao, por exemplo, ao modelo Wrapper;
Wrapper: a avaliao do subconjunto realizada por meio de um algoritmo
de aprendizagem selecionado como critrio de parada e aplicado sobre um
conjunto de atributos (ZHU, et al., 2007); e
Hbrido: neste modelo, o subconjunto avaliado primeiramente por meio de
uma medida independente e na seqncia por um algoritmo de aprendiza-
gem (SEBBAN, et al., 2001).
O critrio de parada depende do mtodo de seleo de atributos utilizado, con-

forme mencionado anteriormente. O critrio pode ser satisfeito: (i) quando a busca pelo
melhor subconjunto foi alcanada, (ii) quando um limite nmero de atributos ou n-
mero de iteraes for atingido, (iii) quando a adio ou remoo de um certo atributo
ocasiona uma melhora no subconjunto ou (iv) quando um subconjunto suficientemente
bom foi gerado produzindo uma taxa de erro aceitvel para determinada tarefa.
A seleo de atributos uma etapa importante porque, a partir dela, possvel
obter o conjunto reduzido de atributos a serem usados na gerao de classificadores. Na
prxima seo so apresentados os algoritmos de classificao utilizados neste trabalho.
3.3 Minerao de Dados
A minerao de dados busca extrair informaes vlidas e interessantes que se

encontram ocultas em conjunto de dados de algum domnio (CIOS, et al., 2007) (HAN,
et al., 2006). Diferente de uma consulta a um banco de dados, onde o critrio para a
realizao da consulta estabelecido antes de efetiv-la. Por exemplo: o gerente de uma
loja deseja saber se o produto B vendido juntamente com o produto A, onde uma con-
sulta no banco de dados prov a resposta. Porm, para conhecer a relao entre vendas
de dois produtos quaisquer, a aplicao de algoritmos de minerao de dados mais
indicada.
34
As informaes so vlidas e interessantes se forem (i) de fcil compreenso, (ii)

vlidas no caso de aplicao em novos dados, (iii) potencialmente utilizveis e (iv) no-
vas. Uma medida interessante na anlise do grau de interesse de uma regra o suporte,
que representa a porcentagem de transaes da base de dados que satisfaz a regra. Outra
medida interessante o grau de confiana, que expressa probabilidade de que uma
regra contendo o atributo X contenha outro atributo Y (HAN, et al., 2006). A aceitao
ou no de uma regra baseada em tais valores pode ser controlada pelo usurio, que pode
estabelecer, por exemplo, somente a aceitao de regras com suporte maior que 60%.
Neste trabalho foram aplicados algoritmos de minerao de dados visando
descoberta de regras de conduo de trens de carga. O uso da minerao de dados tem
se mostrado eficiente em diversas reas do conhecimento humano, como na qumica
(KALOS, et al., 2005), classificao de msicas (CHEN, et al., 2009), explorao de
conhecimento mdico (RODDICK, et al., 2003), entre outras.
3.3.1 Software WEKA
Os experimentos foram realizados com o software WEKA. Ele compreende uma

coleo implementaes de algoritmos de aprendizagem para tarefas de minerao de
dados (WITTEN, et al., 2005).
3.4 Aprendizagem de Mquina
A aprendizagem de mquina pode ser vista como a inferncia automtica de al-

guns conceitos partindo de exemplos rotulados sobre o conceito a ser aprendido
(MITCHELL, 1997).
Existem algumas diferenas entre a aprendizagem de mquina e a minerao de
dados. Segundo Prati, em (PRATI, 2006), a minerao de dados uma fonte de aplica-
o de algoritmos de aprendizagem de mquina, por prover dados reais e de grande vo-
lume, sendo parte do processo de aprendizagem de mquina. Na origem, os algoritmos
de aprendizagem de mquina operavam apenas sobre pequenas bases de dados (com
atributos previamente selecionados para facilitar o aprendizado). Como a minerao de
dados parte de um processo maior, que vai desde a preparao dos dados at a utiliza-
o dos resultados obtidos, ela permitiu que a aprendizagem de mquina explorasse
maiores conjuntos de dados.
35
3.4.1 Aprendizagem Simblica de Mquina
A aprendizagem simblica de mquina fundamental construo de um siste-

ma de previso. Um sistema de previso um programa de computador capaz de tomar
decises aplicando conhecimentos obtidos a partir de experincias ou de solues de
problemas, geralmente armazenadas em grandes bases de dados ao longo do tempo. Ou
seja, um sistema de aprendizagem de mquina simblica realiza a tarefa de aprender e
construir representaes simblicas de um conceito a partir da anlise de exemplos e
contra-exemplos disponveis na forma de um conjunto de treinamento. Tais representa-
es assumem, em geral, a forma de rvores de deciso ou regras de produo e podem
ser consideradas muito eficientes quanto comparadas a outras abordagens de aprendiza-
gem, como por exemplo, as redes neurais.
A aprendizagem de mquina simblica utilizada nas situaes em que o mode-
lo obtido assume uma forma compreensvel. Tal compreensibilidade , em alguns casos,
fundamental. O sistema ID3 desenvolvido por Quinlan (1986) um exemplo de sistema
de aprendizagem simblica, onde o conhecimento obtido por meio da induo de uma
rvore de deciso. Em Quinlan (1987) tem-se tambm a realizao de um sistema volta-
do gerao de regras de produo a partir de uma rvore de deciso.
Alm destas importantes contribuies para a rea de aprendizagem simblica
de mquina, o leitor encontra em Quinlan (1993), verses mais recentes e mais eficien-
tes desses algoritmos, denominadas de C4.5 e C5.0. O algoritmo C4.5 ser detalhado na
seqncia deste documento, bem como os mtodos de combinao de classificadores
BAGGING e BOOSTING.
Em resumo, um sistema de aprendizagem de mquina simblica corresponde
automatizao de um processo de aprendizagem, enquanto que a aprendizagem equivale
obteno de regras baseada em observaes de estados ambientais e transies.
3.4.2 Aprendizagem Indutiva
Na aprendizagem indutiva, o sistema de aprendizagem deduz o conhecimento

pela observao do seu ambiente. Existem duas estratgias principais para realizar tal
tarefa de deduo. A estratgia de aprendizagem supervisionada que corresponde a-
prendizagem por meio de exemplos previamente classificados por um supervisor; auxi-
lia o sistema de aprendizagem a montar um modelo de previso para cada classe. I.e., o
sistema rene as propriedades comuns dos exemplos de cada classe, definindo uma des-
36
crio simblica para cada classe. Para cada descrio formulada, uma regra de classifi-
cao pode ser usada para predizer a classe de um determinado evento, cuja classe
desconhecida ou no informada. A estratgica de aprendizagem no supervisionada
regida pela aprendizagem por meio de observaes no classificadas. A busca da des-
crio de cada classe cega medida que se tem que reconhecer padres por si s, e-
xaminando os exemplos. O resultado da execuo de tal processo de busca um conjun-
to de descries de classe, uma para cada classe descoberta.
A aprendizagem indutiva consiste na extrao de padres a partir de um univer-
so de exemplos. Um mtodo de aprendizagem indutiva pode produzir um modelo cuja
qualidade tal que o mesmo poderia ser usado para predizer o resultado de situaes
futuras. A induo uma forma de inferncia lgica que permite a utilizao de premis-
sas para obter concluses genricas a partir de exemplos particulares. A induo pode
ser caracterizada como uma forma de raciocnio que parte de um conceito especfico e o
generaliza (MALOOF, et al., 2000).
Um sistema de aprendizagem simblica pode construir vrios modelos a partir
dos dados de um ambiente, onde alguns destes modelos so mais simples que outros.
Neste caso, opta-se normalmente pelos mais simples. Tal deciso adere teoria de Oc-
kham (OCKHAM, 1999), segundo a qual a pluralidade no deve ser posta sem necessi-
dade ou se existem inmeras explicaes igualmente vlidas para um fato, ento se deve
escolher a explicao mais simples. Trata-se de uma diretriz lgica reducionista em ci-
ncia. Porm, ela nos ajuda a escolher entre vrias hipteses a serem verificadas, aquela
que contm o menor nmero de afirmaes no demonstradas.
3.5 Mtodos de Classificao
Primeiramente, deve-se observar que a classificao uma das tarefas mais po-
pulares da aprendizagem de mquina e ela visa encontrar uma funo que mapeie um
conjunto de registros em um conjunto de rtulos pr-definidos. Estes rtulos so deno-
minados de classes. Uma vez obtida esta funo, ela pode ser aplicada a novos registros
para prever a classe em que estes se enquadrariam ou que se enquadram (QUINLAN,
1996). Em outras palavras, um mtodo de classificao equivale obteno de regras
baseado em observaes de estados ambientais e transies. Por outro lado, um sistema
de aprendizagem simblica de mquina corresponde automatizao de um processo de
37
aprendizagem. O algoritmo C4.5 um exemplo de extrator de padres de bases de da-

dos.
3.5.1 Algoritmo C4.5
O algoritmo C4.5 gera, a partir de um conjunto de treinamento, classificadores

no formato de rvores de deciso e tambm no formato regras do tipo se <condio>
ento <concluso>, as quais tm como objetivo representar os conhecimentos sobre
determinado assunto (MITCHELL, 1997) (HAN & KAMBER, 2006). Tal mtodo
supervisionado, ou seja, as regras obtidas a partir de amostras presentes no conjunto de
treinamento so previamente rotuladas (MITCHELL, 1997).
O mtodo de aprendizagem por rvore de deciso caracteriza-se por ser robusto
quanto h rudos nos dados (QUINLAN, 1996). Ele pode ser utilizado para classificar
tanto valores discretos (ex: alta, mdia e baixa) como valores contnuos; esses ltimos
precisam ser discretizados.
A rvore de deciso formada por um n raiz e vrios ns-folha, onde o n raiz
o atributo que melhor separa por si s os exemplos a serem classificados. Cada n da
rvore representa um atributo. Os ramos so formados pelos valores dos atributos e as
folhas so as classificaes dos exemplos de acordo com os ns e os ramos. A rvore de
deciso pode ser tambm representada por um conjunto de regras no formato se-ento.
(MITCHELL, 1997) (QUINLAN, 1993) (KOHAVI, et al., 2002). A classificao de
uma determinada instncia feita medida que a rvore percorrida, sempre de modo
descendente e guloso, o que significa que uma rvore nunca retorna ao nvel superior
para testar novamente um determinado atributo (MITCHELL, 1997).
O processo de criao da rvore de deciso, a partir de um conjunto contendo n
exemplos de treinamento T = {t1, ..., tn}, onde t corresponde a um exemplo de treina-
mento, contendo um conjunto A = {a1, ..., ai} formado por i atributos, cujos exemplos
so rotulados com as m classes C = {c1, ..., cm}. Todo este processo ocorre da seguinte
forma:
1. Caso o conjunto de treinamento T seja vazio:
a. Forma-se apenas um n folha cuja classe associada a ele determi-
nada pela informao mais freqente existente em C;
38
2. Se T contm um ou mais exemplos de treinamento:

a. Se todos os elementos de T pertencerem mesma classe cj, ento
uma folha gerada, cujo rtulo pertence classe cj;
3. Se T contm mais de um exemplo que pertenam a diferentes classes do con-
junto C:
a. deve-se escolher um atributo ai, que possua um ou mais resultados
possveis O, e ento particionar T em p subconjuntos {T1, ..., Tp}, on-
de Tp contm todos os exemplos que possuem os k valores possveis
para o atributo ai, executando recursivamente o processo para cada
subconjunto Tk pertencente ao conjunto T.
O processo repete-se at que todos os exemplos de treinamento possam ser clas-

sificados pela rvore.
Durante a criao da rvore de deciso ns que refletem anomalias devido a ru-
dos ou outliers podem ser gerados. Um rudo, ou outlier, consiste em uma observao
que no corresponde ao modelo dos dados gerado pelo classificador, gerando a suspeita
de que tal observao tenha sido gerada por outro mecanismo (HAN & KAMBER,
2006) (HAWKINS, 1980). O processo de poda tende a resolver este problema, usando
medidas estatsticas para remover ns e folhas que prejudiquem a performance da rvo-
re de deciso. No processo de podagem, a rvore percorrida e para cada n calculado
o erro do n e a soma dos erros dos ns descendentes; se o erro do n for menor ou i-
gual soma dos erros dos ns descendentes ento o n transformado em folha
(BREIMAN, et al., 1984).
A busca pela informao desejada de um atributo, a qual pertence uma determi-
nada classe, calculada pela funo Entropia(S), que busca a freqncia de exemplos
que resultam em casos positivos pi presentes no conjunto de treinamento multiplicando-
a pelo logaritmo na base dois dos mesmos exemplos positivos, somando com os exem-
plos negativos, que so obtidos da mesma forma, conforme mostra a Equao 25, que
resulta na quantidade de informao necessria para codificar a classificao de um de-
terminado caso pertencente conjunto de treinamento S (MITCHELL, 1997).
m (25)
Entropia(S) = p i log 2 (p i ) bits
j =1
39
Escolher aleatoriamente um atributo para dividir a informao do conjunto de

treinamento T em subconjuntos no trs vantagens ao algoritmo. Para melhor separar os
subconjuntos de T, o critrio de ganho de informao utilizado. Tal critrio consiste
em medir a freqncia freq(Cj, S) na qual um conjunto qualquer de exemplos S pertence
mesma classe Cj, sendo que |S| o nmero de exemplos em S. Tomando como exem-
plo a base de dados da Tabela 4, a freqncia de exemplos positivos (cujo valor da clas-
se Aumenta) 9/14 ou 0.642. J a freqncia de exemplos negativos (valor da clas-
se No aumenta) 5/14 ou 0.357.
Tabela 4. Conjunto de Treinamento. (Exemplo adaptado de (QUINLAN, 1993))

Exemplo Tempo Velocidade Presso dos freios Depresso Classe
1 Ensolarado Mdia Normal Sim Aumenta
2 Ensolarado Alta Alta Sim No aumenta
3 Ensolarado Alta Alta No No aumenta
4 Ensolarado Mdia Alta No No aumenta
5 Ensolarado Baixa Normal No Aumenta
6 Nublado Alta Alta No Aumenta
7 Nublado Alta Normal No Aumenta
8 Nublado Baixa Normal Sim Aumenta
9 Nublado Mdia Alta Sim Aumenta
10 Chovendo Baixa Normal Sim No aumenta
11 Chovendo Mdia Alta Sim No aumenta
12 Chovendo Baixa Normal No Aumenta
13 Chovendo Mdia Alta No Aumenta
14 Chovendo Mdia Normal No Aumenta
O critrio de ganho de informao, mostrado na Equao 27, utilizado na sele-

o de um teste que maximiza o ganho de informao, medido pela entropia (nmero
de bits necessrios para categorizar a classe como positiva ou negativa) menos a infor-
mao de T do atributo a. A informao do atributo a medida de acordo com a equa-
o 26, onde o conjunto de dados de treinamento T particionado em subconjuntos, de
acordo com o conjunto de valores v possveis dom(a) ao domnio do atributo a, sendo
Tav o subconjunto formado por exemplos que possuem valor v para o atributo a.
| Ta v | (26)
info(T, a) = v dom(a) Entropia (Ta v )
T
ganho (T , a ) = entropia (T ) info (T , a ) (27)

40
A entropia dos dados calculada por meio de Entropia(T):

9 9 5 5
Entropia (T ) = log 2 log 2 = 0 .940 bits
14 14 14 14
Pode-se, desta forma, calcular o ganho para cada atributo da base de dados, es-
colhendo assim o atributo que melhor separa por si s as informaes. O exemplo a se-
guir mostra o ganho calculado em detalhes para o atributo Tempo e tambm os valores
do ganho de informao dos atributos Velocidade, Presso dos Freios e Depresso.
5 3 3 2 2
info(T , tempo) = log 2 log 2
14 5 5 5 5
4 4 2
+ log 2
14 4 4
5 3 3 2 2
+ log 2 log 2
14 5 5 5 5
= 0.694
info (T , velocidade ) = 0 .890
info (T , pressaodos freios ) = 0 .788
info (T , depresso ) = 0 .892
Aps calcular a informao para todos os atributos, o prximo passo calcular o

ganho para os mesmos.
ganho(Tempo) = 0,940 0,694 = 0,246

ganho (Velocidade) = 0,940 0,890 = 0,05
ganho (Presso Freios) = 0,940 0,788 = 0,152
ganho (Depresso) = 0,940 0,892 = 0,048
O atributo X que possuir o valor mais alto de ganho(X) ento escolhido como
sendo a raiz da rvore, neste caso o atributo Tempo. O critrio de ganho possui um bias
que favorece atributos com muitos valores possveis, sendo um grande defeito do algo-
ritmo. Quando h diferentes funes que possuem valores em comum para um determi-
nado exemplo, deve haver a seleo de uma funo que se encaixe para ambos os pon-
tos a priori, tal seleo do valor a priori chamada bias. Sem o valor do bias, um a-
prendizado til se torna impossvel (NILSSON, 1996). Tal fato ocorre quando h um
41
atributo como cdigo, que possui valor nico para cada instncia do conjunto de dados,
ocorrendo uma diviso que gera inmeros subconjuntos com apenas um valor possvel
para cada um deles, onde o valor de info(S) igual a zero, portanto, mnimo. A correo
para este problema consiste em ajustar os resultados possveis, sendo que a potencial
diviso da informao computa a subtrao do conjunto de treinamento T e de cada sub-
conjunto n, conforme Equao 28. A diviso da informao resulta em informaes
teis na classificao, eliminando assim atributos que podem por si s classificar amos-
tras (i.e. o cdigo de um paciente, que nico e possu ganho de informao mximo.
Apesar disto, no recomendvel sua utilizao por no tornar genrica a rvore de
deciso).
n
| Ti | |T |
info_div( a i ) = log 2 i (28)
i =1 |T | |T |
A proporo de ganho de um atributo ai medida com base na informao rele-

vante, Equao 29:
ganho(a i ) (29)
ganho_medio(a i ) =
Info_div(ai )
A estrutura gerada a partir da execuo do algoritmo C4.5 (implementao JRIP)

sobre os dados da Tabela 4 pode ser encontrada na Figura 5. Cada valor entre parnteses
corresponde ao nmero de exemplos bem classificados / nmero de exemplos mal clas-
sificados.
Figura 5 - Exemplo de rvore de deciso.

42
Uma verso simplificada da rvore tambm gerada. Observe que o atributo Ve-
locidade no testado neste caso, sendo apenas necessrio o teste dos atributos Tempo,
Presso de freios e Depresso para classificar um exemplo.
A mesma rvore pode ser vista no formato de regras (cf. Figura 6), sendo que ao
lado da classificao da regra mostrada a preciso da regra em porcentagem. Por e-
xemplo, a Regra 4, pode ser lida da seguinte forma: SE o tempo estiver chovendo e esti-
ver em depresso ENTO tem-se a indicao que no aumentar o ponto de acelerao
com uma taxa de acerto de 50%. Caso nenhuma regra consiga classificar um determina-
do exemplo, o mesmo associado classe padro Aumenta.
Se atribudos valores contnuos a um atributo, conforme Tabela 5, ento o ponto
que melhor separa os exemplos de treinamento ser dado por meio do limiar t. Se, para
um determinado conjunto de exemplos existem N valores distintos para certo atributo A,
ento h N 1 limiares possveis que podem ser utilizados para testar o valor do atribu-
to, sendo que cada limiar possvel possui um determinado subconjunto de exemplos, e o
valor que separa as amostras calculado com base no limiar (QUINLAN, 1996).
Regra 1:
SE Tempo = Ensolarado E Presso dos freios = Alta
ENTO classe No Aumenta [63.0%]
Regra 2:
SE Tempo = chovendo E Depresso = Sim
Regra 3:
SE Tempo = Nublado
ENTO classe Aumenta [70.7%]
Regra 4:
SE Tempo = Chovendo E Depresso = Sim
Regra 5:
SE Presso dos freios = normal
Default classe:
Aumenta
Figura 6 - rvore de deciso no formato de regras.
A rvore de deciso da Figura 7 foi gerada pelo C4.5 a partir dos dados da Tabe-
la 5, tomando como base o limiar cujo valor igual a 25 para o atributo presso dos
freios.
43
Regra 1:
SE Presso dos freios > 15 E Presso dos freios <=70
Regra 2:
SE Presso dos freios > 70
ENTO classe No Aumenta [50%]
Classe Default:
No Aumenta
Figura 7 - Classificador 1. C4.5 com atributos contnuos.
O mesmo conjunto de regras pode ser gerado conforme a Figura 8. A interpreta-

o a mesma, diferenciando apenas o software usado na criao da rvore de deciso.
PRESSO DOS FREIOS > 15

| PRESSO DOS FREIOS <= 70 : Aumenta [73.1%]
PRESSO DOS FREIOS > 70 : No Aumenta [50%]
=> No Aumenta
Figura 8 - Classificador 1. C4.5 com atributos contnuos
(verso gerada pelo software WEKA).
Tabela 5. Conjunto de treinamento com valores contnuos.

(Exemplo adaptado de (QUINLAN, 1993))
1 Ensolarado 12 40 Sim Aumenta
2 Ensolarado 15 80 Sim No Aumenta
3 Ensolarado 20 15 No No Aumenta
4 Ensolarado 22 15 No No Aumenta
5 Ensolarado 25 45 No Aumenta
6 Nublado 25 50 No Aumenta
7 Nublado 30 70 No Aumenta
8 Nublado 34 20 Sim Aumenta
9 Nublado 20 50 Sim Aumenta
10 Chovendo 22 80 Sim No Aumenta
11 Chovendo 26 70 Sim No Aumenta
12 Chovendo 30 30 No Aumenta
O maior ganho de informao foi para o atributo Presso dos Freios, sendo este
o escolhido como raiz da rvore. Caso o valor do atributo Presso dos Freios seja maior
que 15 e menor ou igual a 70 a classe associada Aumenta, O valor do atributo Presso
dos Freios foi calculado em funo do limiar t, visto que se trata de um atributo cont-
nuo. Os valores de t1 e t2 so calculados da seguinte forma: ordenados os valores do
atributo em ordem crescente, o prximo passo consiste em identificar pontos em que a
classe associada ao atributo tem seu valor alterado. So identificados a quantidade de
limiares e somados os valores antes e aps a mudana da classe (10 + 15, 15 + 20 e 70 +
44
70) para serem divididos por 2. Aps a diviso obtm o valor do limiar. So calculados
ento o ganho de informao para o atributo com cada valor do limiar, sendo o melhor
escolhido, conforme mostra a Figura 9.
Presso dos freios 10 15 15 20 25 30 40 45 50 70 70 80

Classe A NA NA A A A A A A A NA NA
t1 = (10 + 15) / 2 = 12.5
Limiares t2 = (15 + 20) / 2 = 17.5
t3 = (70 + 70) / 2 = 70.0
Figura 9 - Clculo de limiares do atributo presso dos freios.
Deste modo, o algoritmo atribuiu o menor valor mais prximo de 12.5, calcula-
do com base no ganho de informao do atributo presso dos freios.
Em certas situaes o valor de um determinado atributo pode estar faltando, ou
ser um valor desconhecido. Nestes casos, a medida de ganho alterada. O ganho pode
ser medido segundo a Equao 30, onde pA representa a probabilidade do atributo A
possuir o valor conhecido, n(T) o ganho de informao calculado pela funo info(X) e
pnA a probabilidade do atributo A no possuir valor conhecido.
gain( X ) = pA (n(T ) nx (T )) (30)
A diviso do conjunto de treinamento realizada de modo probabilstico. Se o

exemplo possuir uma sada cujos valores forem conhecidos, um exemplo do conjunto de
treinamento deve possuir tal valor com probabilidade 1. Caso o valor da sada seja des-
conhecido, um peso representando a probabilidade de a amostra pertencer a cada sub-
conjunto atribudo. De forma anloga, caso o algoritmo deva classificar um exemplo
cujo valor desconhecido, todos os possveis resultados de classificao sero explora-
dos, onde a classe com maior probabilidade de classificao a escolhida.
O resultado do C4.5 mostrado por uma matriz de confuso. Nela so mostra-
dos como o exemplo foi classificado e sua classificao correta (Figura 10).
=== Confusion Matrix ===
a b classified as
8 1 | a = aumenta
1 4 | b = no aumenta
Figura 10 - Matriz de confuso.

45
Na Figura 10, 8 exemplos do tipo a foram classificadas corretamente como a,

e 4 exemplos do tipo b foram classificadas corretamente. Um exemplo do tipo a foi
classificado como sendo do tipo b, havendo erro do classificador na classificao de
uma amostra. E outro exemplo do tipo b foi classificado como sendo do tipo a, tam-
bm havendo erro do classificador na classificao de uma amostra.
A cada regra gerada pelo classificador (no formato se X ento Y), o fator de su-
porte e o fator de confiana so atribudos (HAN, et al., 2006). O fator de suporte i-
gual ao nmero de registros contendo a caracterstica X e Y dividido pelo nmero total
de registros. A confiana igual ao nmero de registros com X e Y dividido pelo nmero
de registros com X. Por exemplo, durante a conduo de uma locomotiva do ponto de
medida A para o ponto de medida B, o maquinista aumentou o ponto de acelerao 400
vezes. Em 40 destes 400 registros a locomotiva estava em subida e destes 40 aumentos,
20 aumentaram o ponto. Assim a regra SE subida ENTO aumentar o ponto de acele-
rao teria um suporte de 40/400 = 10% e confiana de 20/40 = 50%.
3.5.1.1 Algoritmo JRIP
Conforme mencionado anteriormente, neste trabalho utilizaremos o algoritmo

RIPPER (COHEN, 1995), chamado de JRIP na implementao do software WEKA por
ser implementado em linguagem Java. O algoritmo RIPPER (Repeated Incremental
Pruning to Produce Error Reduction), constri um conjunto de regras que modelam um
conjunto de dados.
O algoritmo C4.5 pode criar um conjunto de regras a partir de uma rvore de de-
ciso no-podada. O processo de aperfeioamento remove ou adiciona regras de modo a
reduzir a dimensionalidade do conjunto de regras, repetindo o processo para subconjun-
tos de diferentes tamanhos e selecionando o melhor subconjunto ao trmino do proces-
so. Por sua vez o algoritmo RIPPER gera o primeiro modelo adicionando uma regra por
vez. O passo seguinte consiste em remover todos os exemplos classificados pela regra
do conjunto base de gerao das regras, processo chamado de pruning. O processo
repetido at que no existam mais exemplos a serem classificados positivamente, ou at
que uma regra gerada possua uma taxa de erro alta.
46
3.5.2 Mtodo BAGGING com o algoritmo C4.5
Outra forma de obter uma rvore de deciso sugerida em (BREIMAN, 1996)

por meio do mtodo BAGGING (Bootstrap aggregating). Este mtodo baseia-se na
gerao e combinao de mltiplos classificadores obtidos a partir de diferentes amos-
tras de um conjunto de treinamento (SILLA, et al., 2005). Pode-se imaginar que utilizar
a mesma base de treinamento para a gerao de diferentes classificadores seja algo in-
coerente, porm, uma pequena mudana no conjunto de dados de treinamento pode fa-
zer com que um atributo, que a princpio se mostre insignificante, torne-se um atributo
importante. Tal fato faz que com que diferentes classificadores gerem classificaes
diferentes para uma mesma instncia.
Dado um conjunto de dados consistentes L = {(yn, xn), n = 1, ... , N}, onde os va-
lores de y correspondem s classificaes, pode-se prever y a partir de uma entrada x,
aplicando o preditor (x, L). A partir do momento em que so gerados vrios conjuntos i
(amostras) de dados de aprendizagem {Li} cada um consistindo de N diferentes observa-
es da mesma distribuio, tem-se tambm diferentes preditores (x, Li) para um con-
junto de classes j {1, ..., J} (BREIMAN, 1996).
Caso o rtulo da classe seja um valor numrico, ento o valor atribudo ao predi-
tor a mdia dos valores de (x, Li), caso contrrio feita uma votao. A votao pode
ser feita com base no peso do atributo ou com base na mdia dos valores do atributo,
caso o mesmo seja numrico (WITTEN & FRANK, 2005). Para o mtodo Bagging o
peso sempre o mesmo para diferentes modelos.
importante notar que o mtodo de BAGGING deixa dvida quanto melhora
da estabilidade de um procedimento construdo por (BREIMAN, 1996). Por exemplo,
se ocorrer alguma mudana no conjunto de dados, como uma replicao do conjunto,
poucas mudanas iro ocorrer nos preditores (BREIMAN, 1996). Algumas melhoras
ocorrem em algoritmos instveis, onde uma pequena mudana no conjunto de treina-
mento ocasiona grandes mudanas nos preditores.
O mtodo de BAGGING consiste em executar o seguinte procedimento cada vez
que o critrio de parada no satisfeito (i.e. o nmero de classificadores no alcana-
do):
1. O primeiro passo consiste em dividir o conjunto de dados em 2 subconjun-
tos: um para testes (T) um para aprendizagem (L).
47
2. gerado ento um classificador a partir do conjunto de aprendizagem, ob-

tendo uma taxa de erro estimada es(L, T) do classificador. A taxa de erro
calculada utilizando o conjunto de testes para fazer inferncias sobre o clas-
sificador .
3. Uma amostra LB gerada a partir do conjunto L gerando um preditor B por
i vezes, tendo 1, ..., i .
4. Se a classe j associada ao elemento x pertence ao conjunto de testes T, ento
a classe de x aquela que mais est presente entre 1(x), ..., k(x). A propor-
o de vezes em que a classe diferente da classe correta dada pela taxa de
erro de BAGGING eB(L, T).
5. A diviso aleatria dos dados em conjuntos de testes e conjunto de aprendi-
zagem repetida k vezes e gerados ento eS, eB sobre a mdia das k itera-
es.
Uma ilustrao do funcionamento do algoritmo de BAGGING mostrada a se-

guir. Os dados da Tabela 6 so utilizados para tal ilustrao.
A gerao de cada amostra feita de forma aleatria. As tabelas 7, 8 e 9 definem
os conjuntos de aprendizagem: L1, L2 e L3 respectivamente. Estes conjuntos foram obti-
dos a partir da Tabela 6.
Tabela 6. Conjunto de treinamento. (Exemplo adaptado de (QUINLAN, 1993))

2 Ensolarado Alta Alta Sim No Aumenta
3 Ensolarado Alta Alta No No Aumenta
4 Ensolarado Mdia Alta No No Aumenta
10 Chovendo Baixa Normal Sim No Aumenta
11 Chovendo Mdia Alta Sim No Aumenta
48
Tabela 7. Conjunto de aprendizagem L1.

Tabela 8. Conjunto de aprendizagem L2

Tabela 9. Conjunto de aprendizagem L3

A partir dos trs diferentes conjuntos de aprendizagem e testes, mostrados nas

tabelas 7, 8 e 9 foram geradas as rvores de deciso representadas nas figuras 11, 12 e
13. Cabe ressaltar que os conjuntos de treinamento e testes so iguais para cada classifi-
49
cador, visto que durante o processo so geradas amostras aleatrias com reposio. Para
o conjunto de testes e aprendizagem L1 a seguinte rvore foi gerada:
TEMPO = Ensolarado
| PRESSO DOS FREIOS = Normal: Aumenta (2.0)
| PRESSO DOS FREIOS = Alta: No_ Aumenta (3.0)
TEMPO = Nublado: Aumenta (4.0)
TEMPO = Chovendo
| DEPRESSO = Sim: No_ Aumenta (2.0)
| DEPRESSO = No: Aumenta (3.0)
Figura 11 - Classificador 2. BAGGING L1 e T1.
A taxa de erro para o Classificador 2 foi de zero por cento, sendo todos os e-
xemplos classificados corretamente pela rvore em questo.
Para o conjunto de testes T2 e conjunto de aprendizagem L2 foi gerada a seguinte
rvore:
PRESSO DOS FREIOS = Normal: Aumenta(8.0)
PRESSO DOS FREIOS = Alta: No_Aumenta(6.0/2.0)
A Figura 12 mostra o Classificador 3 que por sua vez possui uma taxa de classi-
ficao incorreta de 28,57% e uma taxa de classificao correta de 71,43%. Trs exem-
plos rotulados com a classe Aumenta foram classificados como sendo da classe No
Aumenta e um exemplo da classe No Aumenta foi tambm mal classificado, conforme
mostra a matriz de confuso a seguir. Novamente, neste caso, o conjunto de treinamento
e testes foi o mesmo, porm as amostras foram sorteadas com reposio.
a b <-- classificado como

6 3 | a = Aumenta
1 4 | b = No_Aumenta
Finalmente, para o terceiro conjunto de aprendizagem a rvore de deciso foi ge-

rada (Figura 13).
PRESSO DOS FREIOS = Normal: Aumenta (9.0)

PRESSO DOS FREIOS = Alta
| TEMPO = Ensolarado: No_ Aumenta (2.0)
| TEMPO = Nublado: Aumenta (2.0)
| TEMPO = Chovendo: No_ Aumenta (1.0)
O Classificador 4 apresentou uma taxa de classificao incorreta de 14,29% e

uma taxa de classificao correta de 85,71%. A matriz de confuso mostrada a seguir.
50
a b <-- classificado como

8 1 | a = Aumenta
1 4 | b = No_ Aumenta
A classificao de um exemplo x=<15, Ensolarado, Alta, Normal, No, Aumen-

ta> realizada submetendo tal exemplo aos trs classificadores gerados anteriormente.
Para o caso em questo, os trs classificadores geraram a mesma classificao, a classe
Aumenta. Os trs classificadores acertaram a classe.
Para a classificao de outra instncia y=<16, Nublado, Alta, Alta, No, Au-
menta>, o Classificador 2 e o Classificador 4 classificaram o evento y corretamente
como Aumenta. O Classificador 3 classificou erroneamente o evento y. Neste caso, uti-
liza-se um mecanismo de votao que classificar o evento y com Aumenta. Vence a
classe que obtiver o maior nmero de votos. No caso em questo, a classe Aumenta
vence por 2 votos contra 1.
Em trabalhos j realizados por Lopes (2007), cujas bases de dados possuam um
grande nmero de atributos, o mtodo BAGGING mostrou-se eficiente quando utilizado
com amostras de dados pequenas, em torno de 10% a 20% da base de dados original.
Quando aplicado em bases com um elevado nmero de atributos, BAGGING mostrou-
se superior ao algoritmo C4.5 (LOPES, 2007).
3.5.3 Mtodo BOOSTING com o algoritmo C4.5
A proposta do mtodo BOOSTING melhorar a preciso dos algoritmos de a-

prendizagem, reduzindo a taxa de erro por meio de uma tcnica que busca combinar
classificadores. Apesar dos potenciais benefcios que o mtodo promete pelos resultados
tericos, a avaliao do mesmo s pode ser realizada na prtica, em problema de apren-
dizagem reais, visto que os resultados teoricamente prometidos devem ser comprovados
por meio de experimentos em diversas bases de dados (FREUND, et al., 1996) (LOPES,
2007).
O mtodo BAGGING eficiente quando feita a combinao de classificaes
a partir de modelos diferentes, explorando desta forma a instabilidade do mtodo de
aprendizagem, medida que um modelo complementa outro modelo (WITTEN, et al.,
2005). Por sua vez, o mtodo BOOSTING explora modelos que so complementares
reciprocamente. Ele faz isto de forma anloga ao mtodo BAGGING por meio de pro-
51
cesso de votao para classificar eventos cujas classes so discretas ou a realizao do

clculo da mdia dos previsores numricos.
O objetivo do mtodo BOOSTING gerar com eficincia hipteses precisas u-
sando um algoritmo de aprendizagem que gera hipteses de baixa preciso, tambm
chamado algoritmo de aprendizagem fraco (FREUND, et al., 1996). Esta abordagem
til em problemas nos quais existem diferentes nveis de dificuldade, particularmente
em problemas do mundo real, onde o mtodo de aprendizagem tende a gerar distribui-
es que se concentram nos exemplos mal-classificados. Este comportamento faz com
que um algoritmo melhore seu desempenho nestes conjuntos de exemplos. O mtodo
BOOSTING tambm faz com que o algoritmo fraco se torne sensvel a mudanas no
conjunto de treinamento, gerando diferentes hipteses para diferentes conjuntos. Estas
ltimas tendem a serem complementares.
A mecnica do mtodo BOOSTING a seguinte: ele recebe m exemplos com o
conjunto de treinamento L={(x1,y1), ..., (xm, ym)} onde xi uma instncia do espao X e
yi a classe pertencente ao conjunto de classes Y = {1, ..., k} associada instncia xi e k
o nmero de possveis valores da classe. O algoritmo executado por T vezes, e em
cada iterao t, gerada uma distribuio de probabilidade Dt sobre o conjunto de trei-
namento L, resultando uma hiptese ht sobre o espao X para as possveis classificaes.
O objetivo encontrar a hiptese que minimize o erro do prximo classificador gerado.
No mtodo BOOSTING esta gerao de distribuio de probabilidade feita com base
em uma distribuio uniforme (BAUER & KOHAVI, 1999). O processo continua at
que sejam combinadas todas as hipteses h1, ..., hT em uma nica hiptese final hfin.
A primeira distribuio de probabilidade D1 gerada com base no conjunto de
1
treinamento L, sendo que o peso do primeiro elemento igual m , onde m o nmero
elementos de conjunto de treinamento. A prxima distribuio de probabilidade gera-
da por meio da multiplicao do peso do exemplo i por algum valor Bt [0,1), se ht
classifica corretamente xi, caso contrrio o peso muda. Em seguida feita a normaliza-
o dos pesos dividindo-os pela constante Zt. A hiptese final hfin tem um peso mais
importante que as demais hipteses, i.e., para certa instncia x, hfin gera um rtulo y que
maximiza a soma dos pesos das hipteses fracas pr-estabelecidas pelo rtulo. O peso
da hiptese ht influencia o classificador de tal modo que um peso alto gera um erro bai-
xo, e calculado por meio da seguinte formula: log(Bt1 ) . (FREUND & SCHAPIRE,
1996).
52
Os passos abaixo ilustram a mecnica do mtodo BOOSTING (WITTEN, et al.,

2005).
1. Para cada exemplo de treinamento m atribua um peso igual.
2. Gere o classificador utilizando uma distribuio Dt.
3. Para cada uma das t, ..., T vezes em que o algoritmo executado faa
4. Aplique o algoritmo de aprendizagem ao conjunto L com respectivo peso
e armazene a hiptese ht : X Y [0,1] resultante
5. Calcule o erro do modelo resultante do passo 4 com base na equao 31
erro t = D (i)
i:ht ( xi ) yi
t (31)
6. Se o erro for igual zero, ou maior igual a 0.5 atribua T = t 1 e cancele

o lao
7. Calcule o valor de Bt = errot / (1 errot)
8. Gere uma nova distribuio
Dt (i )
Dt +1 (i) = Bt se a hiptese for classificada corretamente ou
Zt
D (i )
Dt +1 (i ) = t 1 caso contrrio
Zt
Sabendo que o valor de Zt uma constante utilizada para normalizar o peso
das amostras.
9. Gere a hiptese de classificao final com base na equao 32
1 (32)
h fin ( x) = arg max
yY

t:ht ( x ) = y
log
Bt
O funcionamento do mtodo BOOSTING ilustrado a seguir. Primeiramente,

uma amostra gerada a partir da base de dados da Tabela 10 onde o nmero de itera-
es Z.
53
Tabela 10. Conjunto de treinamento. (Exemplo adaptado de (QUINLAN, 1993))

O classificador 5 apresentou uma taxa de classificao incorreta de 14,29% e

uma taxa de classificao correta de 85,71%. Trs exemplos rotulados com a classe
Aumenta foram classificados como sendo da classe Aumenta e um exemplo da classe
No Aumenta foi tambm mal classificado, conforme mostra o conjunto de regras da
Figura 14.
TEMPO = Ensolarado: No_Aumenta (5.0/1.0)

TEMPO = Nublado: Aumenta (5.0)
TEMPO = Chovendo
| DEPRESSO = Sim: No_ Aumenta (2.0)
| DEPRESSO = No: Aumenta (2.0)
Figura 14 - Classificador 5. BOOSTING L-1 e T-1.
Como o valor do erro foi menor que 0.5, ento calculado a importncia do
classificador, dada pela razo: Bt = 10.0142
.142
= 0.165 e a distribuio atualizada. I.e., como
a taxa de erro no foi superior a 0.5, so recalculados os pesos das instncias j da nova
amostra. A normalizao do peso faz com que a soma de todos os pesos seja igual a 1,
onde escolhido aleatoriamente um valor dentro da variao entre 0 a 1. Supondo que
uma determinada instncia tenha como peso 0.5. Esta instncia tem uma probabilidade
maior de ser escolhida na gerao da nova amostragem do que uma instncia com o
peso 0.1.
54
Tabela 11. Pesos atualizados.

j wj inicial wj passo 1
1 0,071 0,100
2 0,071 0,017
3 0,071 0,017
4 0,071 0,017
5 0,071 0,100
6 0,071 0,017
7 0,071 0,017
8 0,071 0,017
9 0,071 0,017
10 0,071 0,017
11 0,071 0,017
12 0,071 0,017
13 0,071 0,017
14 0,071 0,017
Aps recalcular o peso das instncias, uma nova amostra gerada (Tabela 12) e
para ela um classificador gerado (Figura 15).
Tabela 12. Conjunto de treinamento, (Exemplo adaptado de (QUINLAN, 1993))

Exemplo Tempo Velocidade Presso dos Freios Depresso Classe
A Figura 15 mostra a rvore de deciso gerada para segunda iterao do algo-

ritmo, cujos exemplos tiveram seus pesos atualizados conforme a Tabela 11.
TEMPO = Ensolarado
| PRESSO DOS FREIOS = Normal: Aumenta(2.0)
| PRESSO DOS FREIOS = Alta: No_Aumenta(4.0)
TEMPO = Nublado: Aumenta(3.0)
TEMPO = Chovendo
| DEPRESSO = Sim: No_Aumenta(2.0)
| DEPRESSO = No: Aumenta(3.0)
Figura 15 - Classificador 6. BOOSTING L-2 e T-2.
55
Para este segundo classificador, se aplicarmos como conjunto de testes os exem-

plos da Tabela 4, podemos observar que todos os exemplos foram corretamente classifi-
cados, encerrando assim o lao, pois o nmero de iteraes foi definido como 2.
A taxa de acerto do classificador pode ser utilizada na avaliao de desempenho.
Porm, tal avaliao precisa ser simples e eficiente. Entretanto, inaceitvel utilizar, por
exemplo, toda a base de dados sobre um assunto pesquisado para ambos os processos:
treinamento e teste. A principal falha que se pode gerar um resultado tendencioso por
utilizar o mesmo conjunto de dados em ambos os processos. Neste contexto surge o
processo de validao cruzada que ser discutido na seqncia.
3.6 Validao Cruzada
Existem inmeros mtodos para a avaliao de um classificador. Um dos mto-

dos mais simples proposto na literatura por (TAN, et al., 2006), chamado de holdout
com re-amostragem aleatria, divide o conjunto de dados em dois subconjuntos: um de
treinamento e um de conjunto de testes. As classes presentes nestes conjuntos devem ser
representativas, ou seja, devem estar presentes na mesma proporo da base de dados
original para que o classificador gerado possa ser eficiente. Caso uma classe no esteja
presente no conjunto de treinamento, o classificador no ser capaz de predizer o valor
de um exemplo que pertena a tal classe. O mesmo ocorre caso a base de treinamento
possua muitos exemplos de uma mesma classe, onde o classificador tambm no ser
capaz de classificar amostras de uma classe diferente. Para eliminar tal problema, o m-
todo de estratificao utilizado.
O mtodo de estratificao consiste em treinar e testar um classificador inmeras
vezes, com a mesma distribuio dos dados originais, sempre com diferentes amostras
aleatrias. Assim so gerados inmeros classificadores e a taxa de erro total consistir
na mdia das taxas de erro dos classificadores gerados, mtodo chamado de repeated
holdout (WITTEN, et al., 2005).
No processo de holdout simples, um conjunto de treinamento e um conjunto de
testes so gerados. O classificador gerado pelo conjunto de treinamento testado utili-
zando as amostras presentes no conjunto de testes. J o classificador gerado pelo con-
junto de testes avaliado utilizando as amostras do conjunto de treinamento. Este mto-
do eficiente quando as mesmas propores de tamanho so utilizadas para ambos os
conjuntos: teste e treinamento.
56
A validao cruzada surge como uma alternativa para o processo de avaliao de

desempenho. A base de dados com n instncias dividida em f amostras (chamados de
folds) aleatrias e com tamanho de amostra igual ao nmero de instncias dividido pelo
nmero de amostras (TAN, et al., 2006), (DIAMANTIDIS, et al., 2000). Em cada f a-
mostras utilizado f 1 amostras para treinamento. O nmero de vezes em que o pro-
cesso de treinamento e teste ser executado igual ao nmero de amostras, retornando
uma taxa de acerto para cada amostra.
Por exemplo, em uma base de dados contendo 100 instncias, cujo nmero de
amostras 5, teremos para cada amostra 20 instncias. Em cada um dos 5 passos, sero
utilizadas 4 amostras como conjunto de treinamento, que ir conter 80 instncias. As
outras 20 instncias no utilizadas no treinamento sero utilizadas no processo de teste.
A taxa de acerto a mdia final dos acertos das 5 amostras utilizadas como teste.
A preciso de um classificador pode ser superestimada ou subestimada, expressa
por meio do valor denominado de bias. Este ltimo calculado da seguinte forma: a
expectativa do avaliador subtrada da exatido da classificao (bias = E[] o, onde
E denota a expectativa de acerto do classificador, o avaliador e o a exatido do classi-
ficador). J a varincia estima qual a variao do avaliador (DIAMANTIDIS, et al.,
2000).
A validao cruzada com amostragem estratificada busca distribuir em cada a-
mostra a mesma proporo de instncias do conjunto de dados inicial, dando estimativas
melhores para os valores de bias e varincia, sendo aplicada quando as classes no so
distribudas uniformemente no conjunto de treinamento (GU, et al., 2000).
J na validao cruzada leave-one-out, o nmero de amostras (n) igual ao n-
mero de exemplos, sendo o classificador construdo n vezes. Neste tipo de validao,
todos os dados so utilizados para treinamento, no havendo sub-amostras aleatrias.
Este processo possui a desvantagem de ser computacionalmente oneroso.
A escolha do nmero de amostras na validao cruzada uma tarefa no trivial,
uma vez que as seguintes situaes so possveis:
um nmero pequeno de amostras pode resultar em uma varincia pequena e
um valor de bias elevado; e
um nmero grande de amostras pode resultar em uma varincia alta e um va-
lor de bias baixo.
O mtodo de validao cruzada pessimista com relao exatido, na medida
em que cada iterao apenas um subconjunto de instncias utilizado para teste. pos-
57
svel que instncias pertencentes a uma determinada classe estejam presentes com muita
freqncia em uma amostra gerada pelo processo de validao, o que resultaria em uma
tendncia do algoritmo em ser especfico a tal classe.
Com a aplicao de algoritmo de aprendizagem obtida uma taxa de erro cada
vez que o mesmo executado, independente do algoritmo utilizado. Neste trabalho,
para sugerir determinada ao ao maquinista, como por exemplo, aumentar a velocidade
atual na mudana de ponto de acelerao, o sistema deve ter a certeza do que est
sugerindo. Erros como um aumento na velocidade em lugar proibido pode acarretar
srios problemas, ocasionando perdas financeiras e at de vidas.
3.7 Teste Estatstico
Testes estatsticos tendem a verificar se houve ou no melhoria no processo

(DEMSAR, 2006). Devido s caractersticas dos experimentos optamos por aplicar tes-
tes no-paramtricos porque so mais provveis de rejeitar a hiptese nula.
Conforme Callegari (2003), nos testes paramtricos os valores da varivel estu-
dada devem ter distribuio normal ou aproximao normal. J os testes no-
paramtricos (i.e. Teste de Friedman), tambm chamados por testes de distribuio li-
vre, no tm exigncias quanto ao conhecimento da distribuio da varivel na popula-
o.
O Teste de Friedman um teste no-paramtrico, ou seja, no tm exigncias
quanto ao conhecimento da distribuio da varivel na populao, testando associaes,
dependncia/independncia e modelos ao invs de parmetros (CALLEGARI, et al.,
2003). Os algoritmos so ranqueados para cada conjunto de dados separadamente, onde
o algoritmo com melhor desempenho ocupa a primeira posio do ranking e assim su-
cessivamente. Em caso de repeties destes valores feita a mdia dos rankings.
Deste modo, o Teste de Friedman compara a mdia dos algoritmos segundo a
Equao 33, onde r ji o rank do j-simo de k algoritmos no i-simo de N conjuntos de
dados e realizado de acordo com a Equao 34.

1 (33)
Rj =
N
r
i
i
j
12 k (k + 1) (34)
F2 = R j
2

k (k + 1) j 4
58
O objetivo deste teste verificar se os classificadores gerados apresentam dife-

renas significativas, no caracterizando a hiptese nula. Caso a hiptese nula seja ca-
racterizada, todos os algoritmos so equivalentes uma vez que possuem rankings iguais.
Ao considerarmos como hiptese nula a inexistncia de diferenas entre as condies
dos k algoritmos, teramos amostras bem distribudas, no havendo co-relao entre
elas. Porm, para verificar se h ou no correlao entre as condies, deve-se fazer o
somatrio das varincias (Q) dos ranques. Obtido o valor de Q, calcula-se o p-valor
como a probabilidade do valor ser superior ou igual varincia obtida utilizando a dis-
tribuio qui-quadrada com k-1 graus de liberdade. O resultado numrico do teste de
Friedman fornece um nvel de significncia (p-valor), caso este seja menor que 0.05
(valor adotado nesta dissertao, que representa 5% de tolerncia de aceitao) ento
recomendvel rejeitar a hiptese nula.
3.8 Trabalhos relacionados
Diversas tcnicas de aprendizagem de mquina tm sido adotadas como opo

no tratamento de problemas que exigem controle, regularidade e segurana.
Benenson (et al., 2008) tratou o problema de navegao autnoma de um carro-
rob em ambientes urbanos, os quais consistiam de geometrias heterogneas e com obs-
tculos mveis, tornando complexa a navegao autnoma do rob. A soluo encon-
trada pelo autor foi desenvolver um agente capaz de perceber as mudanas no ambiente
e planejar aes as quais considera explcitas natureza dinmica do veculo e do ambi-
ente enquanto garante que as restries de segurana sejam obedecidas.
Kolski, em (KOLSKI, et al., 2006), apresentada um sistema de navegao hbri-
do que combina os benefcios das abordagens existentes para conduo em ambientes
estruturados (i.e. rodovias) e no estruturados (i.e. estacionamentos). O sistema utiliza
deteco visual em tais passagens e faixas de laser para gerar um mapa local do ambien-
te, o qual processado por um planejador local para guiar o veculo enquanto desvia os
obstculos. Quando andando em ambientes no estruturados, o sistema emprega um
mapa global e planejador para gerar uma trajetria eficiente at o objetivo.
Bertolazzi (et al., 2008) desenvolveram um veculo autnomo de tamanho
reduzido e focado na estratgia de controle a qual baseada no algoritmo Nonlinear
Receding Horizon Control (NRHC). O planejador invocado por um gerenciador de
alto nvel para resolver uma seqncia de problemas de controles. O movimento
59
planejado prov uma seqncia de conjunto de pontos referenciados at que um novo

plano esteja disponvel.
O uso de outras tcnicas de inteligncia artificial como a lgica fuzzy foi objeto
de estudo para o desenvolvimento de sistemas de controle automtico de trens, confor-
me proposto por (RACHEL, 2006). O autor conclui que possvel utilizar lgica fuzzy
no controle metrovirio, mesmo se tratando de uma aplicao crtica de controle. O sis-
tema metrovirio possui uma caracterstica de ser veloz e, por outro lado, as distncias
entre estaes no so to grandes como ocorre no sistema ferrovirio, acelerando e
freando com maior taxa possvel e ocasionando maior manuteno do sistema de pro-
pulso e frenagem. Para a implantao do sistema fuzzy de controle, foram feitas modi-
ficaes na sinalizao fixa da via, uma vez que o controle de espaamento dos trens
feito pelo prprio controlador. As aes executadas pelo controlador proposto consistem
apenas em acelerar ou desacelerar o trem, tomando como base a posio e a velocidade
relativa de dois trens na via.
Outro mtodo de aprendizagem proposto na literatura por (PASQUIER, et al.,
2008) consiste no desenvolvimento de um sistema de conduo inteligente capaz de
aprender com base em exemplos passados. Neste, o autor modela as habilidades de con-
duo humana utilizando regras para mapear as entradas de informaes. A aprendiza-
gem feita com o auxilio de subsistemas baseados em regras fuzzy, sendo validadas
pelo autor em simulao utilizando um carro equipado com um microprocessador capaz
de controlar as aes do sistema. Algumas vantagens foram mostradas pelo autor, tais
como: capacidade de fazer curvas, frear o veculo, conduzir o veculo em linha reta com
sucesso em velocidades de 50 a 80 km/h. Apesar de tais vantagens, houve a necessidade
da produo de um hardware especfico para validar os experimentos alm da escolha
dos parmetros adequados ser feita com base no processo de tentativa e erro, visto que
as caractersticas do problema no eram conhecidas a priori.
3.9 Consideraes Finais
Ao longo deste captulo, foram examinados os mtodos que foram utilizados em

nossos experimentos. O C4.5, alm de possuir a capacidade de gerar modelos de classi-
ficao a partir de exemplos com valores faltantes, apresenta bons resultados em bases
de dados ruidosas. Durante a anlise dos dados obtidos e que foram utilizados, amostras
ruidosas foram encontradas, i.e. velocidade atual fora dos padres ou acima da mxima
60
permitida e cdigos que indicavam a perda de sinal do GPS. Frente estas caractersticas
o C4.5 tende a apresentar resultados bastante satisfatrios, principalmente quando com-
binado com mtodos BAGGING e BOOSTING.
Foi possvel observar que durante experimentos realizados por Breiman (1996) o
mtodo de BAGGING reduziu a taxa de erro do classificador C4.5 quando aplicado em
bases de dados com caractersticas diferentes. Em Lopes (2007) BAGGING obteve re-
sultados satisfatrios quando selecionada uma quantidade pequena de dados.
Tanto o mtodo de BAGGING quanto o mtodo de BOOSTING foram utiliza-
dos por Lopes (2007) para a obteno de conhecimento em bases de dados da rea da
sade, onde a quantidade de atributos era significativamente grande. BOOSTING tam-
bm obteve bons resultados quando filtrados os dados da base original, no havendo
perda na taxa de acerto aps o processo de filtragem ou quando aumentado o nmero de
classificadores gerados.
A validao cruzada complementa o nosso ferramental. Ela particularmente in-
teressante por proporcionar aos classificadores conjuntos de dados com a mesma pro-
poro do conjunto de dados original, eliminando o problema da proporo de exem-
plos. Tal mtodo proporciona uma confiana quanto aos modelos gerados por ser um
mtodo confivel na avaliao de classificadores.
Concluindo, trabalhos j desenvolvidos e citados neste captulo contribuem para
a elaborao deste trabalho, servindo como base para a compreenso da complexidade
da conduo de veculos autnomos. Observamos que os resultados apresentados por
estes trabalhos so relacionados a veculos com caractersticas diferentes do proposto
neste trabalho, considerando, por exemplo, o tamanho, capacidade de transporte, fun-
cionalidade e peso.
No prximo captulo sero descritos os procedimentos que sero realizados du-
rante o trabalho para a obteno das regras de conduo.
61
Captulo 4
Metodologia
O trabalho proposto visa descobrir padres, a partir de dados coletados por meio de
diferentes sensores instalados em um trem de carga, para ajudar no planejamento e exe-
cuo de uma boa poltica de conduo. A consecuo deste objetivo inclui diferentes
tarefas no triviais, a saber: (i) um estudo detalhado sobre os dados coletados a partir de
dados por meio de diferentes sensores instalados em um trem; (ii) a execuo de inme-
ros experimentos visando extrair conhecimentos teis para o processo de conduo; e
(iii) uma anlise criteriosa para validar as regras, a qual ser feita por meio da compara-
o das taxas de acerto dos classificadores, similaridade da conduo e Teste de Fried-
man.
Os conhecimentos descobertos devem ajudar realizar uma boa conduo de um
trem de carga. Relembrando, segundo a ALL (2008), uma boa conduo caracteriza-se
por: (i) economia de combustvel, (ii) minimizao de esforos internos entre veculos e
destes sobre a via, (iii) reduo dos danos ao equipamento e (iv) eliminao de danos
carga. importante salientar que o foco principal neste trabalho gerar regras de con-
duo que auxiliem na rpida deciso de qual ponto de acelerao utilizar, sem perder
de vista os demais princpios de boa conduo.
4.1 Modelagem dos Dados
Para a compreenso da soluo proposta foi desenvolvido o modelo de dados de

domnio parcial (cf. Figura 16), cujos detalhes sero vistos nas prximas sees. Este
modelo representa uma viagem de trem que rene basicamente um maquinista (opera-
dor), um trem e um trecho de via frrea a percorrer. O trem formado por uma ou mais
locomotivas, dependendo do trecho a percorrer, e por zero ou mais vages. Cada loco-
motiva possui identificador nico. Cada vago possui um determinado peso. Os equi-
pamentos do trem fornecem as seguintes informaes: velocidade, presso dos freios,
potncia empregada por ponto de acelerao utilizado, deslocamento realizado durante a
viagem, entre outros.
62
A viagem realizada por um maquinista ser humano.. Esta viagem transcorre em

um trecho de via frrea, representada
represen por conjunto ordenado de pontos de medida, com
a indicao do quilmetro de origem e quilmetro de destino. Cada ponto de medida
uma tupla formada pelo identificador do quilmetro, raio da curva e percentual de ram-
ra
pa. Para cada ponto de medida so realizadas
realizadas leituras peridicas nas sadas dos sensores
e os valores recuperados so persistidos. Alguns rels, instalados na locomotiva, forne-
forn
cem informaes referentes ao ponto de acelerao empregado (PAAtual),
( ), bem como
informaes de freio (pressaoDoFrei ), entre outras. Cada ponto de acelerao tem
pressaoDoFreio),
associado um consumo e uma potncia dependendo da locomotiva.
Figura 16 - Modelo conceitual parcial para representar uma

viagem de trem em uma via frrea.
frrea
4.2 Origem e formato dos dados
Os dados utilizados para a gerao da base de dados inicial foram originados de

quatro fontes distintas. A Figura 17 ilustra estas fontes de dados.
A FONTE I contm os dados lidos dos sensores com o trem em movimento,
como por exemplo: quilmetro (kilometer),
( velocidade (speed),
), velocidade mxima
63
(maximum_speed), presso de freios (pressure), hora (hour), minuto (minute), segundo

(second), e dados de rels que informam o ponto de acelerao das locomotivas
(av/bv/cv/dv), posio da manopla reversora de movimento do trem para frente ou para
trs (ffor/rer), indicao de interveno do maquinista (ths1_8), freio dinmico ligado
ou desligado (br), seqencial de identificao de evento (event_sequence), indicao de
patinagem (pat) e rel terra (gr). A FONTE II contm os dados referentes as data de
incio e fim da viagem, bem como as identificaes das localidades de inicio de trmino
da viagem. Por exemplo, LMG- e LAP- identificam as sub-estaes onde a viagem
iniciou e terminou. Cada sub-estao tem um tipo associado (type): principal, no prin-
cipal (ou desviada). A FONTE III contm dados gerais da viagem, tais como: peso do
trem em toneladas (tons), distncia percorrida em metros (distance), consumo final em
toneladas transportadas por quilmetro (tkb), identificao do trem (train_code), identi-
ficao do operador (operator_code). A FONTE IV contm apenas as identificaes das
locomotivas da viagem. Desta fonte so obtidos os seguintes dados: nmero de locomo-
tivas usadas e o tipo de cada uma delas.
FONTE I: LOG da viagem:

SEQ,KILOMETER,SPEED,MAXIMUM_SPEED,PRESSURE,HOUR,MINUTE,SECOND,THS1_8,AV,BV,CV,DV,BR,EVENT_SEQUENCE,FF
OR,RER,GR,PAT,LATITUDE,LONGITUDE,D1
1,339495,9,40,85,9,38,8,0,0,0,0,0,0,1,1,0,0,0,843906,1871598,0
2,339491,9,40,85,9,38,13,0,0,0,0,0,0,2,1,0,0,0,843901,1871598,0
3,339481,9,40,85,9,38,19,0,0,0,0,0,0,3,1,0,0,0,843897,1871597,0
4,339477,9,40,85,9,38,23,0,0,0,0,0,0,4,1,0,0,0,843893,1871597,0
5,339470,9,40,85,9,38,28,1,0,0,0,0,0,5,1,0,0,0,843888,1871597,0
FONTE II: data e local da viagem: FONTE IV: identificao e nmero de locomotivas
SEQ,DATA,HORARIO,LOCAL,TYPE SEQ, LOCOMOTIVE_CODE
1,18/10/2006,09:38:05,LMG- ,1 1,7678
2,18/10/2006,14:26:00,LAP- ,2 2,7683
3,7686
FONTE III: consumo da viagem: 4,7687
SEQ,TONS,DISTANCE,TKB,TRAIN_CODE,OPERATOR_CODE
1,6278,64.206000,6.190000,M58,910009970
Figura 17 - Exemplo do arquivo de viagem.
O conjunto de dados utilizados durante foram de oito viagens realizadas no tre-

cho entre Londrina (PR) e Paiandu (PR). Cada viagem foi realizada por um trem com
configuraes diferentes, em particular, em termos de peso, nmero de vages e loco-
motivas. O nmero total de registros da base de dados, disponibilizada para os experi-
mentos, foi de aproximadamente 17164, onde aproximadamente 14258 instncias foram
utilizadas nos experimentos. O nmero de registros obtidos, em cada viagem, ficou en-
tre 1600 a 2800 exemplares para um trecho de 69500m, em mdia, um registro para
cada 33m. importante salientar que o nmero de registros diretamente proporcional
ao tempo levado para percorrer o percurso da viagem (cf. Tabela 13).
64
Tabela 13. Resumo de dados de diferentes viagens.

Quilmetro Nmero de Registros (NR) Metros Tempo de
ID da NP
Percorridos Viagem
Viagem Inicial Final Original Filtrado NR
(NP) (min)
1 339495 268014 2154 1999 71481 33 184
2 335693 268837 2350 1695 66856 28 134
3 336858 269919 1763 1694 66939 38 144
5 340627 268443 1817 1666 72184 39 150
6 339779 269160 2061 1962 70619 34 172
7 335874 268370 1699 1566 67504 39 176
8 341434 268108 2514 1541 73326 29 208
9 339980 268289 2806 2135 71691 25 197
A prxima fase dos estudos concerne remoo de rudos e tambm o enrique-

cimento dos dados. A ateno portar em particular ao processo de enriquecimento que
agregou muitas novas caractersticas ao conjunto de dados original.
4.2.1 Remoo de Rudos
Como dito anteriormente, os dados das viagens so obtidos por meio de sensores
instalados nas locomotivas. Estes sensores, s vezes, fornecem valores inconsistentes,
por exemplo, devido perda de comunicao entre satlite e GPS, responsvel por gerar
os dados de quilmetro e velocidade. Esta perda de comunicao ocorre principalmente
em trechos de tneis, onde o sinal no pode ser enviado devido ao fato do trem no estar
sendo visto pelo satlite.
A remoo de dados ruidosos visa obter um conjunto de dados consistente, de
modo a facilitar a extrao de padres vlidos no processo de aprendizagem. possvel
citar como exemplo de valor claramente inconsistente o deslocamento calculado entre a
posio A e a posio B, quando ele gera um valor muito elevado (e.g., centenas de qui-
lmetros). Outra informao ruidosa presente no conjunto de dados refere-se veloci-
dade, onde certos trechos da viagem apresentavam velocidade de 255 km/h. A remoo
desta informao foi realizada para tornar os clculos de tempo do deslocamento, con-
sumo e velocidade mdia consistentes para todo o conjunto de dados. A remoo de tais
rudos tornou o conjunto de dados consistente e resultou na melhoria da qualidade das
regras de conduo geradas. Antes da remoo, as regras geradas utilizavam os dados
ruidosos, principalmente os da quilometragem, durante a classificao de uma nova
instncia. Apesar de presente nas regras, esta informao no resultava numa boa classi-
ficao da instncia, motivo pelo qual foi removida.
65
A remoo de dados ruidosos teve uma contribuio significativa para o enri-

quecimento da base de dados.
4.2.2 Incluso de Novos Atributos
Classicamente, a etapa de pr-processamento consiste em enriquecer a base de

dados original. Em nossos experimentos, parte de tal enriquecimento foi feito por meio
da adio de novos atributos; resistncia total do trem calculada em cada ponto de leitu-
ra. Para realizar os clculos certas informaes foram adicionadas quelas geradas du-
rante a viagem (passadas como parmetros e identificadas pelo prefixo P_). Segue
alguns exemplos:
P_CIDADE_ORIGEM, P_CIDADE_DESTINO: cidades de origem e desti-
no da viagem. Estes valores so derivados a partir dos valores dos seguintes
atributos: LOCAL_INICIO e LOCAL_FIM;
P_PESO_VAGAO: peso mdio dos vages (em toneladas);
P_PESO_LOCO: peso mdio das locomotivas (em toneladas);
P_NRO_VAGOES: nmero de vages do trem;
P_AREA_FRONTAL_VAGAO: rea frontal do vago (em square-feet);
P_AREA_FRONTAL_LOCO: rea frontal da locomotiva (em square-feet);
P_COMPRIMENTO_VAGAO: comprimento do vago (em metros);
P_COMPRIMENTO_LOCO: comprimento da locomotiva (em metros);
P_NRO_EIXOS_VAGAO: nmero de eixos do vago;
P_NRO_EIXOS_LOCO: nmero de eixos da locomotiva;
P_BITOLA: tamanho da bitola (em metros);
P_COEF_ADER: coeficiente de aderncia;
Os enriquecimentos realizados por meio de atributos calculados so prefixados

por C_. Todos os clculos tiveram como base as frmulas descritas em (BRINA,
1982) e (AVALLONE, et al., 1996) e tambm os dados de FONTE I-IV. A Tabela 14
apresenta os campos adicionados base de experimentos por meio destes calculados.
66
Tabela 14. Atributos derivados por meio de clculos

Campo/Atributo (Unidade) Formula
C_VELOCIDADE_INICIAL (km/h) VELOCIDADE do registro atual
C_VELOCIDADE_FINAL (km/h) VELOCIDADE do prximo registro
TKB
C_LTKB_PARCIAL (LTKB) nmero de registros contidos
no arquivo da viagem

5
C_NRO_LOCO i =1
Locomotiva i
P_PESO_LOCO
C_PPE_LOCO 1.1
P_NRO_EIXOS_LOCO
P_PESO_VAGAO
C_PPE_VAGAO 1.1
P_NRO_EIXOS_VAGAO
Se D1=1 ento -1
Se AV=0 BV=0 CV=0 DV=0 ento 1
C_PONTO_ACEL Se AV=1 BV=0 CV=1 DV=0 ento 4
A potncia do ponto de acelerao da locomotiva, i-
C_POTENCIA (HP)
dentificado pelo valor de C_PONTO_ACEL.
Consumo da locomotiva para o ponto de acelerao,
C_CONSUMONOPONTO (LTKB)
identificado pelo valor de C_PONTO_ACEL.
C_LIMITE_ADERENCIA (idem equao 9)
273,24 0.82 C_POTENCIA
C_ESF_TRATOR (Kgf)
VELOCIDADE
C_VEL_MILHAS (Milhas/hora) VELOCIDADE x 0.622
C_RES_NOR_LOCO (Kgf) (idem equao 2)
C_RES_NOR_VAGAO (Kgf) (idem Equao 3)
C_R'_LOCO (Kgf) C_RES_NOR_LOCO 0,5
C_R'_VAGAO(Kgf) C_RES_NOR_VAGAO 0,5
valor do raio da curva, identificado pelo valor de
C_CURVA (metros)
C_QUILMETRO.
C_RES_CURVA_LOCO (Kgf) (idem equao 4)
C_RES_CURVA_VAGAO (Kgf) (idem equao 5)
C_RES_RAMPA_LOCO (Kgf) (idem equao 7)
C_RES_RAMPA_VAGAO (Kgf) (idem equao 7)
C_RES_INERCIAL_LOCO e
C_RES_INERCIAL_VAGAO (Kgf) (idem equao 6)
C_RES_TOTAL (Kgf) (idem equao 1)
C_DESLOCAMENTO (metros) Quilometro atual Quilometro atual 1
7.2 l
C_TEMPO_GASTO (segundos)
VF VI
C_CONSUMO (idem equao 17)
67
C_DESLO_ACUM
deslocamen to
n =1
sendo n o nmero de registros

n
C_CONS_ACUM
Con sumo
n =1
sendo n o nmero de registros

ConsumoAcumulado
1000
C_LTKB DeslocamentoAcumulado
PesoTotal
100
C_NRO_LOCO * P_COMPRIMENTO_LOCO +
C_TAMANHO_COMPOSICAO
P_NRO_VAGOES * P_COMPRIMENTO_VAGAO
Campo que resulta da associao do quilmetro atual
com um ponto de medida da via que possua valor de
C_QUILMETRO
quilmetro semelhante, com variao de aproximada-
mente 20 metros.
Campo que indica se determinado registro foi ou no
desconsiderado. Para que um registro seja desconside-
rado o deslocamento deve ser maior que 9999, fazendo
com que rudos no banco de dados sejam desconsi-
derados. O valor 9999 foi empiricamente considerado,
C_DESCONSIDERADO uma vez que praticamente impossvel que uma loco-
motiva se desloque este valor em metros em 3 segun-
dos (tempo de intervalo da leitura). Caso o quilmetro
atual seja igual a 0 ou 16777215 ou a velocidade 255 o
registro tambm desconsiderado, visto que tais valo-
res indicam perda de sinal do GPS.
Valor que indica a direo a qual a locomotiva lder
C_DIRECAO_INSCRICAO est indo, podendo assumir os valores direita ou
esquerda
Valor que indica a ao tomada pelo maquinista em
relao a mudanas no ponto de acelerao em deter-
C_ACAO_MAQUINISTA
minado ponto de medida. Valores possveis so: au-
mentou, diminuiu, manteve
Valor que indica se a locomotiva est arrancando,
C_ACAO_LOCOMOTIVA
parando ou simplesmente andando
Outra fonte de dados importante para a montagem da base de experimentos foi

os dados sobre as caractersticas fsicas da via frrea. A Figura 18 mostra um exemplo
destes dados. Estes dados de perfil referem-se s plantas reais do projeto de uma via
frrea, que inclui: raio de curva, corda de grau de 20m, percentual de rampa, entre ou-
tros.
68
Figura 18. Dados parciais do perfil de uma via frrea.
O elevado nmero de dados de descrio fsica de cada trecho de via frrea (ex:
Figura 18) e a alta dimensionalidade da base de dados fez surgir necessidade do de-
senvolvimento de um software que realizasse todos os clculos anteriormente mencio-
nados e inserisse automaticamente os seus resultados na base de dados. Este mdulo de
software foi um importante componente para expandir a aplicao da metodologia a
outros trechos de vias frreas de forma facilitada. Outros dados importantes na tomada
de deciso do maquinista durante a conduo de trem dizem respeito ao reconhecimento
e antecipao de cristas e depresses. Tais situaes esto diretamente relacionadas ao
perfil da via, comprimento e peso do trem, devido ao esforo trator existente nos enga-
tes ou choques no trem.
A Figura 19 (a) mostra uma situao tpica de crista no ponto C, caracterizado
quando a locomotiva lder ultrapasse o ponto C e em funo do comprimento e do peso
do trem obrigue manter o ponto de acelerao alto. Nesta situao, o esforo no engate
do vago que est no ponto de inflexo a soma do esforo trator das locomotivas mais
o esforo do peso do trem que j passou pela rampa. O valor de h, neste caso, no influ-
encia na identificao de cristas segundo a opinio do especialista em conduo ferrovi-
ria. A situao da Figura 19 (b) pode ser ou no caracterizada como uma crista. Caso o
comprimento do trem seja maior que o trecho i ento existe crista, caso contrrio, o in-
tervalo entre os pontos C e D deve ser considerado como um trecho em nvel. O trecho
em nvel aquele em que as rampas tenham valor entre -1% e 1%, percentuais atribu-
dos empiricamente.
69
Figura 19 Situaes de crista
A Figura 20 ilustra a situao de depresso, que exige do maquinista ateno re-

dobrada para evitar que a cauda do trem exera uma fora sobre a locomotiva lder cau-
sando acidente. De forma anloga crista, o ngulo do ponto C no influencia na i-
dentificao de uma depresso.
Figura 20 Situao de depresso
Identificar as situaes de crista e depresso no uma tarefa trivial. Durante a

anlise, vrias idias surgiram, tais como identificar apenas o incio, meio e final do
trem. Esta hiptese foi descartada pelo fato de no abordar as diversas situaes que
podem ocorrer ao longo do trem devido ao seu comprimento. A soluo encontrada foi
identificar 11 pontos ao longo do trem (cf. Figura 21), considerando que o tamanho m-
dio de um trem varia entre 2 e 3 km, ou seja, tem-se um ponto a cada 200 ou 300 m,
sendo esta considerada uma distncia aceitvel.
Figura 21 Pontos candidatos para caracterizar

cristas e depresses ao longo do trem
Aps identificar os 11 pontos, sendo um primeiro ponto correspondendo sempre

ao inicio do trem, um segundo ponto a cauda do trem e um terceiro ponto o meio do
70
trem. Cada ponto identificado ento subdividido em outros trs pontos. A distncia de
cada ponto pode ser de 70m dependendo do tamanho do trem; valor atribudo devido ao
fato de um vago ter em mdia 20m, sendo assim a ponta do prximo/anterior vago
alcanado com 70m a partir do meio do vago atual (cf. Figura 22). A escolha de uma
faixa maior que 70m mostrou-se mais eficaz ao longo dos testes.
Figura 22. Segmentao de um trem em trs pontos para a

identificao de cristas e depresses.
Os valores calculados a partir dos 11 pontos, mostrados na Tabela 15, so tam-

bm includos na base de experimentos de forma complementar a Tabela 15.
Tabela 15 - Valores calculados a partir da segmentao de um trem em onze pontos para a identificao
de cristas e depresses.
C_KM_PONTO Fila que armazena o quilmetro de 11 pontos ao longo do trem
C_CABECEIRA Fila que armazena o status da cabeceira de cada um dos 11 pon-
tos
C_MEIO Fila que armazena o status do meio de cada um dos 11 pontos
C_CAUDA Fila que armazena o status da cauda de cada um dos 11 pontos
C_PERCENT_ENT_INCLINACAO Fila que armazena o percentual de rampa da cabeceira de cada
_INSCRICAO um dos 11 pontos
C_PERCENT_SAI_INCLINACAO_ Fila que armazena o percentual de rampa da cauda de cada um
INSCRICAO dos 11 pontos
C_PERCENT_CURVA_VENCIDA Fila que armazena o percentual de curva de cada um dos 11 pon-
tos j percorrida
C_ONDULACAO Indica se houve ou no uma ondulao. Caso ocorram 3 ou mais
situaes de crista e/ou depresso ao longo dos 11 pontos o valor
sim, caso contrrio no.
C_ RAIO_CURVA Fila que armazena cada raio de curva de cada um dos 11 pontos.
71
O percentual de rampa em cada um dos trs pontos mostrados na Figura 22 le-

vado em considerao para caracterizar as situaes de nvel, rampa ascendente (subi-
da), rampa descendente (descida), crista e depresso. Para caracterizar uma destas situa-
es preciso associar o quilmetro de leitura com o quilmetro mais prximo na via
convertida distncias de 20 metros; a exatido muitas vezes no possvel.
Feita tal associao, o prximo passo consiste em analisar o percentual de rampa
do quilmetro. Se o percentual de rampa for maior-igual que -1 e menor-igual a 1 ento
ao ponto atribuda situao em nvel. Valores menores que -1 so considerados
descidas e valores maiores que 1 so consideradas subidas. Uma situao de crista
ocorre quando h uma situao de subida longa, seguida por uma situao de descida
tambm longa. J a depresso ocorre quando h uma descida longa, seguida por uma
longa subida (ALL, 2008), no havendo um consenso sobre o que um trecho longo por
parte dos especialistas.
Outra situao particular de conduo de trens em trechos ondulados. Um tre-
cho ondulado um perfil de via onde h mudanas freqentes nas rampas, podendo
haver trs ou mais subidas ou descidas (ALL, 2008). Numa situao de crista ou depres-
so h alternncia entre subida e descida. Sendo assim, caso ao longo dos onze pontos
de um trem ocorram trs ou mais situaes de crista/depresso tem-se ento a caracteri-
zao de uma ondulao.
A partir da associao do quilmetro atual com o quilmetro mais prximo no
perfil de via foi possvel identificar as situaes na qual o trem est em reta ou em cur-
va. Uma situao em reta aquela em que o ngulo central da curva est entre -1.0 e
1.0. Situao em curva aquela verificada quando, ngulo central do prximo quilme-
tro diferente do ngulo atual; tanto para frente quando para trs do ponto atual. Reali-
zada a identificao, ento efetuado o clculo ngulo (percentual) da curva que j foi
percorrido pelo trem (equao 35). Tal ngulo o valor absoluto (abs) do quilmetro
atual menos o quilmetro anterior, multiplicado por 100 e dividido pelo valor absoluto
do prximo quilmetro menos o anterior.
abs(kmAtual kmAnterior)*100 (35)

percentual =
abs(kmPosterior kmAnterior)
Onde:
kmAtual o quilmetro atual;
kmAnterior o quilmetro anterior; e
72
kmPosterior o quilmetro aps ao atual.
4.2.3 Seleo de Atributos
Segundo Lee (1999) em (LEE, et al., 1999), muitos algoritmos de minerao de

dados no funcionam bem com grandes quantidades de dados, deste modo, a seleo de
atributos tende a melhorar o desempenho de tais algoritmos. Outro fator que justifica a
seleo de atributos a melhor compreenso do problema com uma menor quantidade
de atributos, resultando num conhecimento induzido na forma de classificadores com
compreenso mais fcil.
Em nossos experimentos as motivaes para a seleo de atributos foram para
reduzir o nmero de atributos e, em conseqncia, reduzir o tempo de aprendizagem e
tambm melhorar a qualidade dos classificadores gerados. A reduo foi feita por meio
da aplicao dos mtodos CfsSubSetEval utilizando o algoritmo BestFirst como meca-
nismo de busca, GainRatio utilizando o algoritmo Ranker como mecanismo de busca. O
primeiro mtodo reduziu em 95% o nmero de atributos e o segundo mtodo reduziu
em 12% o nmero de atributos.
Segundo Hall em (HALL, 2000) e Koller (KOLLER, et al., 1996) deve-se con-
siderar a redundncia dos atributos durante o processo de seleo, visto que atributos
redundantes tendem a afetar a qualidade da classificao. O problema da redundncia
ocorreu neste trabalho aps o enriquecimento dos dados com os seguintes atributos:
quatro sensores (AV, BV, CV e DV) so responsveis por fornecer o ponto de acelera-
o atual de uma locomotiva. Para facilitar a compreenso das regras e tambm gerar
regras com menor quantidade de atributos, os valores dos quatro sensores foram combi-
nados resultando num nico atributo que mostra o ponto de acelerao utilizado.
4.2.4 Transformao de Atributos
Relembrando, o nosso principal objetivo descobrir regras de conduo que mi-

nimizem o consumo de combustvel, sendo o atributo meta o ponto de acelerao. Este
atributo um valor contnuo. Ele calculado para cada leitura de dados dos sensores. A
discretizao dos valores alvo de experimentos neste trabalho, medida que os algo-
ritmos usados no geram classificadores quando o atributo meta um valor contnuo.
Foi feita ento a discretizao das variveis contnuas, avaliando quo bom foi o de-
sempenho dos classificadores na base de dados discretizada dinamicamente pelo prprio
73
algoritmo de classificao comparado ao desempenho da base de dados discretizada

apriori. A discretizao a priori permite, por exemplo, que sejam escolhidos automati-
camente a quantidade de intervalos (bins), o tamanho dos intervalos e a freqncia de
itens em cada intervalo.
4.3 Aplicao dos Algoritmos de Minerao
A atividade de descoberta de conhecimento teve inicio por meio da seleo dos

dados de viagens. Os dados selecionados foram transformados e sobre o resultado foi
feita a filtragem dos dados mais importantes. Uma vez filtrados os dados a minerao
foi iniciada por meio da aplicao do C4.5, e na seqncia tambm foram aplicados
mtodos de combinao de classificadores BAGGING e BOOSTING.
O passo seguinte, aps o enriquecimento e filtragem, foi a aplicao e a anlise
de um processo de amostragem. Este processo foi realizado por meio do algoritmo Re-
sample3. Este ltimo realiza uma amostragem levando em considerao a classe a qual a
amostra est associada, ou seja, mantendo-se a proporo de distribuio da base origi-
nal. A implementao do algoritmo permite informar o tamanho da amostra que se dese-
ja obter em relao ao tamanho do conjunto de dados original; esta informao passa-
da por meio do parmetro sampleSizePercent. Os tamanhos das amostras geradas varia-
ram de 10 a 30%; tais tamanhos de amostras foram analisados de acordo com a taxa de
acerto dos classificadores testados. A utilizao de amostras com tamanhos maiores no
foi possvel devido a falta de recursos computacionais para gerar os classificadores.
Em termos prticos, a amostragem foi usada para gerar dois conjuntos de dados:
um para treinamento e um para testes. O primeiro tem por objetivo ser utilizado pelos
algoritmos de classificao durante a etapa de gerao das rvores de deciso, ou seja,
durante a construo do classificador. O segundo utilizado para testar quo eficiente
o classificador gerado, produzindo um percentual de acerto (TAN, et al., 2006). O ta-
manho de ambos os conjuntos de 70% do nmero total de amostras para o conjunto de
treinamento e 30% destinado ao conjunto de testes.
Aps a definio dos conjuntos de dados e das configuraes dos experimentos,
os algoritmos de minerao foram aplicados. Para tal, foram utilizados dois atributos
alvo diferentes:
3
Este algoritmo uma implementao existente no pacote de software WEKA.
74
Ponto de Acelerao: para que a locomotiva se desloque de um ponto a ou-

tro, uma fora de acelerao deve ser realizada para vencer um conjunto de
resistncias. As variveis presentes nestes deslocamentos possuem valores
que mudam de acordo com a situao que a locomotiva se encontra. Cada si-
tuao exige que certo ponto de acelerao seja utilizado. Assim, os classifi-
cadores que utilizam tal atributo como classe-alvo so capazes de indicar ao
condutor qual ponto empregar para deslocar o trem.
Consumo no Quilmetro: para todos os deslocamentos realizados durante as
viagens reais foram calculados os valores de resistncia total e potncia, na
etapa de enriquecimento dos dados, com o objetivo de classificar o consumo
de determinada ao tomada pelo maquinista. Deste modo, possvel verifi-
car se o consumo resultante da aplicao de certo ponto de acelerao foi si-
milar ao obtido numa situao semelhante de uma viagem real.
A utilizao dos classificadores somente possvel com um software capaz de

calcular todas as variveis envolvidas na viagem, simulando assim uma viagem real. O
software desenvolvido ao longo deste trabalho, com este propsito juntamente com a
forma que os classificadores so utilizados, so apresentados no prximo captulo.
Foram utilizadas diferentes formas de avaliar a qualidade dos classificadores,
visto que as taxas de acerto geradas pelo C4.5, BAGGING e BOOSTING no condi-
zem com a real taxa de aplicabilidade das classes sugeridas. Assim, optou-se por utilizar
as tcnicas de validao cruzada, distncia do cosseno e Teste de Friedman para avaliar
a qualidade dos classificadores.
A validao cruzada tambm foi usada na gerao e avaliao dos classificado-
res. Ela tem por objetivo gerar amostras utilizadas durante as etapas de treinamento e
teste do classificador, obtendo assim uma taxa de acerto para cada uma das amostras
geradas e ao final fazendo a mdia aritmtica das taxas obtidas, resultando assim na taxa
de acerto do classificador, A gerao dos classificadores foi realizada com cinco e dez
amostras (folds). Segundo (WITTEN, et al., 2005), dez o nmero de folds que obtm
melhores taxas de acerto.
Para medir a similaridade entre as aes tomadas pelo maquinista e as aes to-
madas pelo simulador de conduo, foi usada a frmula do cosseno. Ela traduz de certa
forma a real capacidade do classificador indicar aes aplicveis que foram abstradas a
75
partir do processo de minerao de dados. Em outras palavras, o cosseno traduz o grau

de imitao na forma de conduo entre o simulador de conduo e o maquinista.
A metodologia apresentada segue, em linhas gerais, as etapas clssicas do pro-

cesso de descobrimento de conhecimento. A principal contribuio ao domnio de co-
nhecimento estudado concerne etapa de enriquecimento dos dados. Deve-se tambm
destacar a incluso de uma mtrica para quantificar a similaridade entre as tomadas de
aes reais realizadas por um maquinista e as tomadas de aes realizadas pelo simula-
dor de conduo. Esta mtrica mete o grau de imitao entre as tomadas de aes de
um ser humano maquinista e de um sistema computacional; deve-se salientar que tal
sistema computacional coloca em prtica as regras abstradas a partir de uma base de
dados histrica de viagens de trens conduzidas por seres humanos maquinistas.
76
Captulo 5
Simulador
A metodologia delineou um estudo clssico de descoberta de conhecimento, on-

de o principal esforo foi o enriquecimento dos dados; isto , na fase de pr-
processamento. Entretanto, o grande interesse da pesquisa concerne a descoberta e apli-
cao de padres de tomadas de aes no tocante a conduo de um trem. Nestes termos
foram realizados vrios estudos e experimentos computacionais na direo de constru-
o de um sistema computacional de conduo automtica de trens; o corpo central des-
te sistema descrito neste captulo.
O fluxo bsico do simulador concerne: (i) percepo de evento, (ii) a classifi-
cao deste evento para a obteno de um ponto de acelerao, (iii) o clculo do consu-
mo com base em tal ponto de acelerao, (iv) a avaliao da ao a ser empregada,
(v) reconsiderao de tal ao ou aplicao da mesma, (vi) retorna para (i).
Este captulo foi organizado em vrias sees. A seo 5.1 descreve alguns re-
cursos computacionais utilizados. A seo 5.2 ilustra um exemplo dos clculos realiza-
dos pelo sistema. A seo 5.3 apresenta a forma como os classificadores so utilizados.
A seo 5.4 apresenta como as camadas de refinamento das tomadas de aes so em-
pregadas. A seo 5.5 descreve em detalhes o algoritmo responsvel pela execuo de
uma viagem.
5.1 Descrio Geral do Simulador
O simulado composto por trs mdulos principais. O primeiro mdulo res-

ponsvel por interpretar as regras geradas pelos classificadores. O segundo mdulo
responsvel pelo fluxo principal que gera e avalia as alternativas de polticas de tomadas
de aes, doravante chamado de Sistema de Deciso. O terceiro um mdulo para cl-
culos especializados nas equaes de Davis, doravante chamado de Calculador.
O mdulo interpretador de regras de conduo recebe como entrada um arquivo
texto contendo tais regras (cf. Figura 23). O ncleo deste mdulo permite instalar dife-
rentes conjuntos ordenados de regras em uma mesma camada, bem como diferentes
77
conjuntos ordenados de regras em diferentes camadas. Por exemplo, um evento e

submetido aos classificadores da primeira camada. O evento e enriquecido tornando-
tornando
se e.. Este ltimo submetido aos classificadores da segunda camada. A Figura 24 mos-
tra o modelo conceitual deste interpretador.
Options: -S 10
JRIP rules:
===========
(PRESSURE <= 88) and (C_PERCENTUAL_RAIO_CURVA_4 <= 402.850006) =>

C_PONTO_ACEL=1.0 (23.0/3.0)
(C_ACAO_MAQUINISTA_PONTO
MAQUINISTA_PONTO = diminuiu) and (C_PERCENTUAL_CURVA_VENCIDA_7 <=
4.087943) and (C_MEIO_3 = subindo) => C_PONTO_ACEL=4.0 (13.0/3.0)
(C_LIMITE_ADERENCIA >= 135593.2188) and (C_ACAO_MAQUINISTA_PONTO = aumentou)

and (C_PERCENTUAL_RAIO_CURVA_3 >= 601) and (MAXIMUM_SPEED
(MAXIMUM_SPEED >= 53) and
(C_CABECEIRA_10 = subindo) => C_PONTO_ACEL=4.0 (16.0/2.0)
(C_LIMITE_ADERENCIA >= 132231.4063) and (C_ACAO_MAQUINISTA_PONTO = aumentou)

and (C_PERCENTUAL_CURVA_VENCIDA_5 <= 6.987162) and (SPEED >= 20) =>
C_PONTO_ACEL=3.0 (9.0/0.0)
=> C_PONTO_ACEL=0 (2417.0/710.0)
Figura 23.. Exemplo de regras no formato Weka.
Figura 24.. Modelo conceitual do interpretador de regras.

78
O modelo exibido, na Figura 24, define um conjunto de elementos. De forma

prtica, podemos l-lo da seguinte maneira: um Simulador pode ter diferentes camadas
de deciso. Cada camada pode ter diferentes classificadores. Cada classificador pode ter
diferentes regras. Cada regra tem um conseqente e um antecedente. O antecedente de
uma regra pode ser vazio para o caso da regra default. Cada clusula do antecedente de
uma regra formada por um operador relacional, envolvendo sempre uma varivel e
uma constante. O conseqente de uma regra uma constante. Cada camada pode ter
tambm uma base de exemplos. Cada base de exemplo tem vrias colunas (ou atribu-
tos). Cada coluna tem uma lista de valores. Cada linha da base de dados um exemplo.
Esta base de exemplos pode ser usada para gerar a matriz de confuso. Um Simulador
tem tambm uma base de percepes. Cada percepo um evento a ser classificado.
O mdulo Sistema de Deciso l um conjunto de informaes referentes ao per-
fil via (rampas e curvas), ao trem (peso, quantidade de locomotivas e vages, entre ou-
tros). Ele usa estas informaes nas trocas com os demais mdulos; ele controla o fluxo
principal de dados e aes do simulador. Este mdulo gerencia um LOG das regras a-
plicadas pelo simulador. Cada registro deste LOG mapeia a regra aplicada e os dados da
viagem daquele instante. Estes registros so teis para analisar quais regras foram apli-
cadas com mais freqncia e qual classificador foi mais eficiente em certos trechos da
viagem. Este mdulo detalhado nas prximas sees.
O mdulo Calculador pea fundamental para o enriquecimento de uma per-
cepo e validao de uma tomada de deciso. Este mdulo implementa, dentre outras
funcionalidades, um conjunto de procedimentos de clculos baseados nas equaes de
Davis. Dado a importncia das equaes de Davis, a prxima seo mostra um exemplo
parcial dos clculos realizados com dados reais de viagem.
5.2 Exemplos de Clculos
As frmulas das equaes de Davis usadas nesta seo foram apresentadas na

seo de fundamentao. O cenrio de ilustrao possui:
Um trem com 3 locomotivas de 160 toneladas cada e 58 vages de 100
toneladas cada, a rea frontal de 120 ps, o peso total do trem de 6280
toneladas: (160 * 3) + (100 * 58).
Um trecho de via frrea entre Londrina (PR) e Paiandu (PR), comean-
do do quilmetro 339.495.
79
A bitola da via ferra em questo de 1.6 metros, o coeficiente de adern-

cia de 0.22;
Para o cenrio, deseja-se testar se ponto de acelerao quatro suficiente para

movimentar o trem. Os clculos so para duas iteraes, sendo a primeira para fazer o
trem passar de 0 km/h para 2 km/h e de 2 km/h para 4 km/h.
a) Primeira iterao: mudar a velocidade do trem de 0 km/h para 2 km/h, usando o

ponto de acelerao quatro, cujo qual desempenha 960 HP e consome 1.95 li-
tros/min.
Percentual de rampa: 0.956

Raio de curva: 3089.0 metros
Velocidade mdia: 1 km/h
Velocidade mdia em milhas/hora: 1 * 0,622 = 0,622 milhas/hora
160
Peso por eixo de cada locomotiva: 1.1 = 44.0 toneladas/eixo
4
100
4
273.24 0.82 960
Ft = = 107547.3 kgf
2
29 0,0024 120 0.622
Rnl = 1,3 + + 0,03 0.622 + = 1.978384 libras/ton
44 44 4
Rnl = 1.978384 0,5 = 0.989192 kg/ton
29 0,0024 120 0.622

Rnv = 1.3 + + 0,045 0.622 + = 2.383548 libras/ton
27.5 27.5 4
Rlv = 2.383548 0,5 = 1.191774 kg/ton
100
Rcl = 0,2 + (2.4 + 1.6 + 3,8) ) = 0.452509
3089
500 1.6
Rcv = = 0.258983
3089
Ri = 10 * 0.956 = 9.56
R Total = 3 0.160 (0.989192 + 0.452509 + 0 + 9.56 ) +

58 0.100 (1.191774 + 0.258983 + 0 + 9.56 )
R Total = 65013.29kg f
80
Fac = 107547.36 65013.29 = 42533.97kgf

6280 ( 2 0)
= 4 = 2.362347 metros
42533.97
2.362347
t = 7,2 = 8.50 segundos
2+0
42533.97
= = 0.664197
628000
9.80665
8.50
Consumo = 1.95 = 0.276395 litros/min
60
b) Segunda iterao: mudar a velocidade do trem de 2 km/h para 4 km/h, usando o

ponto de acelerao quatro cujo qual desempenha 960 HP e consome 1.95 li-
tros/min.
Percentual de rampa: 0.956

Raio de curva: 3089.0 metros
Velocidade mdia: 1 km/h
Velocidade mdia em milhas/hora: 2 * 0,622 = 1.866 milhas/hora
160
Peso por eixo de cada locomotiva: 1.1 = 44.0 toneladas/eixo
4
100
4
273.24 0.82 960
Ft = = 53773.63
4
29 0,0024 120 1.866
Rnl = 1,3 + + 0,03 1.866 + = 2.020769 libras/ton
44 44 4
Rll = 2.020769 0,5 = 1.010384 kg/ton
29 0,0024 120 1.866

Rnv = 1.3 + + 0,045 1.866 + = 2.447632 libras/ton
27.5 27.5 4
Rlv = 2.447632 0,5 = 1.223816 kg/ton
100
Rcl = 0,2 + (2.4 + 1.6 + 3,8) ) = 0.452509
3089
500 1.6
Rcv = = 0.258983
3089
Ri = 10 * 0.956 = 9.56
81
R Total = 3 .160 (1.010384 + 0.452509 + 0 + 9.56 ) +

58 .100 (1.223816 + 0.258983 + 0 + 9.56 )
R Total = 65209.31kg f
Fac = 53773.63 65209.31 = - 11435.7kgf

6280 ( 2 0)
= 4 = 26.3596 metros
- 11435.7
- 26.3596
t = 7, 2 = 31.6315 segundos
4+2
- 11435.7
= = 0.17858
628000
9.80665
- 31.6315
Consumo = 1.95 = 1.02803 litros/min
60
A aplicao do ponto de acelerao quatro foi suficiente para progredir o trem

de 0 km/h para 2 km/h. Na segunda iterao, a utilizao do mesmo ponto de acelerao
no foi capaz de deslocar o trem, visto que a fora de acelerao negativa; isto resulta
em um deslocamento negativo. Uma soluo seria, por exemplo, aumentar o ponto de
acelerao para cinco e verificar com tal aumento de potncia se a fora de acelerao
seria positiva. Deve-se ressaltar que no foram consideradas as resistncias inerciais nos
exemplos mostrados e foi calculada apenas a resistncia do primeiro vago.
Em termos prticos, os clculos so feitos pelo mdulo Calculador. Entretanto,
para o Calculador realizar os clculos de forma completa, ele precisa de dois conjuntos
de dados: um esttico e um dinmico. O conjunto esttico corresponde ao perfil do tre-
cho da via, sobre o qual o trem se encontra, e caractersticas do trem. O conjunto din-
mico corresponde aos valores lidos dos sensores, doravante chamado de percepo. Por
exemplo, os valores lidos podem ser: quilmetro e velocidade atual do trem.
No simulador, uma percepo enriquecida submetida a um classificador no in-
tuito de obter o ponto de acelerao candidato.
5.3 Uso dos classificadores
A concepo inicial foi utilizar apenas um classificador e no final avaliar seu de-
sempenho, medindo a quantidade de acertos e erros na escolha do ponto de acelerao.
Porm, ao longo de experimentos notou-se que uma regra era aplicada com mais fre-
82
pesar de no possuir valor de suporte alto. Outro critrio de

qncia que as demais, apesar
escolha do ponto de acelerao foi escolha do menor ou maior valor sugerido pelos
classificadores por meio de votao. Criar este procedimento de votao busca, alm de
escolher a regra com maior
ior suporte, observar qual classificador possuiu regras que me-
m
lhor se encaixaram nas situaes da viagem.
Uma das abordagens utilizadas na votao foi classificar a percepo em dife-
dif
rentes classificadores e escolher o ponto de acelerao com base no valor de suporte. A
Figura 25 ilustra o processo. O Sistema de Deciso recebe uma percepo do simulador,
e a submete a trs diferentes classificadores: um contendo as regras
regras geradas pelo JRIP e
outros dois contendo as regras geradas pelos metaclassificadores BAGGING e
BOOSTING.. A regra utilizada para previso de uma classe que possui maior suporte
escolhida e enviada ao simulador para que o mesmo possa aplic-la.
Figura 25.. Forma de votao dos classificadores.
Para submeter um exemplo a qualquer um dos classificadores, o exemplo deve

estar no mesmo formato dos exemplos da base de treinamento. A utilizao de um clas-
cla
sificador ou a escolha de um ponto de acelerao entre vrios disponveis pode no ga-
g
rantir uma ao passvel de execuo, pois pode ocorrer patinao ou falta de potncia
para percorrer o percurso, necessitando de intervenes na ao por meio de refinamen-
refiname
tos sucessivos.
83
5.4 Procedimentos de Refinamentos
Os procedimentos de refinamentos so necessrios para interferir nas aes re-

sultantes do processo de classificao. Relembrando, um classificador pode sugerir um
ponto de acelerao (ao) que no se adere ao perfil da via onde est localizado o trem.
Alm do mais, no possvel garantir que o classificador sugira sempre o ponto de ace-
lerao que resulte em menor consumo, pois no h certeza que os dados obtidos foram
de uma viagem tima. Por exemplo, sugerir o uso de um ponto abaixo do necessrio,
resultando em falta de potncia para percorrer o trajeto e ocasionando a parada do trem.
Desta forma, para garantir que o trem progrida foram desenvolvidas trs procedimentos,
cujas aes bsicas so respectivamente:
Controlar patinagem;
Aumentar o ponto de acelerao em caso de pouca potncia; e
Reduzir o ponto de acelerao em caso de excesso de consumo.
A interveno destes procedimentos mostrada mais a frente, em ciclo de exe-
cuo que consiste em perceber um evento, classificar tal percepo, validar tal classifi-
cao e aplicar a ao validada.
5.4.1 Controle de Patinao
A patinagem de um trem uma das situaes que deve ser evitada ao longo da
viagem. Quando ela ocorre, ela ocasiona srios danos s rodas das locomotivas e a via
(ALL, 2008). A escolha do ponto de acelerao implica na determinao de um esforo
trator efetivo ee para cada locomotiva do trem. Cada locomotiva possui tambm um
esforo trator aderente ea, que depende do peso e da velocidade do trem. A soma de
todos os esforos tratores efetivos no pode ser maior que a soma dos esforos tratores
aderentes multiplicados pelo nmero de locomotivas nl, caso contrrio ocorre patina-
gem (PIRES, et al., 2005).
Quando ocorre patinagem, o primeiro procedimento tomado reduzir o ponto de
acelerao pa sugerido, o que gera um esforo trator efetivo menor que a soma dos es-
foros aderentes. Em algumas situaes ocorre do ponto de acelerao ser totalmente
reduzido, chegando a zero, resultando na aplicao de um segundo procedimento: redu-
zir a velocidade desejada. Esta reduo pode fazer com que a fora de acelerao seja
positiva, porm a velocidade desejada seja menor que a velocidade atual, ou seja, dese-
84
ja-se reduzir a velocidade sem que haja uma acelerao negativa. Neste caso a ao
desconsiderada, fixando o deslocamento previsto dp em 50m e buscando a velocidade
final vf de acordo com a Equao 36, onde vi a velocidade atual, fa a fora de acelera-
o e pe o peso do trem.
fa dp
vf = vi 2 + (36)
4 pe
A velocidade desejada passa a ser a velocidade retornada pela Equao 34 mais

2 km/h. Se a fora de acelerao no for positiva e a velocidade estimada for maior que
a velocidade do trem, o procedimento adotado reduzir a velocidade desejada em 0.5
km/h.
Para cada mudana de valores ocorre nova invocao do Calculador, visando
atualizar o vetor de dados a ser submetido ao classificador, o qual deve retornar um no-
vo ponto de acelerao. Esta atualizao ocorre por meio da chamada da funo atuali-
za, do algoritmo descrito abaixo. uma via frrea e um trem, .
Para cada mudana de valores ocorre nova invocao do Calculador, visando
atualizar o vetor de dados a ser submetido ao classificador, o qual deve retornar um no-
vo ponto de acelerao. Esta atualizao ocorre por meio da chamada da funo atuali-
za, do algoritmo descrito abaixo. uma via frrea, um trem, p a percepo, pa
o ponto de acelerao, Ei o quilmetro atual.
85
Algoritmo cPatinagem()
Entrada: EI, , ; var p, pa, vi, vf, ea, ee, dp, fa, nl;
1. enquanto( ee > ( ea * nl ) )
2. se( pa > 0 )
3. Pa--;
4. p := atualiza(EI, , , p, pa );
5. seno
6. se( fa > 0 e vf < Vi )
fa dp
7. vf = vi 2 +
4 pe
8. se( vf > 0 )
9. vi := vf;
10. vf := vf + 2;
11. p := atualiza( EI, , , p, pa );
12. seno
13. vi := 0; vf := 2;
14. p := atualiza( EI, , , p, pa );
15. fim-se
16. seno
17. vf := vf - 0.5;
18. vi := vi - 0.5;
20. fim-se
21. fim-se
22. fim-enquanto
A falta de potncia tambm requer um procedimento exclusivo. Neste caso para

evitar a aplicao de um ponto de acelerao que gere esforo negativo.
5.4.2 Falta de Potncia
O procedimento para gerir a falta de potncia tem por objetivo aumentar o ponto
de acelerao sugerido pelo classificador a fim de evitar com que o trem pare de se mo-
vimentar ao longo da viagem. Caso o ponto de acelerao sugerido seja menor que oito
(maior ponto de acelerao das locomotivas), ento o ponto incrementado. Esta mu-
dana no ponto de acelerao faz com que ocorra a reverificao de falta de potncia;
caso o ponto de acelerao seja mximo, ento a velocidade final reduzida em 0.5
km/h. De forma anloga, o exemplo modificado passa por uma nova verificao de falta
de potncia. As iteraes param quando uma ao vlida encontrada.
Este procedimento tambm evita que deslocamentos previstos maiores que
500 metros sejam considerados durante a viagem. Durante a fase de experimentos foi
possvel notar que deslocamentos maiores que 500 metros resultavam num tempo de
deslocamento muito alto, fora dos padres das viagens reais, implicando em alto valor
de consumo medida que o mesmo calculado com base no deslocamento e no tempo
necessrio para deslocar o trem. Caso o deslocamento da ao supere o limite, assume-
86
se o valor de 500 metros. Os valores do exemplo a classificar permanecem os mesmos,

mas a posio do trem na prxima ao ser 500 metros alm da posio da ao atual.
O algoritmo vFaltaPotencia() descrito a seguir. As variveis de entrada so:
ponto de acelerao (pa), velocidade inicial (vi), velocidade final (vf), fora de acelera-
o (fa), deslocamento previsto (dp), perceo (p), quilmetro atual (Ei).
Algoritmo vFaltaPotencia()
Entrada: EI, , ; var p, pa, vi, vf, dp, fa;
1. enquanto( fa <= 0 ou dp > 500 )
2. se( pa < 8 )
3. pa := pa + 1;
5. seno
6. vf := vi 0.5;
7. vi := vf 2.0;
8. se( vi < 1.0 ) ento pra fim-se
10. fim-se
11. fim-enquanto
Caso no haja potncia suficiente para percorrer um trecho e a velocidade do

trem seja zero, a viagem interrompida. Isto ocorrer se o peso do trem estiver acima
do peso mximo permitido para percorrer o trecho com a maior rampa da viagem. Em
ouras palavras, isto resulta numa resistncia impossvel de ser vencida pelo esforo tra-
tor efetivo naquele ponto.
5.4.3 Marcha Excessiva
Ao longo de experimentos foi observado que o ponto de acelerao sugerido pe-

lo classificador em algumas situaes era alto. Estas situaes ocorreram principalmente
quando a regra default era aplicada. Normalmente, a regra default indica o valor 7 ou 8.
Estes pontos so os empregados durante uma viagem. A aplicao de tais pontos de
acelerao gera um alto valor para o consumo.
O procedimento proposto busca reduzir o valor de consumo da viagem, exami-
nando se o ponto de acelerao sugerido pelo classificador pode ser reduzido. Para tal, o
ponto deve ser maior que um. Para cada verificao o exemplo a ser classificado mo-
dificado por meio da invocao do Calculador. Durante a execuo destes procedimen-
tos a fora de acelerao analisada, devendo esta ser maior que zero e o deslocamento
previsto menor que 500 metros, similar ao que ocorre no procedimento de verificao
de falta de potncia.
87
O algoritmo vMarchaExcessiva mostrado a seguir. Ele recebe os seguintes da-

dos de entrada: o ponto de acelerao das locomotivas (pa), a fora de acelerao (fa), o
deslocamento previsto (dp), uma percepo (p), uma via frrea (), um trem (), um
quilmetro atual (Ei).
Algoritmo vMarchaExcessiva()
Entrada: EI, , , var p, pa, dp, fa;
1. enquanto( pa > 1 E pa <= 8 )
2. pa := pa 1;
4. enquanto( fa <= 0 E dp > 500 )
5. pa := pa + 1;
6. p := atualiza(, , , p, pa );
7. fim-enquanto
8. fim-enquanto
A prxima seo descreve o algoritmo de gerao de polticas de aes para uma

viagem. Este algoritmo depende dos procedimentos descritos anteriormente.
5.5 Execuo de uma Viagem
A execuo de uma viagem comea pela interpretao dos boletins de bordo,

que informam as restries da via e eventuais obras no trecho. Por questes prticas, em
nossas simulaes foram levadas em conta apenas as informaes do Boletim A. Este
ltimo passado ao simulador por meio de um arquivo XML que rene um grande con-
junto de caractersticas estticas de um via frrea real (Figura 26).
Cada via frrea expressa por meio de um conjunto de pontos de medida. Cada
ponto de medida representa um trecho de via frrea de 20 metros. Ele definido por um
conjunto de atributos:
um identificador (id);
uma velocidade mxima permitida (velocidadeMax);
um quilmetro (km);
um percentual de rampa (rampa);
um raio de curva (raioCurva);
um ngulo central de curva (ac);
uma corda de 20 metros (g20);
uma altitude;
88
uma latitude; e
uma longitude.
Estes pontos foram obtidos a partir plantas das vias frreas. importante salien-
tar que nem todas as informaes constantes em cada ponto de medida foram usadas,
como por exemplo, latitude e longitude.
Figura 26- Exemplo de ponto de medida no arquivo XML
As caractersticas dos trens usadas nas simulaes so realistas. Entretanto, a

virtualizao da conduo nos levou a incluir por de meio da frmula abaixo, o peso
aproximado de cada vago, calculado de acordo com a equao 37.
pt ( nl pl ) (37)
pv =
nv
Onde:
nv o nmero de vages;
nl o nmero de locomotivas;
pt o peso total do trem (em toneladas); e
pl o peso de cada locomotiva (em toneladas).
Os quilmetros de incio de fim da viagem tambm so fornecidos, bem como as

configuraes especficas da locomotiva (rea frontal, nmero de eixos e consumos em
cada ponto de acelerao).
89
Como j dito, a arquitetura do simulador inclui o seguintes mdulos (Figura 27):

Sensor, Atuador, Calculador e Deciso. O Sensor realiza a captura de diferentes medi-
das, tais como: quilmetro e velocidade atual, quilmetro atual, aderncia e resistncia.
O Atuador age por meio da execuo de uma ao. Esta ltima, em geral, altera velo-
cidade do trem. A atuao limita-se em aumentar, manter ou reduzir a velocidade. O
Calculador encapsula as frmulas dos clculos para as diferentes resistncias e esforos
de trao.
O fluxo principal de controle executado pelo mdulo de Deciso. Este ltimo
recebe, na forma de uma percepo p, os valores lidos do Sensor. Os valores de p so
convertidos para o formato de um vetor de caractersticas v. Esse vetor v submetido ao
classificador A. Este ltimo retorna um ponto de acelerao pa. A partir de pa pode-se
calcular os valores de: resistncia, esforo trator, deslocamento previsto e fora de ace-
lerao. Estes valores so inseridos no vetor u. Se o valor da resistncia menor que o
valor do esforo trator, ento o estado registrado em arquivo de LOG e o ponto de
acelerao pa aplicado por meio do Atuador. Caso contrrio, a poltica de ao mo-
dificada. Tal modificao consiste em aumentar em uma unidade o ponto de acelerao
pa. Este incremento ocorre at que o esforo trator resultante seja maior que as resis-
tncias a serem vencidas. Caso no seja mais possvel incrementar o ponto de acelera-
o, ento a estratgia decrementar em 0.5 a velocidade estimada e a velocidade cor-
rente. O vetor v atualizado com os novos valores de ambas as velocidades. O vetor v
modificado re-submetido ao classificador A. Desta forma, o processo se repete at que
seja encontrado um valor de pa que movimente o trem de forma satisfatria.
Antes de detalharmos, na forma de um algoritmo, o esquema da Figura 27, im-
portante definirmos um pouco mais o mdulo Calculador. Este ltimo toma como en-
trada uma percepo, realiza inmeros clculos e devolve um conjunto de valores. Alm
da percepo, ele se utiliza de grande nmero de outros valores relativos ao perfil da via
frrea e do trem para realizar tais clculos, a saber: posio inicial, posio final, posi-
o atual, velocidade inicial, velocidade atual, velocidade desejada, velocidade final,
coeficiente de atrito, direo, janela de velocidade mxima projetada, janela de distncia
mxima de frenagem, deslocamento fixo de frenagem mxima, quantidade de locomoti-
vas, nmero de pontos de acelerao. Tem-se tambm um conjunto de valores calcula-
dos/derivados, para uma dada percepo, envolvendo trecho de via frrea e trem. Eles
so: deslocamento previsto, tempo gasto da ao, fora aceleradora, resistncia das lo-
comotivas, resistncia dos vages, velocidade mxima permitida, velocidade mxima
90
projetada, velocidade desejada, presso de freios utilizada, esforo aderente, esforo

efetivo e consumo da ao. Este mdulo no foi desenvolvido porque ele no
n faz parte
do contexto deste trabalho, mas ele faz parte do Projeto PAI-L.
PAI
Figura 27- Modelo representativo do algoritmo de viagem
O fluxo das atividades desenhadas no diagrama da Figura 27 est descrito no al-

a
goritmo ExecutaViagem(),, apresentado a seguir.
seguir A Tabela 16 descreve, de forma resu-
res
mida, as funes usadas em tal algoritmo.
91
Tabela 16 - Funes de clculo, percepo, atuao e classificao.
Operao Descrio
X:=cCamada( c ) Cria uma camada e instanci-a com um classificador c, on-
de c o nome do arquivo que contm um determinado con-
junto de regras.
pt:=pTrem( ) Retorna o peso total de um trem .
nl:=nLocomotivas( ) Retorna o nmero de locomotivas de um trem .
p:=percebe() Realiza a funo de percepo.
v:=converte( p ) Converte uma percepo p em um vetor v de informaes.
pa:=classifica(A, v) Submete v ao classificador A. Este ltimo retorna um ponto
de acelerao.
u:=calcula(v, pa) Realiza os clculos de esforo trator, deslocamento previs-
to, etc.
va:=vAtual( p ) Retorna a velocidade atual contida na percepo p.
vd:=vDesejada( p ) Retorna a prxima velocidade desejada. O valor padro 2
km/h maior que a velocidade atual, exceto para os casos
que so necessrios valores menores para evitar patinagem.
ea:=eAderente( p ) Retorna o esforo trator aderente do trem.
ee:=eEfetivo( p ) Retorna o esforo trator efetivo total do trem.
dp:=dPrevisto( p ) Retorna o deslocamento previsto da ao, em metros; ele
no pode ser superior a 500m.
fa:=fAcelerao( p ) Retorna a fora de acelerao total to trem
atua( EI, direo, dp ) O Atuador executa tal funo, reposicionando o trem na
via. A nova posio dada em funo do quilmetro atual
EI, da direo da movimentao do trem na via e o deslo-
camento previsto dp,
ca:=cAcumulado( p ) Retorna o consumo acumulado de uma viagem a cada nova
percepo p.
da:=dAcumulado( p ) Retorna o deslocamento acumulado de uma viagem a cada
nova percepo p.
ltkb:=cFinal( ca, da, pt ) Retorna o consumo final de uma viagem, em LTKB.
aLOG( v ) Atualiza um arquivo de LOG com o vetor v, incluindo os
dados da ao aplicada. Este arquivo de LOG poder ser
usado em processo de reaprendizagem, o qual no foi exa-
minado no contexto deste trabalho.
Os dados de entrada do algoritmo so, respectivamente, dois classificadores A e

B, um trem , uma via frrea , um quilmetro inicial E0, um quilmetro atu-
al/intermedirio EI e um quilmetro final EN indicando o local de trmino da viagem.
Na seqncia os classificadores A e B so carregados em suas respectivas cama-
das de contexto. Nesta mesma seo do algoritmo, determina-se tambm o peso total do
trem, o nmero total de locomotivas, ajusta o ponto de acelerao inicial em zero e a
direo da movimentao. Ajusta-se tambm o quilmetro atual com o valor do quil-
metro inicial.
92
Algoritmo ExecutaViagem()
Entrada: A := {regra1,regra2,...,regrax}
B := {regra1,regra2,...,regray}
:= {locomotiva1,...,locomotivam} U {vago1,...,vagon}
:= {pontoMedida1,pontoMedida2,...,pontoMedidak}
E0 := Quilmetro Inicial
EI := Quilmetro Atual
EN := Quilmetro Final
Inicio
R := cCamada( A )
S := cCamada( B )
pt := pTrem( )
nl := nLocomotivas( )
pa := 0
se(EN < E0) ento direo := -1 seno direo := 1 fim-se
EI := E0
enquanto EI EN faa
{PERCEPO}
p := percebe(EI, , )
{CLASSIFICAO}
v := converte( p )
pa := classifica( A, v )
davis := calcula( p, pa )
p := atualiza(EI, , , p, pa)
ltkbC := classifica( B, p )
p := atualiza(EI, , , p, ltkbC)
{CLULOS}
vi := vAtual( p )
vf := vDesejada( p )
ea := eAderente( p )
ee := eEfetivo( p )
dp := dPrevisto( p )
fa := fAcelerao( p )
{O smbolo indica passagem de parmetro por referncia}

{CONTROLE DE PATINAGEM E FALTA DE PONTNCIA}
cPatinagem(EI,,,p,pa,vi,vf,ea,ee,dp,fa,pt,nl)
vFaltaPotencia(EI, , , p, pa, vi, vf, dp, fa)
vMarchaExcessiva(EI, , , p, pa, dp, fa)
{GERAO DE LOG}
aLOG( v )
{ATUAO}
atua(EI, direo, dp) {movimenta o trem}
end-enquanto
{RELATRIO}
ca := cAcumulado( p )
da := dAcumulado( p )
cf := cConsumoFinal( ca, da, pt )
fim-algoritmo
93
O lao principal do algoritmo se executar enquanto a movimentao do trem

no atingir a indicao do quilmetro final. Dentro deste lao, as principais aes so as
seguintes: percepo, classificao, clculos, controle de patinagem, marcha excessiva e
falta de potncia, gerao de log, atuao e relatrio.
A percepo consiste em ler para p diferentes valores fornecidos por sensores
presentes nas locomotivas, a saber: posio atual, velocidade, presso de freios, entre
outros mostrados na Figura 17. A classificao consiste em converter o conjunto de va-
lores percebidos em um vetor de caractersticas v e submet-lo a um classificador A que
tem por objetivo fornecer um ponto de acelerao pa. O conjunto de valores da percep-
o p enriquecido com pa. A partir de p, diferentes clculos so efetuados, a saber:
velocidade atual, velocidade desejada, esforo trator, deslocamento previsto e fora de
acelerao. O prximo passo refere-se execuo de trs controles bsicos, respectiva-
mente: patinagem, falta de potncia e marcha excessiva. Estes procedimentos foram
descritos anteriormente na forma de algoritmos. Eles atuam essencialmente sobre o pon-
to de acelerao, aumentando-o ou diminuindo-o, e em caso de insucesso, atua-se tam-
bm sobre a velocidade. Antes de executar a poltica de ao, que consiste em aumentar,
manter ou reduzir um ponto de acelerao, o vetor v de dados em memria armazena-
do em um arquivo de log. A iterao encerra-se com a aplicao da poltica de ao
determinada. A seo de relatrios executada aps o encerramento da viagem.
5.6 Consideraes finais
De forma pragmtica, os nossos esforos foram concentrados em aplicar tcni-

cas de aprendizagem de mquina para extrair padres de conduo a partir de dados
histricos e dotar um mdulo de software de conduo com tais padres, e examinar o
comportamento deste software. Lembrando, que o objetivo do software conduzir um
trem de ponto inicial S a ponto final E. Ele realiza tal objetivo por meio de uma ativida-
de iterativa que consiste em definir e aplicar polticas de aes. Vimos que a poltica de
aes que um condutor pode empregar : aumentar, manter ou reduzir um ponto de ace-
lerao. Para definir uma poltica de ao, o simulador dispe de um conjunto de recur-
sos, tais como perfil da via, perfil do trem e uma base de conhecimento com as regras de
conduo. Uma boa poltica de ao alcanada quando a execuo do comportamento
associado a tal poltica realizou uma conduo, para um dado trecho, de forma segura e
econmica e o mais similar possvel da conduo do maquinista. Os padres de condu-
94
o so representados por um conjunto de regras ordenadas. A interpretao e a valida-

o de tais padres so tarefas complexas, devido dinmica do domnio de aplicao e
a presena de informaes incompletas.
A nossa esperana, em termos de resultados com vistas a validar os conhecimen-
tos descobertos, coloc-los em prtica e observar/medir quo prximo o comporta-
mento do simulador do comportamento do maquinista ser humano.
95
Captulo 6
Resultados
Os resultados mostrados, neste captulo, referem-se aos experimentos realizados

em laboratrio. Estes experimentos envolveram quatro fases bem-distintas:
(i) a primeira fase consistiu na montagem de uma base de dados reais de viagens
de trens, doravante denominada BDViagens. Tal base contm 17164 registros e 35 atri-
butos. Aps o pr-processamento, a BDViagens foi modificada, onde foram removidos
2906 registros e acrescentados 84 atributos, resultando em uma nova base de dados,
doravante denominada BDViagensF.
(ii) a segunda fase consistiu na obteno de diferentes conjuntos de treinamentos
a partir de BDViagensF, a saber: (a) CN: este conjunto de treinamento a base de dados
BDViagensF propriamente dita. Ele contm os dados das paradas intermedirias dos
trens durante as viagens e o seu conjunto de classes igual ao nmero de pontos de ace-
lerao de uma locomotiva C30; (b) C4: este conjunto de treinamento o mesmo que
CN, exceto que nmero de classes foi reduzido para quatro; (c) SN: este conjunto de
treinamento o mesmo que CN, porm sem os dados referentes s paradas intermedi-
rias dos trens durante as viagens; e (d) S4: este conjunto de treinamento o conjunto
C4, porm sem os dados referentes s paradas intermedirias dos trens durante as via-
gens. Para cada um destes conjuntos de treinamentos (CN, C4, SN e S4) foram geradas
trs amostras, cujos tamanhos foram de 10%, 20% e 30%, respectivamente.
(iii) a terceira fase consistiu em gerar para cada amostra trs classificadores, u-
sando respectivamente os seguintes algoritmos/+mtodos de aprendizagem: JRIP,
JRIP+BAGGING e JRIP+BOOSTING. Nesta fase, utilizou-se o Teste de Friedman para
avaliar as taxas de acerto dos classificadores obtidos pelos diferentes mtodos, tomando
como grau de significncia 5%. A Figura 28 resume esquematicamente esta situao.
Deve-se notar que cada classificador obtido a partir de dado conjunto de treinamento,
foi avaliado de duas foram: a primeira foi utilizando 30% do conjunto inicial para teste
(TT) e a segunda foi utilizando o mtodo de validao cruzada (VC).
96
(iv) a quarta fase consistiu em empregar os diferentes classificadores, no ciclo

<percepo, seleo de uma poltica de ao, aplicao de ao> (Figura 29), com a
finalidade de apoiar a atividade de selecionar a prxima ao a ser aplicada. Nesta fase,
utilizou-se a frmula do clculo de cosseno para medir a similaridade entre os dados
reais de uma conduo realizada por um maquinista ser humano e os dados de uma con-
duo gerados pelo simulador.
Figura 28 - Fase de aprendizagem.
Figura 29 - Fase aplicao do conhecimento aprendido.
A Figura 30 mostra o nmero de registros associado a cada valor do atributo me-

ta ponto de acelerao. Pode-se observar que as classes ou os pontos de acelerao 7 e
8 possuem valores bem superiores s demais classes. Este fato caracteriza um desbalan-
ceamento das classes. A Figura 31 mostra a distribuio das classes para os conjuntos
de treinamentos: C4 e S4, aps a aplicao do procedimento para reduzir tal desbalan-
ceamento. Este processo consistiu em rotular todos os registros das classes de 1 a 6 para
a classe 3.
97
3268 3133
5994
1603 1589 3268 3133

907 949 1099
826 1603
624
0
-1 0 1 2 3 4 5 6 7 8 -1 3 7 8
Ponto de Acelerao Ponto de Acelerao
Figura 30 Nmero de registros vs classes: CN. Figura 31 Nmero de regis-

regi
tros vs classes: C4.
As anlises apresentadas nas prximas sees buscam responder as seguintes

questes: (a) Quais foram os melhores
melhor classificadores obtidos? (b) Qual foi a influncia
influ
das alteraes nos conjuntos de treinamentos no tocante a eficincia dos classificadores
obtidos? (c) Qual foi efetividade,
efetividade na conduo de um trem, dos classificadores empre-
gados pelo simulador em comparao com as aes tomadas pelo maquinista ser huma-
no.
6.1 Fase de Aprendizagem
A fase de aprendizagem contempla basicamente dois momentos: a obteno dos

classificadores e a avaliao das taxas acerto.
A configurao dos experimentos foi estruturada em trs tabelas: a Tabela 17 a-
presenta os dados referentes ao mtodo JRIP; a Tabela 18 apresenta referentes ao mto-
do JRIP+BAGGING; e finalmente,
finalmente a Tabela 19 apresenta os dados referentes ao
a mtodo
JRIP+BOOSTING. Cada valor
lor da coluna Classificador, de cada uma destas tabelas,
identifica um classificador especfico.
espec Por exemplo, o valor BO_10_S4_VC um identi-
ident
ficador para um classificador gerado, onde BO refere-se ao mtodo de aprendizagem
JRIP+BOOSTING,
BOOSTING, 10 tamanho da amostra,
amostra, S4 conjunto de treinamento, VC m-
m
todo de validao cruzada.. Doravante, os classificadores so referenciados apenas pelo
seu identificador, precedido pelo nome do mtodo de aprendizagem para facilitar a lei-
le
tura.
Como j dito, o foco nesta seo a anlise, de forma comparativa, das taxas de
acerto dos diferentes classificadores. Assim, cada
c tabela subseqente apresenta tambm
a taxa de acerto desses classificadores.
98
Tabela 17 Taxas de acerto dos classificadores obtidos por meio do mtodo JRIP.
Tamanho da Conjunto de Taxa de

Mtodo Avaliao Classificador
Amostra Treinamento Acerto
TT JR_10_CN_TT 46,9%
CN
VC JR_10_CN_VC 76,3%
TT JR_10_C4_TT 68,2%
C4
VC JR_10_C4_VC 83,0%
10
TT JR_10_SN_TT 48,4%
SN
VC JR_10_SN_VC 80,8%
TT JR_10_S4_TT 65,9%
S4
VC JR_10_S4_VC 82,3%
CN
TT JR_20_C4_TT 73,6%
C4
JRIP VC JR_20_C4_VC 87,6%
20%
SN
TT JR_20_S4_TT 73,1%
S4
VC JR_20_S4_VC 89,1%
CN
TT JR_30_C4_TT 78,6%
C4
VC JR_30_C4_VC 87,6%
30%
SN
TT JR_30_S4_TT 76,9%
S4
VC JR_30_S4_VC 91,2%
Tabela 18 - Taxas de acerto dos classificadores obtidos por meio do mtodo JRIP+BAGGING.

TT BA_10_CN_TT 58,9%
CN
VC BA_10_CN_VC 93,0%
TT BA_10_C4_TT 76,1%
C4
VC BA_10_C4_VC 94,7%
10
TT BA_10_SN_TT 58,9%
SN
VC BA_10_SN_VC 95,0%
TT BA_10_S4_TT 72,5%
S4
VC BA_10_S4_VC 94,8%
CN
TT BA_20_C4_TT 79,7%
C4
JRIP+BAGGING VC BA_20_C4_VC 94,3%
20%
SN
TT BA_20_S4_TT 79,9%
S4
VC BA_20_S4_VC 95,0%
CN
TT BA_30_C4_TT 84,2%
C4
VC BA_30_C4_VC 95,7%
30%
SN
TT BA_30_S4_TT 84,7%
S4
VC BA_30_S4_VC 96,2%
99
Tabela 19 - Taxas de acerto dos classificadores obtidos por meio do mtodo JRIP+BOOSTING.

TT BO_10_CN_TT 52,6%
CN
VC BO_10_CN_VC 100,0%
TT BO_10_C4_TT 76,9%
C4
VC BO_10_C4_VC 100,0%
10
TT BO_10_SN_TT 56,8%
SN
VC BO_10_SN_VC 100,0%
TT BO_10_S4_TT 73,6%
S4
VC BO_10_S4_VC 100,0%
CN
VC BO_20_CN_VC 99,4%
TT BO_20_C4_TT 82,5%
C4
JRIP+BOOSTING VC BO_20_C4_VC 99,4%
20%
SN
VC BO_20_SN_VC 99,8%
TT BO_20_S4_TT 81,7%
S4
VC BO_20_S4_VC 99,8%
CN
VC BO_30_CN_VC 99,2%
TT BO_30_C4_TT 87,4%
C4
VC BO_30_C4_VC 99,7%
30%
SN
VC BO_30_SN_VC 99,9%
TT BO_30_S4_TT 84,2%
S4
VC BO_30_S4_VC 99,5%
As melhores taxas de acertos foram obtidas nos classificadores gerados a partir

do mtodo JRIP+BOOSTING. Obteve-se, por exemplo, para os classificadores
BO_10_C4_VC, BO_10_SN_VC e BO_10_S4_VC a taxa de acerto igual a 100%. A pior
taxa de acerto foi obtida para um classificador gerado a partir do mtodo JRIP, a saber:
JR_10_CN_TT apresentou a taxa de acerto de 49,6%. Em geral, os classificadores que
obtiveram as menores taxas de acerto foram aqueles gerados a partir do mtodo JRIP,
seguido, respectivamente, pelos classificadores gerados pelo mtodo JRIP+BAGGING.
Em termos tericos, este resultado j era esperado. Em termos prticos, este resultado
tambm era esperado com base em Lopes (2007).
Do universo de classificadores gerados pelo JRIP+BOOSTING, apenas seis de-
les tiveram sua taxa de acerto inferior aos demais, a saber: BA_10_SN_TT, BA_20_CN_TT,
BA_20_SN_TT, BA_30_CN_TT, BA_30_SN_TT e BA_30_S4_TT. Ou seja, em 75% dos casos,
o mtodo JRIP+BOOSTING produziu melhores classificadores em termos de taxa de
acerto. O JRIP+BAGGING mostrou-se superior ao JRIP+BOOSTING apenas quando
foi utilizado 30% dos dados para teste do classificador e os outros 70% para treinamen-
to.
100
Foi realizado um aprofundamento da anlise para verificar se os diferentes con-

juntos de treinamentos poderiam dar origem a classificadores significativamente dife-
rentes. Isto foi feito usando o Teste de Friedman. Tal teste no-paramtrico. Ele no
requer o conhecimento da distribuio da varivel na populao. Ele permite ranquear
os mtodos (JRIP, JRIP+BAGGING e JRIP+BOOSTING) para cada conjunto de dados
de forma separada. O mtodo com o melhor o desempenho toma a primeira posio do
ranking e assim sucessivamente.
Em termos pragmticos, tal teste ajuda verificar se os classificadores gerados a-
presentam diferenas significativas. Caso a hiptese nula seja caracterizada, todos os
mtodos so equivalentes uma vez que possuem rankings iguais. Entretanto, para verifi-
car se h ou no correlao, deve-se fazer o somatrio das varincias dos ranques. A
partir deste somatrio, pode-se calcular o p-valor como a probabilidade do valor ser
superior ou igual varincia obtida, utilizando a distribuio qui-quadrada com k-1
graus de liberdade. O resultado numrico do Teste de Friedman fornece um nvel de
significncia (p-valor), caso este seja maior que 0.05, ento recomendado rejeitar a
hiptese nula.
O valor do qui-quadrado do conjunto de valores foi 8.2 e p-valor de 0.042. Para
efeito comparao apenas o p-valor foi considerado. Este valor representa a semelhana
entre os classificadores. A Tabela 20 apresenta o p-valor de cada configurao para o
Teste de Friedman.
Tabela 20 - Teste de Friedman para os classificadores obtidos para

conjuntos de treinamentos de tamanhos diferentes.
Tamanho da Amostra Configurao p-valor

10% 70% treinamento e 30% teste 0.04200
10% validao cruzada 0.30802
Para um valor de p-valor < 0.05 possvel concluir que h diferena significati-
va entre as diferentes configuraes, ou seja, rejeitada a hiptese nula, apesar de trs
testes obtiveram resultados inferiores e muito prximos de 0.05 em trs testes. Isto se
verificou, em particular, para os casos onde foi usado o mtodo de validao cruzada.
101
Pouco foi dito at o momento sobre o desempenho dos classificadores em ope-

rao. Para medir tal desempenho, a abordagem adotada foi calcular a similaridade entre
uma viagem realizada por um maquinista e uma viagem, com a mesma configurao,
realizada pelo simulador. A similaridade porta sobre as aes reais tomadas pelo ma-
quinista e as aes tomadas pelo simulador.
6.2 Fase de Aplicao de Classificadores
De forma prtica, o principal resultado deste trabalho consistiu em obter classifi-

cadores a partir de histricos de viagens de trens e aplic-los de modo a sugerir rapida-
mente um ponto de acelerao, visando definio de uma boa poltica de conduo.
Tal poltica deve gerar uma conduo eficiente.
Os parmetros que indicam a eficincia de uma conduo so: o tempo de via-
gem e o consumo final. Deve-se notar que o consumo final varia de acordo com as ca-
ractersticas do trem (peso, quantidade de locomotivas/vages e distncia percorrida).
Nos experimentos, observou-se que os valores dos consumos variaram de 5.68 a 6.49
LTKB, para os tempos de viagens de 134 e 208 minutos de durao, respectivamente. O
trecho foi de aproximadamente 68 km, partindo de pontos prximos ao quilmetro 338
e finalizando prximo ao quilometro 270, conforme mostrado na Figura 32.
Lembramos que a presso normal do encanamento de freios de uma locomotiva
em torno de 90 psi. A aplicao de freio resulta na reduo deste valor, podendo che-
gar em um mnimo de 64 psi por medidas de segurana. Na Figura 32 possvel obser-
var fortes aplicaes de freio, principalmente quando o trem necessita parar, alcanando
a presso de freios mxima permitida (observadas no quilmetro 295 e 332).
100
90
80
70
60
Velocidade
50
40
30
20
10
0
336 330 327 320 315 310 305 300 295 290 283 276 270
Quilmetro
Velocidade Velocidade Mxima Presso dos Freios
Figura 32 Trecho real da via frrea: de Londrina (PR) at Paiandu (PR)

102
Os motivos das paradas podem ser: (i) a presena de outro trem vindo em senti-
do contrrio, o que obriga o trem a entrar num desvio e parar at que o outro trem passe;
(ii) a falta de licena para percorrer o trecho. Como tais paradas so em nmeros peque-
nos optou-se por gerar classificadores com e sem os dados referentes a tais paradas, no
intuito de analisar se as mesmas representavam rudos significativos na aprendizagem.
(iii) a freqente variao da velocidade do trem. Esta variao observada quando a
velocidade chega muito prxima a velocidade mxima permitida e em seguida retorna a
velocidade mdia do trajeto (conforme trechos entre os quilmetros 323 e 320). O con-
trrio, redues bruscas e retomadas velocidade mdia, observado somente quando o
trem pra. Poucos foram os trajetos onde a velocidade se manteve constante ou muito
prxima da velocidade mdia, a exemplo do que acontece prximo ao quilmetro 315 e
entre aos quilmetros 305 e 300. As velocidades de 255 km/h, presentes no quilmetro
332, foram removidas durante o pr-processamento dos dados. Elas indicam ausncia de
medida exata.
A Figura 33 mostra o nmero de aplicaes de cada ponto de acelerao ao lon-
go de uma determinada viagem. Pode-se observar que h uma grande quantidade de
aplicaes do ponto 7. Tal ponto de acelerao gera a potncia necessria para percorrer
trechos de via com alta e baixa resistncia. Este ponto mais utilizado em situaes de
cruzeiro.
180
160
140
Quantidade
120
100
80
60
40
20
0
-1 0 1 2 3 4 5 6 7 8
Ponto de Acelerao
Figura 33 Uso dos pontos de acelerao pela maquinista ser humano.
Mostrar-se-, na prxima seo, que foi possvel abstrair o conhecimento do

maquinista por meio da aplicao mtodos de aprendizagem de mquina, onde tal co-
nhecimento foi obtido na forma de classificadores. A abstrao conseguida traduzida
na forma de um grau de similaridade entre as tomadas de aes de um maquinista e as
103
tomadas de aes sugeridas pelo simulador, por meio de seu classificador. Em outras
palavras, esta abstrao quantificada. E ela representa de certa forma, o grau de imi-
tao que simulador realiza, usando os conhecimentos que lhe foi fornecido na forma
de um classificador, com relao ao maquinista.
6.2.1 Aplicao do Conhecimento Descoberto
Como j foi dito anteriormente, a aplicao dos conhecimentos descobertos, no

formato de classificadores, foi realizada por meio da incluso das regras de tais classifi-
cadores no ciclo de tomada de decises do simulador de conduo de trens, objeto deste
trabalho. Desta forma, o simulador o responsvel por carregar os classificadores gera-
dos, interpretar suas regras e tomar decises com base nas recomendaes sugeridas.
Foram simuladas diferentes viagens seguindo as caractersticas descritas na Tabela 21.
Tabela 21 - Configuraes dos experimentos entre termos de composio

e comprimento do trecho de via.
Distncia Quantidade
Configurao
Percorrida Locomotivas Vages
A 71.48 3 58
B 66.94 4 59
C 70.62 3 47
Da Figura 34 Figura 36 mostra-se o resultado da aplicao do classificador

JRIP+BOOSTING nas viagens A, B e C. A sua aplicao resulta em diferentes compor-
tamentos, visto que as viagens possuem caractersticas distintas entre si, como peso e
pontos de incio e fim. Outros pontos merecem destaque quanto ao comportamento do
simulador:
(i). As restries de velocidade mxima foram impostas de acordo com os his-
tricos das viagens. As viagens, quando comparadas, seguem as mesmas
caractersticas de via e trens das viagens reais, assim os limites de veloci-
dades so os mesmos;
(ii). As velocidades iniciais da viagem at os pontos A1, A2 e A3 so seme-
lhantes. Elas mudam de forma significativa, aps estes pontos (entre qui-
lmetros 337 e 325), porque as velocidades mximas so diferentes; e
(iii). As aplicaes de freio so em pontos semelhantes durante as viagens e no
apresentam valores abaixo de 80 psi. As aplicaes so mais freqentes
104
quando h velocidades mximas muito prximas das velocidades pratica-

pratic
das.
A1
Figura 34 - Resultado da simulao para a configurao A usando as regras descobertas

por meio do mtodo JRIP+BOOSTING.
A2
Figura 35 - Resultado da simulao para a configurao B usando as regras descobertas

JRIP+BOOSTING
A3
Figura 36 - Resultado da simulao para a configurao C usando as regras descobertas

JRIP+BOOSTING
105
A Figura 37 apresenta a soma das utilizaes de cada ponto de acelerao nas

viagens A, B e C. Em ambas as viagens, o ponto de acelerao mais utilizado foi o -1,
que representa aplicao de freio automtico, seguido pelo ponto 1 e o ponto 8. O ponto
de acelerao 1 foi mais utilizado que o ponto 8 devido a sobra de potncia para vencer
o percurso.
160
140
120
Quantidade
100
80
60
40
20
0
-1 0 1 2 3 4 5 6 7 8
Ponto de Acelerao
Viagem 01 Viagem 03 Viagem 06
Figura 37 - Uso dos pontos de acelerao nas viagens 1, 3 e 6 para

as configuraes A, B e C
As prximas sees mostram os resultados obtidos a partir destas duas viagens

simuladas, seguindo caractersticas definidas para C.
6.2.1.1 Viagem A
Esta viagem foi realizada aplicando todos os classificadores obtidos pelos mto-
dos JRIP, JRIP+BAGGING e JRIP+BOOSTING, a partir do conjunto de treinamento
CN. O trecho de ferrovia tinha aproximadamente 68 quilmetros de extenso. O trem
era composto por duas locomotivas e trinta e um vages. O consumo final desta viagem
foi de 5,92 LTKB. Este valor prximo do consumo real no valor de 6.17 LTKB. As
duraes de 161 minutos e 176 minutos foram observadas, respectivamente, para a con-
duo realizada pelo simulador e pelo maquinista.
A Figura 38 mostra os resultados da execuo da viagem usando um classifica-
dor gerado pelo JRIP. A velocidade praticada permaneceu na maioria do percurso abai-
xo da velocidade mxima permitida. Em alguns pontos, tal velocidade foi maior que a
mxima, porm no ultrapassou 2 km/h, limite considerado aceitvel e seguro. A resis-
tncia inversamente proporcional a velocidade praticada. Quando a resistncia aumen-
ta, a velocidade tende a cair devido falta de fora do trem para percorrer o trajeto. Tre-
106
chos com resistncia alta indicam aclives e nestas situaes a velocidade tende a ser
reduzida.
Figura 38 Dados da viagem A usando um classificador JRIP.
Durante a viagem, (i) vrias trocas de ponto de acelerao so realizadas,

realizadas sendo
o ponto -1 o mais utilizado, seguido pelos pontos 1 e 8;
8 (ii) das vinte e cinco regras do
classificador onze foram aplicadas.
aplicadas Cada regra indica um ponto de acelerao no ex-
e
clusivo. A regra mais utilizada foi a DEFAULT, que sugere a aplicao do oitavo ponto
de acelerao. Sua aplicao foi de 63% da viagem.. A Figura 35 mostra outras duas
regras que tambm foram utilizadas com freqncia.
Regra I:
(C_PERCENTUAL_RAIO_CURVA_6 >= 600.650024) and
(C_PERCENT_ENT_INCLINACAO_INSCRICAO_6 <= 0.501071) and
(C_PERCENTUAL_RAIO_CURVA_10 <= 499)
=> C_PONTO_ACEL=1 (41.0/4.0)
Regra II:
(C_PERCENTUAL_RAIO_CURVA_2 <= 402.850006) and
(C_PERCENT_ENT_INCLINACAO_INSCRICAO_5 <= 0.125223) and
(C_PERCENTUAL_CURVA_VENCIDA_1 <= 90.359055) and
(C_CABECEIRA_4 = nivel)
=> C_PONTO_ACEL=7 (35.0/6.0)
Figura 39 - Regras freqentemente utilizadas pelo classificador
A Regra I sugere a aplicao do ponto de acelerao 1, baseando-se

se no percen-
perce
tual de raio da curva e no percentual de rampa. A Regra II sugere a aplicao do ponto
de acelerao 7, baseado-se
se no percentual de raio de curva, no percentual de rampa, no
percentual de curva vencida e parte da locomotiva encontra-se
encontra em nvel. Um segundo
107
classificador foi utilizado para a mesma viagem. Este segundo classificador foi gerado
usando o mtodo BOOSTING. A regra padro foi novamente a mais utilizada, porm
em apenas 31% da viagem. Esta taxa foi inferior ao JRIP (63%), JRIP+BAGGING
(36.5%).
Finalmente, executou-se uma abordagem combinatria. Em outras palavras, ca-
da percepo foi submetida a trs classificadores diferentes, obtidos, respectivamente,
pelo JRIP, JRIP+BAGGING e JRIP+BOOSTING, resultando em trs diferentes regras
sugeridas. A regra com maior suporte foi selecionada para ser aplicada. A execuo
desta abordagem visou utilizar o conhecimento abstrado pelos trs classificadores du-
rante uma conduo. Esta abordagem foi nomeada de TODOS.
6.2.1.2 Viagem B
Esta viagem foi realizada aplicando todos os classificadores obtidos pelos mto-
dos JRIP, JRIP+BAGGING e JRIP+BOOSTING, a partir do conjunto de treinamento
SN. A particularidade reside na remoo dos registros relacionados s paradas interme-
dirias do trem. A questo era saber se tais registros interferem na montagem de uma
poltica de conduo. Os grficos (a) e (b) da Figura 40 mostram as velocidades execu-
tas e mximas da viagem antes da remoo e depois da remoo de tais registros. Visu-
almente, a diferena entre os grficos reside na ausncia de velocidades igual a zero, no
grfico (b).
(a) (b)
Figura 40 Exemplo de viagem antes (a) e aps (b) a remoo das paradas.
O resultado da execuo da viagem utilizando o classificador JRIP mostrado

na Figura 41. Assim como na Viagem Simulada I, as polticas de conduo sugeridas
pelos classificadores resultaram em comportamentos semelhantes. A velocidade prati-
108
cada e as frenagens foram similares s praticadas na Viagem Simulada I. Em resumo, a

remoo dos registros referentes
entes s paradas intermedirias no foi importante.
Figura 41 Dados da viagem B usando um classificador JRIP.
Durante a viagem, alguns pontos de acelerao tiveram a mesma quantidade de

aplicaes, como, por exemplo, os pontos 5 e 6. Outros, como o ponto 2,, foram menos
utilizados durante a viagem. O ponto -11 foi o mais aplicado, devido s vrias utilizaes
de freio durante a viagem, necessrias para no deixar o trem ultrapassar a velocidade
mxima permitida. Isto se faz necessrio porque o Simulador busca sempre aumentar a
velocidade do trem,, enquanto a velocidade mxima no foi atingida.
atingida. Como o classifica-
classific
dor no foi capaz de abstrair o conhecimento necessrio para a utilizao de freios, en-
e
to foi necessrio
rio incluir um conjunto de regras especficas para uso dos freios. Essas
regras interferem na sugesto do classificador.
A regra padro foi aplicada de forma muito semelhante em todos os casos estu-
est
dos (em torno de 30% dos casos), seguida pela regra mostrada na Figura 42.
42 Esta regra
baseia-se fundamentalmente no
no percentual de inclinao de rampa em quatro pontos
distintos da composio (0, 1, 4 e 5) e sugere a aplicao do ponto de acelerao 1.
(C_PERCENT_SAI_INCLINACA
C_PERCENT_SAI_INCLINACAO_INSCRICAO_4 <= -0.0175) and
(C_PERCENT_ENT_INCLINACAO_INSCRICAO_5
C_PERCENT_ENT_INCLINACAO_INSCRICAO_5 <= 0.183347) and
0.183347)
(C_PERCENT_ENT_INCLINACAO_INSCRICAO_0
C_PERCENT_ENT_INCLINACAO_INSCRICAO_0 <= 0.283798) and
0.283798)
(C_PERCENT_ENT_INC
C_PERCENT_ENT_INCLINACAO_INSCRICAO_1 <= 0.811892)
=> C_PONTO_ACEL=1
Figura 42 - Regra utilizada pelo classificador JRIP sem dados de
paradas.
109
Na prxima seo ser detalhada a anlise de similaridade entre as polticas de

aes do maquinista ser humano e as polticas de aes do simulador.
6.2.2 Anlise da Similaridade da Conduo
A forma adotada para avaliar a eficincia de um classificador, na definio de

uma poltica de ao, foi medir a similaridade entre as aes sugeridas pelo classificador
e as aes efetivamente realizadas pelo maquinista ser humano. Em termos matemti-
cos, a mtrica foi operacionalizada por meio do clculo do cosseno. Tal clculo dado
pela Equao 38, onde o vetor
representa os pontos de acelerao usados pelo maqui-
nista ser humano e o vetor e representa os pontos de acelerao sugeridos pelo classi-
ficador. O nmero total de aes igual a n. Os valores resultantes da equao variam
entre zero e um, sendo que quanto mais prximo de um, mais similares so os vetores e
conseqentemente melhor o conhecimento obtido.
uv
cos = cos( u , v ) = (38)
u 2
n v 2
n
Na seqncia sero mostrados os resultados obtidos a partir da aplicao de qua-

tro classificadores, obtidos respectivamente, a partir do conjunto de treinamentos CN. A
diferena entre os classificadores encontra-se no mtodo utilizado para obt-los, a saber:
JRIP, JRIP+BAGGING, JRIP+BOOSTING e TODOS. Este ltimo uma combinao
dos trs primeiros. A configurao do trem corresponde a viagem C da Tabela 21.
A Figura 43 mostra as diferenas entre os pontos de acelerao sugeridos pelo
classificador e os pontos aplicados pelo maquinista ser humano. Tais diferenas so
computadas da seguinte forma: (i) quando o valor zero, tem-se que o ponto de acelera-
o sugerido e aplicado so os mesmos; (ii) quando o valor for maior que zero, tem-se
que o ponto de acelerao sugerido maior que o aplicado; e (iii) quando o valor for
menor que zero, tem-se que o ponto de acelerao sugerido menor que o aplicado.
Desta forma, quanto maior for a concentrao de pontos em torno do valor zero, melhor
foi aplicao do classificador na definio de uma poltica de ao. A similaridade de
conduo foi de 83.9%. Este valor foi calculado por meio da frmula 38.
110
Figura 43 Diferenas entre pontos de acelerao sugeridos pelo classificador e aplica-

aplic
dos pelo maquinista conjunto de treinamento CN e mtodo JRIP.
De forma anloga ao raciocnio anterior, a Figura 44 mostra as diferenas entre

os pontos de acelerao sugeridos pelo classificador obtido por meio do mtodo
JRIP+BAGGING. Trechos antes muito similares (entre quilmetros 310 e 300) tiveram
t
uma similaridade reduzida, devido diferena nas regras de conduo, que foram me-
m
nos eficazes neste trecho. A similaridade de conduo aqui foi de 85.6%.
Figura 44 - Diferenas entre pontos de acelerao sugeridos pelo classificador e aplica-

aplic
dos pelo maquinista conjunto de treinamento CN e mtodo JRIP+BAGGING.
BAGGING.
111
A Figura 45 mostra as diferenas entre os pontos de acelerao sugeridos

sugerido pelo
classificador obtido por meio do mtodo JRIP+BOOSTING.
JRIP+ Com este conjunto de re-
r
gras, a similaridade foi de 87,8%, sendo a melhor obtida nos experimentos.

aplic
dos pelo maquinista conjunto de treinamento CN e mtodo JRIP+BOOSTING.
JRIP+BOOSTING
Finalmente, executou-se
se uma abordagem combinatria. Em outras palavras, ca-
c
da percepo foi submetida a trs classificadores (obtidos por meio da aplicao respec-
resp
tivamente dos mtodos JRIP, JRIP+BAGGING e JRIP+BOOSTING ao conjunto de
treinamento CN), retornando trs diferentes regras. A regra com maior suporte sele-
sel
cionada para ser aplicada. A conduo usando tal abordagem (Figura 46),
), no mostrou
ser melhor que a obtida por apenas um classificador na predio do ponto de acelerao
a ser empregado. A similaridade foi de 85.6% contra 87.8% do classificador
JRIP+BOOSTING.
112

aplic
dos pelo maquinista conjunto de treinamento CN e mtodo TODOS.
TODOS
Na seqncia so mostrados, na forma de tabelas, os melhores resultados para

oito viagens. As diferenas entre as tabelas residem no conjunto de treinamento usado
para obter os classificadores.
A Tabela 22 resume os melhores resultados para o conjunto de treinamento CN.
CN
Pode-se
se observar que o classificador que forneceu o melhor resultado foi obtido pelo
mtodo JRIP+BOOSTING.
BOOSTING. Ele foi melhor em cinco
inco das oito diferentes viagens com de
taxa de similaridade superior a 85%. As piores taxas de similaridade foram s resultan-
tes da aplicao do JRIP, em seis das oito viagens.
Tabela 22 - Resultados usando classificadores obtidos a partir do conjunto de treinamento CN.

Viagem Tamanho da Resultados Obtidos
Classificador
nmero Amostra (%) Similaridade LTKB Tempo
JRIP+BAGGING 1 10 0,812 -0,30 37
JRIP+BOOSTING 2 20 0,864 0,10 28
JRIP 3 10 0,847 -0,52 8
JRIP+BOOSTING 5 10 0,855 -0,29 14
JRIP+BOOSTING 6 10 0,878 -0,36 -11
JRIP+BOOSTING 7 10 0,865 -0,07 -44
JRIP+BOOSTING 8 30 0,855 -0,25 -47
JRIP+BAGGING 9 20 0,822 0,12 -12
A Tabela 23 resume os melhores resultados para o conjunto de treinamento C4.

A particularidade reside na reduo do nmero de classes de 10 para 4 (classes: -1, 3, 7
e 8). Pode-se
se observar que o classificador que forneceu o melhor resultado foi obtido
113
pelo mtodo JRIP. Comparando tais resultados com os valores da Tabela 22, nota-se
que houve uma queda na similaridade na conduo. A nica linha de ambas as tabelas
que no sofreram alterao foi primeira.
Tabela 23 - Resultados usando classificadores obtidos a partir do conjunto de treinamento C4.
Classificador Viagem Nmero Tamanho da Amostra (%) Similaridade
JRIP+BAGGING 1 30 0,804
JRIP 3 30 0,813
JRIP 5 10 0,831
TODOS 6 10 0,815
JRIP 7 30 0,809
JRIP 8 10 0,840
JRIP+BOOSTING 9 20 0,817
A Tabela 24 apresenta os melhores resultados para o conjunto de treinamento

SN. Assim como nos experimentos realizados com o conjunto de treinamento C4, o
classificador obtido pelo mtodo JRIP+BOOSTING, no se sobreps em relao aos
demais, visto que o classificador com os melhores resultados foi o JRIP. Ele foi melhor
em trs das oito diferentes viagens com de taxa de similaridade superior a 85%.
Tabela 24 - Resultados usando classificadores obtidos a partir do conjunto de treinamento SN.
JRIP 1 20 0,825
JRIP 3 20 0,841
JRIP 6 20 0,876
JRIP 7 20 0,863
JRIP 8 20 0,864
A Tabela 25 apresenta os melhores resultados para o conjunto de treinamento

S4. Diferente do que aconteceu nos experimentos descritos em Tabela 23 e Tabela 24,
os resultados mostram que o classificador JRIP+BOOSTING foi melhor em cinco das
oito viagens (viagens 3, 5, 7, 8 e 9). As taxas de similaridade permaneceram muito pr-
ximas das obtidas nos experimentos anteriores.
114
Tabela 25 - Resultados usando classificadores obtidos a partir do conjunto de treinamento S4.
TODOS 1 30 0,811
JRIP 6 30 0,843
Em resumo, todos os classificadores usados nos experimentos foram obtidos a

partir de uma mesma base de dados, BDViagensF. As diferenas portam sobre algumas
variaes que foram realizadas nos conjuntos de treinamentos, a saber: reduo do n-
mero de classes para balancear o conjunto de treinamento e remoo dos registros refe-
rentes s paradas intermedirias do conjunto de treinamento. Estas variaes resultaram
em quatro diferentes conjuntos de treinamentos, que so: a) CN: base de dados origi-
nal enriquecida BDViagensF; b) C4: base de dados CN com apenas quatro classes; c)
SN: base de dados CN removidos os registros das paradas intermedirias; e d) S4:
base de dados SN com apenas quatro classes.
Sobre cada uma destas quatro bases de dados foram geradas trs amostras, cujos
tamanhos foram de 10%, 20% e 30%. Para cada amostra foram gerados trs classifica-
dores, usando respectivamente os seguintes mtodos, JRIP, JRIP+BAGGING e
JRIP+BOOSTING. Cada classificador foi testado usando as seguintes abordagens: vali-
dao cruzada ou um conjunto de exemplos especficos de teste, correspondendo 30%
do conjunto de treinamento. Em resumo, foram gerados 72 classificadores.
Em concluso, os classificadores gerados a partir do mtodo JRIP+BOOSTING
produziram as melhores taxas de acertos e tambm as melhores taxas de similaridades,
quando comparadas as viagens simuladas e viagens reais realizadas por maquinistas
seres humanos. Teoricamente, este resultado j era esperado. Experimentalmente, este
resultado tambm corrobora com o que foi descrito em Lopes (2007).
Para um grau de significncia de 5%, o Teste de Friedman mostrou que no h
diferenas entre os classificadores em termos de suas taxas de acerto em algumas situa-
115
es. Entretanto, as alteraes nos conjuntos de treinamentos (C4 e SN) no se traduzi-

ram em melhores resultados em termos de taxa de acerto. A efetividade da aplicao
dos classificadores, na conduo de um trem, por meio do simulador na montagem de
uma boa poltica de conduo. Tal efetividade foi traduzida por meio da taxa de simila-
ridade entre o conjunto de aes tomadas pelo maquinista e o conjunto de aes toma-
das pelo simulador. As melhores taxas ficaram em torno de 85%.
A principal contribuio de um classificador, na abordagem adotada para a reali-
zao do simulador de conduo de trens, reside na reduo do espao de busca do pon-
to de acelerao ideal para uma dada circunstncia. A taxa de similaridade de 85% su-
pracitada corrobora com tal afirmao.
116
Captulo 7
Concluses
Conforme mencionadas no Captulo 2, diferentes tcnicas de minerao de da-

dos tm sido utilizadas no processo de descoberta de conhecimento em bases de dados
no decorrer dos ltimos anos. Algoritmos de aprendizagem de mquina, como por e-
xemplo, o C4.5, so empregados com sucesso em bases de dados com caractersticas
distintas. Quando combinados em diferentes variantes, tais como BAGGING e
BOOSTING, tem-se percebido melhoras significativas no processo de classificao.
Relembramos que o objetivo deste trabalho era descobrir padres, a partir de da-
dos coletados por meio de diferentes sensores instalados em um trem de carga, para
ajudar no planejamento e execuo de uma boa poltica de conduo. Sobre os dados
coletados foram aplicados processos de descoberta de conhecimento: (i) seleo dos
atributos, (ii) incluso de novos atributos, (iii) transformao de dados, (iv) remoo de
dados ruidosos, (v) aplicao de algoritmos tais como: JRIP, JRIP+BAGGING e
JRIP+BOOSTING (vi) interpretao das regras e (vii) validao do conhecimento obti-
do.
Para validar a abordagem, uma vez obtidos os classificadores, era necessrio a-
plic-los para verificar sua eficincia. Para tal foi desenvolvido um mdulo de software
que simula a realizao das tomadas de aes para uma viagem. O ciclo bsico de exe-
cuo do simulador consiste em perceber um evento, submet-lo ao classificador que
retorna o ponto de acelerao pa, avaliar se o pa aplicvel, se a avaliao for positiva
ento o pa aplicada, caso contrrio um processo de ajuste lanado.
Este processo de tomada de deciso resultou em regras de conduo que, quando
empregadas, obtiveram similaridades em torno de 85% entre as aes do simulador e do
maquinista para uma mesma viagem. Acreditamos que estas regras: (i) poderiam ter
aumentado tal taxa de similaridade, se o conjunto de dados de treinamentos fosse mais
significativo e tambm se os maquinistas tivessem comportamentos menos especficos
no tocante s trocas dos pontos de acelerao; e (ii) podem ser aplicadas como uma
117
forma de auxiliar o maquinista, sugerindo rapidamente um ponto de acelerao frente

uma situao observada.
Os classificadores gerados pelo mtodo JRIP+BOOSTING produziram os me-
lhores resultados, tanto em taxas de acerto como em taxas de similaridade. Tal taxa de
similaridade mede o quo prximo foram tomadas aes, na execuo de uma viagem,
pelo simulador e pelo maquinista.
De modo geral, os classificadores tendem a sugerir pontos de acelerao acima
do necessrio para vencer as resistncias devido grande quantidade de registros nos
conjuntos de treinamentos associados aos pontos sete e oito. Isto pode ser observado
uma vez nos grficos que mostraram a similaridade da conduo por das diferenas en-
tre o ponto de acelerao sugerido e aplicado pelo simulador. Acreditamos que, quando
tais classificadores, forem usados para conduzir trens com pesos maiores que os simula-
dos neste trabalho podem-se melhorar os resultados, pois a tendncia do classificador
em sugerir pontos com potncia superior requerida poder ser mais bem aproveitada.
Para um grau de significncia de 5%, o teste de Friedman mostrou diferenas en-
tre os classificadores gerados a partir dos diferentes conjuntos de treinamentos usados.
Entretanto, tal diferena teve efeito quase nulo na utilizao dos classificadores, no inte-
rior do simulador, para sugerir pontos de acelerao e traduzir suas sugestes em via-
gens mais econmicas. Isto ocorreu devido influncia das regras das camadas de con-
trole. Estas regras ajustam as sugestes dos classificadores, por exemplo, para evitar
patinagem. Observou-se que embora cada classificador faa sugestes de pontos de ace-
lerao diferentes, a aplicao das regras das camadas de controle selecionam pontos de
acelerao muito prximos ou iguais. Entretanto, deve-se salientar que por mais que
sejam aplicados os mesmos pontos de acelerao, como cada classificador sugere pon-
tos de acelerao diferentes, as taxas similaridades so diferentes.
7.1 Limitaes
As principais limitaes podem ser resumidas nos seguintes itens:

1. Nmero reduzido de dados histricos de viagens;
2. Dificuldade em gerar classificadores com o conjunto total de exemplos em
termos de recursos computacionais;
118
3. Ausncia de modelos matemticos referentes frenagem de trem, impossibi-

litando realizao de procedimentos simulados de frenagem mais aderentes
a realidade;
4. Ausncia de validao do conjunto de regras por um especialista em condu-
o. Os testes realizados foram objetivos.
7.2 Trabalhos Futuros
Uma das possveis extenses utilizar uma quantidade de dados maior na gera-
o dos classificadores. Tais dados podero ser obtidos a partir de viagens reais ou via-
gens simuladas em laboratrio. A simulao de viagem em laboratrio poderia ser reali-
zada pelo prprio simulador.
Outras extenses podem ser executadas no que se referem s alteraes quanto
forma de escolher o ponto de acelerao. At o presente momento, a nica abordagem
testada foi selecionar as regras com maior suporte. As outras abordagens poderiam es-
colher, por exemplo, o ponto: (i) que resultasse em maior deslocamento, (ii) que resul-
tasse em menor consumo e (iii) o mais votado dentre trs ou mais classificadores.
A utilizao de outros algoritmos de minerao de dados tambm pode ser ex-
plorada como possvel extenso do trabalho no intuito de suprir as deficincias dos al-
goritmos usados. Uma alternativa seria a mudana no mdulo interpretador de regras
para que este operasse com regras geradas pelo software Clementine, disponvel no
laboratrio de pesquisa. Este software gera um conjunto de regras utilizando o algorit-
mo See54, uma verso aprimorada do algoritmo C45. Acredita-se poder, desta forma,
melhorar a taxa de acerto dos classificadores e conseqentemente a taxa de similaridade
de conduo.
4
Maiores informaes em http://www.rulequest.com/
119
Referncias Bibliogrficas
ALL. 2007. ALL Anuncia Resultados de 2007. [Online] 2007. [Citado em: 24 de 04 de
2008.] Disponvel em:
http://www.mzweb.com.br/all/web/arquivos/ALL_Resultados_4T07_port.pdf.
. 2008. Procedimentos na conduo de trens. Curitiba : AMRICA LATINA
LOGSTICA DO BRASIL S.A., 2008.
ANTT, AGNCIA NACIONAL DE TRANSPORTES TERRESTRES. 2008.
Relatrio Anual de Acompanhamento das Concesses Ferrovirias. [Online] 2008.
[Citado em: 24 de 04 de 2008.]
http://www.antt.gov.br/relatorios/ferroviario/concessionarias2006/index.asp.
AVALLONE, E. A. e BAUMEISTER, T. 1996. Marks' Standard Handbook for
Mechanical Engineers. s.l. : McGraw-Hill Professional, 1996. p. 1792.
BAUER, ERIC e KOHAVI, RON. 1999. An Empirical Comparison of Voting
Classification Algorithms: Bagging, Boosting, and Variants. Machine Learning,
36(1/2). 1999, pp. 105-139.
BENENSON, R., et al. 2008. Towards urban driverless vehicles. International Journal
of Vehicle Autonomous Systems. 2008, Vol. 6, pp. 4-23.
BERTOLAZZI, E., et al. 2008. Development of a reduced size unmanned car.
Advanced Motion Control AMC 10th IEEE International Workshop on AMC. 2008,
Vols. 26-28, pp. 763-770.
BRAGA, A.C. 2000. Curvas ROC: Aspectos Funcionais e Aplicaes. s.l. :
Universidade do Minho, 2000. Tese (Doutorado em Engenharia de Produo e
Sistemas).
BREIMAN, L. 1996. Bagging predictors. Machine learning, 24(2). 1996, pp. 123-140.
BREIMAN, L., et al. 1984. Classification and Regression Trees. 1 Edio. s.l. :
Chapman & Hall/CRC, 1984. p. 368. 0412048418.
BRINA, HELVCIO LAPERTOSA. 1982. Estradas de ferro. Rio de Janeiro : LTC,
1982. Vol. 2.
CALLEGARI, J. e SIDIA, M. 2003. Bioestatstica: Princpios e Aplicaes. Porto
Alegre : Artmed, 2003.
CHEN, L., WRIGHT, P. e NEJDL, W. 2009. Improving music genre classification
using collaborative tagging data. Proceedings of the Second ACM International
Conference on Web Search and Data Mining. 2009, pp. 84-93.
CIOS, K. J., et al. 2007. Data Mining: A Knowledge Discovery Approach. s.l. :
Springer, 2007. p. 606. ISBN: 978-0-387-33333-5.
COHEN, W. W. 1995. Fast Effective Rule Induction. Twelfth International Conference
on Machine Learning. 1995, 12, pp. 115-123.
DEMSAR, J. 2006. Statistical Comparisons of Classifiers over Multiple Data Sets.
Journal of Machine Learning Research. 7, 2006, 7, pp. 1-30.
120
DIAMANTIDIS, N.A., KARLIS, D. e GIANKOUMAKIS, E.A. 2000. Unsupervised

stratification of cross-validation for accuracy estimation. Artificial Intelligence, 116.
2000, pp. 1-16.
DOWNING, D. e J., CLARK. 1998. Estatstica Aplicada. 1 ed. So Paulo : Saraiva,
1998.
FAWCETT, T. e PROVOST, F. 2006. An introduction to ROC analysis. Pattern
Recongnition Letters. 2006, Vol. 227, 8, pp. 861-874.
FAWCETT, T. 2004. ROC Graphs: Notes and Practical Considerations for
Researches. Palo Alto : s.n., 2004. p. 38.
FAYYAD, U. M. 1996. Data mining and knowledge discovery: making sense out of
data. IEEE Expert. 5, 1996, Vol. 11, pp. 20-25.
FAYYAD, U., PIATETSKI-SHAPIRO, G. e PADHRAIC, P. 1996. The KDD
Process for Extracting Useful Knowledge from Volumes of Data. Communications of
the ACM. 1996, pp. 27-34.
FEYYAD, U. M. 1996. Data mining and knowledge discovery: making sense out of
data. IEEE Expert. 5, 1996, Vol. 11, pp. 20-25.
FREUND, Y. e SCHAPIRE, R.E. 1996. Experiments with a new boosting algorithm.
Proceedings of the 13th International Conference on Machine Learning. 1996, pp. 148-
156.
GENG, X., LIU, T. e LI, H. 2007. Feature Selection for Ranking. Procedings of 30th
Anual International ACM SIGIR Conference. 2007, 30th.
GU, BAOHUA, HU, FEIFANG e LIU, HUAN. 2000. Sampling and Its Application in
Data Mining: A Survey. Cingapura : s.n., 2000. p. 33. Disponvel em:
http://hdl.handle.net/1900.100/1408. Acesso em: 20 de abril de 2008..
HALL, M. A. 2000. Correlation-based feature selection for discrete and numeric class
machine learning. Proc. of the 17th Int. Conf. on Machine Learning. 2000, pp. 359-366.
. 1998. Correlation-based Feature Selection for Machine Learning. Hamilton :
Department of Computer Science, University of Waikato, 1998. Ph.D. thesis.
HALL, M. A. e HOLMES, G. 2003. Benchmarking Attribute Selection Techniques for
Discrete Class Data Mining. IEEE Transactions on Knowledge and Data Engineering.
2003, Vol. 15, 3.
HAN, JIAWEI e KAMBER, MICHELINE. 2006. Data Mining: Concepts and
Techniques. Second Edition. San Franciso, CA : Morgan Kaufmann, 2006. p. 772.
HAND, DAVID J. e TILL, ROBERT J. 2001. A Simple Generalisation of the Area
Under the ROC Curve for Multiple Class Classification Problems. Machine Learning.
2001, pp. 171-186.
HAWKINS, D. M. 1980. Identification of outliers. London : Chapman & Hall, 1980. p.
188.
HUAN, LIU e MOTODA, HIROSHI. 1998. Feature Selection for Knowledge
Discovery and Data Mining. s.l. : Kluwer Academic Publishers, 1998.
HUSSAIN, FARHAD, et al. 1999. Discretization: An Enabling Technique. The
National University of Singapure. Technical Report. Junho de 1999, pp. 1-29.
121
INMON, W. H. 2002. Building the Data Warehouse. 3 ed. Toronto : Willey Computer
Publishing, 2002.
ISAAC, ANDREW e SAMMUT, CLAUDE. 2003. Goal-directed Learning to Fly.
Proceedings of the 20th International Conference on Machine Learning. 2003, pp. 258-
265.
KALOS, A. e REY, T. 2005. Data mining in the chemical industry. Proceedings of the
eleventh ACM SIGKDD international conference on Knowledge discovery in data
mining. 2005, pp. 763-769.
KOHAVI, R. e JOHN, G. 1996. Wrappers for Feature Subset Selection. AIK special
issue on relevance. 1996.
KOLLER, D. e SAHAMI, M. 1996. Toward optimal feature selection. Proc. of the
13th Int. Conf. on Machine Learning. 1996, pp. 284-292.
KOLSKI, S., et al. 2006. Autonomous driving in structured and unstructured
environments. IEEE Intelligent Vehicles Symposium. 2006, pp. 558-563.
LEE, H. D., MONARD, M. C. e BARANAUSKAS, J. A. 1999. Empirical
comparison of wrapper and filter approaches for feature subset selection. So Carlos :
ICMC-USP, 1999. Disponvel em:
ftp://ftp.icmc.usp.br/pub/BIBLIOTECA/rel_tec/RT_094.pdf.
LIU, HUAN e YU, LEI. 2005. Toward Integration Feature Selection Algorithms for
Classification and Clustering. IEEE Transactions on Knowledge and Data Engineering.
2005, pp. 491-502.
LOPES, LUCELENE. 2007. Aprendizagem de mquina baseada na combinao de
classificadores em bases de dados da rea de sade. Curitiba : s.n., 2007. Dissertao
Mestrado Tecnologia em Sade Pontifcia Universidade Catlica do Paran
Centro de Cincias Biolgicas e da Sade.
MACHADO, FERNANDO e ABREU, MAURICIO. 2004. Projeto de Banco de
Dados: Uma viso prtica. 11 ed. So Paulo : rica, 2004.
MALLOF, A. MARCUS e MICHALSKI, S. RYSZARD. 2000. Selecting Examples
for Partial Memory Learning. Machine Learning Journal. 2000, Vol. 41, pp. 27-52.
MALOOF, MARCUS A. e MICHALSKI, RYSZARD S. 2000. Selecting Examples
for Partial Memory Learning. s.l. : Machine Learning Journal, 2000. pp. 27-52. Vol. 41,
citeseer.ist.psu.edu/maloof00selecting.html.
MITCHELL, T. 1997. Machine Learning. New York : McGraw-Hill, 1997.
MRS, MRS LOGSTICA. 2007. Relatrio da Administrao. [Online] 2007. [Citado
em: 24 de 04 de 2008.] http://www.mrs.com.br/download/Relatorio_Anual_2007.pdf.
NIEVOLA, J. C. 2008. Classificao. [Online] 2008. [Citado em: 09 de 01 de 2008.]
http://www.ppgia.pucpr.br/~nievola/Treinamento/MD/MD-04-Classificacao.pdf.
NILSSON, N.J. 1996. Introduction to machine learning. Stanford : Stanford university,
1996.
OCKHAM, W. 1999. Prlogo da Exposio dos Oitos Livros da Fsica. So Paulo :
Nova Cultural, 1999.
122
PASQUIER, M. e OENTARYO, R. 2008. Learning to frive the human way: a step

towards intelligent vehicles. International Journal Vehicle Autonomous Systems. 2008,
Vol. 6.
PERLICH, C., PROVOST, F. e SIMONOFF, J. 2003. Tree Induction vs. Logistic
Regression: A Learning-Curve Analysis. Journal of Machine Learning Research. 4,
2003, pp. 211-255.
PERLICH, CLAUDIA, PROVOST, FOSTER e SIMONOFF, JEFFREY S. 2003.
Tree Induction vs. Logistic Regression: A Learning-Curve Analysis. Journal of
Machine Learning Research 4. 2003, pp. 211-255.
PINTO, B. G.M., et al. Controle Automtico de Potncia em Locomotivas em Trao
Mltipla usando Microprocessador.
PIRES, C. L., NABETA, S. I. e CARDOSO, J. R. 2005. Simulao de composio
ferroviria acionada por motores de induo e inversores de tenso. Revista Controle &
Automao. 2005, Vol. 16, 1.
PRATI, R. C. 2006. Novas abordagens em aprendizado de mquina para a gerao de
regras, classes desbalanceadas e ordenao de casos. So Carlos : s.n., 2006. p. 191.
Tese de doutorado.
PROVOST, FOSTER e FAWCETT, TOM. 1997. Analysis and Visualization of
Classifier Performance: Comparison under Imprecise Class and Cost Distributions.
Huntington Beach : American Association for Artificial Intelligence, 1997. pp. 43-48.
QUINLAN, J. R. 1993. C4.5: Programs for machine learning. San Francisco : Morgan
Kaufman, 1993.
. 1987. Generation Production Rules from Decision Trees. s.l. : In Proc. of IJCAI 87,
1987. pp. 304-307.
. 1996. Improved Use of Continuous Attributes in C4.5. Journal of Artificial
Intelligence Research. 1996, Vol. IV, pp. 77-90.
RACHEL, F. M. 2006. Proposta de um controlador automtico de trens utilizando
lgica nebulosa preditiva. So Paulo : s.n., 2006. Dissertao apresentada Escola
Politcnica da Universidade de So Paulo para obteno do ttulo de Mestre em
Engenharia..
RODDICK, J., FULE, P. e GRACO, W. 2003. Exploratory medical knowledge
discovery: experiences and issues. ACM SIGKDD Explorations Newsletter. 1, 2003,
Vol. 5, pp. 94-99.
SILLA, C. N., KAESTNER, C. e KOERICH, A. 2005. Classificao Automtica de
Gneros Musicais Utilizando Mtodos de Bagging e Boosting. SBCM - Simpsio
Brasileiro de Computao Musical. Outubro de 2005. Disponvel em:
http://gsd.ime.usp.br/sbcm/2005/papers/tech-12438.html.
SILVA, F. C. 2008. Anlise ROC. [Online] 2008. [Citado em: 15 de 01 de 2008.]
http://www.dpi.inpe.br/~felipe/works/inpe/spr/roc_analyzes.pdf.
SPIEGEL, M. R. 1974. Estatstica. 7 ed. So Paulo : McGraw-Hill do Brasil, 1974.
STOLZER, ALAN J e HALFORD, CARL. 2007. Data Mining applied to flight
operations quality assurance data: A comparison to standart statistical methods. [Online]
2007. [Citado em: 13 de 03 de 2008.]
http://findarticles.com/p/articles/mi_qa5467/is_200701/ai_n21291012.
123
SWOKOWSKI, E. 1983. Clculo com Geometria Analtica. So Paulo : McGraw-Hill,

1983. Vol. II.
TAN, M., STEINBACH, V. e KUMAR, A.W. 2006. Introduction to Data Mining.
Minnesota : Addison Wesley, 2006.
THOMSEN, E. 2002. OLAP: Construindo sistemas de informaes multidimensionais.
2 ed. Rio de Janeiro : Campus, 2002.
UCI. 2008. UCI Machine Learning Repository. [Online] 2008. [Citado em: 30 de 03 de
2008.] http://archive.ics.uci.edu/ml/.
WATKINS, C. J.C.H. e DAYAN, P. 1992. Q-Learning. Machine Learning. 1992, Vol.
VIII, pp. 279-292.
WEKA. 2008. Data Mining with Open Source Machine Learning Software in JAVA.
WEKA. [Online] 2008. http://www.cs.waikato.ac.nz/ml/weka/ Acesso em: 15/01/2008.
WINKLER, S.M., AFFENZELLER, M. e WAGNER, S. 2006. Sets of receiver
operating characteristic curves and their use in the evaluation of multi-class
classification. Proceedings of the 8th annual conference on Genetic and evolutionary
computation. 2006, pp. 1601 1602.
WITTEN, I.H e FRANK, E. 2005. Data Mining: Practical machine learning tools and
techniques. 2 ed. San Francisco : Morgan Kaufmann, 2005.
WREMBEL, R. e C., KONCILIA. 2007. Data Warehouses and OLAP: Concepts,
Architectures and Solutions. 1 ed. Singapura : IRW Press, 2007.

2009 Andrepinz - Vfinal PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

2009 Andrepinz - Vfinal PDF

Enviado por

Direitos autorais:

Formatos disponíveis

ANDR PINZ BORGES

DESCOBERTA DE REGRAS DE CONDUO DE

Dissertao apresentada ao Programa de

DESCOBERTA DE REGRAS DE CONDUO DE

Dissertao apresentada ao Programa de Ps-

rea de Concentrao: Agentes de Software

Orientador: Prof. Dr. Edson Emlio Scalabrin

Dissertao Pontifcia Universidade Catlica do Paran. Programa de Ps-

1. Classificao 2. Conduo de Trens 3. Minerao de Dados. I. Pontifcia U-

Andr Pinz Borges

Dissertao apresentada ao Programa de

Prof. Dr. Instituio:

Prof. Dr. Instituio:

Prof. Dr. Instituio:

Aos demais colegas integrantes do projeto PAI-L, pelas idias e colaboraes

FIGURA 1. BOLETIM DE VIA. (ALL, 2008) .............................................................................................. 8

FIGURA 35 - RESULTADO DA SIMULAO PARA A CONFIGURAO B USANDO AS REGRAS DESCOBERTAS POR

FIGURA 36 - RESULTADO DA SIMULAO PARA A CONFIGURAO C USANDO AS REGRAS DESCOBERTAS POR

TABELA 1. TEMPO NECESSRIO PARA REDUO DA PRESSO DOS FREIOS. .................................................. 13

TABELA 16 - FUNES DE CLCULO, PERCEPO, ATUAO E CLASSIFICAO............................................. 91

TABELA 21 - CONFIGURAES DOS EXPERIMENTOS ENTRE TERMOS DE COMPOSIO E COMPRIMENTO DO

TABELA 22 - RESULTADOS USANDO CLASSIFICADORES OBTIDOS A PARTIR DO CONJUNTO DE TREINAMENTO CN.

BAGGING Bootstrap Aggregating

BOOSTING Meta-algoritmo de minerao de dados

CBL Computador de bordo das locomotivas

JRIP Algoritmo RIPPER implementado na linguagem Java

KDD Knowledge discovery in databases

Kgf Quilograma por tonelada

Litros por tonelada bruta transportada (medida de consumo

PAI-L Piloto Automtico Inteligente para Locomotivas

Ponto de acelerao Componente anlogo marcha de um carro/caminho

Ponto de acelerao Corresponde a aplicao de qualquer ponto de acelerao

Ponto de acelerao Componente anlogo marcha de um carro/caminho

Ponto de acelerao Corresponde a aplicao de qualquer ponto de acelerao

Palavras-chave: Classificao, Conduo de Trens, Minerao de Dados.

Keywords: Classification, Drive trains, Data Mining.

Esta dissertao enquadra-se no contexto do Projeto PAI-L (Piloto Automtico

Grandes volumes de dados podem viabilizar inmeras descobertas. Todavia, a

A competitividade no mundo globalizado altamente acirrada. A eficincia e a

Entretanto, pde-se constatar que a anlise cuidadosa das regras obtidas em um

O objetivo geral deste trabalho descobrir padres a partir de dados coletados

O presente trabalho prope a extrao de regras confiveis e compreensveis de

As contribuies cientficas do presente trabalho so: (i) a obteno e a valida-

1.5 Estrutura do Documento

As sees subseqentes esto organizadas da seguinte forma: o Captulo 2 apre-

Conduzir um trem uma tarefa complexa. O conjunto de conhecimentos e habi-

Planejar as operaes a serem tomadas buscando sempre aproveitar o perfil do

Os procedimentos e as regras de conduo mencionadas ao longo deste captulo

2.1 Movimentao do trem

A movimentao do trem faz-se pelo maquinista e com base em dois boletins. O

Figura 1. Boletim de via. (ALL, 2008)

As restries de velocidade so dinmicas: uma vez encontrado um problema na

Figura 2. Boletim de servio. (ALL, 2008)

recomendado que o maquinista mantenha o trem sempre de dois a trs km/h

A velocidade mxima de um trecho intangvel dependendo das caractersticas

2.2 Freios de uma Locomotiva

te o uso do freio dinmico, o ampermetro tambm serve como parmetro para

Um maquinista no pode fazer mais do que certo nmero de aplicaes de freio

2.3 Trechos Ondulados

Um trecho de via frrea ondulado caracteriza-se por mudanas freqentes nas

2.4 Trechos em Cristas

As cristas so trechos em que h um longo aclive seguido de um longo declive,

possvel tambm utilizar o freio dinmico juntamente com o freio automtico.