TCC Luíza Moreira Bezerra Versão Final

UNIVERSIDADE FEDERAL DE SANTA CATARINA
CENTRO TECNOLÓGICO DE JOINVILLE

CURSO DE ENGENHARIA DE TRANSPORTES E LOGÍSTICA
LUÍZA MOREIRA BEZERRA
COMPARAÇÃO DE MÉTODOS DE APRENDIZADO DE MÁQUINA PARA PREVISÃO

DE DEMANDA NO TRANSPORTE PÚBLICO URBANO
Joinville
2021
COMPARAÇÃO DE MÉTODOS DE APRENDIZADO DE MÁQUINA PARA PREVISÃO

DE DEMANDA NO TRANSPORTE PÚBLICO URBANO
Trabalho de Conclusão de Curso apresentado

como requisito parcial para obtenção do título
de Bacharel em Engenharia de Transportes e
Logística, no curso Engenharia de Transportes
e Logística da Universidade Federal de Santa
Catarina, Centro Tecnológico de Joinville.
Orientador: Prof. Dr. Pablo Andretta Jaskowiak
Joinville
2021
COMPARAÇÃO DE MÉTODOS DE APRENDIZADO DE MÁQUINA PARA

PREVISÃO DE DEMANDA NO TRANSPORTE PÚBLICO URBANO
Este Trabalho de Conclusão de Curso foi

julgado adequado para obtenção do título
de bacharel em Engenharia de
Transportes e Logística, na Universidade
Federal de Santa Catarina, Centro
Tecnológico de Joinville.
Joinville (SC), 04 de maio de 2021.
Banca Examinadora:
________________________
Dr. Pablo Andretta Jaskowiak
Orientador/Presidente
________________________
Dr.(a) Vanina Macowski Durski Silva
1º Membro
Universidade Federal de Santa Catarina
________________________
Dr. Benjamin Grando Moreira
2º Membro
Universidade Federal de Santa Catarina
Dedico este trabalho ao meu avô, Moacyr Dias Moreira.
RESUMO
Uma das informações mais importantes para o planejamento operacional de um sistema

de transporte público urbano é a previsão de demanda de passageiros. Um instrumento
muito conhecido para execução do planejamento de médio a longo prazo é o Modelo de
Quatro Etapas, que inclui outras ferramentas para o cálculo da demanda futura. Porém,
para empresas que fornecem serviço de transporte público é necessário o planejamento
a curtíssimo prazo, para que haja ajustes na oferta do serviço, evitando a saturação
ou ociosidade. Uma alternativa para realizar esta previsão é a utilização de métodos
de Aprendizado de Máquina (AM). Além da escolha do método e de seus respectivos
parâmetros, o conjunto de atributos utilizado para descrever o problema possui grande
influência nos resultados finais da previsão. O objetivo deste trabalho é avaliar e
comparar quantitativamente diferentes métodos de AM para a previsão de demanda de
passageiros utilizando dados de uma linha do sistema de transporte público urbano
da cidade de Joinville. O trabalho também investigou o efeito da quantidade de dados
utilizados durante o processo de treinamento dos modelos, a fim de determinar
qual o tamanho apropriado do conjunto de treinamento. As avaliações realizadas
mostraram que o menor conjunto de dados de treinamento gerou melhores resultados,
especialmente no caso de Árvores de Regressão. De maneira geral, o método que
obteve melhores previsões foi a Árvore de Regressão, enquanto a Regressão Linear
gerou maiores erros.
Palavras-chave: Previsão de Demanda. Aprendizado de Máquina. Regressão.

Transporte Público Urbano.
AGRADECIMENTOS
Agradeço aos meus pais, pela base e apoio que me deram e por terem sonhado comigo
para que este momento chegasse.
Agradeço aos meus avós, Moacyr e Therezinha, pelo apoio e carinho de sempre e por
serem exemplos na minha vida.
Agradeço ao Henrique (meu lindo!) que divide a vida comigo, me aguenta em momentos
que nem eu me aguento e me apoia em todas as decisões.
Agradeço aos meus amigos, em especial ao Natan e ao Kolling, que sempre estiveram
ao meu lado quando eu precisei, e até mesmo quando não precisei, para os momentos
bons e ruins.
Agradeço ao professor Pablo pela paciência e dedicação ao longo desse tempo. Sou
sua fã!
Agradeço à banca, não só por ter aceitado o convite, mas também por compartilhar
deste momento comigo.
Agradeço a todos os professores que tive oportunidade de conhecer ao longo desta
jornada, que contribuíram para que eu chegasse até aqui. Em especial, agradeço à
professora Vanina e à professora Sílvia, que me ajudaram a abrir portas na minha vida
e se tornaram, mais que professoras, amigas.
Agradeço, de maneira geral, a todos os colaboradores da UFSC, que me receberam de
braços abertos, e aos meus colegas de trabalho, que me ajudam diariamente no meu
desenvolvimento profissional e acreditam no meu potencial.
Agradeço à toda minha família e à família do Henrique por terem acreditado no meu
potencial e me ajudado em todo o processo.
"Obrigado a todas as pessoas que contribuíram para meu sucesso e para meu
crescimento como pessoa. Sou o resultado da confiança e da força de cada um de
vocês." (Augusto Branco)
"Não foi sorte, eu mereci."
Margaret Hilda Thatcher

LISTA DE ILUSTRAÇÕES
Figura 1 – Queda de demanda de passageiros nos sistemas de transporte

público por ônibus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Figura 2 – Ciclo dos Transportes . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Figura 3 – Fluxograma básico de planejamento de transportes . . . . . . . . . 19
Figura 4 – Estrutura do Modelo Sequencial de transportes . . . . . . . . . . . . 20
Figura 5 – Etapas do processo KDD . . . . . . . . . . . . . . . . . . . . . . . . 30
Figura 6 – Relação da Mineração de Dados com outras áreas . . . . . . . . . . 32
Figura 7 – Estrutura da Árvore de Decisão . . . . . . . . . . . . . . . . . . . . . 35
Figura 8 – Exemplo de RNA multicamadas típica. . . . . . . . . . . . . . . . . . 37
Figura 9 – Itinerário da Linha 0700 Sul-Centro . . . . . . . . . . . . . . . . . . . 40
Figura 10 – Trecho dos dados utilizados . . . . . . . . . . . . . . . . . . . . . . . 41
Figura 11 – Janela deslizante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
Figura 12 – Tendência da demanda de passageiros por subconjunto . . . . . . . 48
Figura 13 – Resultados por método para o Subconjunto 1 . . . . . . . . . . . . . 53
Figura 17 – Medidos x Previstos com menores valores de RM SE . . . . . . . . 56
Figura 18 – Medidos x Previstos com maiores valores de R2 . . . . . . . . . . . 57
Figura 19 – Medidos x Previstos . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
LISTA DE TABELAS
Tabela 1 – Atributos da base de dados . . . . . . . . . . . . . . . . . . . . . . . 41

Tabela 2 – Atributos explicativos de cada subconjunto . . . . . . . . . . . . . . 42
Tabela 3 – Quantidade de janelas avaliadas . . . . . . . . . . . . . . . . . . . . 45
Tabela 4 – Total de cenários diferentes avaliados . . . . . . . . . . . . . . . . . 46
Tabela 5 – Ranking médio dos resultados por janela em relação ao RM SE e R2 48
Tabela 6 – Resultados por método por subconjunto . . . . . . . . . . . . . . . . 50
Tabela 7 – Oferta versus demanda por base de dados . . . . . . . . . . . . . . 51
Tabela 8 – Oferta versus demanda nos melhores resultados por subconjunto . 52
Tabela 9 – Melhores resultados de RM SE e R2 por método . . . . . . . . . . . 58
Tabela 10 – Ranking médio dos resultados por método em relação ao RM SE e R2 58
Tabela 11 – Resultado final . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
LISTA DE SIGLAS
R2 Coeficiente de Determinação
RM SE Root Mean Squared Error
AM Aprendizado de Máquina
IA Inteligência Artificial
KDD Knowledge Discovery in Databases
kNN k-Nearest Neighbors
MLP Multilayer Perceptron
RBF Radial Basis Function
ReLU Rectified Linear Unit
RNA Rede Neural Artificial
SVM Support Vector Machines
SVR Support Vector Regression
TAE Teoria de Aprendizado Estatístico

SUMÁRIO
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Estrutura do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 PLANEJAMENTO DE TRANSPORTES . . . . . . . . . . . . . . . . 17
2.1 Modelo de Quatro Etapas . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Geração de Viagens . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.2 Distribuição de Viagens . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.3 Divisão Modal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.4 Alocação de Tráfego . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Demanda por transportes . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS . . . 27

3.1 Pré-processamento de dados . . . . . . . . . . . . . . . . . . . . . 30
3.2 Mineração de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.2.1 Métodos de Aprendizado de Máquina . . . . . . . . . . . . . . . . . . 33
3.2.1.1 Regressão por Vizinho Mais Próximo . . . . . . . . . . . . . . . . . . . . 34
3.2.1.2 Regressão Linear Múltipla . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.2.1.3 Árvores de Regressão . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1.4 Regressão por Vetores de Suporte . . . . . . . . . . . . . . . . . . . . . 36
3.2.1.5 Redes Neurais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.3 Pós-processamento de dados . . . . . . . . . . . . . . . . . . . . . 37
3.4 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Janela deslizante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3 Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.1 Avaliação dos Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1 Análise dos resultados por tamanho de janela . . . . . . . . . . . 47
5.2 Análise dos resultados por subconjunto . . . . . . . . . . . . . . . 49
5.2.1 Análise dos subconjuntos . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Resultados gerais por método . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 Análise dos métodos segundo o RM SE e R2 . . . . . . . . . . . . . 55
5.3.2 Comparação entre os resultados por método . . . . . . . . . . . . . . 58
5.4 Análise final dos resultados . . . . . . . . . . . . . . . . . . . . . . 59
6 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
12
1 INTRODUÇÃO
Com o desenvolvimento urbano, maior é a necessidade de deslocamento

dos cidadãos. Atividades essenciais da vida urbana somente são possíveis por meio
do deslocamento de pessoas e produtos. A facilidade com que este deslocamento
é feito depende de características do sistema de transportes de passageiros, que
influenciam na qualidade de vida da cidade e seu grau de desenvolvimento econômico
e social (FERRAZ; TORREZ, 2004).
Para Hoel, Garber e Sadek (2011), a finalidade do transporte é fornecer um
mecanismo para troca de bens, informações, deslocamento de pessoas e apoiar o
desenvolvimento econômico da sociedade. As constantes melhorias nos sistemas
de transporte têm colaborado para a melhoria da qualidade de vida e aumenta
as oportunidades na busca da felicidade, proporcionando às pessoas um grau de
mobilidade único.
O transporte público urbano é parte integrante da infraestrutura urbana,
impactando tanto o uso do solo como a qualidade de vida das pessoas. A expansão dos
limites da cidade idealmente deve se aliar ao aumento da velocidade de deslocamento,
além de características da viagem, como custo, tempo e conveniência (HOEL; GARBER;
SADEK, 2011). Além de possuir aspecto social e democrático, uma vez que representa
o único modo motorizado seguro e cômodo acessível às pessoas de baixa renda, é
uma importante alternativa para quem não pode ou não quer dirigir. Outro aspecto
relevante do uso massivo do transporte público é uma ocupação e uso mais racional do
solo urbano, contribuindo para tornar as cidades mais humanas e eficientes no tocante
ao transporte, sistema viário e infraestrutura de serviços públicos (FERRAZ; TORREZ,
2004).
Ferraz e Torrez (2004) afirmam que o índice de mobilidade, ou seja, a
quantidade de viagens urbanas realizadas e a distribuição entre os vários modos
de transporte dependem de vários fatores, dos quais se pode destacar: nível de
desenvolvimento socioeconômico do país e da cidade, tamanho e topografia da cidade,
clima, cultura, existência ou não de políticas de restrição ao uso do transporte individual,
disponibilidade, custo e qualidade do transporte público e semipúblico e facilidade para
locomoção a pé e de bicicleta.
Segundo a Associação Nacional de Transportes Públicos (ANTP, 2018), a
maior parte das viagens no Brasil são realizadas a pé (41%), seguidos dos meios de
transporte individual motorizado (29%) e de transporte público (28%). Porém, a maior
13
parte das distâncias é percorrida nos veículos de transporte público, representando

cerca de 53,5% do total de quilômetros percorridos por ano.
Um levantamento feito pela Associação Nacional das Empresas de Transportes
Urbanos (NTU, 2019) mostrou que houve queda de cerca de 30% na demanda por
ônibus entre 2014 e 2019 e da perda de fluidez – ônibus que antes faziam 10 viagens,
hoje realizam seis ou sete. Entre abril de 2018 e abril de 2019, 12,5 milhões de
brasileiros deixaram de se deslocar por ônibus urbano, uma redução de 4,3% na
demanda, fenômeno agravado pelo surgimento recente de tecnologias de mobilidade,
como os serviços de transporte por aplicativo.
Outro fator que afetou fortemente a quantidade de passageiros do transporte
público coletivo foram as medidas de limitação da circulação de pessoas para conter a
propagação do COVID-19. O transporte público está entre os setores mais afetados
pelas medidas de isolamento social. As empresas de transporte coletivo por ônibus
estão operando com uma redução média de mais de 75% dos passageiros desde o
início das medidas de isolamento social (LIMA et al., 2020). Uma pesquisa realizada
pela consultoria de inteligência de mercado Globo, que entrevistou 1,5 mil pessoas,
mostrou que a preocupação com o distanciamento social tem afastado os brasileiros do
transporte público. Antes da pandemia, 60% sinalizaram sua preferência pelos modais
comunitários. Já em 2020, apenas 40% dessa amostra renova sua predileção pelo
transporte público (BARROS; OLIVEIRA; BEDNARSKI, 2020).
O transporte por ônibus urbano teve uma redução diária em torno de 30 milhões
de passageiros e prejuízo de R$ 3,72 bilhões, de março a junho de 2020, de acordo com
a Associação Nacional das Empresas de Transportes Urbanos (NTU, 2020). Os dados
abrangem 26 capitais, o Distrito Federal, 14 regiões metropolitanas e 295 municípios. A
Figura 1 apresenta percentuais de queda de demanda de passageiros nos sistemas de
transporte público por ônibus para algumas cidades brasileiras.
Figura 1 – Queda de demanda de passageiros nos sistemas de transporte público por

ônibus
Fonte: (WRI BRASIL, 2020)

14
Com demanda menor que a oferta, muitas empresas de ônibus fecharam e

outras estão correndo risco de encerrar suas atividades. Mas o coronavírus não é o
único culpado, ele só agravou a crise no setor, que vem perdendo passageiros ano
após ano, por causa da falta de políticas públicas. Entre 2013 e 2017, a queda foi de
25% e, entre 2018 e 2019, 12,5 milhões de pessoas deixaram de usar o ônibus (LIMA
et al., 2020).
Lopes (2017) observa que as grandes metrópoles estão cada vez mais
populosas, porém com capacidade limitada em relação à mobilidade, surgindo, assim,
a necessidade de planejamento e aperfeiçoamento dos processos e não de aumento.
Visto que a saturação de espaço já é alta nos grandes centros, sistemas de transporte
bem planejados, eficientes e com baixo custo são pontos importantes para a melhoria
da mobilidade urbana. Serviços de transporte de massa (ônibus, metrô e trem) estão
cada vez mais populares, mas ainda não conseguem suprir a demanda, então serviços
de transporte pessoal privado (como táxi e Uber) passam a ser vistos como opções,
tanto pela comodidade, quanto pela rapidez (SALANOVA et al., 2011). Como modo
de aumentar esta comodidade de um serviço pessoal de transporte surgiu o E-hailing,
onde o cliente requisita o serviço de transporte por meio da internet em dispositivos
eletrônicos, substituindo os meios tradicionais (ORTIZ et al., 2016).
Ferraz e Torrez (2004) destacam que o ônibus é o transporte urbano mais
utilizado pela população brasileira, representando cerca de 87% da demanda por
transporte público. Perante esta alta demanda, várias estratégias para a melhoria da
eficiência, com relação à velocidade e capacidade, têm sido utilizadas (como veículos
maiores, implantação de faixas ou vias inteiras exclusivas para ônibus, preferência em
semáforos e bilhetagem em estações), visto que o transporte público coletivo tende à
ineficiência se não cresce na mesma proporção que a demanda.
Campos (2013) discute que a demanda por transporte é considerada uma
demanda derivada, já que é uma consequência da necessidade de deslocamento para
realização de alguma atividade e, por isso, pode variar com a hora do dia, com o dia
da semana, o propósito da viagem e com o tipo de transporte oferecido. Nas áreas
urbanas, grande parte da demanda está concentrada, particularmente, nas horas de
pico.
A Figura 2 apresenta o ciclo dos transportes, que expressa a interação entre
transporte e uso do solo, ou seja, a dinâmica das relações de causa e efeito de
mudanças que ocorrem nestes elementos.
15
Figura 2 – Ciclo dos Transportes
Mudanças no uso do solo
Alteração no valor e da terra Gera movimentos
Aumento da acessibilidade e
Demanda por transporte
mobilidade
Oferta de transporte
Fonte: Adaptado de (CAMPOS, 2013)
Segundo Campos (2013), se a intensidade dessas relações não for

acompanhada de um planejamento prévio da estrutura regional e urbana (legislação
de uso do solo) e dos sistemas de transportes, pode-se chegar a uma situação
caótica, gerada pelo desequilíbrio entre oferta e demanda, resultando em constantes
congestionamentos e dificuldades na circulação de pessoas ou de mercadorias.
Dentre as ferramentas que auxiliam no planejamento urbano, destaca-se o
Modelo de Quatro Etapas, que leva em consideração a geração de viagens em uma de
suas etapas. Porém, para empresas de transporte público, por exemplo, é importante
um planejamento de curto prazo, onde se busca conhecer a demanda futura para
equilíbrio da oferta, evitando, tanto a saturação do sistema, quanto a ociosidade. Dentre
as alternativas que podem ser empregadas para este planejamento a curto prazo,
destaca-se o Aprendizado de Máquina (AM), visto que demanda menor conhecimento
prévio sobre o tráfego, possui menor restrição nas tarefas de previsão e pode se ajustar
melhor aos dados de tráfego passados (CHOWDHURY; APON; DEY, 2017).
Neste contexto, o presente trabalho apresenta um estudo comparativo de
métodos de Aprendizado de Máquina para previsão de demanda de passageiros
de uma linha do transporte público coletivo por ônibus na cidade de Joinville. Para
explicitar a importância do estudo, é importante saber que o deslocamento por ônibus
é o principal modo de transporte público coletivo, representando 24% das viagens
realizadas dentro da cidade, segundo dados do Instituto de Pesquisa Catarinense
(IPPUJ/IPC, 2010). Procedimentos de análise e previsão da demanda, subsidiando
tomadas de decisão de curto prazo quanto a mudanças no sistema de transporte, são
de grande utilidade, principalmente considerando a população de 597.658 habitantes
de Joinville, que é a maior do Estado de Santa Catarina (IBGE, 2020).
16
1.1 Objetivos
Os objetivos geral e específicos deste estudo são discutidos a seguir.
1.1.1 Objetivo Geral
O objetivo geral do presente trabalho é comparar e avaliar quantitativamente

métodos de Aprendizado de Máquina para previsão de demanda de passageiros em
uma linha específica de transporte público coletivo da cidade de Joinville.
1.1.2 Objetivos Específicos
Os objetivos especificos do presente trabalho são:

a. Estimar a demanda de passageiros por dia na Linha 0700 Sul-Centro da rede de
transporte coletivo de Joinville utilizando diferentes métodos de Aprendizado de
Máquina, a saber: Redes Neurais Artificiais, Árvores de Regressão, Regressão
por Vizinho mais Próximo, Regressão por Vetores de Suporte e Regressão Linear;
b. Investigar qual o tamanho de conjunto de treinamento mais apropriado e seu
respectivo impacto para o cenário de avaliação estudado;
c. Avaliar o comportamento de cada método e comparar seus desempenhos relativos
com o uso de métricas apropriadas, considerando diferentes tamanhos de
conjunto de treinamento e bases de dados.
1.2 Estrutura do trabalho
Visando alcançar os objetivos propostos, este trabalho foi organizado da

seguinte maneira. Os Capítulos 2 e 3 apresentam o referencial teórico do trabalho.
Neles são apresentados os conceitos necessários de planejamento de transportes e
Mineração de Dados, respectivamente, bem como os métodos que serão avaliados.
No Capítulo 4 é apresentada a metodologia adotada para realização das análises.
No Capítulo 5 são expostos os resultados dos métodos de Aprendizado de Máquina
avaliados para previsão da demanda de passageiros. Por fim, no Capítulo 6 são
apresentadas as considerações finais do trabalho.
17
2 PLANEJAMENTO DE TRANSPORTES
Oppenheim (1995) define viajar como uma atividade que ocorre de um

determinado local geográfico para outro, por meio de uma rede de transporte. Segundo
Senna (2014), transporte requer planejamento, já que sua infraestrutura em uma
região possui papel preponderante em seu desempenho, sendo condição básica para a
realização de trocas econômicas entre locais espacialmente dispersos. Alguns aspectos
básicos do planejamento de transportes englobam conhecer a origem, destino, os
volumes (de viagens e de passageiros), a natureza e o propósito dos movimentos, bem
como as novas exigências impostas pelo ambiente de crescente competição.
O processo de planejamento de transportes envolve a definição dos objetivos,
do prazo para implantação e da sua duração, devendo ser uma visão sistêmica que
englobe o desenvolvimento e as características da região de estudo, contemplando
a forma de ocupação, a situação econômica atual e futura, e a sua inter-relação com
outras regiões (CAMPOS, 2013).
O sistema de transportes e o planejamento do uso e ocupação do solo precisam
estar ligados, uma vez que a distribuição do uso do solo afeta a demanda de viagens,
e os investimentos no sistema de transportes afetam as decisões de uso do solo. Daí a
necessidade de serem estabelecidas diretrizes conjuntas de planejamento urbano e de
transportes, para direcionar o desenvolvimento urbano integrado (SENNA, 2014).
Senna (2014) explica que um sistema de transportes adequadamente planejado
e gerido é fundamental para a qualidade de vida na cidade e para o desenvolvimento
da economia urbana. Também ressalta que o planejamento do sistema de transportes
deve incluir o estudo da oferta e da demanda de viagens que considere a cidade como
um todo, devendo ser realizado em conjunto com o planejamento urbano, do uso e
ocupação do solo, da habitação e meio ambiente. Deve também levar em conta a
acessibilidade universal e as necessidades especiais de locomoção.
A concepção do plano de transportes deve estar fortemente embasada na
realidade econômica, social, cultural e financeira da cidade. Neste sentido, o plano
deve considerar as limitações institucionais da administração pública, dentro de uma
estratégia de desenvolvimento local e regional, já que são exigidos recursos importantes
a serem investidos (SENNA, 2014).
De acordo com Ortuzar e Willumsen (2011), o mundo, incluindo o transporte,
está mudando rapidamente, mas ainda são encontrados muitos dos mesmos problemas
do passado, como congestionamentos, poluição, acidentes e déficits financeiros.
18
Ortuzar e Willumsen (2011) observam que modelos de planejamento de transporte

por si só não resolvem problemas de transporte. Para serem úteis, eles devem ser
utilizados dentro de um processo de decisão adaptado ao tomador de decisão escolhido.
O modelo clássico de transporte foi desenvolvido originalmente para uma abordagem
normativa idealizada da tomada de decisões. Seu papel no planejamento de transporte
pode ser apresentado como uma contribuição para as principais etapas de uma
estrutura de tomada de decisão racional.
O fluxograma apresentado na Figura 3 representa as etapas do processo de
planejamento. Este deve ser dinâmico, ou seja, a partir da definição e validação dos
modelos e das soluções, deve-se voltar e verificar quais os impactos que as soluções
propostas podem trazer à demanda com a implantação das mesmas (CAMPOS, 2013).
Segundo Campos (2013), no processo de planejamento de transporte, para
elaboração de um plano de médio e longo prazo faz-se uso do Modelo Sequencial,
também denominado Modelo de Quatro Etapas, o qual se relaciona com as
características socioeconômicas da região. Este modelo será discutido na próxima
seção.
2.1 Modelo de Quatro Etapas
Ortuzar e Willumsen (2011) definem um modelo como uma representação

simplificada de uma parte do mundo real - o sistema de interesse - que enfoca certos
elementos considerados importantes de um ponto de vista particular. No entanto, a
modelagem de transporte é apenas um elemento no planejamento de transporte. Além
disso, a modelagem de transporte e a tomada de decisão podem ser combinadas de
diferentes maneiras, dependendo da experiência, tradições e conhecimentos locais.
Segundo Senna (2014), a demanda de mercado é a soma das demandas dos
consumidores individuais. No caso de transportes, existe uma estruturação clássica
para definir a demanda, que está baseada no denominado Modelo de Quatro Etapas.
Antes da modelagem em si, algumas ações são também necessárias, como a
coleta de dados e o estabelecimento de zoneamentos, bem como a definição da rede
na área de estudo. A coleta de dados visa conhecer basicamente as características
socioeconômicas da população no ano-base e nos anos chamados de horizontes de
projeto (SENNA, 2014).
Campos (2013) aborda que o Modelo de Quatro Etapas compreende as
seguintes etapas: Geração, Distribuição, Divisão Modal e Alocação de Viagens. Embora
as decisões de viagens não precisem ser realizadas necessariamente nesta ordem de
etapas, a denominação sequencial se deve ao fato do processo de estudo da demanda
se desenvolver numa sequência de análise cujo resultado de uma etapa é o ponto de
partida da etapa seguinte, como apresentado na Figura 4.
19
Figura 3 – Fluxograma básico de planejamento de transportes
Formulação do problema
Coleta de dados
Construção e calibração
do modelo analítico
Geração de
Predição de
alternativas de
variáveis
projetos
Validação do modelo e
simulação dos impactos
dos projetos
Avaliação dos projetos e

escolha do(s) melhor(es)
Implementação
da solução
escolhida
Fonte: Adaptado de (ORTUZAR; WILLUMSEN, 2011)
De acordo com a Figura 4, após o processo de coleta de dados, inicia-se o

modelo sequencial pela etapa de geração de viagens. Campos (2013) explica que
nesta etapa estima-se a quantidade de viagens geradas (produzidas e atraídas) em
cada zona de tráfego. A partir do total de viagens geradas em cada zona, verifica-se
a distribuição destas entre as demais zonas de tráfego, chegando a uma matriz de
origem e destino das viagens. Em seguida, para cada conjunto de viagens realizadas
entre pares de zonas de tráfego estima-se a quantidade de viagens nos vários modos
de transporte. E, finalmente, na etapa de alocação, também considerada como uma
20
Figura 4 – Estrutura do Modelo Sequencial de transportes
Dados atuais e projeções

futuras
Geração de viagens
Distribuição de viagens
Divisão modal
Alocação das viagens
Alternativas de transporte
Fonte: Adaptado de (CAMPOS, 2013)
análise do equilíbrio entre a oferta e a demanda, faz-se a distribuição da quantidade

de viagens por cada modo de transporte. Com o resultado da etapa de alocação de
viagens, faz-se um estudo sobre as alternativas de transportes a serem propostas,
visando atender à demanda futura (CAMPOS, 2013). As etapas do Modelo de Quatro
Etapas serão discutidas nas próximas seções separadamente.
2.1.1 Geração de Viagens
Segundo Senna (2014), nesta etapa da modelagem de transportes define-se a

demanda global a ser atendida nos diversos anos-horizonte de um estudo. Campos
(2013) afirma que o objetivo desta etapa é fazer uma estimativa do número total de
viagens que se iniciam ou terminam em cada zona de tráfego da região de estudo, para
um dia típico do ano de projeto. O número de viagens que são produzidas ou atraídas
em cada zona de tráfego está relacionado com as atividades desenvolvidas nestas e
com as características socioeconômicas dos viajantes.
Os modelos de geração de demanda relacionam as variáveis que descrevem
a população ou a atividade econômica de cada zona e as que caracterizam o seu
padrão de uso e ocupação do solo, com o potencial da zona como unidade produtora
(modelos de produção de viagens) e consumidora/atratora (modelos de atração de
21
viagens) (SENNA, 2014). Campos (2013) ressalta que, no conceito mais usual, viagens
produzidas numa zona de tráfego são aquelas que se iniciam, ou sejam, que têm como
origem a zona de tráfego, e viagens atraídas são aquelas que têm como destino a
mesma.
Para estimativa das viagens geradas faz-se necessário a elaboração de um
modelo matemático que represente a demanda de transporte de acordo com a
realidade estudada. Definido o modelo a ser utilizado, este é calibrado utilizando
observações, relativas ao ano-base, obtidas por meio das diferentes pesquisas
(CAMPOS, 2013). Campos (2013) explica que o processo de geração de viagens
compreende:
• Identificação dos dados/variáveis determinantes do ano-base;
• Determinação do modelo a ser utilizado;
• Calibração do modelo;
• Projeção dos dados do modelo para o ano de projeto;
• Aplicação do modelo calibrado;
• Determinação das viagens futuras.
Ainda segundo Campos (2013), os modelos mais usuais de geração de viagens
são:
• Fator de Crescimento: associa um crescimento uniforme para toda a área, ou
crescimentos proporcionais para cada zona específica (SENNA, 2014). Ortuzar
e Willumsen (2011) destaca que seu maior problema é relacionar o método de
estimação a variáveis como população, renda e posse de carro, por exemplo.
• Taxas de Viagem: determina o número de viagens por tipo de ocupação do solo.
Para cada tipo de atividade define-se uma taxa de produção e/ou atração de
viagens. Esta taxa, na maioria das vezes, relaciona o número de viagens por
unidade de área construída ou de utilização do solo por atividade (CAMPOS,
2013).
• Classificação Cruzada: baseado em técnicas estatísticas simplificadas, em que
abre-se mão de modelos mais complexos para poder utilizar uma análise mais
desagregada (SENNA, 2014). Também conhecido como Análise de Categorias,
este modelo pode ser entendido como uma extensão de um modelo de taxas
de viagens, utilizando, neste caso, dados desagregados por tipo de residência
(CAMPOS, 2013).
• Regressão: visa construir uma função linear ou não linear entre o número de
viagens existentes (variável dependente) e os vários fatores que influenciam as
viagens (variáveis independentes) (CAMPOS, 2013).
Algumas características dos modelos descritas por Campos (2013) são:
• Os coeficientes e constantes são encontrados por calibração utilizando os dados
22
do ano-base de todas as zonas de tráfego;

• Algumas variáveis explicam melhor as viagens atraídas, outras as produzidas;
• A variável dependente pode dar uma estimativa das viagens produzidas (ou
atraídas) na zona, se este é um modelo que utiliza dados agregados, ou uma
taxa de produção (ou atração) de viagens por tipo de residência, se este é um
modelo desagregado de base residencial (não residencial);
• Usualmente quatro variáveis independentes no máximo são suficientes;
• Cada termo da equação de regressão pode ser interpretado como uma
contribuição da variável independente para a variável dependente.
2.1.2 Distribuição de Viagens
Segundo Senna (2014), o objetivo da distribuição é estimar os intercâmbios

de viagens entre as zonas de tráfego na área de estudo e no seu entorno, utilizando
as estimativas de produção e atração por zona de tráfego e algum tipo de informação
sobre a estrutura da distribuição de demanda. O resultado da aplicação de um modelo
de distribuição é uma matriz de demanda, em que cada célula contém uma medida da
intensidade do intercâmbio entre um dado par de zonas.
Oppenheim (1995) diz que esta etapa consiste em distribuir entre vários
destinos cada viagem gerada, obtida na primeira etapa. Normalmente, não há feedback
entre as duas fases, ou seja, a geração de viagens não é afetada pelos atributos da
distribuição, ou qualquer etapa posterior. Além disso, esse procedimento é realizado
separadamente para cada zona de origem.
Senna (2014) explica que a ideia básica dos procedimentos incorporados
nesses modelos é a de que a demanda produzida em cada zona seja distribuída entre
as zonas.
A abordagem tradicional da distribuição de viagens usa modelos baseados em
analogias com modelos que descrevem fenômenos que não sejam viagens urbanas.
Um dos mais usados é o Modelo Gravitacional, adaptação da lei gravitacional de
Newton (OPPENHEIM, 1995).
Além do modelo gravitacional, Senna (2014) cita mais duas classes muito
utilizadas de modelos de distribuição, diferenciadas em função do tipo de informação
sobre a estrutura da interação entre as zonas. São eles os modelos de fator de
crescimento e de Fratar. Uma breve definição dos modelos será dada a seguir.
O modelo de fator de crescimento utiliza uma matriz atual (ou de um período
anterior) como base para realizar a projeção da distribuição da demanda. Essa matriz
é fatorada (sucessivamente corrigida), utilizando-se fatores de crescimento baseados
na evolução estimada das produções e atrações em cada zona, da situação base para
o ano-horizonte. Nestes casos, a estrutura da matriz base influencia decisivamente
na solução final. A principal vantagem deste método é a sua relativa simplicidade
23
computacional, além da quantidade reduzida de informações. Sua maior desvantagem

refere-se ao fato de ser pouco sensível a alterações na oferta de transporte. Pares de
zonas que apresentem um nível reduzido de intercâmbio na matriz base terão esta
situação replicada no futuro, mesmo que venham a ter condições de acessibilidade
melhoradas (SENNA, 2014).
Já o modelo gravitacional é baseado na estrutura da matriz de distribuição
de demanda projetada em informações sobre a oferta de transportes prevista. Esta é
descrita, em geral, em termos dos tempos ou custos associados ao deslocamento entre
cada par de zonas. É comum se adotar uma combinação desses fatores, denominada
genericamente de impedância ou custo generalizado. Uma das principais vantagens
dos modelos gravitacionais para distribuição de demanda, segundo Senna (2014),
é a sua estrutura flexível e sua sensibilidade a alterações localizadas do sistema
de transportes. A maior desvantagem deste tipo de modelo é a necessidade de um
procedimento de calibração, além de exigir informações que descrevam a oferta de
transportes, tanto para seu desenvolvimento, quanto para sua aplicação.
Por fim, o modelo de Fratar, desenvolvido com o objetivo de anular algumas
desvantagens inerentes ao método do fator de crescimento, baseia-se em pressupostos
básicos como: proporcionalidade entre a distribuição de viagens futuras de uma
dada zona de origem e a distribuição de viagens existentes da zona; modificação
na distribuição das viagens futuras através do fator de crescimento da zona para onde
essas viagens são atraídas. Senna (2014) explica que esses pressupostos levam em
consideração o efeito de localização de uma dada zona em relação a todas as outras
zonas. O método envolve a estimativa do número total de viagens que se origina e
termina em cada zona de tráfego, na data em que se quer determinar a distribuição de
viagens, e a distribuição de viagens futuras de uma zona para todas as outras zonas
na área de estudo, na proporção da distribuição atual de viagens, modificada pelo fator
de crescimento da zona para a qual as viagens são atraídas.
2.1.3 Divisão Modal
Nesta etapa é estimada a demanda por modo de transporte a ser utilizado nos
deslocamentos previstos na etapa de distribuição de viagens (CAMPOS, 2013).
Segundo Senna (2014), a divisão modal atribui a cada modalidade de
transporte a parcela provável da demanda que irá absorver. Nesta etapa devem ser
distinguidos os fluxos que, em função de suas características, são cativos de certos
modos de transporte, daqueles considerados competitivos, ou seja, que podem escolher
entre alternativas modais.
A informação resultante desta etapa consiste em uma série de matrizes de
viagens, para cada modo considerado, tipo de fluxo e período (SENNA, 2014).
24
2.1.4 Alocação de Tráfego
A alocação de tráfego finaliza o processo de modelagem do sistema de

transportes. Nesta etapa é realizada a interação entre a demanda, representada pelas
matrizes de fluxos, e a oferta, descrita pela rede de transportes, que representa a
capacidade de transportes fornecida pelos meios disponíveis (SENNA, 2014).
Segundo Vuchic (2005), o objetivo desta etapa é alocar todas as viagens para
caminhos específicos, obtendo assim estimativas de volume de tráfego para cada
seção da rede de transportes. Campos (2013) acrescenta que a demanda por cada
modo é obtida na etapa anterior de divisão modal. Na fase atual faz-se a distribuição
das viagens por modo entre as zonas nos sistemas de transporte.
A determinação de caminhos através da rede, entre pares de zonas, é um pré-
requisito para o procedimento de alocação de tráfego existente entre zonas. Os métodos
de alocação de tráfego a redes de transporte variam quanto a sua aplicabilidade e
complexidade. A importância dos efeitos de congestionamentos é determinante na
definição do método de alocação adequado (SENNA, 2014).
Vuchic (2005) destaca que, para executar a alocação, o planejador deve decidir
quais critérios melhor representam o comportamento real da tomada de decisões do
usuário da rede de transporte e quais dados estão disponíveis para ele. Normalmente,
os critérios mais importantes para a seleção de rotas são, em sequência, menor tempo
de viagem, menor distância de viagem e custo mínimo de viagem.
Os modelos de alocação têm como objetivo avaliar a distribuição do fluxo de
viagens nos sistemas de transporte existentes e/ou em novas alternativas de transporte.
Isto significa fazer uma verificação do equilíbrio entre a oferta e a demanda para cada
sistema. Os métodos desenvolvidos têm como foco principal a alocação do fluxo de
veículos nas vias urbanas em função das viagens realizadas por transporte individual.
Esta alocação também pode ser feita em relação aos outros modos de transporte, ou
seja, os transportes coletivos (CAMPOS, 2013).
Vuchic (2005) explica que os modelos de alocação de viagens são calibrados
na rede atual e depois usados para estimar o volume de viagens na rede futura. Além
disso, Vuchic (2005) define três métodos principais de alocação:
• Método tudo-ou-nada - atribui todo o tráfego a uma rota com base no critério
selecionado (por exemplo, tempo mínimo de deslocamento);
• Método de Curvas de Atribuição - atribui uma parcela do tráfego a cada rota com
base nos valores comparativos dos critérios entre as melhores e as próximas
melhores rotas;
• Método de Restrição de Capacidade - atribui tráfego com base nos tempos de
viagem e nas capacidades das rotas disponíveis e atribui uma parte do tráfego
a rotas alternativas à medida que a rota principal se aproxima da capacidade.
25
Os dois modelos de restrição de capacidade usados com mais freqüência são o

Modelo Estocástico e o Modelo de Equilíbrio do Usuário.
Esta etapa é, portanto, a quarta e última etapa do Modelo de Quatro Etapas.
Continuando a discussão acerca da geração de viagens, a próxima seção tratará sobre
a demanda por transportes.
2.2 Demanda por transportes
Ortuzar e Willumsen (2011) afirmam que a demanda por transportes é derivada,

não é um fim em si mesma. Com exceção do turismo, as pessoas viajam para
satisfazer uma necessidade (trabalho, lazer, saúde) realizando uma atividade em
locais específicos. Para entender a demanda de transportes, deve-se entender primeiro
como essas atividades são distribuídas no espaço, tanto no contexto urbano quanto
regional. Um bom sistema de transporte amplia as oportunidades para satisfazer
essas necessidades; um sistema fortemente congestionado ou mal conectado restringe
opções e limita o desenvolvimento econômico e social.
De acordo com Senna (2014), a demanda é uma relação multivariada, isto
é, determinada por vários fatores de forma simultânea. Alguns dos determinantes
importantes da demanda do mercado de um produto ou serviço são o seu próprio
preço, a renda dos consumidores, preços de outros produtos/serviços correlatos, gosto
dos consumidores, distribuição de renda, população total, riqueza dos consumidores,
disponibilidade de crédito, políticas governamentais, histórico dos níveis de demanda, e
histórico dos níveis de renda. Ortuzar e Willumsen (2011) acrescentam que a demanda
por serviços de transporte é altamente qualitativa e diferenciada, por hora do dia, dia da
semana, finalidade da jornada, tipo de carga, importância da velocidade e frequência.
Senna (2014) diz que o propósito fundamental da teoria da demanda é
determinar os vários fatores que afetam a demanda. Segundo Oppenheim (1995), o
objetivo final da modelagem da demanda de viagens urbanas é fornecer uma ferramenta
com a qual se possa prever ou estabelecer padrões de viagens urbanas sob várias
condições. Essas condições podem, por exemplo, representar o estado esperado
ou planejado da rede de transporte ou da própria área urbana, em um momento
futuro. Os desafios colocados pelo grande tamanho dos sistemas que modelos que
descrevem o comportamento humano replicam, buscando medir ou prever algum
processo, (por exemplo, redes de transporte com dezenas de milhares de links e
as dificuldades de obter dados completos e precisos sobre eles) são significativos
(OPPENHEIM, 1995). No entanto, Oppenheim (1995) ressalta que a modelagem da
demanda de viagens urbanas fez progressos substanciais, sendo possível representar
uma estrutura comportamental unificada e coerente com modelos integrados que
prevêem as principais dimensões da demanda de viagens, como a demanda de origem,
26
de destino, cruzada (origem-destino) e de rota, por todos os modos de viagem. Segundo

Senna (2014), a teoria tradicional da demanda tem se concentrado em quatro desses
determinantes: preço do produto/serviço, outros preços, renda e gosto.
A teoria tradicional da demanda inicia com a análise do comportamento do
consumidor, uma vez que a demanda do mercado é assumida como a soma das
demandas dos indivíduos consumidores. Um dos principais pressupostos da teoria
é que o consumidor, dada sua renda e os preços do mercado de vários serviços ou
produtos, planeja seu gasto de forma a obter o máximo possível de satisfação. Este é o
axioma de maximização da utilidade (SENNA, 2014).
2.3 Considerações Finais
Neste capítulo foi discutido o Modelo de Quatro Etapas, uma ferramenta de

previsão de demanda de passageiros de médio a longo prazo. Tendo em vista que o
Modelo de Quatro Etapas não é adequado para previsões a curto e curtíssimo prazo
e o objetivo deste trabalho é prever a quantidade de passageiros por dia para uma
semana, considerando os valores observados nos últimos dias, torna-se necessário
para este estudo a busca de outros meios de previsão. Com isso, no próximo capítulo,
serão discutidos métodos de previsão de demanda utilizando Mineração de Dados.
27
3 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS
Frawley, Piatetsky-Shapiro e Matheus (1992) discutem que a automação

das atividades de negócios produz um fluxo cada vez maior de dados, já que até
transações simples, como uma ligação telefônica, o uso de um cartão de crédito ou
um exame médico, são normalmente gravados em um computador, gerando uma
crescente lacuna entre a geração e a compreensão de dados. Por isso, métodos
de análise e apresentação dos dados são recursos valiosos, que geram vantagem
competitiva. Sendo assim, observa-se o potencial das tecnologias de Inteligência
Artificial (IA), aliadas à utilização de ferramentas de Aprendizado de Máquina (AM),
como componente de análise de dados em grande escala. Para Brachman e Anand
(1994), a ideia de extrair informações implícitas, previamente desconhecidas, de
grandes quantidades de dados é atraente e intuitiva, porém extremamente desafiadora
e difícil.
Fayyad, Piatetsky-Shapiro e Smyth (1996) explicam que, para uma ampla
variedade de campos, dados são coletados e acumulados em um ritmo intenso. Os
bancos de dados estão aumentando de tamanho de duas maneiras: pelo número
de registros ou objetos e pelo número de campos ou atributos de um objeto. Com
o aumento dos dados armazenados, a análise manual se torna impraticável, visto
que é um processo, lento, caro e subjetivo, havendo a necessidade da geração de
teorias computacionais e ferramentas que auxiliem na extração de informações úteis
(conhecimento) a partir dos dados digitais. Tais teorias e ferramentas estão inclusas no
campo de Descoberta de Conhecimento em Bases de Dados (em inglês, Knowledge
Discovery in Databases - KDD). O KDD envolve o desenvolvimento e aplicação de
métodos e técnicas que buscam dar sentido e/ou extrair conhecimento dos dados.
Um problema comumente abordado é o mapeamento de dados brutos (normalmente
volumosos e difíceis de entender) em outras formas mais úteis, como por exemplo, um
conjunto de dados sumarizado ou um modelo preditivo para estimar valores futuros
em uma determinada aplicação. No centro do processo está a aplicação de métodos
específicos de Mineração de Dados para descoberta e extração de padrões.
Tan, Steinbach e Kumar (2006) explicam que o KDD é o processo geral de
conversão de dados brutos em informações úteis. Portanto, inclui, desde informações
sobre como os dados são armazenados e acessados, quanto a forma como os
algoritmos podem ser escalados para conjuntos de dados massivos e ainda executados
com eficiência, além de como os resultados podem ser interpretados e visualizados de
28
maneira útil (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

Em muitas aplicações de KDD, um ponto chave é encontrar subconjuntos
da dados que se comportam da mesma forma e merecem, por isso, uma análise
particular. Assim, é importante saber qual subconjunto se deseja analisar e restringir,
se necessário, os atributos descritivos usados, para que variáveis que não sejam úteis
para a análise não atrapalhem o processo. É importante notar que a Descoberta
de Conhecimento em Bases de Dados envolve implicitamente o trabalho de um
analista que possua conhecimento prévio sobre o domínio. A engenharia deste
conhecimento para entrada em uma ferramenta de análise inteligente também faz
parte do processo (BRACHMAN; ANAND, 1994).
No gerenciamento de banco de dados, uma coleção integrada de dados é
mantida em um ou mais arquivos e organizada de forma a facilitar o armazenamento
eficiente e a modificação ou recuperação de informações relacionadas. Um sistema de
gerenciamento de banco de dados é uma coleção de procedimentos para recuperar,
armazenar e manipular dados em bancos de dados. Em AM, o termo banco de dados
normalmente se refere a uma coleção de instâncias ou exemplos mantidos em um
único arquivo. Um algoritmo de aprendizagem utiliza as informações do conjunto de
dados como entrada e retorna os resultados da aprendizagem como saída. A saída
é o conhecimento descoberto que pode ser direcionado ao usuário ou de volta ao
sistema como um novo conhecimento de domínio (FRAWLEY; PIATETSKY-SHAPIRO;
MATHEUS, 1992).
A entrada fundamental para um sistema de descoberta são os dados
brutos presentes em um banco de dados. Uma das preocupações sinalizadas por
Frawley, Piatetsky-Shapiro e Matheus (1992) inclui a quantidade de informações do
banco de dados. Idealmente, deve-se filtrar as informações adequadas para que os
algoritmos não precisem lidar com informações irrelevantes, levando assim a resultados
interessantes. Uma característica importante para alguns bancos de dados é que
seus conteúdos estão em constante mudança, podendo ser sensíveis ao tempo (por
exemplo, perdendo relevância com o passar do tempo). Outra característica que deve
ser observada é a relevância dos dados, ou seja, o dado deve ser relevante para o
atual foco de descoberta. Além disso, deve ser considerada a aplicabilidade de um
atributo a um subconjunto de dados, a presença ou ausência de valores para atributos
de dados relevantes, o ruído (ou incerteza), e a exatidão inerente ou esperada dos
dados. Especialmente no que diz respeito aos dados numéricos, a precisão dos dados
pode ser um fator impactante na descoberta.
O Processo de Descoberta de Conhecimento em Bases de Dados é, portanto,
o processo não trivial de identificar padrões de dados válidos, novos, potencialmente
úteis e, em última análise, compreensíveis. Aqui, os dados são um conjunto de fatos e
o padrão é uma expressão em alguma linguagem que descreve um subconjunto de
29
dados ou um modelo aplicável ao subconjunto. Portanto, extrair um padrão também

significa ajustar um modelo aos dados, encontrar estruturas nos dados, ou, em geral,
fazer qualquer descrição de alto nível de um conjunto de dados (FAYYAD; PIATETSKY-
SHAPIRO; SMYTH, 1996).
O termo processo implica que o KDD compreende muitas etapas, que envolvem,
conforme explicado por Fayyad, Piatetsky-Shapiro e Smyth (1996), a preparação dos
dados, a busca por padrões, a avaliação do conhecimento extraído, e seu refinamento,
todos repetidos em várias iterações. Ou seja, não é um cálculo direto de quantidades
predefinidas. Os padrões descobertos devem ser: válidos em novos dados com algum
grau de certeza; potencialmente úteis, ou seja, devem levar a algum benefício para
o usuário ou tarefa e; compreensíveis, se não imediatamente, então após algum pós-
processamento. Algoritmos de descoberta para grandes bancos de dados devem lidar,
também, com a questão da complexidade computacional, sendo a amostragem de
dados uma forma de diminuir o problema de escalabilidade (FRAWLEY; PIATETSKY-
SHAPIRO; MATHEUS, 1992).
Segundo Fayyad, Piatetsky-Shapiro e Smyth (1996), o processo KDD é
interativo e iterativo, envolvendo várias etapas, que podem ser aplicadas ou não,
dependendo das decisões tomadas pelo usuário. Algumas de suas etapas são:
• Compreender o domínio de aplicação dos dados e o conhecimento anterior
relevante, identificando o objetivo do processo KDD;
• Selecionar um conjunto de dados e/ou um subconjunto de atributos ou amostras
de dados;
• Realizar a limpeza e o pré-processamento dos dados, incluindo a remoção
de ruídos, coleta de informações necessárias para o modelo e a definição de
estratégias para lidar com campos de dados ausentes;
• Reduzir os dados e transformar sua dimensionalidade, reduzindo o número efetivo
de variáveis consideradas;
• Combinar os objetivos do processo de KDD a um método de Mineração de Dados,
como, por exemplo, classificação, regressão ou agrupamento;
• Buscar padrões de interesse por meio de técnicas de Mineração de Dados, sendo
esta etapa significativamente influenciada pelas etapas anteriores;
• Interpretar os padrões minerados, possivelmente retornando a qualquer uma
das etapas iniciais para mais iterações. Esta etapa também pode envolver a
visualização dos padrões extraídos;
• Agir sobre o conhecimento descoberto. Este processo também inclui a verificação
e resolução de conflitos potenciais.
Fayyad, Piatetsky-Shapiro e Smyth (1996) explicam que o processo do KDD
pode conter loops entre quaisquer duas etapas. O fluxo básico das principais etapas é
ilustrado na Figura 5. Elas serão discutidas nas próximas seções.
30
Figura 5 – Etapas do processo KDD
Interpretação /
Avaliação
Mineração de
Dados
Transformação Conhecimento
Pré-processamento
Seleção
Padrões
Dados
Dados pré- transformados
processados
Dados Dados alvo
Fonte: (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996)
3.1 Pré-processamento de dados
Os dados de entrada podem ser armazenados em uma imensa variedade

de formatos e podem residir em um ou mais repositórios de dados, centralizados
ou distribuídos. O objetivo do pré-processamento é transformar os dados de entrada
brutos em um formato apropriado para análise subsequente. As etapas envolvidas
no pré-processamento incluem fusão de dados de várias fontes, limpeza destes para
remoção de ruído e observações duplicadas e seleção de registros que são relevantes
para a tarefa de Mineração de Dados em questão (TAN; STEINBACH; KUMAR, 2006).
A descoberta de conhecimento em bancos de dados levanta preocupações
adicionais, visto que bancos de dados são frequentemente dinâmicos, incompletos,
com ruídos e extensos. Estes fatores tornam a maioria dos algoritmos de aprendizagem
ineficazes (FRAWLEY; PIATETSKY-SHAPIRO; MATHEUS, 1992). De acordo com
Fayyad, Piatetsky-Shapiro e Smyth (1996), é de fundamental importância para o KDD
uma eficaz manipulação dos dados. Para isso, existem técnicas que auxiliam no
acesso eficiente aos dados, operações de agrupamento, ordenação e otimização de
consultas. Relacionado ao banco de dados está seu armazenamento, coleta, limpeza,
disponibilidade para análise e suporte à decisão. Ainda segundo Fayyad, Piatetsky-
Shapiro e Smyth (1996), o armazenamento adequado dos dados auxilia o processo do
KDD de duas maneiras importantes:
1. Limpeza de dados: normalmente nos bancos de dados está contida uma grande
31
variedade de informações, necessitando que seja estabelecida uma convenção

de nomenclatura, representação e forma de lidar com dados ausentes, bem como
tratamento de ruído e erros.
2. Acesso aos dados: métodos devem ser criados para auxiliar no acesso aos dados,
fornecendo caminhos de acesso aos dados que eram historicamente difíceis de
obter (por exemplo, dados armazenados offline).
Goldschmidt e Passos (2005) explicam que a etapa de pré-processamento
prepara os dados para a etapa de mineração. Conforme discutido por Fayyad, Piatetsky-
Shapiro e Smyth (1996), o processo KDD envolve a aplicação iterativa de métodos de
Mineração de Dados. Os objetivos de descoberta de conhecimento são definidos pelo
uso pretendido do sistema. Pode-se distinguir os objetivos em dois tipos:
1. Verificação: o sistema verifica a hipótese do usuário;
2. Descoberta: o sistema, de forma autônoma, descobre novos padrões. Este
objetivo pode ser subdividido em:
• Previsão: o sistema encontra padrões para prever o comportamento futuro
de algumas entidades;
• Descrição: o sistema encontra padrões para apresentar ao usuário de forma
compreensível.
A seção a seguir tratará das particularidades da etapa de Mineração de Dados.
3.2 Mineração de Dados
Segundo Fayyad, Piatetsky-Shapiro e Smyth (1996), a Mineração de Dados

envolve a aplicação de algoritmos específicos para extrair padrões dos dados. As
etapas adicionais no processo KDD, como preparação, seleção e limpeza dos dados,
incorporação de conhecimento prévio adequado, e a interpretação adequada dos
resultados da mineração, são essenciais para garantir que o conhecimento é derivado
dos dados, pois a aplicação cega dos métodos de mineração pode levar facilmente
à descoberta de padrões inválidos. O objetivo, então, é extrair conhecimento de alto
nível de dados de baixo nível no contexto de grandes conjuntos de dados. A Mineração
de Dados é, portanto, a etapa do processo KDD que analisa os dados por meio da
aplicação de algoritmos de descoberta que, sob determinada eficiência computacional,
produzem padrões (ou modelos) sobre os dados. Os métodos de mineração podem
ser categorizados em diferentes tarefas, dentre as quais destacam-se: classificação,
agrupamento e regressão. Os algoritmos tendem a diferir, principalmente, no critério
de adequação usado para avaliar o ajuste do modelo. A previsão, um dos principais
objetivos da Mineração de Dados, envolve o uso de algumas variáveis, ou campos
no banco de dados para prever valores futuros ou estimar valores desconhecidos de
outras variáveis de interesse. A regressão se baseia no aprendizado de uma função
32
que mapeia um item de dados para uma variável de predição de valor real (FAYYAD;
PIATETSKY-SHAPIRO; SMYTH, 1996).
A Mineração de Dados baseia-se em ideias e técnicas de diferentes áreas,
como Aprendizado de Máquina, Inteligência Artificial e Reconhecimento de Padrões.
A Mineração de Dados também adotou rapidamente ideias de outras áreas, incluindo
otimização, computação evolutiva, teoria da informação, processamento de sinais,
visualização e recuperação de informações (TAN; STEINBACH; KUMAR, 2006). Uma
série de outras áreas também desempenham papéis importantes de apoio. Em
particular, os sistemas de banco de dados são necessários para fornecer suporte
para armazenamento, indexação e processamento de consulta eficientes. As técnicas
de computação de alto desempenho (paralela) são frequentemente importantes para
lidar com o tamanho massivo de alguns conjuntos de dados. As técnicas distribuídas
também podem ajudar a resolver o problema do tamanho e são essenciais quando
os dados não podem ser reunidos em um local (TAN; STEINBACH; KUMAR, 2006). A
Figura 6 mostra a relação entre a Mineração de Dados e outras áreas.
Figura 6 – Relação da Mineração de Dados com outras áreas
Inteligência Artificial
Estatística Mineração de Dados Aprendizado de Máquina
Reconhecimento de padrões
Fonte: Adaptado de (TAN; STEINBACH; KUMAR, 2006)
Segundo Tan, Steinbach e Kumar (2006), as tarefas de Mineração de Dados

são geralmente divididas em duas categorias principais:
• Tarefas preditivas: o objetivo destas tarefas é prever os valores de um determinado
atributo com base nos valores de outros atributos. O atributo a ser previsto
é comumente conhecido como variável dependente, enquanto os atributos
usados para fazer a previsão são conhecidos como variáveis explicativas ou
independentes.
• Tarefas descritivas: o objetivo é derivar padrões (correlações, tendências, grupos,
trajetórias e anomalias) que resumem os relacionamentos subjacentes nos
dados. Tarefas descritivas de Mineração de Dados são frequentemente de
natureza exploratória e frequentemente requerem técnicas de pós-processamento
para validar e explicar os resultados.
O foco deste trabalho encontra-se na aplicação de tarefas preditivas,
33
especificamente, modelos de regressão, que são utilizados para realizar a previsão de

variáveis contínuas. Os métodos utilizados neste estudo serão discutidos a seguir.
3.2.1 Métodos de Aprendizado de Máquina
O aprendizado consiste na capacidade de melhorar o desempenho na

realização de alguma tarefa por meio da experiência. Em AM, computadores são
programados para aprender com a experiência passada. Assim, algoritmos de AM
aprendem a induzir uma função ou hipótese capaz de resolver um problema a partir de
dados que representam instâncias do problema a ser resolvido (FACELI et al., 2015).
Segundo Russell e Norvig (2013), existem três tipos principais de
aprendizagem: supervisionada, não supervisionada e por reforço. No aprendizado
supervisionado, foco deste trabalho, um método ou algoritmo recebe como entrada
pares de entrada e saída e aprende uma função que faz o mapeamento da entrada
para a saída, derivando um modelo. Mais formalmente, ainda de acordo com Russell e
Norvig (2013), a tarefa de aprendizagem supervisionada consiste em, dado um conjunto
de treinamento de n pares de exemplos de entrada e saída na forma:
(x1 , y1 ), (x2 , y2 ), ..., (xn , yn ),
onde cada yi foi gerado por uma função desconhecida y = f (x), descobrir uma função
h que se aproxime da função verdadeira f .
Neste contexto x e y podem ter qualquer valor, não necessariamente números.
A função h obtida é chamada de hipótese. A aprendizagem é uma busca através do
espaço de hipóteses possíveis por aquela que terá um bom desempenho, mesmo em
novos exemplos, além do conjunto de treinamento fornecido para sua obtenção. Para
medir a precisão de uma hipótese, fornecemos um conjunto de testes de exemplos que
são distintos do conjunto de treinamento. Dizemos que uma hipótese generaliza se ela
prevê corretamente o valor de y para novos exemplos (RUSSELL; NORVIG, 2013).
Russell e Norvig (2013) explicam que, quando y for um número, o problema
de aprendizagem é chamado de regressão. Portanto, a solução de um problema de
regressão é encontrar uma expectativa condicional ou valor médio de y, visto que
a probabilidade de se achar exatamente o número de valor real certo para y é 0. A
regressão é uma metodologia que possibilita obter uma relação funcional entre variáveis
dependentes e variáveis independentes. Em outras palavras, consiste no cálculo de
valores por meio de uma função obtendo uma resposta (no caso, uma predição) através
das variáveis preditoras (VASCONCELOS et al., 2017).
Os métodos de regressão abordados neste trabalho incluem a Regressão
Linear Múltipla, Redes Neurais Artificiais, Árvores de Regressão, Regressão por Vizinho
Mais Próximo e Regressão por Vetores de Suporte. Estes são discutidos a seguir.
34
3.2.1.1 Regressão por Vizinho Mais Próximo
O algoritmo do Vizinho mais Próximo (k-Nearest Neighbors - kNN) é um

exemplo de aprendizado baseado em instâncias. Métodos de aprendizado baseados em
instâncias não tentam generalizar a partir de dados de treinamento para elaborar uma
hipótese que combine com todos os dados de entrada, mas, em vez disso, armazenam
os dados de treinamento e usam estes dados para realizar previsões para novas
observações (COPPIN, 2013).
Russell e Norvig (2013) explicam que o método mais simples de aprendizagem
baseada em exemplo é a pesquisa em tabelas, onde todos os exemplos de treinamento
são colocados em uma tabela e, quando h(x) for solicitado, deve-se observar se x
está na tabela, devolvendo o y correspondente em caso positivo e retornando algum
valor default (padrão) quando negativo. A clara limitação, neste caso, é que o método
só funciona bem para exemplos já vistos, ou seja, não generaliza. A fim de permitir
generalização, a técnica de k-vizinhos mais próximos funciona da seguinte forma. Dada
uma consulta xq , encontram-se k os exemplos armazenados mais próximos de xq . Uma
vez que os vizinhos foram encontrados, para realizar a regressão, pode-se tirar a média
ou mediana dos k vizinhos. Outra alternativa é resolver um problema de regressão
linear sobre os vizinhos encontrados (RUSSELL; NORVIG, 2013).
Segundo Faceli et al. (2015), métodos baseados em distância, como o algoritmo
dos vizinhos mais próximos, têm seu desempenho afetado pela medida ou função de
distância utilizada. O problema está no fato de diversos problemas possuírem atributos
em escalas de valores diferentes, fazendo com que alguns recebam mais importância
do que outros. Para minimizar o problema, os atributos são usualmente normalizados.
Outros dois pontos que devem ser considerados dizem respeito à escolha da
medida de distância e o número de vizinhos. Uma medida de distância popular e muito
utilizada, de acordo com Faceli et al. (2015), é a distância euclidiana. Já em relação
a determinação do valor de k mais apropriado para um problema não há uma regra
ou escolha padrão. Tal valor é definido pelo usuário e, frequentemente, é um número
pequeno e ímpar, como k = 3, 5, ... (FACELI et al., 2015).
3.2.1.2 Regressão Linear Múltipla
De acordo com Vasconcelos et al. (2017), a regressão linear múltipla é a

generalização da regressão linear simples, onde, a partir das variáveis independentes,
obtém-se a variável dependente. O cálculo para obter a variável dependente envolve a
adoção de coeficientes de regressão e de um , que é o erro que mede a discrepância
entre o valor predito e o valor observado.
A diferença entre a regressão linear simples e a múltipla está na quantidade de
variáveis explicativas consideradas. No caso da regressão simples, assume-se que há
35
uma relação linear entre uma variável dependente y e uma independente (preditora) x,
enquanto na regressão múltipla são consideradas duas ou mais variáveis explicativas
(independentes). As variáveis independentes são chamadas de variáveis explicativas
pois explicam a variação de y (RODRIGUES, 2012).
3.2.1.3 Árvores de Regressão
Segundo Menezes (2011), uma Árvore de Decisão é um modelo capaz de

descrever conceitos, de forma aproximada, através de regras que mapeiam um objeto
em um valor específico. Tais regras são representadas através de um grafo do tipo
árvore, onde cada nó interno corresponde a um teste. O mapeamento de um objeto é
feito atravessando-o ao longo da árvore, partindo-se da raiz até chegar em uma folha.
Ao alcançar um nó interno, o objeto é confrontado com o teste associado àquele nó e
o resultado do teste determina o próximo nó da travessia. Finalmente, ao chegar em
uma folha, o objeto recebe um valor de acordo com uma função associada à mesma.
No grafo em forma de árvore, cada nó é associado a um atributo e, cada possível
valor deste, fica associado a uma aresta (MENEZES, 2011). Russell e Norvig (2013)
acrescenta que os valores de entrada e saída podem ser discretos ou contínuos. A
estrutura da Árvore de Decisão está ilustrada na Figura 7.
Figura 7 – Estrutura da Árvore de Decisão
Demanda de passageiros no transporte público coletivo
Dia útil
SIM NÃO
Chuva Demanda baixíssima
SIM NÃO
Volume de chuva Demanda alta
ALTO BAIXO
Demanda média Demanda normal
Fonte: Autora (2021)
Menezes (2011) discute que as árvores de regressão são utilizadas quando

se deseja aprender um conceito numérico, tendo duas metas desejáveis ao final do
processo: predizer o mais corretamente possível o atributo alvo (variável dependente)
a partir dos demais atributos (variáveis independentes/preditivas) observados em um
36
novo exemplo e; explicar a relação existente entre as variáveis independentes e o

atributo alvo. Menezes (2011) também ressalta que as árvores de regressão preservam
a interpretabilidade das árvores de decisão, ou seja, através da estrutura de árvore,
que codifica as regras, as relações entre as variáveis preditivas e a variável dependente
podem ser humanamente interpretadas.
O processo de construção (indução) de árvores de regressão é bastante similar
ao das árvores de classificação. Porém, alguns itens devem ser devidamente ajustados
à natureza numérica do atributo alvo, são eles: a heurística para avaliar a qualidade de
um atributo como candidato a teste; o modelo preditivo armazenado nas folhas e; as
métricas de qualidade do modelo gerado (MENEZES, 2011).
Uma Árvore de Regressão tem em cada folha uma função linear de um
subconjunto de atributos numéricos, em vez de um único valor. O algoritmo de
aprendizado deve decidir quando interromper a divisão e começar a aplicar a regressão
linear sobre os atributos (RUSSELL; NORVIG, 2013).
3.2.1.4 Regressão por Vetores de Suporte
Silva et al. (2017) define Máquinas de Vetores de Suporte (SVM, do inglês

Support Vector Machines) como um método de aprendizagem supervisionada utilizado
para estimar uma função capaz de classificar dados de entrada entre duas classes
a partir de um espaço de características de alto valor dimensional. As SVMs são
embasadas pela Teoria de Aprendizado Estatístico (TAE) desenvolvida por Vapnik
(1995), que estabelece uma série de princípios que devem ser seguidos na obtenção
de classificadores com boa capacidade de generalização (FACELI et al., 2015).
A técnica foi desenvolvida originalmente para resolver problemas de
classificação, sendo ampliada posteriormente para problemas de regressão. A
Regressão por Vetores de Suporte (ou Support Vector Regression (SVR)) é uma
técnica de regressão não-linear baseada em SVMs (RUAS et al., 2004). O algoritmo
ε-SVR (VAPNIK, 1995) tem como objetivo encontrar uma função que produza saídas
contínuas para os dados de treinamento que desviem em no máximo ε de seu valor
desejado. Essa função também deve ser o mais uniforme e regular possível (FACELI et
al., 2015).
Faceli et al. (2015) acrescenta que a obtenção de um classificador/regressor
por meio do uso de SVMs/SVRs envolve a escolha de uma função de kernel,
além de parâmetros dessa função e do valor da constante de regularização C. A
escolha do kernel e dos parâmetros considerados pode afetar o desempenho do
classificador/regressor obtido. Uma função kernel K é uma função que recebe dois
pontos no espaço de entradas e calcula o produto escalar desses objetos no espaço de
características e sua importância está na simplicidade de seu cálculo e sua capacidade
de representar espaços abstratos (FACELI et al., 2015). Alguns dos kernels mais
37
utilizados, segundo Faceli et al. (2015), são o polinomial, o de função base radial (Radial
Basis Function - RBF) e o sigmoidal.
3.2.1.5 Redes Neurais Artificiais
Segundo Russell e Norvig (2013), uma Rede Neural Artificial (RNA) é composta
por nós ou unidades (neurônios artificiais) conectadas por ligações direcionadas. Uma
ligação da unidade i para a unidade j serve para propagar a ativação de i para j. Cada
ligação também tem um peso numérico associado a ela, que determina a força e o
sinal de conexão. Assim como em modelos de regressão linear, cada unidade tem
uma entrada fictícia com peso associado. Cada unidade primeiro calcula uma soma
ponderada de suas entradas e, em seguida, é aplicada uma função de ativação a essa
soma para obter a saída.
Em uma RNA, os neurônios podem estar dispostos em uma ou mais camadas,
como explica Faceli et al. (2015). Quando duas ou mais camadas são utilizadas, um
neurônio pode receber em seus terminais de entrada valores de saída de neurônios da
camada anterior e/ou enviar seu valor de saída para terminais de entrada de neurônios
da camada seguinte. Neste caso de multicamadas, a RNA pode ser chamada de
Multilayer Perceptron, ou MLP. A Figura 8 ilustra um exemplo de RNA com três camadas.
A rede apresentada como exemplo na figura recebe como entrada valores de dois
atributos e gera dois valores em sua saída.
Figura 8 – Exemplo de RNA multicamadas típica.
Fonte: (FACELI et al., 2015)
3.3 Pós-processamento de dados
De acordo com Fayyad, Piatetsky-Shapiro e Smyth (1996), o processo geral de

KDD inclui, por fim, a avaliação e interpretação dos padrões extraídos para determinar
quais podem ser considerados como novo conhecimento. Pode-se definir medidas
38
quantitativas para avaliar padrões extraídos. Em muitos casos, é possível definir

medidas de certeza (por exemplo, precisão de previsão estimada em novos dados) ou
utilidade (por exemplo, economia gerada por melhores previsões) (FAYYAD; PIATETSKY-
SHAPIRO; SMYTH, 1996).
Além disso, ainda como abordado por Frawley, Piatetsky-Shapiro e Matheus
(1992), processos de descoberta devem ser implementados de forma eficiente. Um
algoritmo é considerado eficiente se o tempo de execução e espaço usado são uma
função polinomial de baixo grau do comprimento de entrada. Resumindo, então, a
descoberta de conhecimento em bases de dados deve apresentar quatro características
principais:
• Linguagem de alto nível: o conhecimento descoberto é representado em uma
linguagem de alto nível. Não precisa ser utilizado diretamente por humanos, mas
sua expressão deve ser compreensível por usuários humanos.
• Precisão: as descobertas devem retratar com precisão o conteúdo da base de
dados. O nível de precisão é expresso pelas medidas de certeza.
• Resultados interessantes: o conhecimento descoberto é interessante se está
de acordo com as definições feitas pelo usuário, se seus padrões são novos e
potencialmente úteis e se o processo de descoberta não é trivial.
• Eficiência: o processo de descoberta é eficiente se os tempos de execução para
grandes bases de dados são previsíveis e aceitáveis.
Goldschmidt e Passos (2005) ressaltam que a avaliação de um modelo de
conhecimento requer a confrontação deste com dados, visando mensurar as medidas
utilizadas como critério. Para que a avaliação seja isenta, os dados utilizados na
construção do modelo não devem ser os mesmos utilizados na sua avaliação. Portanto,
pelo menos dois conjuntos de dados devem ser utilizados no processo de KDD: um
conjunto de treinamento e um conjunto de testes. O conjunto de treinamento deve
conter registros (objetos) a serem utilizados na construção do modelo de conhecimento,
enquanto o conjunto de testes deve conter os registros a serem utilizados na avaliação
do modelo gerado.
Os critérios de avaliação do modelo são declarações quantitativas (ou funções
de ajuste) de quão bem um determinado padrão (um modelo e seus parâmetros) atende
aos objetivos do processo KDD. Por exemplo, em modelos preditivos os padrões são
frequentemente julgados pela precisão da previsão no conjunto de teste. Uma vez que
a representação do modelo (ou família de representações) e o modelo de avaliação
critérios são fixos, então o problema de Mineração de Dados é reduzido à tarefa de
otimização, ou seja, encontrar os parâmetros e modelos da família selecionada que
otimiza o critério de avaliação (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). A
etapa de pós-processamento garante, desta forma, que apenas resultados válidos e
úteis sejam incorporados ao sistema de suporte à decisão (TAN; STEINBACH; KUMAR,
39
2006).
3.4 Considerações Finais
Neste capítulo foram discutidos métodos de Mineração de Dados, que são

importantes ferramentas de previsão de comportamentos futuros de acordo com o que
foi observado no passado. Assim, propõe-se a utilização de tais métodos para previsão
a curto e curtíssimo prazo da demanda de passageiros, objeto de estudo deste trabalho.
Assim, no próximo capítulo será apresentada a metodologia utilizada para realização
deste estudo.
40
4 MATERIAIS E MÉTODOS
4.1 Dados
Os dados utilizados neste trabalho foram obtidos por Tiburcio (2018) e

consistem em dados de uma linha de ônibus específica do transporte coletivo da
cidade de Joinville chamada 0700 Sul-Centro, sendo uma linha troncal relevante para o
Sistema Integrado de Transporte da cidade, conectando o Terminal da Região Sul com
o Terminal Central, conforme descrito por Tiburcio (2018) e ilustrado na Figura 9.
Figura 9 – Itinerário da Linha 0700 Sul-Centro
Fonte: (TIBURCIO, 2018)
A base de dados utilizada por Tiburcio (2018) possui os atributos descritos na

Tabela 1. A variável Passageiros representa o total de usuários ao longo do dia para
a Linha 0700 e é a variável alvo, isto é, a variável a ser predita com a aplicação dos
métodos de AM.
41
Tabela 1 – Atributos da base de dados

Atributo Descrição Valores possíveis
Ano_Saida Ano do registro 2015, 2016 e 2017
Mes_Saida Mês do registro 1 a 12
Dia_Saida Dia do registro 1 a 31
Dia_Semana_Saida Dia da semana do registro 1 (Domingo) a 7 (Sábado)
Semana_Mes_Saida Semana do mês 1a5
Semana_Do_Ano Semana do ano 1 a 52
Vespera_Feriado Indica se é véspera de feriado 0 (Não) ou 1 (Sim)
Feriado Indica se é feriado ou não 0 (Nâo) ou 1 (Sim)
Feriado_Descricao Descreve qual o feriado String
Pos_Feriado Indica se o dia sucede um feriado 0 (Nâo) ou 1 (Sim)
Recesso_Escolar Indica se é período de recesso escolar 0 (Nâo) ou 1 (Sim)
Festivais Indica se é período de festival 0 (Nâo) ou 1 (Sim)
Festivais_Descricao Descreve qual o festival String
Preco_Gasolina Preço da gasolina String
Preco_Passagem_Antecipada Preço da passagem antecipada String
Preco_Passagem_Embarcada Preço da passagem embarcada String
Temperatura_Maxima Temperatura máxima no dia do registro String
Temperatura_Minima Temperatura mínima no dia do registro String
Chuva Indica se choveu no dia do registro 0 (Não) ou 1 (Sim)
Sentido Indica o sentido da viagem 0 (Ida) ou 1 (Volta)
Passageiros Quantidade de passageiros String
Os dados foram coletados no período compreendido entre 01 de maio de 2015

e 30 de abril de 2017 e foram pré-processados por Tiburcio (2018). Um trecho dos
dados utilizados está apresentado na Figura 10.
Figura 10 – Trecho dos dados utilizados
Fonte: (TIBURCIO, 2018)
A base de dados gerada por Tiburcio (2018) possui 19 atributos explicativos,

42
porém nem todos foram utilizados para este trabalho. Foram definidos, então, 4
subconjuntos de dados, a fim de se avaliar variações na acurácia da previsão realizada.
São eles:
• Subconjunto 1: contém 5 atributos (Dia_Semana_Saida, Semana_Mes_Saida,
Vespera_Feriado, Feriado e Recesso_Escolar ). É o subconjunto com maior
número de variáveis e objetos. Possui, ao todo, 731 objetos (observações).
• Subconjunto 2: composto pelos mesmos 5 atributos do Subconjunto
1 (Dia_Semana_Saida, Semana_Mes_Saida, Vespera_Feriado, Feriado e
Recesso_Escolar ), porém foram excluídos os dias da semana referentes a sábado
e domingo, visto que são dias atípicos para a demanda de passageiros. Mais
restritivo que o primeiro, possui em sua base 521 objetos.
• Subconjunto 3: contém 4 atributos (Dia_Semana_Saida, Semana_Mes_Saida,
Vespera_Feriado e Recesso_Escolar ), já que foram excluídos os objetos
referentes aos feriados, não fazendo sentido manter o atributo Feriado. Utiliza
como base inicial o Subconjunto 2, não possuindo, portanto, os dias referentes
ao fim de semana. Vale ressaltar que os dias de feriado possuem caráter atípico
para a demanda, assim como o fim de semana, tendo sido escolhido por este
motivo. No total, conta com 499 objetos.
• Subconjunto 4: é o subconjunto mais restritivo dentre os 4, contendo apenas 3
atributos (Dia_Semana_Saida, Semana_Mes_Saida e Vespera_Feriado). Gerado
a partir do Subconjunto 3, foram excluídos os objetos referentes ao período
de recesso escolar, visto que é um período de grande impacto na geração de
demanda. Sendo assim, não havia mais sentido em deixar na base o atributo
Recesso_Escolar. Com esta restrição, a quantidade de objetos caiu para 404.
Os atributos de cada subconjunto estão descritos na Tabela 2.
Tabela 2 – Atributos explicativos de cada subconjunto
Subconjuntos
1 2 3 4
Dia_Semana_Saida X X X X
Semana_Mes_Saida X X X X
Vespera_Feriado X X X X
Feriado X X
Recesso_Escolar X X X
Como o objetivo do estudo foi prever a demanda de passageiros através das

informações fornecidas pelos atributos selecionados, considerando que todos possuem
o mesmo peso para a previsão, todos os dados utilizados, exceto da coluna Passageiros,
43
foram normalizados.
4.2 Janela deslizante
Utilizou-se o conceito de janela deslizante para definir as rodadas de

treinamento-validação. Neste processo, é utilizado um intervalo de dados de tamanho
pré-determinado - chamado de janela - para o treinamento. Os dados preditos são
registrados após a janela até o tamanho de passo definido. Além do tamanho da janela,
é considerado um passo de tamanho fixo igual a 7, o que significa que, para todas as
janelas, serão previstos 7 dias a partir do último dia do conjunto de treinamento. Ou
seja, caso a janela possua tamanho 30, por exemplo, serão utilizados os 30 primeiros
dados para treinamento e, a partir do 31o , serão previstos 7 dias. Há dois tipos de janela
deslizante:
• Janela deslizante não ancorada: Quando uma etapa de predição é concluída,
a janela é movimentada de acordo com o tamanho do passo, resultando na
exclusão de um intervalo de dados do tamanho do passo no início da janela e na
adição de um intervalo de dados do tamanho do passo no final. Neste caso, o
conjunto de treinamento possui tamanho fixo e o modelo consegue se adaptar e
refletir mudanças sazonais (KIRKPATRICK; DAHLQUIST, 2006).
• Janela deslizante ancorada: Neste caso, quando uma etapa de predição
é concluída, a janela é aumentada de acordo com o tamanho do passo,
permanecendo o intervalo de dados da janela anterior, somados com o intervalo
do tamanho do passo no final.
Neste estudo foi utilizada a janela deslizante não ancorada, porque os dados
possuem relação temporal, portanto, o tamanho da janela foi considerado para testes
acerca do acompanhamento dos métodos à tendência dos dados. Como na janela
ancorada o tamanho da janela necessariamente aumenta conforme o método evolui,
não seria interessante para esta análise. Neste caso, a janela não ancorada é mais
indicada, visto que não é interessante que a previsão sofra influência de dados antigos,
já que sabe-se que há tendência de queda na quantidade de passageiros. Assim, dados
antigos podem apresentar alteração de demanda quando comparados aos dados atuais,
gerando erros na previsão.
Para tornar mais claro o entendimento acerca da janela deslizante e do passo,
o processo foi ilustrado na Figura 11.
44
Figura 11 – Janela deslizante
Na Figura 11, a janela possui tamanho 10 e o passo, 2. Assim, na janela

deslizante não ancorada a janela se movimenta, a cada conclusão da etapa de previsão,
o tamanho do passo, excluindo a mesma quantidade de dados iniciais. Já no caso da
janela ancorada, a janela vai aumentando a cada etapa em duas unidades, começando
com 10 dados e terminando com 28.
Para efeitos comparativos, neste trabalho foram considerados diferentes
tamanhos para as janelas, gerando diferentes cenários de avaliação. A fim de estimar
um tamanho apropriado para o conjunto de treinamento, gerando uma previsão do
número de passageiros mais assertiva, foram propostos tamanhos entre 30 e 510
dias, variando de 30 em 30. Portanto, as janelas consideradas para cada subconjunto
estudado foram:
• Subconjuntos 1 e 2: Com as janelas variando entre 30 e 510 dias, foram gerados
17 cenários diferentes para cada método avaliado.
Janelas = {30, 60, 90, 120, 150, 180, 210, ..., 330, 360, 390, 420, 450, 480, 510}
• Subconjunto 3: Para este subconjunto de dados, o valor máximo de janela passou

a ser de 480, devido ao número de objetos ter sido reduzido com a retirada de
dias de fim de semana e feriado. Com isso, o número de cenários diferentes por
método caiu para 16.
Janelas = {30, 60, 90, 120, 150, 180, 210, ..., 300, 330, 360, 390, 420, 450, 480}
• Subconjunto 4: Já neste caso, a janela máxima foi reduzida para 390, resultando
em 13 cenários diferentes por método.
Janelas = {30, 60, 90, 120, 150, 180, 210, ..., 210, 240, 270, 300, 330, 360, 390}
As janelas avaliadas estão sumarizadas na Tabela 3.

45
Tabela 3 – Quantidade de janelas avaliadas
Subconjunto Objetos Janela mínima Janela máxima Quantidade de janelas

1 731 30 510 17
2 521 30 510 17
3 499 30 480 16
4 404 30 390 13
Total 63
4.3 Métodos
Como já comentado anteriormente, os métodos de regressão utilizados neste

estudo foram o MLP, Árvore de Regressão, kNN, SVR e Regressão Linear, treinados e
avaliados utilizando a linguagem de programação Python (PYTHON 3.9.4, 2021).
Para o método de kNN, foi utilizada a distância euclidiana, considerando
diferentes valores para k, que representa a quantidade de vizinhos. Foram avaliados os
cenários para k igual a 3, 5, 7, 9 e 11, gerando 5 cenários diferentes por janela, somando
um total de 315 cenários diferentes. Foi utilizada a função KNeighborsRegressor da
biblioteca sklearn (PEDREGOSA et al., 2011).
Já a Regressão Linear foi adotada como uma linha de base para comparação
com os outros métodos, visto que é o algoritmo de regressão mais convencional
e básico. Neste último, foram avaliados 63 cenários diferentes, correspondente à
quantidade de janelas testadas. Foi utilizada a função LinearRegression da biblioteca
sklearn (PEDREGOSA et al., 2011).
No caso da Árvore de Regressão, os parâmetros de número mínimo de
amostras em um nó folha considerados foram de 1, 5 e 10, impactando diretamente
a profundidade final da árvore. Com isso, ao fim do processo, foram avaliados 3
cenários diferentes por janela, ou seja, 189 cenários no total. Foi utilizada a função
DecisionTreeRegressor da biblioteca sklearn (PEDREGOSA et al., 2011).
Para o método SVR, foram consideradas diferentes configurações para os
parâmetros C e kernel. O primeiro é o parâmetro de regularização, para o qual
considerou-se os valores de 1, 10, 50, 100 e 1000. Para o segundo, utilizou-se a Função
de Base Radial, Polinomial e Linear. Ambos os parâmetros têm fundamental importância
para a precisão do modelo. Para o parâmetro foi considerado seu valor padrão de
0, 01. No total, 945 configurações de SVR foram avaliadas. Foi utilizada a função SVR
da biblioteca sklearn (PEDREGOSA et al., 2011).
Para o MLP foi empregada uma única camada oculta com diferentes funções de
ativação para os neurônios desta camada. Foram considerados 3, 5, 7, 9 e 11 neurônios
46
na camada oculta e utilizada como função de ativação a Unidade Linear Retificada (em
inglês, Rectified Linear Unit - ReLU). Ao final, foram avaliados 5 cenários diferentes por
janela, resultando em 315 cenários no total. Foi utilizada a função MLPRegressor da
biblioteca sklearn.neural_network (PEDREGOSA et al., 2011).
A quantidade total de cenários diferentes avaliados estão apresentados na
Tabela 4.
Tabela 4 – Total de cenários diferentes avaliados
Total de cenários Função

Vizinho mais Próximo 630 KNeighborsRegressor
Regressão Linear 63 LinearRegression
Árvore de Regressão 189 DecisionTreeRegressor
SVR 945 SVR
RNA 315 MLPRegressor
Total 2142
4.3.1 Avaliação dos Métodos
Os índices estatísticos utilizados para avaliar o desempenho dos modelos

foram:
• Coeficiente de determinação (R2 ): medida de ajustamento de um modelo
estatístico linear generalizado, como a Regressão Linear, em relação aos valores
observados. Indica a percentagem, ou seja, o quanto o modelo consegue explicar
os valores observados, e varia entre 0 e 1 (ORTEGA; ROCIO, 2020). Quanto
mais perto de 1, mais ajustado à realidade o modelo está. É calculado através da
Equação 4.1.
n
X n
X
2
R =1− (yi − ŷi ) / (yi − ȳ)2
2
(4.1)
i=1 i=1
Onde yi e ŷi são, respectivamente, o valor observado e predito no instante i, n é

o número de observações e ȳ é a média das n observações.
• Raiz Quadrada do Erro Quadrático Médio - ou Root Mean Squared Error (RM SE):
seu valor é sempre positivo e, quanto menor os valores obtidos para RM SE,
melhor o desempenho dos modelos (ORTEGA; ROCIO, 2020). Seu valor ideal é
zero. É encontrado por meio da Equação 4.2.
v
u
Xn
u
RM SE = (1/n)
t (yi − ŷi )2 (4.2)
i=1
47
5 RESULTADOS
Neste capítulo serão apresentados os resultados obtidos em cada um dos cinco

métodos propostos para treinamento e validação dos dados. Em seguida, os resultados
foram analisados de modo a avaliar qual o tamanho de janela mais adequado para cada
subconjunto de dados, bem como os parâmetros mais apropriados para calibração de
cada um dos métodos. Com base nas análises, os cenários puderam ser comparados.
5.1 Análise dos resultados por tamanho de janela
Com objetivo de comparar os resultados gerados para cada tamanho de janela

proposto em relação aos seus valores de RM SE e R2 , foi calculado o ranking médio
por janela. Para elaboração do ranking, para cada método, foram listados os resultados
gerados pelo método considerando cada tamanho de janela proposto. Os resultados
foram organizados em ordem crescente de RM SE e em ordem decrescente de R2 e,
a partir das posições encontradas para cada janela em cada método, foi calculada a
posição média do tamanho da janela para todos os métodos. Assim, busca-se avaliar
a janela que contém os melhores valores de RM SE e R2 , ou seja, a janela que gera
os melhores resultados para a previsão, estando na primeira posição do ranking. Na
Tabela 5 estão exibidos os valores encontrados.
É importante ressaltar que haverão duas posições para cada tamanho de janela,
visto que os resultados foram avaliados com base no RM SE e no R2 . Pode acontecer
de, para determinado tamanho de janela, os resultados coincidam, porém não é uma
regra. Assim, o ranking trará informações relativas aos menores valores de RM SE
gerados, mas também relativas aos maiores valores de R2 . Com isso, talvez o primeiro
lugar apontado pelo RM SE não seja o mesmo do R2 . Com base nos resultados da
Tabela 5, observa-se que, segundo o ranking médio, o tamanho de janela igual a 30 dias
é o que concentra menores valores para o RM SE, enquanto a janela de 90 dias contém
maiores valores para o R2 . Em ambos os casos, a janela de 60 dias também ficou
contida no três primeiros colocados. Destaca-se, portanto, que os melhores resultados
estão concentrados nos menores tamanhos de janela. Para entender esse fenômeno,
sugeriu-se também o estudo da tendência no comportamento da demanda ao longo do
tempo, conforme observado na Figura 12.
48
Tabela 5 – Ranking médio dos resultados por janela em relação ao RM SE e R2
Ranking
RM SE R2
30 1, 00 ± 0, 00 4, 00 ± 4, 69
60 2, 00 ± 0, 00 4, 29 ± 4, 31
90 3, 00 ± 0, 00 3, 86 ± 3, 48
120 4, 00 ± 0, 00 6, 86 ± 5, 24
150 5, 00 ± 0, 00 6, 71 ± 3, 68
180 6, 14 ± 0, 38 6, 71 ± 1, 98
210 7, 00 ± 0, 58 6, 71 ± 3, 04
240 8, 71 ± 1, 25 9, 57 ± 1, 90
270 10, 00 ± 0, 82 8, 00 ± 3, 32
300 11, 57 ± 1, 90 8, 00 ± 3, 92
330 13, 00 ± 1, 63 9, 14 ± 4, 30
360 14, 14 ± 1, 46 11, 00 ± 3, 42
390 15, 29 ± 1, 38 12, 14 ± 3, 02
420 15, 86 ± 1, 46 13, 86 ± 2, 61
450 13, 00 ± 2, 89 14, 71 ± 1, 80
480 12, 86 ± 3, 39 16, 43 ± 0, 79
510 10, 43 ± 2, 70 11, 00 ± 5, 10
Figura 12 – Tendência da demanda de passageiros por subconjunto
Com base na Figura 12, nota-se a tendência na queda da demanda para todos
os subconjuntos estudados, o que significa que a quantidade de passageiros por dia
49
reduziu ao longo dos dias, meses e anos. Independente do conjunto conter dados de fim
de semana, feriado e recesso escolar, a demanda reduziu. Sendo assim, quanto mais
dias estiverem contidos em uma mesma janela, mais fortemente esta tendência será
percebida em seus dados, podendo não ser acompanhada pelas previsões, gerando
maior impacto sob o erro gerado. Ao mesmo tempo, quando observadas as janelas
menores, como a de tamanho 30, por exemplo, os dados contidos ali dizem respeito à
demanda de passageiros ao longo de 30 dias. A tendência de queda em um período tão
pequeno de dados pode ser observada mas de forma bem mais amena do que em uma
janela que considere, por exemplo, mais de um ano em seu conjunto de treinamento.
Por estes motivos, não seria interessante utilizar, também, a janela deslizante ancorada,
visto que os dados iniciais permaneceriam conforme a janela fosse aumentada e o
tamanho da janela aumentar prejudica a previsão.
Levando em consideração os melhores resultados obtidos pelas janelas de
tamanho 30, as discussões a partir de agora se restringirão a este tamanho de janela
específico, visto que o objetivo final é propor o contexto que gera resultados mais
ajustados aos dados.
5.2 Análise dos resultados por subconjunto
Continuando a análise com base na Figura 12, há uma tendência de queda

na demanda de passageiros ao longo do tempo. Porém, de acordo com os objetos
considerados em cada subconjunto, a tendência se torna mais ou menos acentuada.
Sendo assim, seguindo a discussão anterior acerca do impacto da queda nos
resultados das previsões, nesta seção será discutido o impacto particularmente em
cada subconjunto, avaliando-se, assim, o método e tamanho de janela mais apropriado
para cada caso estudado.
Para efeito de comparação, os melhores resultados de RM SE e R2 por
subconjunto para as janelas de 30, 60 e 90 foram computados na Tabela 6. Os menores
valores de RM SE encontrados e os valores de R2 mais próximos de 1 em cada
subconjunto para cada janela foram destacados em negrito.
A partir dos resultados expostos na Tabela 6, percebe-se que alguns métodos
se destacam em relação a outros. A Árvore de Regressão foi o método que mais se
destacou nos resultados, seguido pela RNA. Os métodos com menor destaque foram,
respectivamente, a SVR Polinomial e a SVR Radial. Também vale ressaltar que no
Subconjunto 4 os resultados gerados por cada método possuem menor variação entre
si, não havendo uma vantagem tão significativa de um em relação ao outro como
observado no Subconjunto 1, por exemplo. De maneira geral, os métodos aplicados
ao Subconjunto 4 geram resultados mais ajustados, porém, o Subconjunto 1 é o que
apresenta maiores valores para R2 .
50
Tabela 6 – Resultados por método por subconjunto
Janelas
30 60 90
RM SE R2 RM SE R2 RM SE R2
Vizinho mais Próximo 871, 58 0, 49 778, 04 0, 59 681, 70 0, 64
Regressão Linear 1323, 64 0, 08 1255, 02 0, 14 1205, 45 0, 16
Subconjunto 1
Árvore de Regressão 469,98 0,79 430,69 0,84 431,90 0,83

SVR - Linear 1191, 89 −0, 17 1113, 09 −0, 05 1100, 52 −0, 08
SVR - Polinomial 1062, 63 0, 03 900, 70 0, 28 846, 95 0, 36
SVR - Radial 1184, 10 −0, 16 1108, 12 −0, 04 1085, 97 −0, 03
RNA - ReLU 1172, 49 0, 19 1133, 42 0, 26 1139, 51 0, 23
Regressão Linear 441,14 0,45 419, 38 0, 54 416, 05 0, 64
Subconjunto 2
Árvore de Regressão 523, 98 0, 38 492, 13 0, 48 505, 59 0, 52

SVR - Linear 469, 47 0, 40 437, 82 0, 54 440, 34 0, 58
SVR - Polinomial 477, 47 0, 43 437, 49 0, 58 458, 12 0, 57
SVR - Radial 467, 83 0, 36 457, 65 0, 43 474, 71 0, 44
RNA - ReLU 451, 30 0, 44 410,38 0,60 406,28 0,69
Regressão Linear 382, 33 0,54 388, 89 0, 54 415, 21 0, 52
Subconjunto 3
Árvore de Regressão 418, 25 0, 42 414, 20 0, 45 427, 30 0, 46

SVR - Linear 377,98 0, 52 383, 89 0, 52 403, 37 0,53
SVR - Polinomial 398, 59 0, 50 384, 40 0,55 410, 58 0, 50
SVR - Radial 380, 70 0, 51 377,15 0, 53 402,87 0, 51
RNA - ReLU 423, 96 0, 31 388, 85 0, 54 410, 87 0, 52
Regressão Linear 294, 43 0, 62 318, 55 0,56 341, 45 0, 52
Subconjunto 4
Árvore de Regressão 280,48 0,64 323, 22 0, 54 354, 50 0, 49

SVR - Linear 284, 95 0, 63 314,32 0,56 337, 70 0, 52
SVR - Polinomial 285, 05 0, 62 315, 13 0,56 340, 26 0, 52
SVR - Radial 284, 25 0, 63 314, 82 0,56 338, 11 0, 52
RNA - ReLU 292, 45 0, 63 318, 48 0,56 330,39 0,53
Outro ponto relevante para a discussão é o atributo da base de dados nomeado

como Oferta, que indica a disponibilidade do serviço de transporte em passageiros por
dia. Vale ressaltar que os valores sinalizados na base de dados, quando comparados
aos valores reais medidos de demanda (quantidade de passageiros observada por dia),
apresentam grande discrepância, sendo a oferta muito mais alta que a demanda,
gerando ociosidade no sistema. A previsão da quantidade de passageiros mais
assertiva pode ser um ponto importante para redução desta ociosidade. Para comparar
os valores originalmente inseridos na base de dados com os valores previstos pelos
51
métodos, foram calculadas, para as janelas de 30, 60 e 90, as médias dos valores
previstos e as médias dos valores medidos, para que pudesse ser calculada a diferença
entre eles. Tal diferença representa, justamente, a porção do sistema que está sendo
disponibilizada e não utilizada. Os valores encontrados na base de dados para cada
caso estão registrados na Tabela 7 e os valores encontrados a partir dos métodos de
previsão estão apontados na Tabela 8.
Tabela 7 – Oferta versus demanda por base de dados
Oferta Demanda ∆ %
Subconjunto 1 9874, 49 4552, 35 5322, 14 116, 91%
Subconjunto 2 10804, 12 5366, 03 5438, 09 101, 34%
30
Subconjunto 3 10969, 59 5484, 42 5485, 17 100, 01%

Subconjunto 4 11032, 63 5707, 54 5325, 09 93, 30%
Subconjunto 1 9856, 85 4529, 85 5327, 00 117, 60%
Janelas
Subconjunto 2 10731, 53 5314, 27 5417, 26 101, 94%

60
Subconjunto 3 10904, 44 5440, 64 5463, 80 100, 43%

Subconjunto 4 10953, 26 5656, 51 5296, 76 93, 64%
Subconjunto 1 9823, 77 4506, 81 5316, 96 117, 98%
Subconjunto 2 10645, 99 5269, 90 5376, 10 102, 02%
90
Subconjunto 3 10827, 47 5399, 68 5427, 79 100, 52%

Subconjunto 4 10856, 59 5617, 47 5239, 11 93, 26%
Vale ressaltar que os melhores resultados considerando os parâmetros RM SE

2
e R foram os mesmos para os Subconjuntos 1, 2 e 4, por isso na Tabela 8 percebe-se
a semelhança nos números, variando apenas para o Subconjunto 3. Comparando-se
as Tabelas 7 e a 8, nota-se que a base de dados continha discrepâncias altas entre
oferta e demanda, com o delta variando de 93, 26% e chegando a alcançar 117, 98%,
o que representa que a oferta, na grande maioria dos casos, conseguiria suprir até
mais que duas vezes a demanda observada. Pensando-se em relação à ociosidade
gerada no sistema por este delta, torna-se interessante uma previsão de passageiros
mais alinhada com a realidade, para que a empresa responsável pelo transporte possa
adaptar a oferta disponível.
Outro ponto importante a ser notado é a tendência de obtenção de menores
deltas na janela de tamanho 30, aumentando conforme o tamanho da janela também
aumenta. Este fato se deve justamente à discussão anterior, de menores erros serem
gerados quando utiliza-se a janela de 30, seguida pela janela de 60 e, por fim, de
90. Observando-se, então, os resultados gerados pela menor janela, observa-se
que o Subconjunto 1 apresenta o maior delta entre oferta e demanda, seguido pelo
Subconjunto 2. Este comportamento se relaciona com o que foi discutido na Tabela 6,
indicando, justamente, que os Subconjuntos 1 e 2 apresentam, em média, resultados
52
Tabela 8 – Oferta versus demanda nos melhores resultados por subconjunto
Janela Subconjunto Oferta Demanda ∆ %

Subconjunto 1 4630, 37 4552, 35 78, 02 1, 71%
Subconjunto 2 5439, 38 5366, 03 73, 35 1, 37%
30
Subconjunto 3 5558, 97 5484, 42 74, 55 1, 36%
Subconjunto 4 5783, 37 5707, 54 75, 82 1, 33%
Subconjunto 1 4582, 06 4529, 85 52, 21 1, 15%
RM SE
Subconjunto 2 5421, 12 5314, 27 106, 85 2, 01%

60
Subconjunto 3 5575, 06 5440, 64 134, 42 2, 47%

Subconjunto 4 5791, 27 5656, 51 134, 76 2, 38%
Subconjunto 1 4597, 58 4506, 81 90, 77 2, 01%
Subconjunto 2 5407, 69 5269, 90 137, 79 2, 61%
90
Subconjunto 3 5598, 55 5399, 68 198, 87 3, 68%

Subconjunto 4 5792, 20 5617, 47 174, 73 3, 11%
Subconjunto 1 4630, 37 4552, 35 78, 02 1, 71%
Subconjunto 2 5439, 38 5366, 03 73, 35 1, 37%
30
Subconjunto 3 5539, 34 5484, 42 54, 92 1, 00%

Subconjunto 4 5783, 37 5707, 54 75, 82 1, 33%
Subconjunto 1 4582, 06 4529, 85 52, 21 1, 15%
R2
Subconjunto 2 5421, 12 5314, 27 106, 85 2, 01%

60
Subconjunto 3 5584, 74 5440, 64 144, 10 2, 65%

Subconjunto 4 5791, 27 5656, 51 134, 76 2, 38%
Subconjunto 1 4597, 58 4506, 81 90, 77 2, 01%
Subconjunto 2 5407, 69 5269, 90 137, 79 2, 61%
90
Subconjunto 3 5582, 64 5399, 68 182, 96 3, 39%

Subconjunto 4 5792, 20 5617, 47 174, 73 3, 11%
menos assertivos que os Subconjuntos 3 e 4. O Subconjunto 3 oscila com o 4 de acordo

com o parâmetro avaliado, porém o Subconjunto 4 apresenta melhores resultados para
o RM SE e para o R2 .
Para observação dos melhores resultados apontados anteriormente,
evidenciando a tendência dos dados previstos em relação aos dados medidos, foram
elaboradas as Figuras 13, 14, 15 e 16, onde podem ser observados os cenários com
menores valores de RM SE por método e por subconjunto.
53
Figura 13 – Resultados por método para o Subconjunto 1
Com base nas Figuras 13, 14, 15 e 16, percebe-se que os valores previstos se
sobrepõem melhor aos valores medidos quando há maior homogeneidade nos dados,
não conseguindo acompanhar picos muito expressivos que podem ter sido causados
por atributos não sinalizados na base ou não utilizados para treinamento nos métodos.
54
5.2.1 Análise dos subconjuntos
Dentre todos os subconjuntos, o que gerou menor erro de previsão foi o

Subconjunto 4, com tamanho de janela de 30, RM SE igual a 280, 48 e R2 , 0, 64.
Percebeu-se que os erros na previsão aumentam à medida que o subconjunto também
aumenta. Ou seja, o Suconjunto 4 apresenta menores erros, seguido do Subconjunto 3,
seguido do Subconjunto 2 e, por fim, com maiores erros, o Subconjunto 1. É importante
observar que, nos cenários registrados na base, o delta entre a oferta e a demanda
55
oscilava entre 117, 98% e 93, 26%, estando os maiores valores também seguindo a
mesma lógica anterior, com o Subconjunto 1 gerando mais ociosidade, sendo reduzida
até o Subconjunto 4.
Com base nos resultados discutidos, o Subconjunto 4 apresentou melhores
resultados por ser mais homogêneo no seu conjunto de dados, visto que, como sugerido
pelas Figuras 13, 14, 15 e 16, as previsões geram erros maiores nos dias de pico
e conforme a tendência nos dados se altera dentro de uma mesma janela. Assim,
os métodos são mais assertivos para o Subconjunto 4 e menos para o Subconjunto
1, gerando menor ociosidade do sistema para o primeiro e maior para o segundo.
Porém, vale notar que, ainda para o subconjunto com piores resultados, a ociosidade
foi reduzida em 115, 20% para o caso da janela de 30. Sendo assim, mesmo com os
resultados piorando de um subconjunto para outro, os valores encontrados ainda foram
satisfatórios em relação à situação atual. Contudo, como o objetivo deste estudo é
propor menores erros de previsão, uma sugestão para previsão de dias atípicos como
fins de semana, feriados e período de recesso escolar seria a aplicação dos métodos
separadamente para estes casos, considerando uma base exclusiva para cada um
deles e avaliando seus resultados.
5.3 Resultados gerais por método
Nesta seção são discutidos os resultados obtidos pelo Subconjunto 4

considerando a janela de tamanho 30, visto que estes ajustes apresentaram melhores
ajustes, tanto para o RM SE, quanto para o R2 .
5.3.1 Análise dos métodos segundo o RM SE e R2
Os valores medidos e previstos nos melhores resultados por método, em

relação ao RM SE e ao R2 , respectivamente, estão representados pela Figura 17 e
pela Figura 18. Para cada método foram avaliados os menores valores de RM SE e
maiores valores de R2 encontrados, considerando os melhores parâmetros obtidos em
cada situação, e estes estão apresentados na Tabela 9.
56
Figura 17 – Medidos x Previstos com menores valores de RM SE

57
Figura 18 – Medidos x Previstos com maiores valores de R2

58
Tabela 9 – Melhores resultados de RM SE e R2 por método
Melhores resultados
Método RM SE R2
Vizinho mais Próximo 284, 48 0, 63
Regressão Linear 294, 43 0, 62
Árvore de Regressão 280, 48 0, 64
SVR - Linear 284, 95 0, 63
SVR - Polinomial 285, 05 0, 62
SVR - Radial 284, 25 0, 63
RNA - ReLU 292, 45 0, 63
5.3.2 Comparação entre os resultados por método
Para comparar os resultados dos métodos em relação aos seus valores de

RM SE e R2 , foi calculado o ranking médio por método. O ranking foi elaborado
ordenando em ordem crescente os resultados encontrados para o RM SE e em
ordem decrescente para o R2 . Na Tabela 10 estão apresentadas as posições médias
encontradas considerando todos os tamanhos de janelas, os tamanhos de 30, 60 e 90
e, por fim, apenas a janela de 30, visto que esta gera os melhores resultados.
Tabela 10 – Ranking médio dos resultados por método em relação ao RM SE e R2
Ranking
Todas as janelas 30, 60 e 90 30
2 2
RM SE R RM SE R RM SE R2
Vizinho mais Próximo 4, 35 ± 2, 34 2, 29 ± 0, 69 5, 00 ± 1, 73 3, 67 ± 0, 58 3 4
Regressão Linear 4, 47 ± 1, 01 4, 71 ± 1, 31 5, 67 ± 1, 15 5, 67 ± 2, 31 7 7
Árvore de Regressão 2, 71 ± 2, 34 1, 00 ± 0, 00 5, 00 ± 3, 46 1, 00 ± 0, 00 1 1
SVR - Linear 4, 24 ± 1, 64 6, 24 ± 0, 83 2, 33 ± 1, 53 5, 00 ± 0, 00 4 5
SVR - Polinomial 4, 59 ± 2, 03 3, 76 ± 1, 09 4, 00 ± 1, 00 5, 33 ± 1, 15 5 6
SVR - Radial 4, 71 ± 1, 99 5, 71 ± 1, 31 2, 33 ± 0, 58 5, 00 ± 2, 65 2 2
RNA - ReLU 2, 88 ± 1, 58 4, 29 ± 1, 49 3, 67 ± 2, 52 2, 33 ± 0, 58 6 3
O ranking médio geral para todos os tamanhos de janela indica, tanto para o
RM SE, quanto para o R2 , a Árvore de Regressão como melhor método. Em segundo
lugar, para o RM SE e para o R2 , respectivamente, ficaram o RNA, com a função ReLU,
e o Vizinho mais Próximo.
Como já foi visto que as janelas de 30, 60 e 90 geram as melhores previsões
melhores em relação às demais, vale observar as mudanças no ranking quando
observado apenas estes resultados. Comparando os resultados encontrados ainda na
59
Tabela 10, percebe-se que os primeiros lugares encontrados já não são os mesmos.
Os métodos que geram, neste caso particular, menores valores de RM SE são o SVR
Linear e Radial, empatados em primeiro lugar, seguidos pela RNA ReLU. Já para o R2 ,
o primeiro lugar permanece sendo a Árvore de Regressão, enquanto o segundo lugar se
torna a RNA ReLU, ficando o Vizinho mais Próximo em terceiro. Com isso, percebe-se
que alguns métodos são mais sensíveis que outros em relação à variação encontrada
em conjuntos de dados maiores. A Árvore de Regressão consegue se ajustar melhor
aos resultados de maneira geral, considerando todas as janelas estudadas, gerando
um erro médio menos expressivo. O SVR, por sua vez, não é tão atrativo para janelas
maiores, mas se ajusta melhor ao valor medido quando consideradas apenas as janelas
menores.
Por fim, analisando apenas a janela de 30, já concluída como a mais adequada
para o estudo, o ranking indica a Árvore de Regressão como sendo o método com
melhores resultados, seguido pelo SVR Radial, tanto para o RM SE quanto para o
R2 . Os piores resultados observados foram gerados pela Regressão Linear, sendo o
método menos indicado para o cálculo da demanda futura.
5.4 Análise final dos resultados
A primeira análise apresentada foi com relação ao tamanho de janela.

Constatou-se que o tamanho de janela de treinamento dos dados influencia diretamente
no erro observado na previsão e, ao mesmo tempo, é sensível às oscilações embutidas
no conjunto de dados. Para conjuntos como o abordado neste estudo, onde há
uma tendência de queda ao longo do tempo, janelas menores se mostram mais
interessantes. Porém, caso a demanda de passageiros não tivesse se alterado ao longo
do tempo, este comportamento provavelmente se alteraria. Contudo, é normal que a
demanda de passageiros se altere ao longo do tempo, acompanhando a tendência de
aumento ou diminuição da utilização do transporte por parte da população. Com as
análises propostas acerca deste tópico, a janela de tamanho 30 foi considerada a mais
apropriada.
Após análise dos tamanhos de janela, o próximo ponto importante é o estudo
das bases utilizadas em cada previsão. Ressalta-se, neste ponto, que a escolha dos
objetos utilizados para a previsão tem essencial importância para sua assertividade.
No Subconjunto 1 é utilizada a base completa, com fins de semana, feriados e período
de recesso escolar. Porém, sabe-se que estes períodos são atípicos para a demanda
de passageiros do transporte público. Sendo assim, foi proposta a análise da previsão
gerada em 4 subconjuntos, partindo do menos para o mais restritivo, de modo a
observar a necessidade de análises separadas para cada caso. Como no Subconjunto
4 os dados possuem maior constância, com oscilações menos representativas, este
60
consegue gerar menores erros de previsão. Sendo assim, para dias como fins de
semana, feriados e períodos de recesso escolar, o mais adequado seria aplicar os
métodos separadamente em bases que contenham apenas estes períodos e refazer os
testes e análises, em busca de menores erros de previsão.
Além disso, para o Subconjunto 4 há uma significativa redução para a
ociosidade do sistema. Considerando, por exemplo, a janela com tamanho 30,
inicialmente a ociosidade era de 93, 30%, reduzindo para 1, 33%, já que o delta médio
entre oferta e demanda, anteriormente, era de 5325, 09 passageiros por dia, passando
a ser 75, 82. Com base nestes valores, a Árvore de Regressão foi o método que gerou
menos ociosidade, enquanto a Regressão Linear se mostrou menos assertiva. Ainda
assim, vale ressaltar que a diferença entre o melhor erro médio, observado na Árvore de
Regressão, e o pior, observado na Regressão Linear, é de apenas 13, 95. Percebe-se,
portanto, que o método pior avaliado ainda está bem próximo dos demais.
Por fim, tendo analisado o tamanho de janela e subconjunto mais adequado,
resta analisar qual método se mostrou mais adequado. Com base nos resultados,
percebe-se, para os dois parâmetros de comparação utilizados, que a Árvore de
Regressão é o método mais indicado para a previsão. Neste quesito, vale mencionar que
a sensibilidade de cada método à alterações de tamanhos de janela e do subconjunto
utilizado, faz com que o método mais ou menos indicado para cada caso oscile. Por
isso, o estudo foi feito a partir do tamanho de janela e subconjunto, até chegar ao
método mais indicado.
Adicionalmente, apesar deste trabalho não ter utilizado como parâmetro o
tempo de processamento de cada método, vale ressaltar que todos os métodos, exceto
a Rede Neural Artificial, tiveram tempo de processamento na ordem de minutos, sendo
passíveis de utilização prática no dia a dia. Já a RNA possui tempo de processamento
na ordem de dias, não sendo tão interessante para este caso.
Sendo assim, a análise final dos resultados gerados foi sumarizada na Tabela
11.
Tabela 11 – Resultado final

Método Janela Minimum samples leaf Subconjunto RM SE R2
Árvore de Regressão 30 10 4 280, 48 0, 64
A Figura 19 ilustra o comportamento da quantidade de passageiros medida

versus a quantidade prevista para o melhor resultado apontado na Tabela 11.
61
Figura 19 – Medidos x Previstos

62
6 CONCLUSÕES
Um fator muito importante para a mobilidade urbana e o planejamento de

transportes dos grandes centros é o equilíbrio entre oferta e demanda dos serviços de
transporte público urbano. Além disso, para a empresa fornecedora do serviço, este
equilíbrio é determinante para que o sistema não fique ocioso nem sobrecarregado,
impactando diretamente na sua receita. Porém, prever o comportamento humano é um
grande desafio para a área, visto que os métodos tradicionais de previsão de demanda
envolvem fatores socioeconômicos da população e são voltados para o planejamento de
médio a longo prazo. Por isso, ressaltou-se neste trabalho a oportunidade da utilização
de métodos de Aprendizado de Máquina para previsão de demanda de passageiros,
voltado ao transporte público urbano em uma linha de Joinville.
Neste sentido, este estudo propôs a comparação de cinco métodos de
Aprendizado de Máquina, sendo eles: Regressão por Vizinho mais Próximo, Regressão
Linear, Árvore de Regressão, Regressão por Vetores de Suporte e Rede Neural Artificial.
Cada método foi calibrado em relação aos seus parâmetros e testado para diversos
tamanhos de janela de treinamento, com objetivo de propor o melhor contexto para
futuras previsões. Como destaque positivo nos resultados, aponta-se a Árvore de
Regressão, que apresentou no geral as melhores previsões, associada à um baixo
custo de treinamento. Dentre as janelas, destaca-se que, para dados com tendência
de queda ou aumento da demanda, como é o caso abordado ao longo deste estudo,
janelas não ancoradas e de menores tamanhos se mostraram mais adequadas, visto
que não carregam nos dados de treinamento valores antigos (que não refletem mais a
realidade observada), que podem levar a maiores erros na previsão.
Uma abordagem sugerida para trabalhos futuros seria comparar os resultados
obtidos variando-se, além dos parâmetros abordados aqui, o tamanho do passo na
aplicação dos modelos. Neste caso, o passo considerado foi sempre de tamanho igual
a 7, porém pode-se testar, por exemplo, a aplicação diária da previsão para ver a
assertividade ou, até mesmo, a aplicação mensal, reduzindo a frequência da atividade.
63
REFERÊNCIAS
ANTP. Sistema de Informação da Mobilidade Urbana : Relatório Geral 2016. São

Paulo, SP, 2018.
BARROS, A.; OLIVEIRA, B. de; BEDNARSKI, C. Como pandemia e tecnologia

estão impulsionando a venda de carros. [S.l.], 2020.
BRACHMAN, R. J.; ANAND, T. The process of knowledge discovery in databases::

a first sketch. In: Workshop on Knowledge Discovery in Databases. Washington,
EUA: American Association for Artificial Intelligence, 1994.
CAMPOS, V. B. G. Planejamento de transportes: conceitos e modelos. Rio de

Janeiro: Interciência, 2013. 188 p.
CHOWDHURY, M.; APON, A.; DEY, K. Data Analytics for Intelligent Transportation
Systems. Amsterdam, Netherlands: Elsevier, 2017.
COPPIN, B. Inteligência artificial. Rio de Janeiro: LTC, 2013. 636 p.
FACELI, K. et al. Inteligência artificial : uma abordagem de aprendizado de máquina.

Rio de Janeiro: LTC, 2015. 378 p.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge

discovery in databases. In: AI Magazine. Providence, EUA: American Association for
Artificial Intelligence, 1996. v. 17, n. 3.
FERRAZ, A. C. P.; TORREZ, I. G. E. Transporte público urbano. 2. ed. São Carlos:

Rima, 2004. 410 p.
FRAWLEY, W. J.; PIATETSKY-SHAPIRO, G.; MATHEUS, C. J. Knowledge discovery in

databases: an overview. In: AI Magazine. California, EUA: American Association for
Artificial Intelligence, 1992. v. 13, n. 3.
GOLDSCHMIDT, R.; PASSOS, E. Data mining: um guia prático. Rio de Janeiro, RJ:
Elsevier Editora Ltda., 2005. 253 p.
HOEL, L. A.; GARBER, N. J.; SADEK, A. W. Engenharia de infraestrutura de

transportes : uma integração multimodal. São Paulo: Cengage Learning, 2011. 598 p.
IBGE. [S.l.], 2020. Disponível em: <https://www.ibge.gov.br/cidades-e-estados/sc/

joinville.html>.
IPPUJ/IPC. Pesquisa Origem/Destino 2010. [S.l.], 2010. Disponível

em: <https://www.joinville.sc.gov.br/wp-content/uploads/2018/09/
Joinville-Cidade-em-Dados-2018-Mobilidade.pdf>.
64
KIRKPATRICK, C.; DAHLQUIST, J. Technical Analysis:: The Complete Resource for

Financial Market Technicians. [S.l.]: FT Press, 2006.
LIMA, G. C. L. S. et al. Transporte público e COVID-19:: O que pode ser feito? Rio
de Janeiro, 2020.
LOPES, C. A. Qualidade de vida no trabalho em atividades de serviços de

transporte por aplicativos. Monografia (Administração) — Universidade Federal de
Ouro Preto, Mariana, MG, 2017.
MENEZES, G. M. C. HTILDE-RT: Um algoritmo de aprendizado de árvores

de regressão de lógica de primeira ordem para fluxos de dados relacionais.
Dissertação (Mestrado) — Universidade Federal do Rio de Janeiro, 2011.
NTU. Brasília, DF, 2019. Disponível em: <www.ntu.org.br/novo/upload/Publicacao/

Pub637110488381579841.pdf>.
NTU. Anuário NTU: 2019 - 2020. Brasília, DF, 2020. Disponível em: <https:
//www.ntu.org.br/novo/upload/Publicacao/Pub637375719747836003.pdf>.
OPPENHEIM, N. Urban travel demand modeling. New York: John Wiley Sons, 1995.
480 p.
ORTEGA, Z.; ROCIO, L. Estimativa da radiação solar global pelos modelos de

Hargreaves e aprendizado de máquina em 11 regiões de São Paulo /Brasil.
Dissertação (Mestrado) — Universidade Estadual Paulista, 2020.
ORTIZ, A. et al. Úberes e títeres: mentalidades, posições públicas e a crise dos taxistas
na cidade do rio de janeiro. São Paulo, SP, 2016.
DIOS ORTUZAR, J. de; WILLUMSEN, L. G. Modelling transport. 4. ed. New Jersey:

John Wiley Sons, 2011. 607 p.
PEDREGOSA, F. et al. Scikit-learn: Machine learning in Python. Journal of Machine

Learning Research, v. 12, p. 2825–2830, 2011.
PYTHON 3.9.4. [S.l.], 2021. Disponível em: <www.python.org>.
RODRIGUES, S. C. A. Modelo de Regressão Linear e suas Aplicações. Dissertação

(Mestrado) — Universidade da Beira Interior, Covilhã, Portugal, 2012.
RUAS, G. I. S. et al. Previsão de demanda de energia elétrica utilizando Redes

Neurais Artificiais e Support Vector Regression. Curitiba, PR: [s.n.], 2004.
RUSSELL, S.; NORVIG, P. Inteligência artificial. 3. ed. Rio de Janeiro: Elsevier

Editora Ltda., 2013. 988 p.
SALANOVA, J. M. et al. A review of the modeling of taxi services. 2011.
SANTOS SENNA, L. A. dos. Economia e planejamento dos transportes. Rio de

Janeiro: Elsevier, 2014. 258 p.
65
SILVA, T. et al. Planejamento cirúrgico de estrabismo horizontal utilizando regressores

de múltiplas saídas. In: Anais do XVII Workshop de Informática Médica. Porto
Alegre, RS: SBC, 2017. Disponível em: <https://sol.sbc.org.br/index.php/sbcas/article/
view/3714>.
TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introduction to data mining. Boston, EUA:
Pearson Education, 2006. 769 p.
TIBURCIO, F. S. Uma aplicação de redes neurais artificiais para previsão

da demanda de passageiros no transporte público da cidade de Joinville.
Monografia (Engenharia de Transportes e Logística) — UFSC, Joinville, SC, 2018.
VAPNIK, V. The Nature of Statistical Learning Theory. Berlin: Springer, 1995.
VASCONCELOS, L. P. et al. Uma comparação de técnicas de regressão para a

previsão de consumo de energia residencial no cenário nacional. Blumenau, SC, 2017.
VUCHIC, V. R. Urban Transit : operations, planning, and economics. New Jersey: John
Wiley Sons, 2005. 644 p.
WRI BRASIL. São Paulo, SP, 2020. Disponível em: <https://wribrasil.org.br/pt/tags/

grupo-de-benchmarking>.

TCC Luíza Moreira Bezerra Versão Final

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

TCC Luíza Moreira Bezerra Versão Final

Enviado por

Direitos autorais:

Formatos disponíveis

UNIVERSIDADE FEDERAL DE SANTA CATARINA

CENTRO TECNOLÓGICO DE JOINVILLE

LUÍZA MOREIRA BEZERRA

COMPARAÇÃO DE MÉTODOS DE APRENDIZADO DE MÁQUINA PARA PREVISÃO

COMPARAÇÃO DE MÉTODOS DE APRENDIZADO DE MÁQUINA PARA PREVISÃO

Trabalho de Conclusão de Curso apresentado

Orientador: Prof. Dr. Pablo Andretta Jaskowiak

COMPARAÇÃO DE MÉTODOS DE APRENDIZADO DE MÁQUINA PARA

Este Trabalho de Conclusão de Curso foi

Joinville (SC), 04 de maio de 2021.

Uma das informações mais importantes para o planejamento operacional de um sistema

Palavras-chave: Previsão de Demanda. Aprendizado de Máquina. Regressão.

Margaret Hilda Thatcher

Figura 1 – Queda de demanda de passageiros nos sistemas de transporte

Tabela 1 – Atributos da base de dados . . . . . . . . . . . . . . . . . . . . . . . 41

RM SE Root Mean Squared Error

KDD Knowledge Discovery in Databases

kNN k-Nearest Neighbors

MLP Multilayer Perceptron

RBF Radial Basis Function

ReLU Rectified Linear Unit

RNA Rede Neural Artificial

SVM Support Vector Machines

SVR Support Vector Regression

TAE Teoria de Aprendizado Estatístico

3 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS . . . 27

Com o desenvolvimento urbano, maior é a necessidade de deslocamento

parte das distâncias é percorrida nos veículos de transporte público, representando

Figura 1 – Queda de demanda de passageiros nos sistemas de transporte público por

Fonte: (WRI BRASIL, 2020)

Com demanda menor que a oferta, muitas empresas de ônibus fecharam e

Figura 2 – Ciclo dos Transportes

Mudanças no uso do solo

Alteração no valor e da terra Gera movimentos

Fonte: Adaptado de (CAMPOS, 2013)

Segundo Campos (2013), se a intensidade dessas relações não for

Os objetivos geral e específicos deste estudo são discutidos a seguir.

1.1.1 Objetivo Geral

O objetivo geral do presente trabalho é comparar e avaliar quantitativamente

1.1.2 Objetivos Específicos

Os objetivos especificos do presente trabalho são:

1.2 Estrutura do trabalho

Visando alcançar os objetivos propostos, este trabalho foi organizado da

Oppenheim (1995) define viajar como uma atividade que ocorre de um

Ortuzar e Willumsen (2011) observam que modelos de planejamento de transporte

2.1 Modelo de Quatro Etapas

Ortuzar e Willumsen (2011) definem um modelo como uma representação

Figura 3 – Fluxograma básico de planejamento de transportes

Avaliação dos projetos e

Fonte: Adaptado de (ORTUZAR; WILLUMSEN, 2011)

De acordo com a Figura 4, após o processo de coleta de dados, inicia-se o

Figura 4 – Estrutura do Modelo Sequencial de transportes

Dados atuais e projeções

Alocação das viagens

Fonte: Adaptado de (CAMPOS, 2013)

análise do equilíbrio entre a oferta e a demanda, faz-se a distribuição da quantidade

2.1.1 Geração de Viagens

Segundo Senna (2014), nesta etapa da modelagem de transportes define-se a

do ano-base de todas as zonas de tráfego;

2.1.2 Distribuição de Viagens

Segundo Senna (2014), o objetivo da distribuição é estimar os intercâmbios

computacional, além da quantidade reduzida de informações. Sua maior desvantagem

2.1.3 Divisão Modal

2.1.4 Alocação de Tráfego