Escolar Documentos
Profissional Documentos
Cultura Documentos
Joinville
2021
LUÍZA MOREIRA BEZERRA
Joinville
2021
LUÍZA MOREIRA BEZERRA
Banca Examinadora:
________________________
Dr. Pablo Andretta Jaskowiak
Orientador/Presidente
________________________
Dr.(a) Vanina Macowski Durski Silva
1º Membro
Universidade Federal de Santa Catarina
________________________
Dr. Benjamin Grando Moreira
2º Membro
Universidade Federal de Santa Catarina
Dedico este trabalho ao meu avô, Moacyr Dias Moreira.
RESUMO
Agradeço aos meus pais, pela base e apoio que me deram e por terem sonhado comigo
para que este momento chegasse.
Agradeço aos meus avós, Moacyr e Therezinha, pelo apoio e carinho de sempre e por
serem exemplos na minha vida.
Agradeço ao Henrique (meu lindo!) que divide a vida comigo, me aguenta em momentos
que nem eu me aguento e me apoia em todas as decisões.
Agradeço aos meus amigos, em especial ao Natan e ao Kolling, que sempre estiveram
ao meu lado quando eu precisei, e até mesmo quando não precisei, para os momentos
bons e ruins.
Agradeço ao professor Pablo pela paciência e dedicação ao longo desse tempo. Sou
sua fã!
Agradeço à banca, não só por ter aceitado o convite, mas também por compartilhar
deste momento comigo.
Agradeço a todos os professores que tive oportunidade de conhecer ao longo desta
jornada, que contribuíram para que eu chegasse até aqui. Em especial, agradeço à
professora Vanina e à professora Sílvia, que me ajudaram a abrir portas na minha vida
e se tornaram, mais que professoras, amigas.
Agradeço, de maneira geral, a todos os colaboradores da UFSC, que me receberam de
braços abertos, e aos meus colegas de trabalho, que me ajudam diariamente no meu
desenvolvimento profissional e acreditam no meu potencial.
Agradeço à toda minha família e à família do Henrique por terem acreditado no meu
potencial e me ajudado em todo o processo.
"Obrigado a todas as pessoas que contribuíram para meu sucesso e para meu
crescimento como pessoa. Sou o resultado da confiança e da força de cada um de
vocês." (Augusto Branco)
"Não foi sorte, eu mereci."
R2 Coeficiente de Determinação
AM Aprendizado de Máquina
IA Inteligência Artificial
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.1 Objetivo Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Estrutura do trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 PLANEJAMENTO DE TRANSPORTES . . . . . . . . . . . . . . . . 17
2.1 Modelo de Quatro Etapas . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.1 Geração de Viagens . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.1.2 Distribuição de Viagens . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.3 Divisão Modal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.4 Alocação de Tráfego . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2 Demanda por transportes . . . . . . . . . . . . . . . . . . . . . . . 25
2.3 Considerações Finais . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1 Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Janela deslizante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3 Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.3.1 Avaliação dos Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1 Análise dos resultados por tamanho de janela . . . . . . . . . . . 47
5.2 Análise dos resultados por subconjunto . . . . . . . . . . . . . . . 49
5.2.1 Análise dos subconjuntos . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Resultados gerais por método . . . . . . . . . . . . . . . . . . . . . 55
5.3.1 Análise dos métodos segundo o RM SE e R2 . . . . . . . . . . . . . 55
5.3.2 Comparação entre os resultados por método . . . . . . . . . . . . . . 58
5.4 Análise final dos resultados . . . . . . . . . . . . . . . . . . . . . . 59
6 CONCLUSÕES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
12
1 INTRODUÇÃO
Aumento da acessibilidade e
Demanda por transporte
mobilidade
Oferta de transporte
1.1 Objetivos
2 PLANEJAMENTO DE TRANSPORTES
Formulação do problema
Coleta de dados
Construção e calibração
do modelo analítico
Geração de
Predição de
alternativas de
variáveis
projetos
Validação do modelo e
simulação dos impactos
dos projetos
Implementação
da solução
escolhida
Geração de viagens
Distribuição de viagens
Divisão modal
Alternativas de transporte
viagens) (SENNA, 2014). Campos (2013) ressalta que, no conceito mais usual, viagens
produzidas numa zona de tráfego são aquelas que se iniciam, ou sejam, que têm como
origem a zona de tráfego, e viagens atraídas são aquelas que têm como destino a
mesma.
Para estimativa das viagens geradas faz-se necessário a elaboração de um
modelo matemático que represente a demanda de transporte de acordo com a
realidade estudada. Definido o modelo a ser utilizado, este é calibrado utilizando
observações, relativas ao ano-base, obtidas por meio das diferentes pesquisas
(CAMPOS, 2013). Campos (2013) explica que o processo de geração de viagens
compreende:
• Identificação dos dados/variáveis determinantes do ano-base;
• Determinação do modelo a ser utilizado;
• Calibração do modelo;
• Projeção dos dados do modelo para o ano de projeto;
• Aplicação do modelo calibrado;
• Determinação das viagens futuras.
Ainda segundo Campos (2013), os modelos mais usuais de geração de viagens
são:
• Fator de Crescimento: associa um crescimento uniforme para toda a área, ou
crescimentos proporcionais para cada zona específica (SENNA, 2014). Ortuzar
e Willumsen (2011) destaca que seu maior problema é relacionar o método de
estimação a variáveis como população, renda e posse de carro, por exemplo.
• Taxas de Viagem: determina o número de viagens por tipo de ocupação do solo.
Para cada tipo de atividade define-se uma taxa de produção e/ou atração de
viagens. Esta taxa, na maioria das vezes, relaciona o número de viagens por
unidade de área construída ou de utilização do solo por atividade (CAMPOS,
2013).
• Classificação Cruzada: baseado em técnicas estatísticas simplificadas, em que
abre-se mão de modelos mais complexos para poder utilizar uma análise mais
desagregada (SENNA, 2014). Também conhecido como Análise de Categorias,
este modelo pode ser entendido como uma extensão de um modelo de taxas
de viagens, utilizando, neste caso, dados desagregados por tipo de residência
(CAMPOS, 2013).
• Regressão: visa construir uma função linear ou não linear entre o número de
viagens existentes (variável dependente) e os vários fatores que influenciam as
viagens (variáveis independentes) (CAMPOS, 2013).
Algumas características dos modelos descritas por Campos (2013) são:
• Os coeficientes e constantes são encontrados por calibração utilizando os dados
22
Nesta etapa é estimada a demanda por modo de transporte a ser utilizado nos
deslocamentos previstos na etapa de distribuição de viagens (CAMPOS, 2013).
Segundo Senna (2014), a divisão modal atribui a cada modalidade de
transporte a parcela provável da demanda que irá absorver. Nesta etapa devem ser
distinguidos os fluxos que, em função de suas características, são cativos de certos
modos de transporte, daqueles considerados competitivos, ou seja, que podem escolher
entre alternativas modais.
A informação resultante desta etapa consiste em uma série de matrizes de
viagens, para cada modo considerado, tipo de fluxo e período (SENNA, 2014).
24
Interpretação /
Avaliação
Mineração de
Dados
Transformação Conhecimento
Pré-processamento
Seleção
Padrões
Dados
Dados pré- transformados
processados
Dados Dados alvo
que mapeia um item de dados para uma variável de predição de valor real (FAYYAD;
PIATETSKY-SHAPIRO; SMYTH, 1996).
A Mineração de Dados baseia-se em ideias e técnicas de diferentes áreas,
como Aprendizado de Máquina, Inteligência Artificial e Reconhecimento de Padrões.
A Mineração de Dados também adotou rapidamente ideias de outras áreas, incluindo
otimização, computação evolutiva, teoria da informação, processamento de sinais,
visualização e recuperação de informações (TAN; STEINBACH; KUMAR, 2006). Uma
série de outras áreas também desempenham papéis importantes de apoio. Em
particular, os sistemas de banco de dados são necessários para fornecer suporte
para armazenamento, indexação e processamento de consulta eficientes. As técnicas
de computação de alto desempenho (paralela) são frequentemente importantes para
lidar com o tamanho massivo de alguns conjuntos de dados. As técnicas distribuídas
também podem ajudar a resolver o problema do tamanho e são essenciais quando
os dados não podem ser reunidos em um local (TAN; STEINBACH; KUMAR, 2006). A
Figura 6 mostra a relação entre a Mineração de Dados e outras áreas.
Inteligência Artificial
Estatística Mineração de Dados Aprendizado de Máquina
Reconhecimento de padrões
onde cada yi foi gerado por uma função desconhecida y = f (x), descobrir uma função
h que se aproxime da função verdadeira f .
Neste contexto x e y podem ter qualquer valor, não necessariamente números.
A função h obtida é chamada de hipótese. A aprendizagem é uma busca através do
espaço de hipóteses possíveis por aquela que terá um bom desempenho, mesmo em
novos exemplos, além do conjunto de treinamento fornecido para sua obtenção. Para
medir a precisão de uma hipótese, fornecemos um conjunto de testes de exemplos que
são distintos do conjunto de treinamento. Dizemos que uma hipótese generaliza se ela
prevê corretamente o valor de y para novos exemplos (RUSSELL; NORVIG, 2013).
Russell e Norvig (2013) explicam que, quando y for um número, o problema
de aprendizagem é chamado de regressão. Portanto, a solução de um problema de
regressão é encontrar uma expectativa condicional ou valor médio de y, visto que
a probabilidade de se achar exatamente o número de valor real certo para y é 0. A
regressão é uma metodologia que possibilita obter uma relação funcional entre variáveis
dependentes e variáveis independentes. Em outras palavras, consiste no cálculo de
valores por meio de uma função obtendo uma resposta (no caso, uma predição) através
das variáveis preditoras (VASCONCELOS et al., 2017).
Os métodos de regressão abordados neste trabalho incluem a Regressão
Linear Múltipla, Redes Neurais Artificiais, Árvores de Regressão, Regressão por Vizinho
Mais Próximo e Regressão por Vetores de Suporte. Estes são discutidos a seguir.
34
uma relação linear entre uma variável dependente y e uma independente (preditora) x,
enquanto na regressão múltipla são consideradas duas ou mais variáveis explicativas
(independentes). As variáveis independentes são chamadas de variáveis explicativas
pois explicam a variação de y (RODRIGUES, 2012).
Dia útil
SIM NÃO
SIM NÃO
ALTO BAIXO
utilizados, segundo Faceli et al. (2015), são o polinomial, o de função base radial (Radial
Basis Function - RBF) e o sigmoidal.
Segundo Russell e Norvig (2013), uma Rede Neural Artificial (RNA) é composta
por nós ou unidades (neurônios artificiais) conectadas por ligações direcionadas. Uma
ligação da unidade i para a unidade j serve para propagar a ativação de i para j. Cada
ligação também tem um peso numérico associado a ela, que determina a força e o
sinal de conexão. Assim como em modelos de regressão linear, cada unidade tem
uma entrada fictícia com peso associado. Cada unidade primeiro calcula uma soma
ponderada de suas entradas e, em seguida, é aplicada uma função de ativação a essa
soma para obter a saída.
Em uma RNA, os neurônios podem estar dispostos em uma ou mais camadas,
como explica Faceli et al. (2015). Quando duas ou mais camadas são utilizadas, um
neurônio pode receber em seus terminais de entrada valores de saída de neurônios da
camada anterior e/ou enviar seu valor de saída para terminais de entrada de neurônios
da camada seguinte. Neste caso de multicamadas, a RNA pode ser chamada de
Multilayer Perceptron, ou MLP. A Figura 8 ilustra um exemplo de RNA com três camadas.
A rede apresentada como exemplo na figura recebe como entrada valores de dois
atributos e gera dois valores em sua saída.
2006).
4 MATERIAIS E MÉTODOS
4.1 Dados
porém nem todos foram utilizados para este trabalho. Foram definidos, então, 4
subconjuntos de dados, a fim de se avaliar variações na acurácia da previsão realizada.
São eles:
• Subconjunto 1: contém 5 atributos (Dia_Semana_Saida, Semana_Mes_Saida,
Vespera_Feriado, Feriado e Recesso_Escolar ). É o subconjunto com maior
número de variáveis e objetos. Possui, ao todo, 731 objetos (observações).
• Subconjunto 2: composto pelos mesmos 5 atributos do Subconjunto
1 (Dia_Semana_Saida, Semana_Mes_Saida, Vespera_Feriado, Feriado e
Recesso_Escolar ), porém foram excluídos os dias da semana referentes a sábado
e domingo, visto que são dias atípicos para a demanda de passageiros. Mais
restritivo que o primeiro, possui em sua base 521 objetos.
• Subconjunto 3: contém 4 atributos (Dia_Semana_Saida, Semana_Mes_Saida,
Vespera_Feriado e Recesso_Escolar ), já que foram excluídos os objetos
referentes aos feriados, não fazendo sentido manter o atributo Feriado. Utiliza
como base inicial o Subconjunto 2, não possuindo, portanto, os dias referentes
ao fim de semana. Vale ressaltar que os dias de feriado possuem caráter atípico
para a demanda, assim como o fim de semana, tendo sido escolhido por este
motivo. No total, conta com 499 objetos.
• Subconjunto 4: é o subconjunto mais restritivo dentre os 4, contendo apenas 3
atributos (Dia_Semana_Saida, Semana_Mes_Saida e Vespera_Feriado). Gerado
a partir do Subconjunto 3, foram excluídos os objetos referentes ao período
de recesso escolar, visto que é um período de grande impacto na geração de
demanda. Sendo assim, não havia mais sentido em deixar na base o atributo
Recesso_Escolar. Com esta restrição, a quantidade de objetos caiu para 404.
Os atributos de cada subconjunto estão descritos na Tabela 2.
Subconjuntos
1 2 3 4
Dia_Semana_Saida X X X X
Semana_Mes_Saida X X X X
Vespera_Feriado X X X X
Feriado X X
Recesso_Escolar X X X
Fonte: Autora (2021)
foram normalizados.
Janelas = {30, 60, 90, 120, 150, 180, 210, ..., 330, 360, 390, 420, 450, 480, 510}
Janelas = {30, 60, 90, 120, 150, 180, 210, ..., 300, 330, 360, 390, 420, 450, 480}
• Subconjunto 4: Já neste caso, a janela máxima foi reduzida para 390, resultando
em 13 cenários diferentes por método.
Janelas = {30, 60, 90, 120, 150, 180, 210, ..., 210, 240, 270, 300, 330, 360, 390}
4.3 Métodos
na camada oculta e utilizada como função de ativação a Unidade Linear Retificada (em
inglês, Rectified Linear Unit - ReLU). Ao final, foram avaliados 5 cenários diferentes por
janela, resultando em 315 cenários no total. Foi utilizada a função MLPRegressor da
biblioteca sklearn.neural_network (PEDREGOSA et al., 2011).
A quantidade total de cenários diferentes avaliados estão apresentados na
Tabela 4.
• Raiz Quadrada do Erro Quadrático Médio - ou Root Mean Squared Error (RM SE):
seu valor é sempre positivo e, quanto menor os valores obtidos para RM SE,
melhor o desempenho dos modelos (ORTEGA; ROCIO, 2020). Seu valor ideal é
zero. É encontrado por meio da Equação 4.2.
v
u
Xn
u
RM SE = (1/n)
t (yi − ŷi )2 (4.2)
i=1
47
5 RESULTADOS
Ranking
RM SE R2
30 1, 00 ± 0, 00 4, 00 ± 4, 69
60 2, 00 ± 0, 00 4, 29 ± 4, 31
90 3, 00 ± 0, 00 3, 86 ± 3, 48
120 4, 00 ± 0, 00 6, 86 ± 5, 24
150 5, 00 ± 0, 00 6, 71 ± 3, 68
180 6, 14 ± 0, 38 6, 71 ± 1, 98
210 7, 00 ± 0, 58 6, 71 ± 3, 04
240 8, 71 ± 1, 25 9, 57 ± 1, 90
270 10, 00 ± 0, 82 8, 00 ± 3, 32
300 11, 57 ± 1, 90 8, 00 ± 3, 92
330 13, 00 ± 1, 63 9, 14 ± 4, 30
360 14, 14 ± 1, 46 11, 00 ± 3, 42
390 15, 29 ± 1, 38 12, 14 ± 3, 02
420 15, 86 ± 1, 46 13, 86 ± 2, 61
450 13, 00 ± 2, 89 14, 71 ± 1, 80
480 12, 86 ± 3, 39 16, 43 ± 0, 79
510 10, 43 ± 2, 70 11, 00 ± 5, 10
Fonte: Autora (2021)
Com base na Figura 12, nota-se a tendência na queda da demanda para todos
os subconjuntos estudados, o que significa que a quantidade de passageiros por dia
49
reduziu ao longo dos dias, meses e anos. Independente do conjunto conter dados de fim
de semana, feriado e recesso escolar, a demanda reduziu. Sendo assim, quanto mais
dias estiverem contidos em uma mesma janela, mais fortemente esta tendência será
percebida em seus dados, podendo não ser acompanhada pelas previsões, gerando
maior impacto sob o erro gerado. Ao mesmo tempo, quando observadas as janelas
menores, como a de tamanho 30, por exemplo, os dados contidos ali dizem respeito à
demanda de passageiros ao longo de 30 dias. A tendência de queda em um período tão
pequeno de dados pode ser observada mas de forma bem mais amena do que em uma
janela que considere, por exemplo, mais de um ano em seu conjunto de treinamento.
Por estes motivos, não seria interessante utilizar, também, a janela deslizante ancorada,
visto que os dados iniciais permaneceriam conforme a janela fosse aumentada e o
tamanho da janela aumentar prejudica a previsão.
Levando em consideração os melhores resultados obtidos pelas janelas de
tamanho 30, as discussões a partir de agora se restringirão a este tamanho de janela
específico, visto que o objetivo final é propor o contexto que gera resultados mais
ajustados aos dados.
Janelas
30 60 90
RM SE R2 RM SE R2 RM SE R2
Vizinho mais Próximo 871, 58 0, 49 778, 04 0, 59 681, 70 0, 64
Regressão Linear 1323, 64 0, 08 1255, 02 0, 14 1205, 45 0, 16
Subconjunto 1
métodos, foram calculadas, para as janelas de 30, 60 e 90, as médias dos valores
previstos e as médias dos valores medidos, para que pudesse ser calculada a diferença
entre eles. Tal diferença representa, justamente, a porção do sistema que está sendo
disponibilizada e não utilizada. Os valores encontrados na base de dados para cada
caso estão registrados na Tabela 7 e os valores encontrados a partir dos métodos de
previsão estão apontados na Tabela 8.
Oferta Demanda ∆ %
Subconjunto 1 9874, 49 4552, 35 5322, 14 116, 91%
Subconjunto 2 10804, 12 5366, 03 5438, 09 101, 34%
30
Com base nas Figuras 13, 14, 15 e 16, percebe-se que os valores previstos se
sobrepõem melhor aos valores medidos quando há maior homogeneidade nos dados,
não conseguindo acompanhar picos muito expressivos que podem ter sido causados
por atributos não sinalizados na base ou não utilizados para treinamento nos métodos.
54
oscilava entre 117, 98% e 93, 26%, estando os maiores valores também seguindo a
mesma lógica anterior, com o Subconjunto 1 gerando mais ociosidade, sendo reduzida
até o Subconjunto 4.
Com base nos resultados discutidos, o Subconjunto 4 apresentou melhores
resultados por ser mais homogêneo no seu conjunto de dados, visto que, como sugerido
pelas Figuras 13, 14, 15 e 16, as previsões geram erros maiores nos dias de pico
e conforme a tendência nos dados se altera dentro de uma mesma janela. Assim,
os métodos são mais assertivos para o Subconjunto 4 e menos para o Subconjunto
1, gerando menor ociosidade do sistema para o primeiro e maior para o segundo.
Porém, vale notar que, ainda para o subconjunto com piores resultados, a ociosidade
foi reduzida em 115, 20% para o caso da janela de 30. Sendo assim, mesmo com os
resultados piorando de um subconjunto para outro, os valores encontrados ainda foram
satisfatórios em relação à situação atual. Contudo, como o objetivo deste estudo é
propor menores erros de previsão, uma sugestão para previsão de dias atípicos como
fins de semana, feriados e período de recesso escolar seria a aplicação dos métodos
separadamente para estes casos, considerando uma base exclusiva para cada um
deles e avaliando seus resultados.
Melhores resultados
Método RM SE R2
Vizinho mais Próximo 284, 48 0, 63
Regressão Linear 294, 43 0, 62
Árvore de Regressão 280, 48 0, 64
SVR - Linear 284, 95 0, 63
SVR - Polinomial 285, 05 0, 62
SVR - Radial 284, 25 0, 63
RNA - ReLU 292, 45 0, 63
Fonte: Autora (2021)
Ranking
Todas as janelas 30, 60 e 90 30
2 2
RM SE R RM SE R RM SE R2
Vizinho mais Próximo 4, 35 ± 2, 34 2, 29 ± 0, 69 5, 00 ± 1, 73 3, 67 ± 0, 58 3 4
Regressão Linear 4, 47 ± 1, 01 4, 71 ± 1, 31 5, 67 ± 1, 15 5, 67 ± 2, 31 7 7
Árvore de Regressão 2, 71 ± 2, 34 1, 00 ± 0, 00 5, 00 ± 3, 46 1, 00 ± 0, 00 1 1
SVR - Linear 4, 24 ± 1, 64 6, 24 ± 0, 83 2, 33 ± 1, 53 5, 00 ± 0, 00 4 5
SVR - Polinomial 4, 59 ± 2, 03 3, 76 ± 1, 09 4, 00 ± 1, 00 5, 33 ± 1, 15 5 6
SVR - Radial 4, 71 ± 1, 99 5, 71 ± 1, 31 2, 33 ± 0, 58 5, 00 ± 2, 65 2 2
RNA - ReLU 2, 88 ± 1, 58 4, 29 ± 1, 49 3, 67 ± 2, 52 2, 33 ± 0, 58 6 3
Fonte: Autora (2021)
O ranking médio geral para todos os tamanhos de janela indica, tanto para o
RM SE, quanto para o R2 , a Árvore de Regressão como melhor método. Em segundo
lugar, para o RM SE e para o R2 , respectivamente, ficaram o RNA, com a função ReLU,
e o Vizinho mais Próximo.
Como já foi visto que as janelas de 30, 60 e 90 geram as melhores previsões
melhores em relação às demais, vale observar as mudanças no ranking quando
observado apenas estes resultados. Comparando os resultados encontrados ainda na
59
Tabela 10, percebe-se que os primeiros lugares encontrados já não são os mesmos.
Os métodos que geram, neste caso particular, menores valores de RM SE são o SVR
Linear e Radial, empatados em primeiro lugar, seguidos pela RNA ReLU. Já para o R2 ,
o primeiro lugar permanece sendo a Árvore de Regressão, enquanto o segundo lugar se
torna a RNA ReLU, ficando o Vizinho mais Próximo em terceiro. Com isso, percebe-se
que alguns métodos são mais sensíveis que outros em relação à variação encontrada
em conjuntos de dados maiores. A Árvore de Regressão consegue se ajustar melhor
aos resultados de maneira geral, considerando todas as janelas estudadas, gerando
um erro médio menos expressivo. O SVR, por sua vez, não é tão atrativo para janelas
maiores, mas se ajusta melhor ao valor medido quando consideradas apenas as janelas
menores.
Por fim, analisando apenas a janela de 30, já concluída como a mais adequada
para o estudo, o ranking indica a Árvore de Regressão como sendo o método com
melhores resultados, seguido pelo SVR Radial, tanto para o RM SE quanto para o
R2 . Os piores resultados observados foram gerados pela Regressão Linear, sendo o
método menos indicado para o cálculo da demanda futura.
consegue gerar menores erros de previsão. Sendo assim, para dias como fins de
semana, feriados e períodos de recesso escolar, o mais adequado seria aplicar os
métodos separadamente em bases que contenham apenas estes períodos e refazer os
testes e análises, em busca de menores erros de previsão.
Além disso, para o Subconjunto 4 há uma significativa redução para a
ociosidade do sistema. Considerando, por exemplo, a janela com tamanho 30,
inicialmente a ociosidade era de 93, 30%, reduzindo para 1, 33%, já que o delta médio
entre oferta e demanda, anteriormente, era de 5325, 09 passageiros por dia, passando
a ser 75, 82. Com base nestes valores, a Árvore de Regressão foi o método que gerou
menos ociosidade, enquanto a Regressão Linear se mostrou menos assertiva. Ainda
assim, vale ressaltar que a diferença entre o melhor erro médio, observado na Árvore de
Regressão, e o pior, observado na Regressão Linear, é de apenas 13, 95. Percebe-se,
portanto, que o método pior avaliado ainda está bem próximo dos demais.
Por fim, tendo analisado o tamanho de janela e subconjunto mais adequado,
resta analisar qual método se mostrou mais adequado. Com base nos resultados,
percebe-se, para os dois parâmetros de comparação utilizados, que a Árvore de
Regressão é o método mais indicado para a previsão. Neste quesito, vale mencionar que
a sensibilidade de cada método à alterações de tamanhos de janela e do subconjunto
utilizado, faz com que o método mais ou menos indicado para cada caso oscile. Por
isso, o estudo foi feito a partir do tamanho de janela e subconjunto, até chegar ao
método mais indicado.
Adicionalmente, apesar deste trabalho não ter utilizado como parâmetro o
tempo de processamento de cada método, vale ressaltar que todos os métodos, exceto
a Rede Neural Artificial, tiveram tempo de processamento na ordem de minutos, sendo
passíveis de utilização prática no dia a dia. Já a RNA possui tempo de processamento
na ordem de dias, não sendo tão interessante para este caso.
Sendo assim, a análise final dos resultados gerados foi sumarizada na Tabela
11.
6 CONCLUSÕES
REFERÊNCIAS
CHOWDHURY, M.; APON, A.; DEY, K. Data Analytics for Intelligent Transportation
Systems. Amsterdam, Netherlands: Elsevier, 2017.
GOLDSCHMIDT, R.; PASSOS, E. Data mining: um guia prático. Rio de Janeiro, RJ:
Elsevier Editora Ltda., 2005. 253 p.
LIMA, G. C. L. S. et al. Transporte público e COVID-19:: O que pode ser feito? Rio
de Janeiro, 2020.
NTU. Anuário NTU: 2019 - 2020. Brasília, DF, 2020. Disponível em: <https:
//www.ntu.org.br/novo/upload/Publicacao/Pub637375719747836003.pdf>.
OPPENHEIM, N. Urban travel demand modeling. New York: John Wiley Sons, 1995.
480 p.
ORTIZ, A. et al. Úberes e títeres: mentalidades, posições públicas e a crise dos taxistas
na cidade do rio de janeiro. São Paulo, SP, 2016.
TAN, P.-N.; STEINBACH, M.; KUMAR, V. Introduction to data mining. Boston, EUA:
Pearson Education, 2006. 769 p.
VUCHIC, V. R. Urban Transit : operations, planning, and economics. New Jersey: John
Wiley Sons, 2005. 644 p.