Escolar Documentos
Profissional Documentos
Cultura Documentos
FORTALEZA
2023
JOÃO VÍCTOR PINHEIRO RODRIGUES
Fortaleza
2023
Dados Internacionais de Catalogação na Publicação
Universidade Federal do Ceará
Sistema de Bibliotecas
Gerada automaticamente pelo módulo Catalog, mediante os dados fornecidos pelo(a) autor(a)
BANCA EXAMINADORA
________________________________
Prof. Dr. Roberto Tatiwa Ferreira
Universidade Federal Ceará (UFC)
________________________________
Prof. Dr. Rafael Barros Barbosa
Universidade Federal Ceará (UFC)
________________________________
Prof. Dr. Carlos de Oliveira Caminha Neto
Universidade Federal Ceará (UFC)
“O sonho de um homem
nunca acabará”
Marshall D. Teach
AGRADECIMENTOS
De longe esta foi uma das partes mais difíceis de se elaborar neste trabalho, pois não
consigo descrever ou mensurar utilizando palavras o quanto o sentimento de gratidão me
move e me faz seguir em frente, pois o quanto sou grato a todos ao meu redor é o que define
o meu ser e o que serei futuramente.
Agradeço primeiramente a minha vó Sônia e minha bisavó Vivi que me criaram e
cuidaram de mim como se fossem minhas mães e sem elas eu não seria nada do que sou hoje,
pois seguindo tudo o que elas me ensinaram foi a fórmula para poder chegar até aqui. Não
menos importante, para meu padrinho Danilo e madrinha Fernanda, que sempre me deram o
suporte necessário nos momentos mais difíceis da minha vida. Agradeço também à minha tia
Karen e ao meu avô Feijão que mesmo com ambos morando tão perto e tão longe ao mesmo
tempo, sempre me animaram e me levantaram nas dificuldades que enfrentei.
Aos professores que passaram pela minha vida, primeiramente ao Roberto Tatiwa que
abraçou essa minha ideia mesmo quando admiti que eu não possuía nenhum conhecimento
aprofundado e quis fazer algo neste tema apenas por gostar e querer me desenvolver. Aos
professores Rafael Barros e Carlos Caminha que sempre se abriam para minhas conversas em
relação ao tema de dados e econometria e que acabei convidando-os para a banca por causa
de seu suporte também. Ao professor Sylvio Kappes que em seu breve momento na UFC não
foi apenas um professor, mas também um ótimo amigo e que sempre rendia ótimas conversas
e assuntos. Para os outros professores do corpo docente da FEAAC que graças a sua maestria
e amor por ensinar me fizeram ter o amor por este curso, como: Inez, Aquino, Jair, Cristina,
Glauber, Ramon, Sebastião, Giubran, Elano, Sandra, Fabrício, Felix e Alfredo. Aos outros
que me definiram como pessoa no ensino médio: Ivan, Amadeus, Daniel, Roberto, Lidevalber
e Víctor que fizeram eu me apaixonar ainda mais pela matemática e o resto do corpo docente
da escola Maria Ângela da Silveira Borges. E mesmo de forma não direta, Yukio da
Universidade de Dados que sempre me motivou a querer estudar na área de data Science.
Aos meus amigos da faculdade que sem eles eu não seria nada, principalmente aqueles
que estiveram comigo do meu lado que me deram suporte e também me suportaram, como
Sadi, Elissa, Giovanna, Bruna, Davi, Caio, Ingrid, Bárbara, Rafael, Letícia, Gustavo, Carla,
Larissa. Aos bichos que recebi e sempre tentei orientar na faculdade da melhore forma
possível como Fábio, Lívia, Cauã e Peterson. Às minhas amizades virtuais que mesmo
distantes sempre me alegraram e me fizeram me sentir bem como Gustavo, Igor, Madu,
pessoal do grupo do Mesa e mutuals. Às minhas outras amizades que sempre tive que pedir
paciência pela minha distância causada pela minha sobrecarga de atividades: Letícia, Lara,
Felipe, Mabel, Alexia, Nasser, Sabrina, Victória, Ewerton, Lucas, Taynara e muito mais que
se eu fosse citar seria 25% de todo meu texto.
Às empresas que passei e que ainda acho que fui afortunado em sempre me alocarem
nas melhores equipes com as melhores pessoas: Vonixx, Ceará Marine Pilots, Companhia
Docas do Ceará e CANPACK Brasil. Que sempre me ajudaram e me desenvolveram não só
como profissional, mas também como uma pessoa melhor.
E por último, à minha “sorte”, pois sem ela eu nunca teria passado por todas essas
pessoas que “me construíram” e que me definem, sem aqueles que me dão suporte eu não me
sinto sustentado, então mesmo com este longo texto, ainda acho insuficiente para mensurar
minha gratidão a todos.
RESUMO
O volume de carga movimentado em uma localidade tende a evidenciar o nível de contato desse
local com o comércio exterior e sua perspectiva de futuro frequentemente pode ditar os rumos
de uma economia. Dentre os diversos portos no Ceará, o porto de Fortaleza (ou do Mucuripe)
é um dos que possui maior diversificação de tipos de cargas movimentadas sendo elas
destinadas/oriundas do exterior ou para o próprio país. Entretanto, o futuro do cenário de
movimentações é incerto e as previsões dos cenários são feitas de formas antiquadas e sem a
profundidade necessária para a estabilização de expectativas em relação ao futuro. O presente
texto se propõe a treinar e validar diferentes tipos de modelos que possam ser de fácil adaptação
e uso para a administração do Porto do Mucuripe no futuro de suas ações e descobrir que
variáveis externas acessíveis podem auxiliar nesse processo. Após todos os procedimentos de
determinação dos modelos, escolhas de variáveis externas e validações cruzadas, as métricas
utilizadas para avaliar o desempenho dos modelos de machine learning e econométricos
apresentaram resultados insuficientes para definir uma previsão precisa, sendo esse transtorno
causado pela limitação do número de observações da série temporal e da quantidade de
variáveis externas acessíveis, abrindo assim espaço para novos modelos ou diferentes tipos de
aquisições e modelagens de dados.
The volume of cargo handled in a locality tends to reveal the level of its contact with foreign
trade, and its future outlook often dictates the course of an economy. Among the various
ports in Ceará, the port of Fortaleza (or Mucuripe) is one of those with a greater
diversification of types of handled cargo, whether destined to/from abroad or within the
country. However, the future of these movements is uncertain, and scenario predictions are
often outdated and lack the necessary depth for stabilizing expectations regarding the future.
This text aims to train and validate different types of models that can be easily adapted and
used for the administration of the Mucuripe Port in future actions. It also seeks to identify
accessible external variables that can assist in this process. After all the model determination
procedures, external variable selections, and cross-validations, the metrics used to assess the
performance of machine learning and econometric models yielded insufficient results to
define an accurate forecast. This disruption is attributed to the limited number of time series
observations and the quantity of accessible external variables, paving the way for new models
or different data acquisition and modeling approaches.
Keywords: Forecasting; Port Traffic; Port of Fortaleza; Machine Learning; Time Series
Econometrics; Cross-Validation.
SUMÁRIO
1. INTRODUÇÃO ............................................................................................................ 12
2. REFERENCIAL TEÓRICO ......................................................................................... 13
2.1. TERMOS PORTUÁRIOS E O PORTO DO MUCURIPE ....................................... 13
3. METODOLOGIA......................................................................................................... 17
3.1. TERMOS INTRODUTÓRIOS, E VALIDAÇÃO DOS MODELOS ........................ 17
3.2. MODELOS ARMA, ARIMA E ARIMAX .............................................................. 21
3.3. HOLT-WINTERS ................................................................................................. 22
3.4. APRENDIZADO DE MÁQUINA COM ÁRVORES DE DECISÃO ........................ 25
3.5. MÉTODOS DE SELEÇÃO DE VARIÁVEIS ......................................................... 29
3.6. DADOS ................................................................................................................. 33
4. RESULTADOS ............................................................................................................ 38
5. CONCLUSÃO .............................................................................................................. 48
APÊNDICE ..................................................................................................................... 55
LISTA DE FIGURAS
Tabela 1 - Movimentação de carga (t.) por tipo de sentido (2018 - 2022) .............................. 14
Tabela 2 - Movimentação de carga (t.) por país (10 maiores em movimentação no período
2018-2022) ............................................................................................................................... 15
Tabela 3 - Movimentação de carga importada (t.) por tipo de mercadoria (2018 – 2022). ..... 16
Tabela 4 - Movimentação de carga exportada (t.) por tipo de mercadoria (2018 – 2022). ..... 16
Tabela 5 - Movimentação de carga transportada em cabotagem (t.) por tipo de mercadoria
(2018 – 2022). .......................................................................................................................... 17
Tabela 6 - Relação entre variáveis do estudo e suas fontes ..................................................... 30
Tabela 7 - Teste ADF e p-valor das variáveis utilizadas nos modelos .................................... 33
Tabela 8 - Teste ADF e p-valor das variáveis após diferenciação quando necessária ............ 34
Tabela 9 - Resultados das métricas do modelo Holt-Winters .................................................. 41
Tabela 10 – Resultados das métricas do modelo CatBoost ..................................................... 43
Tabela 11 – Resultados das métricas do modelo Random Forest ............................................ 45
Tabela 12 - Resultados das métricas do modelo XGBOOST .................................................. 46
Tabela 13 - Resultados das métricas do modelo ARIMAX (2,0,3) ......................................... 48
1. INTRODUÇÃO
Modais de transporte são aqueles designados para transportar cargas, pessoas ou até
ambos juntos, tendo como principais diferenças entre si os suportes técnicos, tipo e meio de
deslocamento, capacidade de carga, poluição emitida, velocidade, segurança e etc.. Os
transportes podem ser definidos também como multimodais, sendo estes comumente utilizados
quando se necessita transportar cargas via modal aquaviário (RODRIGUE, 2023).
Ainda segundo a autora o modal aquaviário é aquele que é designado como principal local
de transporte a água, tendo como transporte mais utilizado o marítimo que se designa por ser
aquele em que a movimentação ocorre por meios de mares e oceanos. Como mostrado por
Lopes (2013), esse modal sofreu de uma grande revolução com o início da conteinerização, que
alavancou em um nível significativo o transporte de cargas em grandes volumes por meio desse
modal. Além da carga conteinerizada, esse modal pode transportar também outros tipos de
natureza de carga, sendo essas naturezas:
Para melhor compreensão, os tipos de viagens que os portos abarcam são definidos da
seguinte forma de acordo com as considerações levadas pela própria ANTAQ:
I.Cabotagem: transporte de cargas pelo modal aquaviário tendo como destino uma
instalação do próprio país originário da carga, podendo ela ser feita por vias fluviais,
lacustres ou marítimas;
II.Longo curso: transporte de cargas pelo modal aquaviário em que o destino desejado é
localizado em outros países. Podendo ser abordada com duas subdivisões: Importação
e Exportação.
Para as análises neste capítulo serão utilizados dados do intervalo de tempo entre 2018-
2022, pois ele representa a situação do porto momentos antes da pandemia e logo
posteriormente. Dessa forma, o porto do Mucuripe apresenta três categorias de propósito de
transporte da carga sendo elas: importação, exportação e cabotagem em que na base de dados
da ANTAQ essas três categorias de destino possuem um nível significativo de participação na
movimentação total sem desvalorizar totalmente outra, como mostra a tabela 1.
Com isso, os países escolhidos para possuírem maior atenção para obtenção de dados no
futuro são: Estados Unidos, Argentina, Holanda, Espanha e Colômbia - que sua soma representa
78% do total movimentado em sentidos de longo curso - considerando os restantes dos países
que não estão na tabela 2.
Entretanto, pelo alto nível de volatilidade na flutuação que a série histórica dessas
movimentações apresentam de forma separada, unificar todas elas em apenas um só tipo de
movimentação para criar um modelo de previsão acaba se tornando uma medida segura para
manter uma performance aceitável nos valores previstos por ele.
Tabela 3 - Movimentação de carga importada (t.) por tipo de mercadoria (2018 – 2022).
Tabela 4 - Movimentação de carga exportada (t.) por tipo de mercadoria (2018 – 2022).
3. METODOLOGIA
Para obter ótimos resultados em relação às previsões feitas, é necessário algum indicador
ou método que valide a eficiência e acurácia do modelo, de forma que demonstre que esse
modelo cumpra com os objetivos desejados: uma ótima adaptabilidade e uma minimização dos
erros de previsão. Dessa forma, um método que pode ser aplicado com esse objetivo é o de
“Cross-Validation” (CV), em que Kohavi (1995) descreve como uma divisão de certas
proporções da base de dados, de forma em que uma parcela será utilizada para o modelo treinar
os seus parâmetros, e a parcela restante seria utilizada para que o modelo treinado possa testar
a sua acurácia. Para otimização da eficiência desse método, aleatorizar quais dados serão
separados em parcela é uma ótima ferramenta para minimizar o viés do modelo, além disso, a
proporção utilizada em cada seção treino-teste pode ser alterada de acordo com as preferências
de quem está usando esse modelo tendo como exemplo uma divisão 70/30 ou 60/40 para
escolher a proporção treino/teste respectivamente. Além disso, para maximizar a aleatorização
das sementes aleatórias (random seed) na reorganização dos dados e prevenir que a semente
aleatória escolhida seja uma que possibilite os dados de terem ótimos resultados por um fator
aleatório de “sorte”, as métricas serão calculadas após 10 divisões de treino e testes diferente,
calculando a média dos resultados de cada.
Para Berrar (2018) uma forma adicional de validar as previsões feitas seria a
implementação da “K-Fold” (K-Dobras) Cross Validation, em que existe uma divisão da base
de dados de forma aleatorizada e organizada em K conjuntos do mesmo tamanho, onde o
modelo será treinado em K-1 sessões e testado no amontoado restante de amostras que foi
dividido. Dessa forma, isso será feito continuamente até o momento em que todos os blocos de
dados que foram separados tenham sido utilizados para a parte de teste e gerando assim uma
média do resultado de acordo com os resultados obtidos. Para automatização e simplificação
para aplicar esse tipo de Cross Validation, a biblioteca de python Skicit-Learn acaba se tornando
uma ferramenta indispensável pela sua praticidade e repercussão no meio de dados - por causa
disso - a figura 1 fornecida pelo portal dessa biblioteca demonstra como a K-Fold CV realmente
funciona:
Dessa forma, Hyndman (2021) também demonstra como manusear a CV no caso de séries
temporais, e o mesmo aponta que a técnica que consegue ter efetividade seria a Time-Series
CV (Cross Validation de Séries Temporais). Desta forma, ao aplicar esse tipo de Cross
Validation o seu conceito se assemelha bastante ao ilustrado pela K-Fold, entretanto, neste caso
a divisão dos segmentos é feita respeitando a ordenação da série histórica, começando pelo mais
antigo e finalizando até o mais recente, dividindo os dados em K segmentos. Assim, quando
definido os números de segmentos para treino, o teste será o segmento logo posterior à ele de
forma cronológica e sem ter segmentos futuros contaminando os dados de treinamento, do
mesmo jeito que o passado não será usado como validação posteriormente, de forma que todo
esse processo se assemelhe de acordo com a figura 2.
Para o caso desta obra, mais uma vez a biblioteca Skicit Learn será utilizada por causa da
sua vasta oferta de recursos de modelos de Machine Learning, métodos de Encoding e Scaling,
e suporte para aplicações de Cross Validations. Assim, ao tentar segmentar os dados para a CV,
deve haver um cuidado maior pois por existirem apenas 156 observações, uma divisão muito
grande de dados fornece segmentos cada vez menores para a etapa de treinamento e
prejudicando assim o momento em que o modelo estima seus coeficientes na parte de
treinamento como visto em James et al. (2013). Dessa forma, a divisão que trouxe os melhores
resultados foi a que possui 4 segmentos pois mesmo havendo uma pequena quantidade de
observações para estimação de treinamento, ainda possui o suficiente para validar os resultados
do teste, como visto na figura 3 em que representa como a segmentação se firmou, sendo as
iterações os momentos em que ocorre uma divisão de treinamento e teste, e demonstrado em
cada uma delas quais foram as observações em sequência temporal utilizadas em cada uma
dessas repetições.
100 |Ŷ𝑖−𝑌𝑖|
MAPE = (
𝑛
)∗ ∑ 𝑌𝑖
(1)
100 |𝑌𝑖−Ŷ𝑖|
SMAPE = (
𝑛
) ∗ ∑ (|𝑌𝑖|+ |Ŷ𝑖|) (2)
2
𝑝 𝑞
ARMA (p,q) : Y = 𝑐 + ∑𝑖=1 𝛷𝑖 𝑌𝑡−𝑖 + ∑𝑖=1 𝜃𝑖 𝑒𝑡−1 + 𝑒𝑡 (3)
3.3. HOLT-WINTERS
● Suavização Simples:
𝑌𝑡 = 𝛼 ∗ 𝑋𝑡 + (1 − 𝛼) ∗ 𝑌𝑡−1 (5)
Sendo Yt o valor que seria “suavizado” no período T, Xt o valor real no período t, Yt-1 o
valor suavizado no período anterior e α (alpha) o parâmetro de suavização entre 0 e 1. Com
isso, percebe-se que um valor de alpha no máximo possível, o valor do passado suavizado é
totalmente ignorado ao eliminar o número que o multiplica e tornando Yt totalmente explicado
pelo valor atual - já com alpha no mínimo - o valor real do período é totalmente ignorado e
tornando Yt explicado apenas pelo passado. Além disso, vale ressaltar que dessa forma em que
o modelo foi construído, o futuro é praticamente explicado apenas com médias ponderadas das
observações históricas.
● Suavização Dupla:
adicionado este termo fica de acordo com o ilustrado na equação 6 e seu termo bt detalhado na
equação 7:
𝑌𝑡+𝑘 = 𝐻𝑡 + (𝑘 ∗ 𝑇𝑡 ) (8)
Utilizando as equações (8) e (9) como base, ao adicionar os parâmetros que absorvem a
sazonalidade como Yt e M o número de períodos definidos para a sazonalidade, temos as
equações 10, 11, 12 e 13 que constroem o modelo de Holt-Winters de acordo com cada
combinação possível entre tendência e sazonalidade:
Blockeel (2023) apresenta a efetividade dos modelos que são baseados em árvores de
decisão (Decision Tree /DT) e aprendizado de máquina (Machine Learning/ML) e isso se torna
notório ao observar discussões em sites que possuem diversos especialistas da área de ML como
Stack Overflow e Kaggle, sendo este último um site que serve como “host” para competições
de ciência de dados das mais variadas áreas e temas, e que nelas é observada a forte presença
dos algoritmos de DT tanto para modelos de classificação quanto para modelos de regressão,
que é o caso deste estudo em específico.
Alguns dos prováveis motivos para essa relevância e popularidade que esse tipo de
algoritmo possui podem ser o seu baixo custo operacional ao se aplicar como afirma Liu (2013)
e o seu nível de precisão . De acordo com Ying (2019), esses modelos estão sujeitos ao
problema de sobreajuste (overfitting) quando possuem as condições necessárias para um ótimo
desempenho no treino (como alto número de observações e features).
Esse problema de overfitting ocorre quando um modelo possui alta complexidade (muitas
variáveis explicativas, muitos coeficientes em grau elevado como quadráticos por exemplo), de
forma que o mesmo ao fazer as inferências dos parâmetros durante o segmento dividido pelo
treino, apresenta alto aprendizado apenas para essa seção de dados, de forma que ao ser
utilizado no segmento de teste, os seus resultados apresentam altos níveis de erro como
mostrado por Hastie (2016). Em contrapartida, o autor também demonstra o fenômeno oposto
ao overfitting, sendo ele o underfitting (ajuste insuficiente) em que o modelo possui um
desempenho consideravelmente insuficiente já no segmento de treino e o comportamento tende
a ser evidenciado quando a etapa de teste com ele se inicia.
Assim, Belkin (2019) explica que esses comportamentos são causados principalmente
pelo nível de viés e/ou de variância de um modelo, sendo nomeado de trade-off viés variância
(bias-variance trade-off), onde modelos que possuem alto nível de complexidade e variância
seriam os modelos que sofrem de overfitting e modelos que possuem baixo nível de variância
mas um alto nível de viés, seriam os modelos que sofrem do fenômeno de underfitting - de
maneira que - para conseguir um modelo que minimize os seus erros seria necessário um
modelo que saiba dosar perfeitamente o quanto ele deseja possuir de viés e variância como
demonstrado por Fortmann (2012) e ilustrado na figura 4 como essa interação funciona. Neal
(2019) aponta que a visualização dos resultados durante a divisão treine/teste feita na cross-
validation é uma medida comumente utilizada por causa da sua eficiência de identificação
desses fenômenos.
Figura
Figura 4 - Demonstração gráfica do 4:
trade-off entre viés e variância
Logo na figura 5 está uma ilustração baseada em Kane (2017) que explica de forma
gráfica como funciona uma árvore de decisão com foco em regressão. Como uma adição maior
de variáveis torna a ilustração da árvore um trabalho árduo de se reproduzir, o foco na imagem
será em pequenos passos para melhor explicação, em que no primeiro passo temos a criação da
raíz da árvore (1), que se ramifica para poder decidir nesse exemplo qual o valor do IPCA e o
quanto ele define a movimentação portuária (mov). Ao conferir que o valor do IPCA é maior
que 12 a movimentação já é considerada como o valor ilustrado, mas quando o valor é menor
que 12, mais um ramo interno é criado e que no passo 3 e verifica o valor da SELIC para validar
se o valor é maior ou menor que 8,75 pp, que ao ser verificado como maior do que isso, uma
folha ou ramo final é criado já definindo o valor de mov. Quando a SELIC no passo 3 é menor
que 8,75 pp mais uma vez uma ramificação é criada e dessa vez verificando os valores do PIB
deflacionado (PIBD).
Outro modelo utilizado foi o de Random Forest (Floresta Aleatória ou RF) que usa os
resultados de múltiplas árvores de decisão que inicialmente escolhem as variáveis utilizadas de
forma aleatória como visto em Breiman (2001). No próximo passo, técnicas como a de Bagging
(Bootstrap Aggregating) podem ser utilizadas para reduzir o problema de overfitting, como
evidenciado por Hestii (2016) . Essa técnica gera dados através de amostragens aleatórias com
reposição do conjunto original na etapa de treinamento. Através da amostragem com
substituição, algumas observações podem ser repetidas em cada novo conjunto de dados de
treinamento. No caso do Bagging, cada elemento tem a mesma probabilidade de aparecer em
um novo conjunto de dados. Em cada uma dessas amostras é treinado um modelo ou uma
técnica de classificação. O resultado final é obtido através de uma média dos resultados das sub
amostras geradas.
Além disso, o autor também demonstra que modelos de RF possuem ótimos resultados
por causa da sua natureza que inclui Boosting durante a computação, que é um processo
ensemble em que múltiplos modelos de árvore de decisão são colocados de forma sequencial
para que cada nova árvore seja criada para reduzir os erros da árvore anterior, reduzindo assim
os erros. Cada árvore tenta entender os padrões mais complexos que a sua antecessora não
conseguiu, reduzindo também o caso de overfitting pois onde os modelos poderiam errar por
causa desse efeito, a próxima árvore também irá corrigir. Logo abaixo a fiura 6 ilustra como
Bagging e Boosting funcionam, demonstrando como Bagging faz os modelos rodarem de forma
paralela enquanto Boosting é um processo sequencial:
Figura 6 - Funcionamento do processo de Bagging e Boosting no modelo RF.
Quantos aos objetivos desta pesquisa, a sua natureza é classificada como descritiva e
explicativa, pois existe o propósito de estabelecer a relação entre as variáveis encontradas e o
total de movimentação portuária do porto, e explicativa já que existe a tentativa de compreender
o porquê dessas correlações e comportamentos mútuos entre as variáveis escolhidas e a
movimentação portuária. A base de dados totalizou um total de 156 observações referentes ao
período entre 2010 e 2022 com séries de frequências mensais e sem possuir valores nulos ou
faltantes. Para simplificação da quantificação dos dados a unidade de medida utilizada como
variável explicada será a quantidade de toneladas movimentadas pois assim não se é necessário
o uso de conversão de moedas, inflação, flutuações dos preços das mercadorias e etc.
Em relação à fonte de dados, são dados secundários obtidos pelo painel estatístico
aquaviário da ANTAQ (Agência Nacional de Transporte Aquaviário) que oferece um fácil
acesso da movimentação de carga em todos os portos públicos e privados do Brasil desde 2010.
Dessa forma, a “feature selection” inicial em relação à quais variáveis macros podem ser
utilizadas no modelo, McKinney (2013) mostra que essa decisão pode ser baseada em um mapa
de calor de correlação em que nos mostraria como cada variável não só explica a movimentação
mas como pode explicar outras variáveis e podendo assim trazer resultados mais polidos e
diminuir o tempo de teste dos modelos. Logo na figura 7 temos o resultado de um mapa de
calor de correlações de Pearson que nos orienta em qual features escolher para os modelos.
Figura 7 - Mapa de calor de correlação – Correlação de Pearson.
Dessa maneira, observa-se que no caso da correlação de Kendall existe sim uma
correlação mesmo que mínima entre as variáveis macroeconômicas e a movimentação - que
apresentam também resultados de alta correlação entre portos das proximidades em comparação
com outros portos - mas mesmo assim mantendo uma fraca correlação com o porto de Fortaleza.
Com isso, o Lasso pode reduzir o número de variáveis explicativas com intuito de reduzir
a dimensionalidade dos dados, melhorando a previsão e/ou minimizando os efeitos de
overfitting. De acordo com o “Princípio da Parcimônia” de Ledolter (1981), modelos com
menos variáveis e, portanto, menor nível de complexidade tende a gerar previsões mais
eficientes. Na equação 14 é ilustrada como é definida a fórmula do modelo de Lasso e a adição
do termo de penalidade na soma quadrática dos resíduos.
p
Lasso = RSS + λ ∑j=1|βj | (14)
3.6. DADOS
Tabela 8 - Teste ADF e p-valor das variáveis após diferenciação quando necessária
4. RESULTADOS
Figura 12 - Comparativo entre valores reais vs. valores descritos pela suavização simples.
Além disso, para poder ilustrar na figura como ocorre a execução do modelo de
suavização dupla de forma descritiva, foram testadas as versões que possuem o parâmetro de
tendência aditiva e multiplicativa para poder demonstrar sua eficiência nos dados deste estudo:
Figura 13 - Comparativo entre valores reais vs. valores descritos pela suavização dupla.
Na aplicação dos modelos em testes de previsões, logo nos resultados iniciais, os modelos
de suavização simples e dupla apresentam resultados extremamente ineficientes que foram
ilustrados nas figuras 14 e 15, descartando assim o avanço para o segmento posterior de
validação de resultados.
Figura 14 - Comparativo entre valores reais vs. valores previstos da suavização simples
● CatBoost
Junto com o próximo modelo de árvore de decisão que será apresentado, este foi um dos
considerados mais fracos em relação ao aprendizado dos padrões na TS-CV. Mesmo com
criações de variáveis de ordem maior (dólar, inflação, produto interno elevados à segunda
potência) e retroagidas em 3 períodos (as variáveis já citadas e a própria movimentação do
passado) o modelo não conseguiu desenvolver um nível significativo de variância suficiente
para poder prever a movimentação, como ilustrado no gráfico comparativo do Previsto x Real.
Entretanto, ao permitir que ele treinasse com um número maior de dados na segunda CV,
permitiu uma redução nas métricas de erro e esse tende a ser um comportamento padrão nos
modelos vistos neste texto. As variáveis escolhidas foram destacadas na figura 17 e com elas
os resultados obtidos foram os ilustrados na figura 18.
Figura 18 - Comparativo entre valores reais vs. valores previstos do modelo CatBoost
Assim, a comparação entre valores previstos comparados aos reais gerou o resultado
apresentado na Figura 20, de forma que essa provável falta de precisão possa ter sido causada
não só por causa das limitações do número de observações, mas podendo ser causada também
por causa da diminuição de variância que o modelo oferece.
Figura 20 - Comparativo entre valores reais vs. valores previstos do modelo Random Forest
Já sobre os valores obtidos nas métricas MAPE e SMAPE foram os seguintes apresentados na
tabela 11:
Tabela 11 – Resultados das métricas do modelo Random Forest
● XGBOOST
Comparado aos dois modelos previamente apresentados de árvore de decisão, este foi o
que obteve graficamente o melhor resultado em questão de variância, entretanto, os valores
absolutos das métricas não foram melhores comparado ao modelo Random Forest. Entretanto
esse resultado não necessariamente o posiciona como um modelo pior que os antecessores,
seguem as figuras 21 e 22 com a feature selection final, comparativo entre previsto vs. realizado
e a tabela 12 com o resultado do comparativo de métricas respectivamente:
● ARIMAX
Figura 23 - Comparativo entre valores reais vs. valores previstos nos modelos ARIMAX
Fonte: Elaborado pelo Autor
5. CONCLUSÃO
Além disso, vale ressaltar que mesmo com o estudo possuindo como objetivo definir
qual o melhor modelo que serve para previsão, um dos grandes problemas encontrados na
construção deles foi o de conseguir um método universal que consiga fazer um horizonte de
previsões consistente sem sofrer de data leakage ou de fácil atualização para a administração
do porto.
Outrossim, pode-se assumir que os resultados em relação à qual é o melhor modelo para
previsão entre eles são inconclusivos, pois as condições externas como obtenção de dados,
número de observações e a frequência de divulgações deles impactaram fortemente na
construção desses algoritmos.
ALVES, Bruno Valério. Transporte de Cabotagem no Brasil: Uma análise da evolução dos
fluxos de carga geral e granel, 2020.
BELKIN, Mikhail et al. Reconciling modern machine-learning practice and the classical
bias–variance trade-off, 2019.
BLOCKEEL, Hendrik et al. Decision trees: from efficient prediction to responsible AI, 2023.
BREIMAN, Leo. Random Forests, 2001.
BROCKWELL, Peter J.; DAVIS, Richard. A Introduction to Time Series and Forecasting,
2002.
DOROUDI, Shayan. The Bias-Variance Tradeoff: How Data Science Can Inform
Educational Debates, 2020.
ENDERS, Walter. Applied Econometric Time Series, 2004.
GAMA, João; FERNANDES, Ricardo; ROCHA, Ricardo. Decision trees for mining data
streams: Intelligent Data Analysis. Vol. 10, 2006.
KANE, Frank. Hands-On Data Science and Python Machine Learning, 2017.
KOHAVI, Ron. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and
Model Selection, 1995.
KONGCHAROEN, Chaleampong; KRUANGPRADIT, Tapanee. Autoregressive Integrated
Moving Average with Explanatory Variable (ARIMAX) Model for Thailand Export,
2013.
LEDOLTER, Johannes; ABRAHAM, Bovas. Parsimony and Its Importance in Time Series
Forecasting. Technometrics, Vol. 23, No. 4, p. 411-414, Novembro, 1981.
SHUMWAY, Robert; STOFFER, David. Time Series Analysis and Its Applications, 3º
edição, 2010.
https://github.com/Jvictor-Pinheiro