Você está na página 1de 56

UNIVERSIDADE FEDERAL DO CEARÁ

FACULDADE DE ECONOMIA, ADMINISTRAÇÃO, ATUÁRIA


E CONTABILIDADE - FEAAC
DEPARTAMENTO DE ECONOMIA APLICADA
PROGRAMA DE GRADUAÇÃO EM CIÊNCIAS ECONÔMICAS

JOÃO VÍCTOR PINHEIRO RODRIGUES

PORTO DO MUCURIPE: COMPARAÇÃO DE MODELOS DE

MACHINE LEARNING E SÉRIES TEMPORAIS PARA

PREVISÃO DO VOLUME DE MOVIMENTAÇÃO DE CARGA

FORTALEZA
2023
JOÃO VÍCTOR PINHEIRO RODRIGUES

PORTO DO MUCURIPE: COMPARAÇÃO DE MODELOS DE MACHINE


LEARNING E SÉRIES TEMPORAIS PARA PREVISÃO DO VOLUME DE
MOVIMENTAÇÃO DE CARGA

Monografia apresentada ao Curso de Ciências


Econômicas da Faculdade de Economia,
Administração, Atuária, Contabilidade e
Secretariado Executivo da Universidade Federal do
Ceará, como requisito parcial para obtenção do
título de Bacharel em Ciências Econômicas.

Orientador: Prof. Dr. Roberto Tatiwa Ferreira.

Fortaleza
2023
Dados Internacionais de Catalogação na Publicação
Universidade Federal do Ceará
Sistema de Bibliotecas
Gerada automaticamente pelo módulo Catalog, mediante os dados fornecidos pelo(a) autor(a)

R613p Rodrigues, João.


Porto do Mucuripe : Comparação De Modelos De Machine Learning E Séries Temporais Para Previsão
Do Volume De Movimentação De Carga / João Rodrigues. – 2023.
55 f. : il. color.

Trabalho de Conclusão de Curso (graduação) – Universidade Federal do Ceará, Faculdade de Economia,


Administração, Atuária e Contabilidade, Curso de Ciências Econômicas, Fortaleza, 2023.
Orientação: Prof. Dr. Roberto Tatiwa Ferreira.

1. Machine Learning. 2. Séries Temporais. 3. Modelos de Previsão. 4. Movimentação Portuária. 5.


Economia. I. Título.
CDD 330
JOÃO VÍCTOR PINHEIRO RODRIGUES

PORTO DO MUCURIPE: COMPARAÇÃO DE MODELOS DE MACHINE


LEARNING E SÉRIES TEMPORAIS PARA PREVISÃO DO VOLUME DE
MOVIMENTAÇÃO DE CARGA

Monografia apresentada ao Curso de Ciências


Econômicas da Faculdade de Economia,
Administração, Atuária, Contabilidade e
Secretariado Executivo da Universidade
Federal do Ceará, como requisito parcial para
obtenção do título de Bacharel em Ciências
Econômicas.

Aprovada em: _______/_______/_______

BANCA EXAMINADORA

________________________________
Prof. Dr. Roberto Tatiwa Ferreira
Universidade Federal Ceará (UFC)

________________________________
Prof. Dr. Rafael Barros Barbosa
Universidade Federal Ceará (UFC)

________________________________
Prof. Dr. Carlos de Oliveira Caminha Neto
Universidade Federal Ceará (UFC)
“O sonho de um homem
nunca acabará”

Marshall D. Teach
AGRADECIMENTOS

De longe esta foi uma das partes mais difíceis de se elaborar neste trabalho, pois não
consigo descrever ou mensurar utilizando palavras o quanto o sentimento de gratidão me
move e me faz seguir em frente, pois o quanto sou grato a todos ao meu redor é o que define
o meu ser e o que serei futuramente.
Agradeço primeiramente a minha vó Sônia e minha bisavó Vivi que me criaram e
cuidaram de mim como se fossem minhas mães e sem elas eu não seria nada do que sou hoje,
pois seguindo tudo o que elas me ensinaram foi a fórmula para poder chegar até aqui. Não
menos importante, para meu padrinho Danilo e madrinha Fernanda, que sempre me deram o
suporte necessário nos momentos mais difíceis da minha vida. Agradeço também à minha tia
Karen e ao meu avô Feijão que mesmo com ambos morando tão perto e tão longe ao mesmo
tempo, sempre me animaram e me levantaram nas dificuldades que enfrentei.
Aos professores que passaram pela minha vida, primeiramente ao Roberto Tatiwa que
abraçou essa minha ideia mesmo quando admiti que eu não possuía nenhum conhecimento
aprofundado e quis fazer algo neste tema apenas por gostar e querer me desenvolver. Aos
professores Rafael Barros e Carlos Caminha que sempre se abriam para minhas conversas em
relação ao tema de dados e econometria e que acabei convidando-os para a banca por causa
de seu suporte também. Ao professor Sylvio Kappes que em seu breve momento na UFC não
foi apenas um professor, mas também um ótimo amigo e que sempre rendia ótimas conversas
e assuntos. Para os outros professores do corpo docente da FEAAC que graças a sua maestria
e amor por ensinar me fizeram ter o amor por este curso, como: Inez, Aquino, Jair, Cristina,
Glauber, Ramon, Sebastião, Giubran, Elano, Sandra, Fabrício, Felix e Alfredo. Aos outros
que me definiram como pessoa no ensino médio: Ivan, Amadeus, Daniel, Roberto, Lidevalber
e Víctor que fizeram eu me apaixonar ainda mais pela matemática e o resto do corpo docente
da escola Maria Ângela da Silveira Borges. E mesmo de forma não direta, Yukio da
Universidade de Dados que sempre me motivou a querer estudar na área de data Science.
Aos meus amigos da faculdade que sem eles eu não seria nada, principalmente aqueles
que estiveram comigo do meu lado que me deram suporte e também me suportaram, como
Sadi, Elissa, Giovanna, Bruna, Davi, Caio, Ingrid, Bárbara, Rafael, Letícia, Gustavo, Carla,
Larissa. Aos bichos que recebi e sempre tentei orientar na faculdade da melhore forma
possível como Fábio, Lívia, Cauã e Peterson. Às minhas amizades virtuais que mesmo
distantes sempre me alegraram e me fizeram me sentir bem como Gustavo, Igor, Madu,
pessoal do grupo do Mesa e mutuals. Às minhas outras amizades que sempre tive que pedir
paciência pela minha distância causada pela minha sobrecarga de atividades: Letícia, Lara,
Felipe, Mabel, Alexia, Nasser, Sabrina, Victória, Ewerton, Lucas, Taynara e muito mais que
se eu fosse citar seria 25% de todo meu texto.
Às empresas que passei e que ainda acho que fui afortunado em sempre me alocarem
nas melhores equipes com as melhores pessoas: Vonixx, Ceará Marine Pilots, Companhia
Docas do Ceará e CANPACK Brasil. Que sempre me ajudaram e me desenvolveram não só
como profissional, mas também como uma pessoa melhor.
E por último, à minha “sorte”, pois sem ela eu nunca teria passado por todas essas
pessoas que “me construíram” e que me definem, sem aqueles que me dão suporte eu não me
sinto sustentado, então mesmo com este longo texto, ainda acho insuficiente para mensurar
minha gratidão a todos.
RESUMO

O volume de carga movimentado em uma localidade tende a evidenciar o nível de contato desse
local com o comércio exterior e sua perspectiva de futuro frequentemente pode ditar os rumos
de uma economia. Dentre os diversos portos no Ceará, o porto de Fortaleza (ou do Mucuripe)
é um dos que possui maior diversificação de tipos de cargas movimentadas sendo elas
destinadas/oriundas do exterior ou para o próprio país. Entretanto, o futuro do cenário de
movimentações é incerto e as previsões dos cenários são feitas de formas antiquadas e sem a
profundidade necessária para a estabilização de expectativas em relação ao futuro. O presente
texto se propõe a treinar e validar diferentes tipos de modelos que possam ser de fácil adaptação
e uso para a administração do Porto do Mucuripe no futuro de suas ações e descobrir que
variáveis externas acessíveis podem auxiliar nesse processo. Após todos os procedimentos de
determinação dos modelos, escolhas de variáveis externas e validações cruzadas, as métricas
utilizadas para avaliar o desempenho dos modelos de machine learning e econométricos
apresentaram resultados insuficientes para definir uma previsão precisa, sendo esse transtorno
causado pela limitação do número de observações da série temporal e da quantidade de
variáveis externas acessíveis, abrindo assim espaço para novos modelos ou diferentes tipos de
aquisições e modelagens de dados.

Palavras chaves: Previsão; Movimentação Portuária; Porto de Fortaleza; Machine Learning;


Econometria de Séries Temporais; Validação Cruzada.
ABSTRACT

The volume of cargo handled in a locality tends to reveal the level of its contact with foreign
trade, and its future outlook often dictates the course of an economy. Among the various
ports in Ceará, the port of Fortaleza (or Mucuripe) is one of those with a greater
diversification of types of handled cargo, whether destined to/from abroad or within the
country. However, the future of these movements is uncertain, and scenario predictions are
often outdated and lack the necessary depth for stabilizing expectations regarding the future.
This text aims to train and validate different types of models that can be easily adapted and
used for the administration of the Mucuripe Port in future actions. It also seeks to identify
accessible external variables that can assist in this process. After all the model determination
procedures, external variable selections, and cross-validations, the metrics used to assess the
performance of machine learning and econometric models yielded insufficient results to
define an accurate forecast. This disruption is attributed to the limited number of time series
observations and the quantity of accessible external variables, paving the way for new models
or different data acquisition and modeling approaches.

Keywords: Forecasting; Port Traffic; Port of Fortaleza; Machine Learning; Time Series
Econometrics; Cross-Validation.
SUMÁRIO

1. INTRODUÇÃO ............................................................................................................ 12
2. REFERENCIAL TEÓRICO ......................................................................................... 13
2.1. TERMOS PORTUÁRIOS E O PORTO DO MUCURIPE ....................................... 13
3. METODOLOGIA......................................................................................................... 17
3.1. TERMOS INTRODUTÓRIOS, E VALIDAÇÃO DOS MODELOS ........................ 17
3.2. MODELOS ARMA, ARIMA E ARIMAX .............................................................. 21
3.3. HOLT-WINTERS ................................................................................................. 22
3.4. APRENDIZADO DE MÁQUINA COM ÁRVORES DE DECISÃO ........................ 25
3.5. MÉTODOS DE SELEÇÃO DE VARIÁVEIS ......................................................... 29
3.6. DADOS ................................................................................................................. 33
4. RESULTADOS ............................................................................................................ 38
5. CONCLUSÃO .............................................................................................................. 48
APÊNDICE ..................................................................................................................... 55
LISTA DE FIGURAS

Figura 1 - K-Fold cross-validation com 5 separações ............................................................. 18


Figura 2 - Exemplo de validação cruzada de séries temporais ................................................ 19
Figura 3 - Estado final da segmentação de observações após aplicar a Time-Series CV ........ 20
Figura 4 - Demonstração gráfica do trade-off entre viés e variância ....................................... 26
Figura 5 - Exemplo de funcionamento de uma Decision Tree com as variáveis do estudo .... 27
Figura 6 - Funcionamento do processo de Bagging e Boosting no modelo RF. ..................... 29
Figura 7 - Mapa de calor de correlação – Correlação de Pearson. .......................................... 31
Figura 8 - Mapa de calor de correlação – Correlação de Kendall. .......................................... 32
Figura 9 - Coeficiente dos estimadores das variáveis após regressão de Lasso ...................... 35
Figura 10 - Gráfico do comportamento das variáveis escolhidas para o modelo ARIMAX
após diferenciação .................................................................................................................... 35
Figura 11 - Gráficos das funções de Autocorrelação e Autocorrelação Parcial. ..................... 38
Figura 12 - Comparativo entre valores reais vs. valores descritos pela suavização simples. .. 39
Figura 13 - Comparativo entre valores reais vs. valores descritos pela suavização dupla. ..... 40
Figura 14 - Comparativo entre valores reais vs. valores previstos da suavização simples ...... 40
Figura 15 - Comparativo entre valores reais vs. valores previstos da suavização dupla ......... 41
Figura 16 - Comparativo entre valores reais vs. valores previstos do modelo Holt-Winters .. 42
Figura 17 – Variáveis escolhidas no console para o modelo Random Forest ......................... 43
Figura 18 - Comparativo entre valores reais vs. valores previstos do modelo CatBoost ........ 43
Figura 19 – Variáveis escolhidas no console para o modelo Random Forest ......................... 44
Figura 20 - Comparativo entre valores reais vs. valores previstos do modelo Random Forest
.................................................................................................................................................. 44
Figura 21 – Variáveis escolhidas no console para o modelo XGBOOST ............................... 45
Figura 22 - Comparativo entre valores reais vs. valores previstos no modelo XGBOOST .... 45
Figura 23 - Comparativo entre valores reais vs. valores previstos nos modelos ARIMAX .... 46
Figura 24 - Valores reais vs. previstos na movimentação portuária brasileira - Holt-Winters 50
LISTA DE TABELAS

Tabela 1 - Movimentação de carga (t.) por tipo de sentido (2018 - 2022) .............................. 14
Tabela 2 - Movimentação de carga (t.) por país (10 maiores em movimentação no período
2018-2022) ............................................................................................................................... 15
Tabela 3 - Movimentação de carga importada (t.) por tipo de mercadoria (2018 – 2022). ..... 16
Tabela 4 - Movimentação de carga exportada (t.) por tipo de mercadoria (2018 – 2022). ..... 16
Tabela 5 - Movimentação de carga transportada em cabotagem (t.) por tipo de mercadoria
(2018 – 2022). .......................................................................................................................... 17
Tabela 6 - Relação entre variáveis do estudo e suas fontes ..................................................... 30
Tabela 7 - Teste ADF e p-valor das variáveis utilizadas nos modelos .................................... 33
Tabela 8 - Teste ADF e p-valor das variáveis após diferenciação quando necessária ............ 34
Tabela 9 - Resultados das métricas do modelo Holt-Winters .................................................. 41
Tabela 10 – Resultados das métricas do modelo CatBoost ..................................................... 43
Tabela 11 – Resultados das métricas do modelo Random Forest ............................................ 45
Tabela 12 - Resultados das métricas do modelo XGBOOST .................................................. 46
Tabela 13 - Resultados das métricas do modelo ARIMAX (2,0,3) ......................................... 48
1. INTRODUÇÃO

A quantidade de carga movimentada em um porto de uma determinada localidade pode


ser considerada como uma possível evidência do contato da localização com o comércio
exterior e como está o funcionamento da economia da região. De acordo com a “Revisão do
Transporte Marítimo” em 2022 da Conferência das Nações Unidas sobre Comércio e
Desenvolvimento (UNCTAD), o modal aquaviário atualmente é o mais utilizado para
transporte de mercadorias em locomoções internacionais (mantendo uma porcentagem média
acima de 95%). Dessa forma, entender e prever o futuro da movimentação total no porto não
poderia ser apenas interessante para os tomadores de decisões que administram o local, mas
para o próprio governo que poderia utilizar isso para nortear decisões futuras em relação à
movimentação da economia e sua relação com o comércio exterior.

Logo, o objetivo principal deste texto é de identificar um possível modelo de previsão


que não seja apenas um minimizador de erros de previsão, mas também um que seja facilmente
adaptado para receber alterações quando ocorrer prospecção de contratos de negócios ou
choques externos. Além disso, esse texto leva em conta a consideração que já existe um modelo
explicativo sobre a movimentação dos portos do Ceará no Plano Mestre Pecém - Fortaleza
publicado em Janeiro de 2020, mas nesse caso em que será abordado aqui, a movimentação
será apenas para o Porto do Mucuripe e possuindo adaptações pós-choque pandêmico do Sars-
CoV 19.

Outrossim, identificar se as movimentações/demandas de outras cargas no passado


conseguem explicar a movimentação futura junto com a identificação de quais fatores externos
ao porto e à economia de Fortaleza determinam o volume futuro de carga movimentada na área
portuária. Com isso, além do objetivo principal de criar o modelo de previsão, outros objetivos
específicos deste texto são:

I. Identificar até que ponto é possível conseguir um modelo de fácil interpretação e


adaptação para o uso cotidiano no Porto de Fortaleza;
II. Identificar quais variáveis externas podem determinar a movimentação.
2. REFERENCIAL TEÓRICO

2.1. TERMOS PORTUÁRIOS E O PORTO DO MUCURIPE

Modais de transporte são aqueles designados para transportar cargas, pessoas ou até
ambos juntos, tendo como principais diferenças entre si os suportes técnicos, tipo e meio de
deslocamento, capacidade de carga, poluição emitida, velocidade, segurança e etc.. Os
transportes podem ser definidos também como multimodais, sendo estes comumente utilizados
quando se necessita transportar cargas via modal aquaviário (RODRIGUE, 2023).

Ainda segundo a autora o modal aquaviário é aquele que é designado como principal local
de transporte a água, tendo como transporte mais utilizado o marítimo que se designa por ser
aquele em que a movimentação ocorre por meios de mares e oceanos. Como mostrado por
Lopes (2013), esse modal sofreu de uma grande revolução com o início da conteinerização, que
alavancou em um nível significativo o transporte de cargas em grandes volumes por meio desse
modal. Além da carga conteinerizada, esse modal pode transportar também outros tipos de
natureza de carga, sendo essas naturezas:

I.Carga geral - carga que possui marca de identificação e permite possibilidade de


contagem de unidades, podendo essas cargas serem soltas ou unitizadas por materiais
de embalagem como pallets (podendo também ser armazenada em contêineres);

II.Carga a granel (sólida ou líquida) – Carga líquida ou seca, normalmente transportada


sem nenhum condicionamento, e não possui obrigatoriedade de possuir marca de
identificação e comumente sem a possibilidade de contagem de unidades (exemplos:
trigo, minérios, petróleo e derivados).

Para melhor compreensão, os tipos de viagens que os portos abarcam são definidos da
seguinte forma de acordo com as considerações levadas pela própria ANTAQ:

I.Cabotagem: transporte de cargas pelo modal aquaviário tendo como destino uma
instalação do próprio país originário da carga, podendo ela ser feita por vias fluviais,
lacustres ou marítimas;
II.Longo curso: transporte de cargas pelo modal aquaviário em que o destino desejado é
localizado em outros países. Podendo ser abordada com duas subdivisões: Importação
e Exportação.

Para as análises neste capítulo serão utilizados dados do intervalo de tempo entre 2018-
2022, pois ele representa a situação do porto momentos antes da pandemia e logo
posteriormente. Dessa forma, o porto do Mucuripe apresenta três categorias de propósito de
transporte da carga sendo elas: importação, exportação e cabotagem em que na base de dados
da ANTAQ essas três categorias de destino possuem um nível significativo de participação na
movimentação total sem desvalorizar totalmente outra, como mostra a tabela 1.

Tabela 1 - Movimentação de carga (t.) por tipo de sentido (2018 - 2022)

Fonte: ANTAQ (2023).

Além disso, para incrementar os acertos do modelo, as flutuações econômicas dos


principais países parceiros podem se tornar ótimas ferramentas que auxiliariam na acurácia das
previsões em um futuro em que esses dados se tornem mais acessíveis em uma rotina de
atualização do modelo. Dessa forma, ainda utilizando a base de dados da ANTAQ, pode-se
observar quais são os cinco países que são os principais destinos/origem das maiores
quantidades de volume movimentado nos últimos cinco anos, tanto na importação quanto na
exportação, apresentados na tabela 2:
Tabela 2 - Movimentação de carga (t.) por país (10 maiores em movimentação no período
2018-2022)

Fonte: ANTAQ (2023).

Com isso, os países escolhidos para possuírem maior atenção para obtenção de dados no
futuro são: Estados Unidos, Argentina, Holanda, Espanha e Colômbia - que sua soma representa
78% do total movimentado em sentidos de longo curso - considerando os restantes dos países
que não estão na tabela 2.

Outros comportamentos padronizados foram encontrados em relação a carga de longo


curso (importação e exportação) e cabotagem. Nas cargas importadas e descarregadas aqui em
Fortaleza a predominância foi a de trigo evidenciada na tabela 3 que normalmente é comprado
pelos moinhos dos polos trigueiros que integram a infraestrutura do porto de acordo com o
planejamento estratégico e plano de negócios da Companhia Docas do Ceará (CDC).

Já em relação a exportação, a carga que possui o volume predominante é a de Frutas


conteinerizadas, mas que em comparação com os outros tipos de sentido de transporte, essa
carga não possui uma predominância tão forte em sua modalidade como visto na tabela 4. No
caso da cabotagem, a carga predominante foi a de petróleos e derivados ilustrada na tabela 5.
Essa carga possui uma forma de estocagem na própria infraestrutura do porto com a presença
de tancagem de empresas privadas que são evidenciadas no plano de negócios da CDC.

Entretanto, pelo alto nível de volatilidade na flutuação que a série histórica dessas
movimentações apresentam de forma separada, unificar todas elas em apenas um só tipo de
movimentação para criar um modelo de previsão acaba se tornando uma medida segura para
manter uma performance aceitável nos valores previstos por ele.
Tabela 3 - Movimentação de carga importada (t.) por tipo de mercadoria (2018 – 2022).

Fonte: ANTAQ (2023).

Tabela 4 - Movimentação de carga exportada (t.) por tipo de mercadoria (2018 – 2022).

Fonte: ANTAQ (2023).


Tabela 5 - Movimentação de carga transportada em cabotagem (t.) por tipo de mercadoria
(2018 – 2022).

Fonte: ANTAQ (2023).

3. METODOLOGIA

3.1. TERMOS INTRODUTÓRIOS, E VALIDAÇÃO DOS MODELOS

De acordo com Wooldridge (2018), a diferenciação entre os modelos


descritivos/explicativos em relação com os modelos preditivos é o propósito de cada um,
enquanto modelos explicativos tentam buscar explicações causais entre as variáveis escolhidas
de acordo com a teoria econômica aplicada, os modelos de previsão tentam buscar valores
futuros utilizando valores passados e não necessariamente buscando uma forte relação de causa
ou possuindo uma teoria econômica por trás da escolha das variáveis utilizadas.

Para obter ótimos resultados em relação às previsões feitas, é necessário algum indicador
ou método que valide a eficiência e acurácia do modelo, de forma que demonstre que esse
modelo cumpra com os objetivos desejados: uma ótima adaptabilidade e uma minimização dos
erros de previsão. Dessa forma, um método que pode ser aplicado com esse objetivo é o de
“Cross-Validation” (CV), em que Kohavi (1995) descreve como uma divisão de certas
proporções da base de dados, de forma em que uma parcela será utilizada para o modelo treinar
os seus parâmetros, e a parcela restante seria utilizada para que o modelo treinado possa testar
a sua acurácia. Para otimização da eficiência desse método, aleatorizar quais dados serão
separados em parcela é uma ótima ferramenta para minimizar o viés do modelo, além disso, a
proporção utilizada em cada seção treino-teste pode ser alterada de acordo com as preferências
de quem está usando esse modelo tendo como exemplo uma divisão 70/30 ou 60/40 para
escolher a proporção treino/teste respectivamente. Além disso, para maximizar a aleatorização
das sementes aleatórias (random seed) na reorganização dos dados e prevenir que a semente
aleatória escolhida seja uma que possibilite os dados de terem ótimos resultados por um fator
aleatório de “sorte”, as métricas serão calculadas após 10 divisões de treino e testes diferente,
calculando a média dos resultados de cada.

Para Berrar (2018) uma forma adicional de validar as previsões feitas seria a
implementação da “K-Fold” (K-Dobras) Cross Validation, em que existe uma divisão da base
de dados de forma aleatorizada e organizada em K conjuntos do mesmo tamanho, onde o
modelo será treinado em K-1 sessões e testado no amontoado restante de amostras que foi
dividido. Dessa forma, isso será feito continuamente até o momento em que todos os blocos de
dados que foram separados tenham sido utilizados para a parte de teste e gerando assim uma
média do resultado de acordo com os resultados obtidos. Para automatização e simplificação
para aplicar esse tipo de Cross Validation, a biblioteca de python Skicit-Learn acaba se tornando
uma ferramenta indispensável pela sua praticidade e repercussão no meio de dados - por causa
disso - a figura 1 fornecida pelo portal dessa biblioteca demonstra como a K-Fold CV realmente
funciona:

Figura 1 - K-Fold cross-validation com 5 separações

Fonte: Scikit Learn (2023)


Entretanto, como a natureza dos dados deste texto é de séries temporais, a ordenação de
acordo com o padrão temporal se torna indispensável em pelo menos alguma parte de validação
do modelo como apontado por Hyndman (2021), pois isso seria uma forma de fazer com que o
modelo aprenda o comportamento de acordo com o avanço cronológico que ocorre nos dados.

Dessa forma, Hyndman (2021) também demonstra como manusear a CV no caso de séries
temporais, e o mesmo aponta que a técnica que consegue ter efetividade seria a Time-Series
CV (Cross Validation de Séries Temporais). Desta forma, ao aplicar esse tipo de Cross
Validation o seu conceito se assemelha bastante ao ilustrado pela K-Fold, entretanto, neste caso
a divisão dos segmentos é feita respeitando a ordenação da série histórica, começando pelo mais
antigo e finalizando até o mais recente, dividindo os dados em K segmentos. Assim, quando
definido os números de segmentos para treino, o teste será o segmento logo posterior à ele de
forma cronológica e sem ter segmentos futuros contaminando os dados de treinamento, do
mesmo jeito que o passado não será usado como validação posteriormente, de forma que todo
esse processo se assemelhe de acordo com a figura 2.

Figura 2 - Exemplo de validação cruzada de séries temporais

Fonte: DataCamp (2023)

Para o caso desta obra, mais uma vez a biblioteca Skicit Learn será utilizada por causa da
sua vasta oferta de recursos de modelos de Machine Learning, métodos de Encoding e Scaling,
e suporte para aplicações de Cross Validations. Assim, ao tentar segmentar os dados para a CV,
deve haver um cuidado maior pois por existirem apenas 156 observações, uma divisão muito
grande de dados fornece segmentos cada vez menores para a etapa de treinamento e
prejudicando assim o momento em que o modelo estima seus coeficientes na parte de
treinamento como visto em James et al. (2013). Dessa forma, a divisão que trouxe os melhores
resultados foi a que possui 4 segmentos pois mesmo havendo uma pequena quantidade de
observações para estimação de treinamento, ainda possui o suficiente para validar os resultados
do teste, como visto na figura 3 em que representa como a segmentação se firmou, sendo as
iterações os momentos em que ocorre uma divisão de treinamento e teste, e demonstrado em
cada uma delas quais foram as observações em sequência temporal utilizadas em cada uma
dessas repetições.

Figura 3 - Estado final da segmentação de observações após aplicar a Time-Series CV

Fonte: Elaborado pelo Autor

Para medir a eficiência da previsão, um ótimo indicador numérico para visualizarmos a


eficiência do modelo escolhido seria o próprio termo de erro, em que é apresentado por Gujarati
(2011) como um valor que representa a discrepância entre os valores previstos pelo modelo e
os valores reais, tornando assim a falta de precisão em um indicador quantitativo e mais fácil
de se medir.

Como um complemento dessas métricas, podem ser utilizados também indicadores


quantitativos que indiquem a precisão do modelo e a sua eficiência, e que não seja apenas a
média do erro absoluto (Mean Absolute Error / MAE), pois como este estudo trabalha com
valores na ordem das centenas de milhares, valores desse indicador e de métricas como a raíz
quadrada média dos erros (Root Mean Squared Error / RMSE) e o erro quadrático médio (Mean
Squared Error / MSE) que Hyndman (2014) e Brockwell (2008) utilizam em sua obra. Dessa
forma eles e Roberto (2023) apresentam brevemente, métricas como o erro percentual médio
absoluto (Mean Absolute Percentage Error / MAPE) e erro absoluto percentual médio simétrico
(Symmetric mean absolute percentage error/ SMAPE) pois estes em uma comparação de
resultados conseguem ser visualmente mais acessíveis para interpretação no caso da natureza
de dados deste estudo. Logo abaixo são mostradas as equações 1 e 2 que definem as fórmulas
do MAPE e SMAPE

100 |Ŷ𝑖−𝑌𝑖|
MAPE = (
𝑛
)∗ ∑ 𝑌𝑖
(1)

100 |𝑌𝑖−Ŷ𝑖|
SMAPE = (
𝑛
) ∗ ∑ (|𝑌𝑖|+ |Ŷ𝑖|) (2)
2

3.2. MODELOS ARMA, ARIMA E ARIMAX

O modelo ARIMA utiliza uma combinação do modelo ARMA (Autoregressive-


moving-average, ou Auto regressão e média móvel) em que se combina as observações da
própria variável no passado junto com seus termos de erros passados. As funções de
autocorrelação ACF e PACF podem ajudar na escolha inicial de quantas defasagens desses
termos devem ser usadas. O modelo ARIMA é um modelo ARMA para dados que foram
previamente diferenciados para se tornar estacionários.

Sendo p e q as ordens dos coeficientes AR e MA respectivamente, a equação 3 que


representa a construção do modelo ARMA fica como:

𝑝 𝑞
ARMA (p,q) : Y = 𝑐 + ∑𝑖=1 𝛷𝑖 𝑌𝑡−𝑖 + ∑𝑖=1 𝜃𝑖 𝑒𝑡−1 + 𝑒𝑡 (3)

Chen (2011) e Kongcharoen (2013) utilizam o modelo ARIMAX para previsões da


movimentação de cargas transportadas no comércio exterior. Esse modelo adiciona variáveis
exógenas no ARIMA, de forma que o modelo não dependa apenas das próprias séries temporais.
Entretanto, vale ressaltar que assim como os modelos ARMA e ARIMA, o modelo ARIMAX
também requer a estacionariedade das séries temporais, inclusive das variáveis externas.

Sendo ϕ(L) e θ(L) a representação polinomial dos termos AR e MA e “d” o termo de


diferenciação, e Xt a representação das variáveis externas, o modelo ARIMAX é construído da
seguinte forma na equação 4:

ϕ(L)(1 − L) dYt = Θ(L)Xt + θ(L)ε (4)

3.3. HOLT-WINTERS

O método de Holt-Winters (HWS) usa suavização exponencial e considera três


componentes de uma série temporal: nível, tendência e sazonalidade, e os utiliza para fazer
previsões para períodos futuros baseados nos valores passados da mesma como visto em
Kalekar (2004). O mesmo também demonstra as diferenças entre cada modelo da suavização
exponencial simples até a tripla que é um modelo da seguinte forma:

● Suavização Simples:

Seria a construção inicial do modelo de Holt-Winters antes de adicionar todos os


parâmetros avançados que possibilitam a absorção de sazonalidade e tendência. Nesse modelo
inicial, temos a equação 5 evidenciando como é a construção da fórmula que esse modelo
utiliza.

𝑌𝑡 = 𝛼 ∗ 𝑋𝑡 + (1 − 𝛼) ∗ 𝑌𝑡−1 (5)

Sendo Yt o valor que seria “suavizado” no período T, Xt o valor real no período t, Yt-1 o
valor suavizado no período anterior e α (alpha) o parâmetro de suavização entre 0 e 1. Com
isso, percebe-se que um valor de alpha no máximo possível, o valor do passado suavizado é
totalmente ignorado ao eliminar o número que o multiplica e tornando Yt totalmente explicado
pelo valor atual - já com alpha no mínimo - o valor real do período é totalmente ignorado e
tornando Yt explicado apenas pelo passado. Além disso, vale ressaltar que dessa forma em que
o modelo foi construído, o futuro é praticamente explicado apenas com médias ponderadas das
observações históricas.

● Suavização Dupla:

Nesse modelo, em adição ao já evidenciado na suavização simples, ele possui como


parâmetro adicional γ (gamma) que representa a suavização feita na tendência que a série
temporal apresenta. Muchayan (2019) expõe como existe uma divisão entre a tendência aditiva
e a multiplicativa, em que utilizar uma ou outra gera efeitos diferentes. A equação quando se é

adicionado este termo fica de acordo com o ilustrado na equação 6 e seu termo bt detalhado na

equação 7:

𝑌𝑡 = 𝛼 ∗ 𝑦𝑡 + (1 − 𝛼) ∗ (𝑌𝑡−1 + 𝑏𝑡−1 ) (6)

Sendo 0 < 𝛼 <1

𝑏𝑡 = 𝜆 ∗ (𝑌𝑡 − 𝑌𝑡−1 ) + (1 − 𝜆) ∗ 𝑏𝑡−1 (7)

Sendo 0 < 𝜆 <1

Ao simplificar o termo previsto como Yt+k, Ht os termos já existentes na suavização


simples e Tt como o termo que representa a tendência, a equação na forma aditiva e
multiplicativa se consolida da seguinte forma nas equações 8 e 9 respectivamente:

𝑌𝑡+𝑘 = 𝐻𝑡 + (𝑘 ∗ 𝑇𝑡 ) (8)

𝑌𝑡+𝑘 = 𝐻𝑡 ∗ (𝑇𝑡 )𝑘 (9)


● Suavização Tripla

O diferencial desse modelo em comparação aos outros dois vistos anteriormente é a


implementação do parâmetro que possui o propósito de mensurar o efeito da sazonalidade que
possa conter nos dados históricos, como visto em Heydari et al (2018). O argumento para a
utilização desse modelo no texto é porque entre os três modelos que foram apresentados neste
capítulo, ele é que possui o maior número de variáveis explicativas, e como abordado por
Doroudi (2020), quando temos esse aumento nas variáveis explicativas o nível de variância nos
valores obtidos dos estimadores e que serão utilizados para a aplicação nas previsões também
tende a aumentar.

Utilizando as equações (8) e (9) como base, ao adicionar os parâmetros que absorvem a
sazonalidade como Yt e M o número de períodos definidos para a sazonalidade, temos as
equações 10, 11, 12 e 13 que constroem o modelo de Holt-Winters de acordo com cada
combinação possível entre tendência e sazonalidade:

Tendência Aditiva e Sazonalidade Aditiva:

Yt+k = [Ht + (k ∗ Tt )] + St+k−M (10)

Tendência Multiplicativa e Sazonalidade Aditiva:

Yt+k = [Ht ∗ (Tt )k ] + St+k−M (11)

Tendência Aditiva e Sazonalidade Multiplicativa:

Yt+k = [Ht + (k ∗ Tt )] ∗ St+k−M (12)

Tendência Multiplicativa e Sazonalidade Multiplicativa:

Yt+k = [Ht ∗ (Tt )k ] ∗ St+k−M (13)


3.4. APRENDIZADO DE MÁQUINA COM ÁRVORES DE DECISÃO

Blockeel (2023) apresenta a efetividade dos modelos que são baseados em árvores de
decisão (Decision Tree /DT) e aprendizado de máquina (Machine Learning/ML) e isso se torna
notório ao observar discussões em sites que possuem diversos especialistas da área de ML como
Stack Overflow e Kaggle, sendo este último um site que serve como “host” para competições
de ciência de dados das mais variadas áreas e temas, e que nelas é observada a forte presença
dos algoritmos de DT tanto para modelos de classificação quanto para modelos de regressão,
que é o caso deste estudo em específico.

Como visto em Ville (2013), os algoritmos de árvores de decisões são simplificações de


um problema maior (alvo do estudo) em sub-problemas que também são divididos até que os
requisitos desejados sejam alcançados, de forma que o modelo apresenta grandes vantagens
como alta flexibilidade, robustez e um ótimo desempenho para seleção de variáveis. Isso ocorre
pois como demonstrado por Gama (2006), este modelo por possuir uma natureza não
paramétrica ao invés de fazer suposições sobre a forma exata da distribuição subjacente dos
dados, eles acabam se adaptando aos dados de forma mais direta e se tornando altamente
flexíveis. O autor também evidencia que sua natureza de invariância em relação às
transformações das variáveis por ser um modelo não paramétrico, torna transformações como
escalonamento (scaling), normalização (normalization) e tratamentos de outliers desnecessárias
para os processamentos finais dos resultados. Murphy (2023) também aponta como a divisão
dos nódulos das árvores por terem em sua maioria feitas de formas binárias, a divisão
normalmente tende a ser fracamente afetadas por outliers e pela alta capacidade de
profundidade e o suporte de parâmetros de indicadores de pureza (como Impureza de Gini,
Entropia, “Information Gain” e etc), os modelos respondem bem a adição de variáveis
explicativas que são irrelevantes até um certo nível antes de começar o problema de sobreajuste.

Alguns dos prováveis motivos para essa relevância e popularidade que esse tipo de
algoritmo possui podem ser o seu baixo custo operacional ao se aplicar como afirma Liu (2013)
e o seu nível de precisão . De acordo com Ying (2019), esses modelos estão sujeitos ao
problema de sobreajuste (overfitting) quando possuem as condições necessárias para um ótimo
desempenho no treino (como alto número de observações e features).

Esse problema de overfitting ocorre quando um modelo possui alta complexidade (muitas
variáveis explicativas, muitos coeficientes em grau elevado como quadráticos por exemplo), de
forma que o mesmo ao fazer as inferências dos parâmetros durante o segmento dividido pelo
treino, apresenta alto aprendizado apenas para essa seção de dados, de forma que ao ser
utilizado no segmento de teste, os seus resultados apresentam altos níveis de erro como
mostrado por Hastie (2016). Em contrapartida, o autor também demonstra o fenômeno oposto
ao overfitting, sendo ele o underfitting (ajuste insuficiente) em que o modelo possui um
desempenho consideravelmente insuficiente já no segmento de treino e o comportamento tende
a ser evidenciado quando a etapa de teste com ele se inicia.

Assim, Belkin (2019) explica que esses comportamentos são causados principalmente
pelo nível de viés e/ou de variância de um modelo, sendo nomeado de trade-off viés variância
(bias-variance trade-off), onde modelos que possuem alto nível de complexidade e variância
seriam os modelos que sofrem de overfitting e modelos que possuem baixo nível de variância
mas um alto nível de viés, seriam os modelos que sofrem do fenômeno de underfitting - de
maneira que - para conseguir um modelo que minimize os seus erros seria necessário um
modelo que saiba dosar perfeitamente o quanto ele deseja possuir de viés e variância como
demonstrado por Fortmann (2012) e ilustrado na figura 4 como essa interação funciona. Neal
(2019) aponta que a visualização dos resultados durante a divisão treine/teste feita na cross-
validation é uma medida comumente utilizada por causa da sua eficiência de identificação
desses fenômenos.

Figura
Figura 4 - Demonstração gráfica do 4:
trade-off entre viés e variância

Fonte: Fortmann (2012)


No caso deste modelo, esse alto nível de variância que esses algoritmos apresentam pode
ser um fator vantajoso pois como a base de dados possui apenas 156 observações de período de
tempo da movimentação portuária e um baixo nível de variáveis explicativas, o que pode se
traduzir no final como um baixo nível de variância e ajuste do modelo para as previsões como
visto em Morettin (2022). Dessa forma, utilizar esse tipo de algoritmo apenas para elevar o
nível de complexidade dos modelos aplicados pode acabar se tornando uma medida plausível
para o objetivo deste estudo de obter um modelo preditivo que minimize os seus erros.

Logo na figura 5 está uma ilustração baseada em Kane (2017) que explica de forma
gráfica como funciona uma árvore de decisão com foco em regressão. Como uma adição maior
de variáveis torna a ilustração da árvore um trabalho árduo de se reproduzir, o foco na imagem
será em pequenos passos para melhor explicação, em que no primeiro passo temos a criação da
raíz da árvore (1), que se ramifica para poder decidir nesse exemplo qual o valor do IPCA e o
quanto ele define a movimentação portuária (mov). Ao conferir que o valor do IPCA é maior
que 12 a movimentação já é considerada como o valor ilustrado, mas quando o valor é menor
que 12, mais um ramo interno é criado e que no passo 3 e verifica o valor da SELIC para validar
se o valor é maior ou menor que 8,75 pp, que ao ser verificado como maior do que isso, uma
folha ou ramo final é criado já definindo o valor de mov. Quando a SELIC no passo 3 é menor
que 8,75 pp mais uma vez uma ramificação é criada e dessa vez verificando os valores do PIB
deflacionado (PIBD).

Figura 5 - Exemplo de funcionamento de uma Decision Tree com as variáveis do estudo


Fonte: Elaborado pelo Autor

Outro modelo utilizado foi o de Random Forest (Floresta Aleatória ou RF) que usa os
resultados de múltiplas árvores de decisão que inicialmente escolhem as variáveis utilizadas de
forma aleatória como visto em Breiman (2001). No próximo passo, técnicas como a de Bagging
(Bootstrap Aggregating) podem ser utilizadas para reduzir o problema de overfitting, como
evidenciado por Hestii (2016) . Essa técnica gera dados através de amostragens aleatórias com
reposição do conjunto original na etapa de treinamento. Através da amostragem com
substituição, algumas observações podem ser repetidas em cada novo conjunto de dados de
treinamento. No caso do Bagging, cada elemento tem a mesma probabilidade de aparecer em
um novo conjunto de dados. Em cada uma dessas amostras é treinado um modelo ou uma
técnica de classificação. O resultado final é obtido através de uma média dos resultados das sub
amostras geradas.

Além disso, o autor também demonstra que modelos de RF possuem ótimos resultados
por causa da sua natureza que inclui Boosting durante a computação, que é um processo
ensemble em que múltiplos modelos de árvore de decisão são colocados de forma sequencial
para que cada nova árvore seja criada para reduzir os erros da árvore anterior, reduzindo assim
os erros. Cada árvore tenta entender os padrões mais complexos que a sua antecessora não
conseguiu, reduzindo também o caso de overfitting pois onde os modelos poderiam errar por
causa desse efeito, a próxima árvore também irá corrigir. Logo abaixo a fiura 6 ilustra como
Bagging e Boosting funcionam, demonstrando como Bagging faz os modelos rodarem de forma
paralela enquanto Boosting é um processo sequencial:
Figura 6 - Funcionamento do processo de Bagging e Boosting no modelo RF.

Fonte: Sruthi no site Analytics Vidhya (2023)1

3.5. MÉTODOS DE SELEÇÃO DE VARIÁVEIS

Quantos aos objetivos desta pesquisa, a sua natureza é classificada como descritiva e
explicativa, pois existe o propósito de estabelecer a relação entre as variáveis encontradas e o
total de movimentação portuária do porto, e explicativa já que existe a tentativa de compreender
o porquê dessas correlações e comportamentos mútuos entre as variáveis escolhidas e a
movimentação portuária. A base de dados totalizou um total de 156 observações referentes ao
período entre 2010 e 2022 com séries de frequências mensais e sem possuir valores nulos ou
faltantes. Para simplificação da quantificação dos dados a unidade de medida utilizada como
variável explicada será a quantidade de toneladas movimentadas pois assim não se é necessário
o uso de conversão de moedas, inflação, flutuações dos preços das mercadorias e etc.

Em relação à fonte de dados, são dados secundários obtidos pelo painel estatístico
aquaviário da ANTAQ (Agência Nacional de Transporte Aquaviário) que oferece um fácil
acesso da movimentação de carga em todos os portos públicos e privados do Brasil desde 2010.

1Disponível em: <https://www.analyticsvidhya.com/blog/2021/06/understanding-random-forest/>.


Acesso em: 20 nov. 2023.
Já para a base de dados de variáveis externas a tabela 6 demonstra a relação entre elas e suas
fontes:

Tabela 6 - Relação entre variáveis do estudo e suas fontes

Fonte: Elaboração do Autor

Tendo em vista os resultados que se mostraram na sessão de referencial teórico, percebe-


se uma grande presença de commodities e produtos primários compondo a movimentação
portuária total em junção com uma grande presença do mercado externo em uma provável
determinação da quantidade movimentada fazendo assim com que variáveis externas possam
ser de grande ajuda para calibrar os modelos propostos, sendo as variáveis escolhidas: Dólar,
Inflação (IPCA), Selic, índice de Incerteza da Economia e o PIB interno. Variáveis dos outros
países como: PIB mensal, IPCA e até mesmo câmbio dos mesmos, poderiam levar a um grande
trabalho de atualização do modelo e a demora no processo de divulgação das mesmas poderia
causar gargalos operacionais na adaptação do modelo no futuro, e como um dos objetivos deste
texto é trazer um modelo de fácil adaptação e uso, a decisão tomada foi deixar de fora essas
variáveis.

Dessa forma, a “feature selection” inicial em relação à quais variáveis macros podem ser
utilizadas no modelo, McKinney (2013) mostra que essa decisão pode ser baseada em um mapa
de calor de correlação em que nos mostraria como cada variável não só explica a movimentação
mas como pode explicar outras variáveis e podendo assim trazer resultados mais polidos e
diminuir o tempo de teste dos modelos. Logo na figura 7 temos o resultado de um mapa de
calor de correlações de Pearson que nos orienta em qual features escolher para os modelos.
Figura 7 - Mapa de calor de correlação – Correlação de Pearson.

Fonte: Elaboração do Autor

O baixo nível de correlação entre as variáveis macroeconômicas e a movimentação


evidenciadas na figura 7 podem ser explicadas por causa da desagregação natural que a
movimentação de Fortaleza já possui, mas outra possibilidade possível poderia ser que como
visto na obra de Moore (2007), o coeficiente de correlação de Pearson possui a propriedade
apenas de mensurar apenas relações lineares, logo, se existir uma relação não linear entre os
dados da movimentação e com as variáveis macroeconômicas, o mapa de calor apresentado
acaba apresentando indicadores não fiéis à realidade. Logo, para que exista uma maior
proximidade com a realidade e uma garantia de que as variáveis macroeconômicas realmente
possam determinar a movimentação, utilizar a correlação de Kendall como visto em Gibbons
(2003) pode ser uma alternativa para justificar a escolha das variáveis. Sendo essa correlação
aplicada na figura 8 com outro mapa de calor.
Figura 8 - Mapa de calor de correlação – Correlação de Kendall.

Fonte: Elaboração do Autor

Dessa maneira, observa-se que no caso da correlação de Kendall existe sim uma
correlação mesmo que mínima entre as variáveis macroeconômicas e a movimentação - que
apresentam também resultados de alta correlação entre portos das proximidades em comparação
com outros portos - mas mesmo assim mantendo uma fraca correlação com o porto de Fortaleza.

O least absolute shrinkage and selection operator (LASSO) é um método de análise de


regressão que realiza seleção e regularização de variáveis, a fim de melhorar a precisão da
previsão. De acordo com, Ahrens (2020) o Lasso insere um termo de “penalidade” para retirar
as variáveis pouco relevantes na variância da variável explicada. Esse método é capaz de reduzir
para zero os coeficientes da regressão. Segue na equação 13 a construção da soma quadrática
dos resíduos (“Residual sum of squares” ou RSS) sem a adição de Lasso no modelo:
p
RSS = ∑ni=1(yi − β0 − ∑j=1 βj xij )² (13)

Com isso, o Lasso pode reduzir o número de variáveis explicativas com intuito de reduzir
a dimensionalidade dos dados, melhorando a previsão e/ou minimizando os efeitos de
overfitting. De acordo com o “Princípio da Parcimônia” de Ledolter (1981), modelos com
menos variáveis e, portanto, menor nível de complexidade tende a gerar previsões mais
eficientes. Na equação 14 é ilustrada como é definida a fórmula do modelo de Lasso e a adição
do termo de penalidade na soma quadrática dos resíduos.

p
Lasso = RSS + λ ∑j=1|βj | (14)

3.6. DADOS

O presente trabalho usa dados mensais sobre a movimentação portuária do porto de


Fortaleza em toneladas (Companhia Docas do Ceará), etc. Esses dados foram coletados para o
período entre 2010 e 2022 em periodicidade mensal e tendo os valores do PIB deflacionado
utilizando como índice o mês de dezembro de 2022. Como os modelos e técnicas utilizadas são
para dados estacionários, um primeiro passo foi realizar o teste de Dickey-Fueller aumentado
(ADF) para testar a hipótese de raiz unitária nas séries tendo na tabela 7 a apresentação dos
resultados deste teste.

Tabela 7 - Teste ADF e p-valor das variáveis utilizadas nos modelos


Fonte: Elaborado pelo Autor

Observa-se na tabela 7 que a H0 do ADF é rejeitada ao nível de 10% nas variáveis de


Movimentação do Porto do Mucuripe (Mov), IPCA Mensal (Ipcam) , Selic e Índice de Incerteza
da Economia (Iie). Nas demais variáveis nas quais a H0 não é rejeitada, aplica-se a primeira
diferença e uma segunda rodada de testes ADF confirmam que esta transformação torna as
séries não estacionárias em estacionárias conforme a tabela 8 e os gráficos abaixo.

Tabela 8 - Teste ADF e p-valor das variáveis após diferenciação quando necessária

Fonte: Elaborado pelo Autor

Entretanto, após a utilização de seleção de variáveis com correlação e com o modelo de


Lasso, grande parte dessas variáveis deixaram de ser utilizadas, principalmente aquelas que
apresentaram sazonalidade nos gráficos mesmo após a diferenciação ter sido aplicada. Porém,
como Lasso acabou encolhendo para 0 o valor de um número consideravelmente grande de
variáveis como visto na figura 9, diversos testes com outras features foram feitos para tentativa
de melhoria nos resultados em cada um dos modelos (evidenciado na seção de resultados) e
após isso foram plotados os gráficos ilustrados na figura 10, das variáveis escolhidas ao decorrer
do tempo para confirmação da estacionariedade para o modelo ARIMAX.
Figura 9 - Coeficiente dos estimadores das variáveis após regressão de Lasso

Fonte: Elaborado pelo Autor

Figura 10 - Gráfico do comportamento das variáveis escolhidas para o modelo ARIMAX


após diferenciação
Fonte: Elaborado pelo Autor

Ademais, os gráficos de Autocorrelação e Autocorrelação Parcial quando feitos


indicaram quais os valores dos termos AR e MA que serão utilizados para construção do modelo
ARIMAX, de forma em que o 1º termo do passado apresentou um valor não crítico, enquanto
o 2º e 3º apresentam valores críticos nos possibilitando de criar modelos ARIMAX de até
terceira ordem nos coeficientes de AR e MA como visto na figura 11.
Figura 11 - Gráficos das funções de Autocorrelação e Autocorrelação Parcial.

Fonte: Elaborado pelo Autor

4. RESULTADOS

Primeiramente serão apresentados os resultados após a aplicação da Cross-Validation de


séries temporais, pois como visto anteriormente, por causa de cada segmento inicial apresentar
um pequeno número de observações para medição dos estimadores fazendo com que os
resultados posteriores que serão previstos possivelmente apresentem resultados sub-ótimos
para modelos que não possuem alto poder de aprendizado em um número escasso de amostras.
Dessa forma, os resultados serão validados em primeiro momento na Time-Series Cross-
Validation e posteriormente serão aplicados também para a CV aleatória com organização 80-
20 para verificar se existe uma diferença significativa entre as métricas nas validações
selecionadas. Outro ponto também de grande importância é sobre a escolha dos hiperparâmetros
dos modelos que necessitam dessa tunagem, em que sua grande parte foram escolhidos de forma
manual testando e verificando os resultados, ou no caso do XGBOOST que foi aplicado o
método do GridSearchCV que é uma biblioteca disponibilizada para os usuários de python.
Essa diferença entre o tratamento do XGBOOST em comparação com os outros é que entre os
modelos deste estudo, ele foi o único que apresentava grande variação nos resultados quando
existia mudança nos hiperparâmetros, enquanto nos outros modelos, mesmo ao variar a
profundidade, número de folhas, ramos e demais possibilidades de hiperparâmetros dos
modelos, não era apresentado nenhum resultado significante.

● Suavização Exponencial e Holt Winters

Na ilustração abaixo é demonstrada como o modelo de suavização simples, perde a sua


explicabilidade por causa da sua estrutura, e da forma que foi ilustrada, pela falta de variância
que ele apresenta, a sua eficiência em predição pode acabar sendo criticamente afetada como
visto em Géron (2017) e evidenciada na figura 12:

Figura 12 - Comparativo entre valores reais vs. valores descritos pela suavização simples.

Fonte: Elaborado pelo Autor

Além disso, para poder ilustrar na figura como ocorre a execução do modelo de
suavização dupla de forma descritiva, foram testadas as versões que possuem o parâmetro de
tendência aditiva e multiplicativa para poder demonstrar sua eficiência nos dados deste estudo:
Figura 13 - Comparativo entre valores reais vs. valores descritos pela suavização dupla.

Fonte: Elaborado pelo Autor

Assim, observa-se um aumento na variância do modelo, mas ainda apresenta um baixo


nível de poder de explicação para o modelo e da forma em que se encontra, até mesmo existe
um risco apresentar um fraco nível de poder de previsão, sendo assim necessária a aplicação
em previsão para poder verificar sua eficiência.

Na aplicação dos modelos em testes de previsões, logo nos resultados iniciais, os modelos
de suavização simples e dupla apresentam resultados extremamente ineficientes que foram
ilustrados nas figuras 14 e 15, descartando assim o avanço para o segmento posterior de
validação de resultados.

Figura 14 - Comparativo entre valores reais vs. valores previstos da suavização simples

Fonte: Elaborado pelo Autor


Figura 15 - Comparativo entre valores reais vs. valores previstos da suavização dupla

Fonte: Elaborado pelo Autor

No modelo HWS, obtivemos resultados bem melhores comparados aos modelos


apresentados anteriormente, sendo a melhor combinação entre sazonalidades e tendências
aditivas ou multiplicativas aquele que utiliza ambos os parâmetros multiplicativos, em que os
resultados obtidos foram os apresentados na tabela 9 a seguir:

Tabela 9 - Resultados das métricas do modelo Holt-Winters

Fonte: Elaborado pelo Autor

E o resultado ilustrado graficamente para comparação entre os resultados previstos e os


reais do modelo na Validação Cruzada de Séries Temporais é apresentado na figura 16, valendo
ressaltar também que o número de observações no eixo X significa o número de observações
que são utilizadas para teste após cada treinamento em um Fold (totalizando um total de 123
observações que são evidenciadas na Figura 13):
Figura 16 - Comparativo entre valores reais vs. valores previstos do modelo Holt-Winters

Fonte: Elaborado pelo Autor

A falta de convergência nas primeiras observações que esse modelo e os posteriores


podem acabar sofrendo pode ser causada pelo pequeno número de amostras utilizadas no treino
inicial na primeira seção criada na Validação Cruzada de Séries Temporais. Além disso, por
causa da necessidade de uma maestria maior em Python para poder elaborar os gráficos em
relação às 10 Cross-Validations 80/20 feitas no segundo momento, os resultados desta
validação serão avaliados apenas pelo MAPE e SMAPE igual ao visto no modelo HWS agora
há pouco.

● CatBoost

Junto com o próximo modelo de árvore de decisão que será apresentado, este foi um dos
considerados mais fracos em relação ao aprendizado dos padrões na TS-CV. Mesmo com
criações de variáveis de ordem maior (dólar, inflação, produto interno elevados à segunda
potência) e retroagidas em 3 períodos (as variáveis já citadas e a própria movimentação do
passado) o modelo não conseguiu desenvolver um nível significativo de variância suficiente
para poder prever a movimentação, como ilustrado no gráfico comparativo do Previsto x Real.
Entretanto, ao permitir que ele treinasse com um número maior de dados na segunda CV,
permitiu uma redução nas métricas de erro e esse tende a ser um comportamento padrão nos
modelos vistos neste texto. As variáveis escolhidas foram destacadas na figura 17 e com elas
os resultados obtidos foram os ilustrados na figura 18.

Figura 17 – Variáveis escolhidas no console para o modelo Random Forest

Fonte: Elaborado pelo Autor

Figura 18 - Comparativo entre valores reais vs. valores previstos do modelo CatBoost

Fonte: Elaborado pelo Autor

Já sobre os resultados das métricas MAPE e SMAPE, os resultados que foram


encontrados estão detalhados na tabela 10 a seguir:

Tabela 10 – Resultados das métricas do modelo CatBoost

Fonte: Elaborado pelo Autor


● Random Forest

O modelo apresentou os mesmos problemas encontrados no modelo CatBoost e a inclusão


de novas variáveis não incrementaram os resultados, sendo a melhor escolha de variáveis aquela
onde une variáveis macroeconômicas, com a movimentação portuária dos portos da região e
essas mesmas variáveis na segunda potência, sendo as features ilustradas na figura 19.

Figura 19 – Variáveis escolhidas no console para o modelo Random Forest

Fonte: Elaborado pelo Autor

Assim, a comparação entre valores previstos comparados aos reais gerou o resultado
apresentado na Figura 20, de forma que essa provável falta de precisão possa ter sido causada
não só por causa das limitações do número de observações, mas podendo ser causada também
por causa da diminuição de variância que o modelo oferece.

Figura 20 - Comparativo entre valores reais vs. valores previstos do modelo Random Forest

Fonte: Elaborado pelo Autor

Já sobre os valores obtidos nas métricas MAPE e SMAPE foram os seguintes apresentados na
tabela 11:
Tabela 11 – Resultados das métricas do modelo Random Forest

Fonte: Elaborado pelo Autor

● XGBOOST

Comparado aos dois modelos previamente apresentados de árvore de decisão, este foi o
que obteve graficamente o melhor resultado em questão de variância, entretanto, os valores
absolutos das métricas não foram melhores comparado ao modelo Random Forest. Entretanto
esse resultado não necessariamente o posiciona como um modelo pior que os antecessores,
seguem as figuras 21 e 22 com a feature selection final, comparativo entre previsto vs. realizado
e a tabela 12 com o resultado do comparativo de métricas respectivamente:

Figura 21 – Variáveis escolhidas no console para o modelo XGBOOST

Fonte: Elaborado pelo Autor

Figura 22 - Comparativo entre valores reais vs. valores previstos no


modelo XGBOOST

Fonte: Elaborado pelo Autor


Tabela 12 - Resultados das métricas do modelo XGBOOST

Fonte: Elaborado pelo Autor

● ARIMAX

Os resultados deste modelo pecam de forma perceptível na mesma situação em que os


outros modelos pecaram: na validação cruzada de séries temporais. Todos os modelos
testados com valores p,d,q de (2,0,2), (2,0,3), (3,0,2), (3,0,3) tiveram resultados bastante
próximos tendo diferenças nas métricas apenas em valores de casas decimais. Esses modelos
tiveram como variáveis externas o dólar, IPCA, PIB, e movimentação do porto de Natal. Logo
na figura 23 é ilustrado um comparativo entre os modelos testados e o escolhido, o modelo
com ordem (3,0,2) que possui uma média menor entre as médias dos valores do MAPE e
SMAPE em ambas as validações aplicadas, sendo esses resultados detalhados na tabela 13.

Figura 23 - Comparativo entre valores reais vs. valores previstos nos modelos ARIMAX
Fonte: Elaborado pelo Autor

Tabela 13 - Resultados das métricas do modelo ARIMAX (2,0,3)

Métrica MAPE SMAPE


Time Series CV 16,26% 14,84%
Cross Validation 80/20 15,87% 15,11%
Média* 16,06% 14,97%
Fonte: Elaborado pelo Autor

5. CONCLUSÃO

Apesar de possuírem valores de MAPE e SMAPE menores do que os outros modelos,


afirmar que os modelos CatBoost e RandomForest podem ser escolhidos como os melhores
modelos seria uma inverdade mesmo ao considerar que o principal objetivo do modelo é obter
um modelo que reduza os erros.

O modelo Holt-Winters mesmo ao possuir um nível acima de MAPE e SMAPE maior


do que os já mencionados, mesmo com a limitações de observações para treinamento, obteve
um nível de variância e adaptabilidade que poderiam ser de grande ajuda em casos de
sazonalidade e tendência mais notórias comparadas as séries históricas dos dados deste estudo
que não possuem padrões tão uniformes e visíveis.
Os resultados obtidos pelos modelos XGBOOST e ARIMAX mesmo ao não apresentam
baixos indicadores de MAPE e SMAPE, ainda apresentaram um nível de variância maior do
que os outros modelos, indicando assim uma possibilidade de melhora desses modelos em um
cenário que fosse possibilitado o acesso a um número maior de observações.

Além disso, vale ressaltar que mesmo com o estudo possuindo como objetivo definir
qual o melhor modelo que serve para previsão, um dos grandes problemas encontrados na
construção deles foi o de conseguir um método universal que consiga fazer um horizonte de
previsões consistente sem sofrer de data leakage ou de fácil atualização para a administração
do porto.

Outrossim, pode-se assumir que os resultados em relação à qual é o melhor modelo para
previsão entre eles são inconclusivos, pois as condições externas como obtenção de dados,
número de observações e a frequência de divulgações deles impactaram fortemente na
construção desses algoritmos.

Entretanto, ao testar pelo menos um desses modelos na movimentação portuária do


Brasil como um todo, como os dados apresentam comportamentos de tendência e
sazonalidade mais notórios, mesmo com um número limitado de observações, o modelo de
Holt-Winters que foi testado acabou sofrendo de overfitting mesmo assim, sendo este um
problema contrário ao que os modelos para o porto de Fortaleza sofrem, que seria o
underfitting evidenciados na figura 24.
Figura 24 - Valores reais vs. previstos na movimentação portuária brasileira - Holt-Winters

Fonte: Elaborado pelo Autor

Dadas as circunstâncias consideradas, ao apresentar os modelos para a Coordenadoria


de Gestão de Negócios (CODGEN) do Porto do Mucuripe, os resultados foram bem recebidos
pois eles apresentaram resultados superiores aos modelos já utilizados pela Companhia Docas
do Ceará que utilizava apenas médias ponderadas dos últimos anos. Outro motivo para o bom
recebimento dos modelos pela CDC foi por causa do desenvolvimento que eles tiveram
mesmo com uma base de dados limitados, que se tornaram ainda mais inacessíveis após o
ataque hacker de 2019 e que resultou em um apagão de todas as séries históricas que a
organização possuía.
REFERÊNCIAS

ANTAQ. Agência Nacional de Transporte Aquaviário, 2023. Estatístico Aquaviário.


Disponível em <https://web3.antaq.gov.br/ea/sense/index.html>. Acesso em 10 de mar. de
2023.

AHRENS, Achin et al. A Theory-based Lasso for Time-Series Data, 2020.

ALVES, Bruno Valério. Transporte de Cabotagem no Brasil: Uma análise da evolução dos
fluxos de carga geral e granel, 2020.

BELKIN, Mikhail et al. Reconciling modern machine-learning practice and the classical
bias–variance trade-off, 2019.

BERRAR, Daniel. Cross-Validation, Encyclopedia of Bioinformatics and Computational


Biology, Vol. 1, 2018.

BLOCKEEL, Hendrik et al. Decision trees: from efficient prediction to responsible AI, 2023.
BREIMAN, Leo. Random Forests, 2001.

BROCKWELL, Peter J.; DAVIS, Richard. A Introduction to Time Series and Forecasting,
2002.

CARUANA, Rich; NICULEZCU-MIZIL, Alexandru. An Empirical Comparison of


Supervised Learning Algorithms, 2006.

CDC. Companhia Docas do Ceará, 2023. Ações e Programas. Disponível em


<http://www.docasdoceara.com.br/acoes-e-programas>. Acesso em 13 de abr. de 2023.

DE VILLE, Barry. Decision Trees, 2013.

DOROUDI, Shayan. The Bias-Variance Tradeoff: How Data Science Can Inform
Educational Debates, 2020.
ENDERS, Walter. Applied Econometric Time Series, 2004.

FORTMANN, Scott. Understanding the Bias Variance Tradeoff, 2012.

GAMA, João; FERNANDES, Ricardo; ROCHA, Ricardo. Decision trees for mining data
streams: Intelligent Data Analysis. Vol. 10, 2006.

GIBBONS, Jean; CHAKRABORTI, Subhabrata; Nonparametric Statistical Inference. 4º


Edição, 2003.

GUJARATI, Damodar N.; PORTER, Dawn C. Econometria Básica. 5º edição, 2011.

HASTIE, Trevor; TIBISHIRANI, Robert; WAINWRIGHT, Martin. Statistical Learning with


Sparsity: The Lasso and Generalizations, 2015.

HASTIE, Trevor; TIBSHIRANI, Robert; FRIEDMAN, Jerome. The Elements of Statistical


Learning: Data Mining, Inference and Prediction. 2º Edição, 2016.

HERZOG, Bodo. A Review on ‘Probability and Stochastic Processes, 2016.

HEYDARI, Mohammad et al. Application of Holt-Winters Time Series Models for


Predicting Climatic Parameters: (Case Study: Robat Garah-Bil Station, Iran), 2018.

HYNDMAN, Rob J. Forecasting: Principles & Practice. 3º edição, 2021.

JAMES, Gareth et al. An Introduction to Statistical Learning with Applications in R, 2013.

KALEKAR, Prajakta. Time series Forecasting using Holt-Winters Exponential Smoothing,


2004.

KANE, Frank. Hands-On Data Science and Python Machine Learning, 2017.

KOHAVI, Ron. A Study of Cross-Validation and Bootstrap for Accuracy Estimation and
Model Selection, 1995.
KONGCHAROEN, Chaleampong; KRUANGPRADIT, Tapanee. Autoregressive Integrated
Moving Average with Explanatory Variable (ARIMAX) Model for Thailand Export,
2013.

KUHN, Max; JOHNSON, Kjell. Applied Predictive Modeling, 2016.

LEDOLTER, Johannes; ABRAHAM, Bovas. Parsimony and Its Importance in Time Series
Forecasting. Technometrics, Vol. 23, No. 4, p. 411-414, Novembro, 1981.

LOPES, Elisangela dos Santos; BELTRAME, Márcia Helena. A Importância do Contêiner


na Logística. Lins, SP, 2013.

LOUZEIRO, Josiane; REIS, Melissa Oliveira; MOREIRA, Rouberth Luiz de Lemos. A


importância do transporte marítimo e sua evolução no Brasil e no mundo, 2012.
MCKINNEY, Wes. Python for Data Analysis, 2012.

MISHINA, Yohei; TSUCHIYA, Masamitsu; FUJIYOSHI Hironobu. Boosted Random


Forest, 2014.

MOORE, David; MCCABE, George; CRAIG, Bruce. Introduction to the Practice of


Statistics, 6º edição, 2007.

MORETTIM, Pedro; SINGER, Julio. Estatística e Ciência de Dados, 2022.

MUCHAYAN, Achmad. Comparison of Holt and Brown's Double Exponential Smoothing


Methods in The Forecast of Moving Price for Mutual Funds. Journal of Applied Science,
Engineering, Technology, and Education Vol. 1 No. 2, 2019.

MURPHY, Kevin. Machine Learning: A Probabilistic Perspective, 2012.

NEAL, Brady. On the Bias-Variance Tradeoff, 2019.


OLIVEIRA, Mariana; TORGO, Luís; COSTA, Vítor. Evaluation Procedures for Forecasting
with Spatiotemporal Data, 2021.

ROBERTO, Carlos; RAYSE, Jéssica. Aprendizado De Máquina E Prestação De Serviços


De Armazenamento De Dados: Métricas Para Análise E Validação De Algoritmos Previsores,
2023.

RODRIGUE, Jean-Paul. Transportation Modes, Modal Competition and Modal Shift,


2023. Disponível em: <https://transportgeography.org/contents/chapter5/transportation-
modes-modal-competition-modal-shift/>. Acesso em 14 de mai. de 2023.

RODRIGUE, Jean-Paul; NOTTERBOM, Theo. Maritime Transportation, 2023. Disponível


em: <https://transportgeography.org/contents/chapter5/maritime-transportation/>. Acesso em
14 de mai. de 2023.

SEASHOLTZ, Mary; KOWALSKI, Bruce. The parsimony principle applied to multivariate


calibration, 1993.

SHUMWAY, Robert; STOFFER, David. Time Series Analysis and Its Applications, 3º
edição, 2010.

UNCTAD. United Nations Conference on Trade and Development, 2022. Revisão do


transporte marítimo 2022.

WOOLDRIDGE, Jeffrey M. Introdução à Econometria: uma abordagem moderna. 4º


edição, 2006.

YING, Xue. An Overview of Overfitting and its Solutions, 2019.


APÊNDICE
Link do perfil do GitHub que hospeda os códigos fontes utilizados no trabalho:

https://github.com/Jvictor-Pinheiro

Você também pode gostar