Você está na página 1de 10

ANÁLISIS Y PREDICCIÓN DE SERIES DE FOURIER Y REDES

NEURONALES EN LAS EXPORTACIONES DE CAFÉ


COLOMBIANO DURANTE LOS AÑOS 2015-2018
FOURIER SERIES AND NEURONAL NETWORK ANALYSIS
AND PREDICTION IN EXPORTS OF COLOMBIAN COFFEE
DURING THE YEARS 2015-2018

ERVIN YESID REDONDO DOMINGUEZ


Estudiante académico, Ingeniería de Sistemas, Universidad Popular del Cesar, eyredondo@unicesar.edu.co

MARIO MONTERO GALVÁN


Estudiante académico, Ingeniería de sistemas, Universidad Popular del Cesar, mariomontero@unicesar.edu.co

RAÚL ANDRES AGÁMEZ RAPALINO


Estudiante académico, Ingeniería de sistemas, Universidad Popular del Cesar, raagamez@unicesar.edu.co

RESUMEN: Las series de Fourier en el campo del análisis de datos, cumplen una función muy
importante para la transformación y descomposición de series de tiempo en armónicos, que nos
permitirán predecir el comportamiento de 2 variables en el tiempo mediante el uso de redes
neuronales como principal predictor por medio de señales. En este artículo, se revisarán las
funciones empleadas mediante el lenguaje R como motor estadístico para el análisis, Talend Open
Studio como integrador de datos y Power BI como plataforma para el despliegue de resultados
mediante cuadros de mando y la implementación de CRISP-DM como metodología para Minería de
Datos.
PALABRAS CLAVE: series de Fourier, armónicos, predicción, redes neuronales, lenguaje R,
Talend Open Studio, Power BI, CRISP-DM, Minería de Datos.
ABSTRACT: Fourier series in the field of data analysis, fulfill a very important function for the
transformation and decomposition of time series in harmonics, which will allow us to predict the
behavior of 2 variables over time by using neural networks as the main predictor through signals. In
this article, we will review the functions used through the R language as a statistical engine for
analysis, Talend Open Studio as a data integrator and Power BI as a platform for the deployment of
results through dashboards and the implementation of CRISP-DM as a methodology for Data
Mining.
KEYWORDS: Fourier series, harmonics, prediction, neural networks, R language, Talend Open
Studio, Power BI, CRISP-DM, Data Mining.

1. INTRODUCCIÓN años cifras significativas que son necesarias


analizar. Siendo distribuido cada volumen de
El comportamiento de la producción para la
producción, en años y meses, cabe destacar
exportación en volúmenes de café a nivel
que la exportación de café en el año anterior
internacional, ha generado en estos últimos
tuvo un declive del 1,4% producto del
fenómeno de la niña según la Federación de la bolsa de Nueva York, o por la amenaza
Nacional de Cafeteros (FNC), lo que implica, del fenómeno de la niña mencionado
un estudio o análisis sobre la cantidad anteriormente; por lo tanto, es necesario tener
aproximada para exportar. un control de producción a futuro, a partir de
la cantidad de café producida en kilogramos
El objetivo principal es predecir la cantidad
durante los años establecidos.
en kilogramos a producir a futuro para que las
futuras decisiones, se tomen con respecto a Se implementarán las series de Fourier en el
los resultados que se obtendrán y para lenguaje R como principal predictor del
percatar el comportamiento de las comportamiento del café en el transcurso de
producciones con respecto al tiempo; como los años anteriormente mencionados.
afectan en la parte económica y social en las Mediante las series, se obtendrá una
ciudades colombianas productoras de café. descomposición donde se observen patrones o
anomalías de las frecuencias que componen
También se recalcará el papel fundamental
las producciones de café en el tiempo (señal),
que ocupa el sector cafetero a nivel
y se mapeará una ventana de tiempo finita de
internacional, lo cual conlleva a una
observaciones a las predicciones sobre el
reorganización en la producción para la
orden que se puede esperar y en el futuro, se
exportación. Son muchas las pérdidas que a
tendrá una serie de redes neuronales
los cafeteros les toca afrontar por cualquier
responsables de cada uno.
percance que se presente en el futuro, sea por
culpa de los altos precios del café proveniente

 Como metodología, incluye descripciones


de las fases normales de un proyecto, las
2. MINERÍA DE DATOS

La minería de datos es el proceso de detectar


la información procesable de los conjuntos tareas necesarias en cada fase y una
grandes de datos. Utiliza el análisis explicación de las relaciones entre las
matemático para deducir los patrones y tareas.
tendencias que existen en los datos.
Normalmente, estos patrones no se pueden  Como modelo de proceso, CRISP-DM
detectar mediante la exploración tradicional ofrece un resumen del ciclo vital de
de los datos porque las relaciones son minería de datos.
demasiado complejas o porque hay
demasiados datos, para esto, es necesario
aplicar una metodología establecida. 4. EL LENGUAJE R COMO MOTOR
ESTADÍSTICO

3. CRISP-DM COMO METODOLOGÍA Un Lenguaje de programación es un conjunto


PARA MINERÍA DE DATOS de instrucciones y términos, que se construye
y se emplea para que un ordenador o un
Son las siglas de Cross-Industry Standard dispositivo puedan crear diferentes tipos de
Process for Data Mining, es un método datos, por ejemplo, R. Este lenguaje es un
probado para orientar sus trabajos de entorno de software libre para realizar
minería de datos. análisis estadístico. Se trata de uno de los
lenguajes de programación más utilizados en
investigación por la comunidad estadística.
R nació en 1993 en Auckland. Sin embargo, clientes, para generar una sola tabla que
su origen puede rastrearse hasta un lenguaje contenga ambas información.
previo llamado S, creado por John Chambers
y colaboradores en Bell Laboratories durante  Carga: En esta parte del proceso se
la década de 1970. La interacción con el vuelcan los datos procedentes de la fase
usuario se basa en una interfaz de línea de de transformación al sistema de destino.
comandos, que es bastante apropiada para la En este punto se puede hacer un volcado
manipulación interactiva de datos por parte directo, manteniendo un histórico de
de usuarios experimentados. almacenaje con la fecha de inserción, o se
pueden sobrescribir los datos con la
nueva información.
5. TALEND OPEN STUDIO COMO
6. POWER BI COMO PLATAFORMA
INTEGRADOR DE DATOS
PARA EL DESPLIEGUE
Es una herramienta open-source (licencia
Es la solución destinada a la inteligencia
GPL) que permite de forma visual modelar
empresarial, que permite unir diferentes
transformaciones de datos generando código
fuentes de datos, modelizar y analizar datos
Java. Esta herramienta nos permite migrar,
para después, presentarlos a través de paneles
transformar, limpiar y sincronizar bases de
e informes; que puedan ser consultarlos de
datos para su posterior análisis. Cabe resaltar
una manera muy fácil, atractiva e intuitiva. A
que el DataSet que se utilizó, se preparó
través de Power BI Desktop se pueden crear
mediante esta herramienta, generando así un
paneles, gráficos e informes “al gusto del
nuevo archivo listo para emprender el
consumidor”.
conocimiento.

5.1. ETL (Extracción, transformación y


7. FUNCIONES DISPONIBLES PARA
carga)
EL ANALISIS Y PREDICCIÓN
Hace referencia al proceso que permite dar
El lenguaje R cuenta con una serie de
valor útil a los datos y obtener la información
paquetes y librerías que son de gran ayuda
de una fuente de datos, procesarla,
para modelar o analizar tanto a nivel
formatearla, limpiarla y cargarla en otra
estadístico, como gráfico. Son múltiples los
fuente de datos.
autores que han implementado paquetes para
 Extracción: Esta fase consiste en la que el proceso sea iterativo y para que
obtención de datos de las fuentes de mediante de estos, la eficacia del mismo sea
origen. Los datos pueden tener diferentes cualificada con excelencia. Estos paquetes
orígenes, ya sean Bases de Datos deben ser instalados y posteriormente
Relacionales, Bases de Datos No llamados mediante la función library (). Los
Relacionales, ficheros, etc. principales paquetes disponibles para este
análisis y predicción se encuentran listados en
 Transformación: Consiste en la la Tabla 1. En donde cada paquete cuenta con
realización de los cálculos necesarios y una breve definición de su funcionalidad.
agregación de nuevos campos o atributos
7.1. Entrada de los datos
mediante la unión de tablas (si se trata de
una base de datos relacional). Por Se buscaron los registros de las producciones
ejemplo, se unen 2 tablas que contengan de café Colombiano para exportar a nivel
información sobre las ventas y los
internacional durante los años 2015-2016 por  El resumen estadístico cuenta con la
medio de la página del gobierno colombiano Media, Moda, Mediana, Límites y
https://www.datos.gov.co/ que cuenta con cuartiles para cada atributo.
múltiples DataSet para investigar, desarrollar  En la gráfica 1, se puede ver un
y crear visualizaciones contundentes Este indicador obtenido con los datos
DataSet fue expuesto a procesos de limpieza históricos del comportamiento de las
mediante la herramienta de Talend Open producciones de café por
Studio, para posteriormente realizar departamento en general para todos
operaciones estadísticas por medio del los meses de cada año.
lenguaje R.
7.3. Especificación y pronóstico
 El formato origen de los datos, es de
extensión .CSV (archivo de excel Se utilizó la metodología CRISP-DM como
delimitado por ;) y cuenta con 56.307 proceso secuencial y en la fase del modelado,
registros, con un total de 696 datos se aplicaron series de Fourier y redes
faltantes o campos en blanco. neuronales, en donde se plasmó primero una
serie de tiempo con los años y meses en el eje
 El formato de los datos no tiene de las abscisas y las cantidades de toneladas
codificación de caracteres UTF-8. exportadas en el eje de las ordenadas (gráfica
2).
 Posee atributos que no son necesarios o
relevantes para el análisis

7.2. Análisis exploratorio de la


información

Este análisis se basa en gráficos y estadísticos


que permiten explorar la distribución
identificando características tales como:
valores atípicos u outliers, saltos o
discontinuidades, concentraciones de valores,
forma de la distribución, etc. Por otra parte,
este análisis se puede realizar sobre todos los
casos conjuntamente o de forma separada por
grupos.

En el análisis exploratorio se hizo un resumen


estadístico para cada una de las variables,
para poder saber a qué nos enfrentamos,
como es la iteración año a año, mes a mes de
las producciones y de otros factores claves.
Esto ayudará a entender mucho mejor
mediante gráficos, el comportamiento y las
tendencias de los datos.
Graph 2. Export behavior by year and month

 Se encontraron similitudes en las series de tiempo con respecto a los años, parece haber
una fuerte periodicidad entre los trimestres, esto sugiere que hay una estructura subyacente
en los datos que puede usarse para pronosticar (gráfica 3).
Gráfica 3. Fabricación mes a mes

Graph 3. Month-to-month export


 La serie temporal parece ser estacionaria y altamente periódica; por lo tanto, debería valer
la pena analizar sus características en el dominio de la frecuencia. Pero para esto, es
necesario tomar el último trimestre del año 2018 como objetivo de predicción, ya que su
serie de tiempo no está completa en sus 4 trimestres por año.

 El dominio de la frecuencia está relacionado con las series de Fourier, las cuales permiten
descomponer una señal periódica en un número finito o infinito de frecuencias (gráfica 4).

Gráfica 4. Espectro de potencia


Graph 4. Power spectrum

 Dividimos el dominio de frecuencia de la serie temporal en intervalos para que cada


intervalo contenga la frecuencia fundamental de la señal periódica fuerte o un armónico de
la misma. Esto es efectivamente una descomposición basada en filtrado de paso de banda
(Gráfica 5).

Gráfica 5. Descomposición en el dominio del tiempo


Graph 5. Decomposition in the time domain
 Entrenamos la red neuronal para un total de 10 predicciones que equivale a cada mes del
año 2018 y se obtiene una predicción (Gráfica 6)

Gráfica 6. Predicción (color rojo) de la serie


Graph 6. Prediction (red color) of the series
8. CONCLUSIONES
Sin embargo, la serie de Fourier como
EL análisis exploratorio que se hizo en principal actor en esta investigación,
primera instancia, logró satisfacer la transformó nuestras series temporales en
necesidad de conocer cómo interactúan las funciones de frecuencias y por medio de su
cantidades de fabricación y clasificación del descomposición (armónicos) o series de más
café con respecto a los años establecidos, simples componentes, ayudó a mapear dichas
como su nivel de comercialización por series mediante redes neuronales para poder
volumen ha afectado en el trascurso de los predecir la cantidad de producción para
meses y como finalidad, tomar decisiones que exportar.
ayudarán a poder mejorar las condiciones de
fabricación y comercialización.

Los predictores extraídos de los datos


históricos pueden soportar la programación Esta lógica simple encaja bien en cualquier
de producción y suavizar los procesos de enfoque de optimización al asignar una
producción. Inicialmente, al comienzo de un importancia gradualmente decreciente al
trimestre, la producción puede generar predictor. Por otra parte, El impacto desde el
activos de acuerdo con el volumen previsto y punto de vista de la producción es que la
la composición de las características en los prefabricación genera suficientes activos de
pedidos. A medida que el número de pedidos productos que se ajustan a la composición de
entrantes aumenta con el paso del tiempo, se los pedidos posteriores para cumplirlos desde
puede dar prioridad a los pedidos definidos y la distribuidora durante la carga de la semana
la capacidad de producción se puede utilizar al final del trimestre. De esta manera, la
para compensar la diferencia entre el utilización de las capacidades de fabricación
volumen de pedidos previsto y el ya definido. puede permanecer en un nivel casi constante.
En la fase final de un trimestre solo se
procesan los pedidos.

Tabla 1. Paquetes y funciones de R

Función Descripción
Lee datos almacenados por 'Minitab', 'S', 'SAS',
library(foreign) 'SPSS', 'Stata', 'Systat', 'Weka'.
Herramientas de visualización de datos para
library(ggfortify) resultados de análisis estadísticos.
Funciones de pronóstico para series temporales y
library(forecast) modelos lineales
library(TSA) Análisis de series temporales
Cree gráficos web interactivos a través de
library(plotly) 'plotly.js'.
Cree elegantes visualizaciones de datos utilizando
library(ggplot2) la gramática de gráficos
library(RColorBrewer Paletas de ColorBrewer
)
library(grid) instalar, actualizar, cargar paquetes de CRAN,
'GitHub' y 'Bioconductor' en un solo paso
Redes neuronales de avance y modelos
library(nnet) multinomiales logarítmicos lineales

Gráfica 1. Comportamiento de las producciones de café por departamento en general para todos los
meses de cada año
Graph 1. Behavior of coffee productions by department in general for all months of each year

9. REFERENCIAS
[4] Morales A. 2019. R y GIS: qué es R y
[1] Kane D. 2015. Introduction to Data su relación con los SIG. Enlace:
Mining & Predictive Analytics. Enlace: https://mappinggis.com/2019/02/r-y-gis-
file:///C:/Users/admin/Documents/Downl que-es-r-y-su-relacion-con-los-sig/.
oads/16.%20Fourier%20Analysis.pdf.
[5] Ub.edu. 2016. ANÁLISIS
[2] Rpubs. 2015. Análisis espectral con EXPLORATORIO DE DATOS. Enlace:
R. Enlace: http://rstudio http://www.ub.edu/aplica_infor/spss/cap2
pubsstatic.s3.amazonaws.com/12345_6c9 -3.htm
d6827c7204c5ca974a1944138b452.html.
[6] VELÁSQUEZ HENAO J,
[3] Neto J. 2013. Fourier Transform: A R MORALES OLAYA Y, CARDONA
Tutorial. Enlace: FRANCO C. 2010. Enlace:
http://www.di.fc.ul.pt/~jpn/r/fourier/fouri http://www.scielo.org.co/pdf/dyna/v78n1
er.html. 65/a30v78n165.pdf.

Você também pode gostar