Caso Final Tópicos Big Data Grupo 9

Integrantes – grupo 9
Cabezas Gutiérrez Cristhian Fabián

Calle Revelo Gustavo John
Gaibor Rojas Sonia Marlene
Muñoz Montenegro Miguel Fernando
Proaño Raza Hernán Vladimir
Profesor
Diego Montúfar Cevallos
CASOS Y TÓPICOS DE
BIG DATA
Mayo 2023
Caso práctico Final
Contenido
Lo que se pide: .............................................................................................................................. 3
Desarrollo del Caso Práctico ......................................................................................................... 4
Definición del caso y justificación ............................................................................................. 4
Diseño de Arquitectura tecnológica ......................................................................................... 6
Desarrollo en Elastic Cloud ....................................................................................................... 8
Creación del Deployment de Elastic Cloud ........................................................................... 8
Configuración inicial.............................................................................................................. 8
Auto escalamiento (opcional) ............................................................................................... 9
Configuración inicial de KIBANA ......................................................................................... 11
Integration Server ............................................................................................................... 12
Enterprise Search ................................................................................................................ 13
Costos de la configuración .................................................................................................. 13
Creación del deployment .................................................................................................... 14
Revisión del agente ............................................................................................................. 17
Instalación del demonio Elastic Agent ................................................................................ 18
Dashboard en KIBANA ........................................................................................................ 28
Herramienta de Machine Learning ..................................................................................... 28
Modelos de machine learning ............................................................................................ 31
Clasificación......................................................................................................................... 31
Instalación de agente en LINUX .......................................................................................... 39
Facilidad para realizar un Upgrade de versión de la plataforma cloud .............................. 43
P á g i n a 1 | 48
Reglas de observabilidad .................................................................................................... 45
Regla creada ........................................................................................................................ 46
Creación del Webhook en slack .......................................................................................... 47
Discusión ................................................................................................................................. 47
Hallazgos ............................................................................................................................. 47
Recomendaciones ................................................................................................................... 48
P á g i n a 2 | 48
CASO PRÁCTICO FINAL

Lo que se pide:
1. Definición del caso y justificación: explique el contexto del problema a resolver, por qué
es un caso de Big Data y su hipótesis de cómo lo planea resolver. Se deberá abordar la
justificación desde el punto de vista de negocio y también desde el punto de vista
técnico.
2. Diseño de Arquitectura conceptual: proponga en un diagrama (imagen) la arquitectura
conceptual, es decir sin colocar aún ninguna tecnología o herramienta para la solución.
Explique cada componente: para qué sirve y cómo fluyen los datos desde su origen hacia
su destino.
3. Diseño de Arquitectura tecnológica: póngale logos al diagrama de arquitectura anterior
en una nueva imagen. Explique cada tecnología o herramienta y por qué resolverá cada
paso del flujo de los datos.
4. Desarrollo del caso: mediante evidencia con capturas de pantalla, muestre y explique
el paso a paso de la implementación de su solución.
5. Discusión: explique sus hallazgos y conclusiones sobre lo aprendido durante la
implementación del caso.
6. Recomendaciones: ¿Cómo mejorar? ¿Qué faltó o sobró? ¿Qué recomendarías?
El entregable #2 será un archivo comprimido en formato .zip con todo el código fuente
generado: scripts, notebooks, archivos, datasets, etc.
P á g i n a 3 | 48
Desarrollo del Caso Práctico

Definición del caso y justificación
La empresa “IT Calle Solutions” es una consultora que se dedica al asesoramiento a empresas en el
diseño e implementación de soluciones de inteligencia de negocios y analítica avanzada para lo cual,
mantiene su infraestructura on-premise de los diferentes servicios que ofrece entre las que están
soluciones de inteligencia de negocios que incluye modelos descriptivos como tableros de control,
cuadros de mando, consultas, reportes e informes personalizados. Con ello los clientes pueden acceder
a estos servicios para generar información y tomar decisiones de negocio de manera acertada, por esta
razón es que IT Calle Solutions debe tener una infraestructura robusta para garantizar a los clientes
disponibilidad constante de los servicios ya que de esto depende la continuidad del negocio de las
empresas a las que se ofrece las soluciones.
Problema
Ante el creciente y constante uso del Internet, y que hoy en día, es uno de los principales canales de
comunicación de todo el mundo y organizaciones, personas mal intencionadas, conocidas en ciertos
casos como hackers, también están constantemente creando nuevas formas de vulnerar la seguridad de
los diferentes equipos informáticos a través de software y como principal medio, el Internet, por lo que
en muchos casos ni un antivirus es suficiente para mitigar estos riesgos a los que nos enfrentamos día
a día. Así mismo, los ambientes de misión crítica están expuestos a los mismos riesgos, como ataques,
secuestro de información, entre otros, por lo que cada vez la disponibilidad y continuidad de los servicios
están siendo afectados, así como también la integridad y seguridad de la información está siendo
vulnerada.
Justificación
Para mitigar los riesgos a los que se expone la organización, es primordial, implementar principalmente,
políticas que permitan adoptar estándares de calidad y buenas prácticas, que reducen los riesgos y a su
vez se establece una cultura organizacional para que en conjunto se apalanque en la mejora continua.
Así mismo, existen varias herramientas y soluciones informáticas que apalancan las políticas, buenas
prácticas, procesos y mejora continua.
Para garantizar la continuidad y disponibilidad de los servicios que ofrece a sus diferentes clientes, así
como también asegurar la integridad de la información, es necesario contar con una solución de
observabilidad, que permita monitorear los recursos, disponibilidad y seguridad, de lo ambientes de
misión crítica, así como también los equipos personales de toda la organización. Para ello se implementa
una solución de Big Data, que facilitará el monitoreo cercano al tiempo real (NRT - Near Real Time), para
así prevenir posibles vulnerabilidades, como también poder planificar correctamente la capacidad de los
recursos y ambientes.
Analizando el costo de oportunidad, considerando que la organización no cuenta con los recursos
económicos ni talentos para administrar una plataforma on-premise, se implementará la solución con un
servicio tipo SaaS de Elastic Cloud, ya que en el largo plazo los beneficios son altamente aceptables.
Con la solución planteada se pretende monitorear los recursos de hardware y software para tener
información actualizada que facilitará la toma de decisiones con respecto a garantizar la disponibilidad,
continuidad y seguridad de los servicios que ofrece la consultora a sus diferentes clientes fidelizados.
P á g i n a 4 | 48
Diseño de Arquitectura conceptual
• Cliente/Infraestructura:
o Se determinan los componentes de hardware y software a ser monitoreados
o Se instala un demonio que permitirá la ingesta de datos a la plataforma cloud
o Este demonio debe estar configurado con políticas de seguridad
• ETL NRT CLOUD:
o Esquema de extracción, procesamiento y carga en una base de datos en la nube,
el cual registrará cada evento que se produzca en los clientes
o La plataforma cloud ingesta, procesa y carga la información en casi tiempo real
• Visualización / métricas
o Componente que permite la visualización de los datos en tiempo real, mediante
la personalización de dashboards que facilitarán la toma de decisiones
o Las métricas permitirán establecer patrones de comportamiento tanto de los
componentes de hardware como software, y con el apoyo de componentes ML
(Machine Learning) permitirá predecir indisponibilidades y anomalías en los
servicios
Con el esquema propuesto, los datos viajarán en tiempo real a la plataforma cloud y permitirá
observar los mismos, en dashboards, así como también, con el uso de machine learning se
podrán detectar anomalías y predecir eventos de indisponibilidad.
P á g i n a 5 | 48
Diseño de Arquitectura tecnológica
Elastic Stack Cloud, es una plataforma que ofrece diferentes servicios en la nube para
observabilidad, seguridad y analítica.
Al contratar el servicio tipo SaaS, la organización se olvida de administrar y mantener toda la

infraestructura que requiere esta solución, y se centra únicamente en analizar los datos que se
extraen desde los clientes en tiempo real.
Con la información recabada la organización podrá tomar decisiones de prevención de anomalías y

evitar eventos de indisponibilidad que podrían darse por vulnerabilidades detectadas a tiempo y
que se enfrentan en el día a día.
A continuación, se explica cada componente:
• Cliente/Infraestructura:
o Para la ingesta de datos, se debe instalar un agente o demonio en cada cliente
que se requiere monitorear.
o Existen 2 tipos de agentes:
▪ Beats, el cual se instala de manera independiente por cada tipo de
extracción de información (logs, métricas, etc) que se requiere enviar a
elasticsearch.
▪ Elastic Agent, este ya está preparado para extraer toda la información
necesaria, tanto de logs de aplicaciones como de métricas de recursos.
• ETL NRT CLOUD
o Este componente está integrado por los siguientes artefactos:
▪ Elasticsearch, actúa como base de datos no estructurada, la cual recepta
la información para que luego sea leída desde Kibana.
▪ Logstash, es un pipeline en el que se establece el flujo de datos y que se
encarga de extraer, procesar, transformar y cargar los datos de los
clientes de manera masiva hacia la base de elasticsearch.
P á g i n a 6 | 48
• Visualización / Métricas
o Kibana, ofrece dashboards predefinidios y personalizables para cada tipo de
dato que se requiera analizar y visualizar. Establecer alertas y gestión de casos.
o Las diferentes métricas, permiten realizar análisis en tiempo real y detección de
anomalías para la toma de decisiones en cuanto a disponibilidad se refiere.
o Seguridad y ML, este componente utiliza modelos de machine learning como,
clasificación, regresión, con lo que se puede predecir diferentes
vulnerabilidades, prevención contra ransonware, comportamiento malicioso,
amenazas a la memoria, entre otros.
Con la arquitectura cloud propuesta en Elastic Cloud, basada en NRT, al ser una arquitectura de
alta disponibilidad, se garantiza el flujo de datos hacia elasticsearch, así como también la
visualización de los datos en Kibana, con lo que la prevención de anomalías y vulnerabilidades
con el apoyo de machine learning, permitirán mitigar los riesgos asociados y garantizar la
continuidad y disponibilidad de los servicios de la organización.
P á g i n a 7 | 48
Desarrollo en Elastic Cloud
Creación del Deployment de Elastic Cloud
Se configura un deployment en el cloud de elastic.
Configuración inicial
P á g i n a 8 | 48
Auto escalamiento (opcional)
P á g i n a 9 | 48
P á g i n a 10 | 48
Configuración inicial de KIBANA
Info
P á g i n a 11 | 48
Integration Server
Permite la integración mediante Streaming para recolectar los datos hacia el Elastic Stack Cloud,
con lo que permitirá soportar todo lo necesario para la Observabilidad:
• Ingesta de datos, almacenamiento y reglas de transformación

• Configuraciones
• Dashboards y visualizaciones
• Documentación
P á g i n a 12 | 48
Enterprise Search
Costos de la configuración
P á g i n a 13 | 48
Creación del deployment
P á g i n a 14 | 48
Credenciales td4uIqYRMyKM5Ng5XLWJxJdf
Configuración completada.
Accediendo al espacio cloud de Elastic recientemente configurado
Una vez ingresado al sitio, se presentan las configuraciones que se puede realizar como guías
de ayuda
P á g i n a 15 | 48
A nivel de observabilidad se puede utilizar las siguientes funcionalidades
Una vez creado el espacio en la nube elastic se puede observar en la página principal todas las
herramientas disponibles:
P á g i n a 16 | 48
Para este caso se va a utilizar el monitoreo de métricas de host (servidores y/o equipos
personales).
Revisión del agente
Para el caso de instalación del agente, existen 2 tipos:
• Beats: Para este tipo de agente, debe ser instalado de manera independiente por cada
tipo de dato que se requiera recolectar. Un agente para logs, otro para métricas, y otro
para disponibilidad.
• Elastic Agent: Solo se requiere un solo agente que colectará logs, métricas, seguridad.
Este a su vez se despliega en 2 modos:
P á g i n a 17 | 48
o Managed Fleet: las políticas y ciclo de vida están centralizados en Kibana. Es

recomendado para usuarios comunes.
o Standalone mode: Toda política debe ser aplicada al agente manualmente
mediante un archivo YAML. Recomendado para usuarios avanzados.
Para este caso se utilizará el Elastic Agent en modo Managed Fleet.
Este agente permite la recolección de logs y métricas del equipo en tiempo real:
Logs: Captura de logs en streaming sobre eventos de las aplicaciones, así como eventos de
seguridad.
Métricas: Insight sobre el estado de servicios y rendimiento del equipo en tiempo real.
Instalación del demonio Elastic Agent
P á g i n a 18 | 48
Windows
https://deploy-grupo-9-caso-practico.kb.southamerica-east1.gcp.elastic-
cloud.com:9243/app/fleet/integrations/windows-1.22.0/add-integration?useMultiPageLayout
$ProgressPreference = 'SilentlyContinue'
Invoke-WebRequest -Uri https://artifacts.elastic.co/downloads/beats/elastic-agent/elastic-agent-

8.7.1-windows-x86_64.zip -OutFile elastic-agent-8.7.1-windows-x86_64.zip
Expand-Archive .\elastic-agent-8.7.1-windows-x86_64.zip -DestinationPath .
cd elastic-agent-8.7.1-windows-x86_64
.\elastic-agent.exe install --url=https://6bebce1f0e5f4a379b7665eb1dc4ff6c.fleet.southamerica-

east1.gcp.elastic-cloud.com:443 --enrollment-
token=dHliYVA0Z0JBSmtkalF6YUwtSmM6cG51LWRFNFJTWEdScE5VbzlSYzdQUQ==
P á g i n a 19 | 48
Abrimos powershell como administrador
P á g i n a 20 | 48
P á g i n a 21 | 48
Una vez que se confirma la instalación en el equipo local, se puede observar que en la
plataforma cloud se detecta el nuevo agente instalado y se confirma la instalación del agente
satisfactoriamente.
Se presiona el botón Add the integration para continuar la instalación.
P á g i n a 22 | 48
Se puede marcar o desmarcar los tipos de datos a recolectar
P á g i n a 23 | 48
P á g i n a 24 | 48
Opciones avanzadas
P á g i n a 25 | 48
Se confirma con el equipo local el nombre de host y se verifica que los datos se están
recolectando.
P á g i n a 26 | 48
Se confirma en Kibana accediendo a un dashboard que los datos se están capturando en tiempo
real.
P á g i n a 27 | 48
Dashboard en KIBANA
Herramienta de Machine Learning
Vamos a aprovechar el poder del machine learning en Elastic Search utilizando la información
de los agentes de metricbeat, recopilamos la información referente al rendimiento de varias
computadoras como se explicó anteriormente, crearemos Jobs de detección de anomalías para
contar con información suficiente que entrene los modelos respectivos, y de esta manera
podremos detectar y predecir anomalías en tiempo real.
P á g i n a 28 | 48
P á g i n a 29 | 48
Resultados
No se encuentran anomalías.
P á g i n a 30 | 48
Modelos de machine learning
Clasificación
Se efectuará un ejercicio de detección de anomalías a partir de las series temporales que han
sido construidas en base a la información constantemente cargada desde los demás equipos.
El job utilizado para la carga de información ya se lo creó al efectuar la visualización y generar

el dashboard a través de Kibana, los Jobs son los siguientes:
P á g i n a 31 | 48
Específicamente trabajaremos con el job denominado “kibana-logs-ui-default-default-log-

entry-rate”, a continuación, se puede ver la configuración del mismo:
Se puede ver que la retención de información es de 10 días, al ver en su datafeed se aprecia

que la base de datos es el índice “logs-*”.
P á g i n a 32 | 48
Al explorar la información generada a través del job, se tiene el siguiente esquema, con cada
uno de los data sets recopilados:
Si consideramos el primer data set correspondiente a “elastic_agent” vemos que hay 689
datos, y el máximo valor asignado ha sido de 84.
En el esquema se puede ver que dicho valor ocurrió el 22 de mayo:
Posteriormente, el 27 de mayo se tiene otra alerta, ese día el valor había sido de 82. Son los dos
días con valor en rojo en el gráfico.
Se puede ver también la información de cada uno de los data sets y en el día en que ocurrieron
las anomalías:
P á g i n a 33 | 48
Al filtrar por nivel, según el número de anomalías, se puede conocer que se clasifica como
críticas cuando tenemos un score de 75 o más.
Desplegando las dos primeras filas para ver el detalle se ve que en cada caso se recalcula la
probabilidad de ocurrencia, información que posteriormente se utilizará al predecir las
anomalías en un futuro.
P á g i n a 34 | 48
Para ver la serie de datos se accede mediante “Single Metric Viewer”:
En cada uno de los data sets podemos apreciar la serie generada.
P á g i n a 35 | 48
Para el dataset correspondiente a “elastic_agent_metricbeat”:
Y así para los demás:
P á g i n a 36 | 48
Únicamente los dos primeros registraron score con valores críticos.
Estas series son las que utiliza el modelo para su entrenamiento, se puede hacer un forecast
para conocer la predicción que realiza Elastic Search a través de machine learning.
Igualmente, para el caso del dataset de “elastic_agent_metricbeat”:
P á g i n a 37 | 48
De esta manera se puede predecir las anomalías que esperamos para la siguiente semana, a
partir de los datos generados previamente.
P á g i n a 38 | 48
Instalación de agente en LINUX
curl -L -O https://artifacts.elastic.co/downloads/beats/elastic-
agent/elasticagent-8.7.1-linux-x86_64.tar.gz tar xzvf elastic-agent-8.7.1-linux-
x86_64.tar.gz cd elastic-agent-8.7.1-linux-x86_64
sudo ./elastic-agent install -

url=https://6bebce1f0e5f4a379b7665eb1dc4ff6c.fleet.southamerica-
east1.gcp.elasticcloud.com:443 --enrollment-
token=V0NnWlFJZ0JBSmtkalF6YTlvRlA6SUEwbElvVUtUWk9jbHEwT3otSTFSQQ==
Se está esperando la instalación del agente en el servidor Linux.
P á g i n a 39 | 48
Instalación exitosa
Se confirma la instalación en la nube de Elastic
P á g i n a 40 | 48
Se confirma el nombre del equipo LINUX como: bigdata-IMF
P á g i n a 41 | 48
El mismo ya se encuentra registrado y puede visualizarse desde KIBANA
Ya se puede observar los logs que se registran del nuevo equipo LINUX
P á g i n a 42 | 48
Facilidad para realizar un Upgrade de versión de la plataforma cloud
P á g i n a 43 | 48
P á g i n a 44 | 48
Reglas de observabilidad
Se crea una regla para enviar una alerta a un canal de slack.
P á g i n a 45 | 48
Regla creada
P á g i n a 46 | 48
Creación del Webhook en slack
Discusión
Hallazgos
La instalación de los demonios debe ser considerada por sistema operativo y se debe
determinar qué tipo de métrica se requiere extraer, para según eso determinar el tipo de
agente a instalar.
Conclusiones de lo aprendido en la implementación:
Para el diseño de los dashboard, es necesario contar con un experto en data analytics, con el
objetivo de poder establecer visualizaciones que aporten a la toma de decisiones de manera
inmediata.
El componente de Machine Learning que ofrece la plataforma, es bastante potente, por lo que
es importante contar con un experto en Data Science y un experto en Seguridad informática,
de tal forma que se implementen los modelos más adecuados para la detección y prevención
de anomalías.
P á g i n a 47 | 48
Se pudo conocer el uso de las herramientas que ofrece Elastic Stack Cluod que consiste en un
conjunto de productos de código abierto que han sido diseñados para tomar datos de cualquier
fuente, así como analizarlos y visualizarlos en tiempo real.
La generación de información a través de los Jobs es muy importante para las predicciones que
se realizarán, se debe tomar en cuenta el crecimiento de estos índices, para lo cual es necesario
un monitoreo y administración permanentes.
Recomendaciones
• Implementar un modelo de Gobierno de Datos, para que se establezcan las políticas,

procesos y procedimientos, tanto de seguridad como de calidad, como puntos clave, para
determinar las métricas más adecuadas y apegadas al modelo de gobierno.
• Definir los roles, funciones y responsabilidades del talento humano que estará al frente de
la plataforma de observabilidad, con el objetivo de dar seguimiento y cumplimiento a las
políticas y procesos establecidos.
• Crear indicadores y KPIs que permitan retroalimentar el costo beneficio en el largo plazo,
con el objetivo de mantener informada a la alta gerencia y se garantice la sostenibilidad de
la plataforma tipo SaaS.
• Es importante realizar seguimientos y evaluaciones sobre los procesos y procedimientos, con

el objetivo de actualizarlos para garantizar la mejora continua.
P á g i n a 48 | 48

Caso Final Tópicos Big Data Grupo 9

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Caso Final Tópicos Big Data Grupo 9

Enviado por

Direitos autorais:

Formatos disponíveis

Integrantes – grupo 9

Cabezas Gutiérrez Cristhian Fabián

Desarrollo del Caso Práctico ......................................................................................................... 4

Definición del caso y justificación ............................................................................................. 4

Diseño de Arquitectura tecnológica ......................................................................................... 6

Desarrollo en Elastic Cloud ....................................................................................................... 8

Creación del Deployment de Elastic Cloud ........................................................................... 8

Auto escalamiento (opcional) ............................................................................................... 9

Configuración inicial de KIBANA ......................................................................................... 11

Integration Server ............................................................................................................... 12

Enterprise Search ................................................................................................................ 13

Costos de la configuración .................................................................................................. 13

Creación del deployment .................................................................................................... 14

Revisión del agente ............................................................................................................. 17

Instalación del demonio Elastic Agent ................................................................................ 18

Dashboard en KIBANA ........................................................................................................ 28

Herramienta de Machine Learning ..................................................................................... 28

Modelos de machine learning ............................................................................................ 31

Instalación de agente en LINUX .......................................................................................... 39

Facilidad para realizar un Upgrade de versión de la plataforma cloud .............................. 43

Reglas de observabilidad .................................................................................................... 45

Regla creada ........................................................................................................................ 46

Creación del Webhook en slack .......................................................................................... 47

CASO PRÁCTICO FINAL

Desarrollo del Caso Práctico

Diseño de Arquitectura conceptual

Diseño de Arquitectura tecnológica

Al contratar el servicio tipo SaaS, la organización se olvida de administrar y mantener toda la

Con la información recabada la organización podrá tomar decisiones de prevención de anomalías y

A continuación, se explica cada componente:

Desarrollo en Elastic Cloud

Creación del Deployment de Elastic Cloud

Se configura un deployment en el cloud de elastic.

Auto escalamiento (opcional)

Configuración inicial de KIBANA

• Ingesta de datos, almacenamiento y reglas de transformación

Creación del deployment

Accediendo al espacio cloud de Elastic recientemente configurado

A nivel de observabilidad se puede utilizar las siguientes funcionalidades

Revisión del agente

Para el caso de instalación del agente, existen 2 tipos:

o Managed Fleet: las políticas y ciclo de vida están centralizados en Kibana. Es

Para este caso se utilizará el Elastic Agent en modo Managed Fleet.

Instalación del demonio Elastic Agent

Invoke-WebRequest -Uri https://artifacts.elastic.co/downloads/beats/elastic-agent/elastic-agent-

Expand-Archive .\elastic-agent-8.7.1-windows-x86_64.zip -DestinationPath .

.\elastic-agent.exe install --url=https://6bebce1f0e5f4a379b7665eb1dc4ff6c.fleet.southamerica-

Abrimos powershell como administrador

Se presiona el botón Add the integration para continuar la instalación.

Se puede marcar o desmarcar los tipos de datos a recolectar

Herramienta de Machine Learning

Modelos de machine learning

El job utilizado para la carga de información ya se lo creó al efectuar la visualización y generar

Específicamente trabajaremos con el job denominado “kibana-logs-ui-default-default-log-

Se puede ver que la retención de información es de 10 días, al ver en su datafeed se aprecia

En el esquema se puede ver que dicho valor ocurrió el 22 de mayo:

Para ver la serie de datos se accede mediante “Single Metric Viewer”:

En cada uno de los data sets podemos apreciar la serie generada.

Para el dataset correspondiente a “elastic_agent_metricbeat”:

Y así para los demás:

Únicamente los dos primeros registraron score con valores críticos.

Igualmente, para el caso del dataset de “elastic_agent_metricbeat”:

Instalación de agente en LINUX