Escolar Documentos
Profissional Documentos
Cultura Documentos
Profesor
Diego Montúfar Cevallos
CASOS Y TÓPICOS DE
BIG DATA
Mayo 2023
Caso práctico Final
Contenido
Lo que se pide: .............................................................................................................................. 3
Configuración inicial.............................................................................................................. 8
Clasificación......................................................................................................................... 31
P á g i n a 1 | 48
Caso práctico Final
Discusión ................................................................................................................................. 47
Hallazgos ............................................................................................................................. 47
Recomendaciones ................................................................................................................... 48
P á g i n a 2 | 48
Caso práctico Final
P á g i n a 3 | 48
Caso práctico Final
La empresa “IT Calle Solutions” es una consultora que se dedica al asesoramiento a empresas en el
diseño e implementación de soluciones de inteligencia de negocios y analítica avanzada para lo cual,
mantiene su infraestructura on-premise de los diferentes servicios que ofrece entre las que están
soluciones de inteligencia de negocios que incluye modelos descriptivos como tableros de control,
cuadros de mando, consultas, reportes e informes personalizados. Con ello los clientes pueden acceder
a estos servicios para generar información y tomar decisiones de negocio de manera acertada, por esta
razón es que IT Calle Solutions debe tener una infraestructura robusta para garantizar a los clientes
disponibilidad constante de los servicios ya que de esto depende la continuidad del negocio de las
empresas a las que se ofrece las soluciones.
Problema
Ante el creciente y constante uso del Internet, y que hoy en día, es uno de los principales canales de
comunicación de todo el mundo y organizaciones, personas mal intencionadas, conocidas en ciertos
casos como hackers, también están constantemente creando nuevas formas de vulnerar la seguridad de
los diferentes equipos informáticos a través de software y como principal medio, el Internet, por lo que
en muchos casos ni un antivirus es suficiente para mitigar estos riesgos a los que nos enfrentamos día
a día. Así mismo, los ambientes de misión crítica están expuestos a los mismos riesgos, como ataques,
secuestro de información, entre otros, por lo que cada vez la disponibilidad y continuidad de los servicios
están siendo afectados, así como también la integridad y seguridad de la información está siendo
vulnerada.
Justificación
Para mitigar los riesgos a los que se expone la organización, es primordial, implementar principalmente,
políticas que permitan adoptar estándares de calidad y buenas prácticas, que reducen los riesgos y a su
vez se establece una cultura organizacional para que en conjunto se apalanque en la mejora continua.
Así mismo, existen varias herramientas y soluciones informáticas que apalancan las políticas, buenas
prácticas, procesos y mejora continua.
Para garantizar la continuidad y disponibilidad de los servicios que ofrece a sus diferentes clientes, así
como también asegurar la integridad de la información, es necesario contar con una solución de
observabilidad, que permita monitorear los recursos, disponibilidad y seguridad, de lo ambientes de
misión crítica, así como también los equipos personales de toda la organización. Para ello se implementa
una solución de Big Data, que facilitará el monitoreo cercano al tiempo real (NRT - Near Real Time), para
así prevenir posibles vulnerabilidades, como también poder planificar correctamente la capacidad de los
recursos y ambientes.
Analizando el costo de oportunidad, considerando que la organización no cuenta con los recursos
económicos ni talentos para administrar una plataforma on-premise, se implementará la solución con un
servicio tipo SaaS de Elastic Cloud, ya que en el largo plazo los beneficios son altamente aceptables.
Con la solución planteada se pretende monitorear los recursos de hardware y software para tener
información actualizada que facilitará la toma de decisiones con respecto a garantizar la disponibilidad,
continuidad y seguridad de los servicios que ofrece la consultora a sus diferentes clientes fidelizados.
P á g i n a 4 | 48
Caso práctico Final
• Cliente/Infraestructura:
o Se determinan los componentes de hardware y software a ser monitoreados
o Se instala un demonio que permitirá la ingesta de datos a la plataforma cloud
o Este demonio debe estar configurado con políticas de seguridad
• ETL NRT CLOUD:
o Esquema de extracción, procesamiento y carga en una base de datos en la nube,
el cual registrará cada evento que se produzca en los clientes
o La plataforma cloud ingesta, procesa y carga la información en casi tiempo real
• Visualización / métricas
o Componente que permite la visualización de los datos en tiempo real, mediante
la personalización de dashboards que facilitarán la toma de decisiones
o Las métricas permitirán establecer patrones de comportamiento tanto de los
componentes de hardware como software, y con el apoyo de componentes ML
(Machine Learning) permitirá predecir indisponibilidades y anomalías en los
servicios
Con el esquema propuesto, los datos viajarán en tiempo real a la plataforma cloud y permitirá
observar los mismos, en dashboards, así como también, con el uso de machine learning se
podrán detectar anomalías y predecir eventos de indisponibilidad.
P á g i n a 5 | 48
Caso práctico Final
Elastic Stack Cloud, es una plataforma que ofrece diferentes servicios en la nube para
observabilidad, seguridad y analítica.
• Cliente/Infraestructura:
o Para la ingesta de datos, se debe instalar un agente o demonio en cada cliente
que se requiere monitorear.
o Existen 2 tipos de agentes:
▪ Beats, el cual se instala de manera independiente por cada tipo de
extracción de información (logs, métricas, etc) que se requiere enviar a
elasticsearch.
▪ Elastic Agent, este ya está preparado para extraer toda la información
necesaria, tanto de logs de aplicaciones como de métricas de recursos.
• ETL NRT CLOUD
o Este componente está integrado por los siguientes artefactos:
▪ Elasticsearch, actúa como base de datos no estructurada, la cual recepta
la información para que luego sea leída desde Kibana.
▪ Logstash, es un pipeline en el que se establece el flujo de datos y que se
encarga de extraer, procesar, transformar y cargar los datos de los
clientes de manera masiva hacia la base de elasticsearch.
P á g i n a 6 | 48
Caso práctico Final
• Visualización / Métricas
o Kibana, ofrece dashboards predefinidios y personalizables para cada tipo de
dato que se requiera analizar y visualizar. Establecer alertas y gestión de casos.
o Las diferentes métricas, permiten realizar análisis en tiempo real y detección de
anomalías para la toma de decisiones en cuanto a disponibilidad se refiere.
o Seguridad y ML, este componente utiliza modelos de machine learning como,
clasificación, regresión, con lo que se puede predecir diferentes
vulnerabilidades, prevención contra ransonware, comportamiento malicioso,
amenazas a la memoria, entre otros.
Con la arquitectura cloud propuesta en Elastic Cloud, basada en NRT, al ser una arquitectura de
alta disponibilidad, se garantiza el flujo de datos hacia elasticsearch, así como también la
visualización de los datos en Kibana, con lo que la prevención de anomalías y vulnerabilidades
con el apoyo de machine learning, permitirán mitigar los riesgos asociados y garantizar la
continuidad y disponibilidad de los servicios de la organización.
P á g i n a 7 | 48
Caso práctico Final
Configuración inicial
P á g i n a 8 | 48
Caso práctico Final
P á g i n a 9 | 48
Caso práctico Final
P á g i n a 10 | 48
Caso práctico Final
Info
P á g i n a 11 | 48
Caso práctico Final
Integration Server
Permite la integración mediante Streaming para recolectar los datos hacia el Elastic Stack Cloud,
con lo que permitirá soportar todo lo necesario para la Observabilidad:
P á g i n a 12 | 48
Caso práctico Final
Enterprise Search
Costos de la configuración
P á g i n a 13 | 48
Caso práctico Final
P á g i n a 14 | 48
Caso práctico Final
Credenciales td4uIqYRMyKM5Ng5XLWJxJdf
Configuración completada.
Una vez ingresado al sitio, se presentan las configuraciones que se puede realizar como guías
de ayuda
P á g i n a 15 | 48
Caso práctico Final
Una vez creado el espacio en la nube elastic se puede observar en la página principal todas las
herramientas disponibles:
P á g i n a 16 | 48
Caso práctico Final
Para este caso se va a utilizar el monitoreo de métricas de host (servidores y/o equipos
personales).
• Beats: Para este tipo de agente, debe ser instalado de manera independiente por cada
tipo de dato que se requiera recolectar. Un agente para logs, otro para métricas, y otro
para disponibilidad.
• Elastic Agent: Solo se requiere un solo agente que colectará logs, métricas, seguridad.
Este a su vez se despliega en 2 modos:
P á g i n a 17 | 48
Caso práctico Final
Este agente permite la recolección de logs y métricas del equipo en tiempo real:
Logs: Captura de logs en streaming sobre eventos de las aplicaciones, así como eventos de
seguridad.
Métricas: Insight sobre el estado de servicios y rendimiento del equipo en tiempo real.
P á g i n a 18 | 48
Caso práctico Final
Windows
https://deploy-grupo-9-caso-practico.kb.southamerica-east1.gcp.elastic-
cloud.com:9243/app/fleet/integrations/windows-1.22.0/add-integration?useMultiPageLayout
$ProgressPreference = 'SilentlyContinue'
cd elastic-agent-8.7.1-windows-x86_64
P á g i n a 19 | 48
Caso práctico Final
P á g i n a 20 | 48
Caso práctico Final
P á g i n a 21 | 48
Caso práctico Final
Una vez que se confirma la instalación en el equipo local, se puede observar que en la
plataforma cloud se detecta el nuevo agente instalado y se confirma la instalación del agente
satisfactoriamente.
P á g i n a 22 | 48
Caso práctico Final
P á g i n a 23 | 48
Caso práctico Final
P á g i n a 24 | 48
Caso práctico Final
Opciones avanzadas
P á g i n a 25 | 48
Caso práctico Final
Se confirma con el equipo local el nombre de host y se verifica que los datos se están
recolectando.
P á g i n a 26 | 48
Caso práctico Final
Se confirma en Kibana accediendo a un dashboard que los datos se están capturando en tiempo
real.
P á g i n a 27 | 48
Caso práctico Final
Dashboard en KIBANA
Vamos a aprovechar el poder del machine learning en Elastic Search utilizando la información
de los agentes de metricbeat, recopilamos la información referente al rendimiento de varias
computadoras como se explicó anteriormente, crearemos Jobs de detección de anomalías para
contar con información suficiente que entrene los modelos respectivos, y de esta manera
podremos detectar y predecir anomalías en tiempo real.
P á g i n a 28 | 48
Caso práctico Final
P á g i n a 29 | 48
Caso práctico Final
Resultados
No se encuentran anomalías.
P á g i n a 30 | 48
Caso práctico Final
Clasificación
Se efectuará un ejercicio de detección de anomalías a partir de las series temporales que han
sido construidas en base a la información constantemente cargada desde los demás equipos.
P á g i n a 31 | 48
Caso práctico Final
P á g i n a 32 | 48
Caso práctico Final
Al explorar la información generada a través del job, se tiene el siguiente esquema, con cada
uno de los data sets recopilados:
Si consideramos el primer data set correspondiente a “elastic_agent” vemos que hay 689
datos, y el máximo valor asignado ha sido de 84.
Posteriormente, el 27 de mayo se tiene otra alerta, ese día el valor había sido de 82. Son los dos
días con valor en rojo en el gráfico.
Se puede ver también la información de cada uno de los data sets y en el día en que ocurrieron
las anomalías:
P á g i n a 33 | 48
Caso práctico Final
Al filtrar por nivel, según el número de anomalías, se puede conocer que se clasifica como
críticas cuando tenemos un score de 75 o más.
Desplegando las dos primeras filas para ver el detalle se ve que en cada caso se recalcula la
probabilidad de ocurrencia, información que posteriormente se utilizará al predecir las
anomalías en un futuro.
P á g i n a 34 | 48
Caso práctico Final
P á g i n a 35 | 48
Caso práctico Final
P á g i n a 36 | 48
Caso práctico Final
Estas series son las que utiliza el modelo para su entrenamiento, se puede hacer un forecast
para conocer la predicción que realiza Elastic Search a través de machine learning.
P á g i n a 37 | 48
Caso práctico Final
De esta manera se puede predecir las anomalías que esperamos para la siguiente semana, a
partir de los datos generados previamente.
P á g i n a 38 | 48
Caso práctico Final
curl -L -O https://artifacts.elastic.co/downloads/beats/elastic-
agent/elasticagent-8.7.1-linux-x86_64.tar.gz tar xzvf elastic-agent-8.7.1-linux-
x86_64.tar.gz cd elastic-agent-8.7.1-linux-x86_64
token=V0NnWlFJZ0JBSmtkalF6YTlvRlA6SUEwbElvVUtUWk9jbHEwT3otSTFSQQ==
P á g i n a 39 | 48
Caso práctico Final
Instalación exitosa
P á g i n a 40 | 48
Caso práctico Final
P á g i n a 41 | 48
Caso práctico Final
Ya se puede observar los logs que se registran del nuevo equipo LINUX
P á g i n a 42 | 48
Caso práctico Final
P á g i n a 43 | 48
Caso práctico Final
P á g i n a 44 | 48
Caso práctico Final
Reglas de observabilidad
P á g i n a 45 | 48
Caso práctico Final
Regla creada
P á g i n a 46 | 48
Caso práctico Final
Discusión
Hallazgos
La instalación de los demonios debe ser considerada por sistema operativo y se debe
determinar qué tipo de métrica se requiere extraer, para según eso determinar el tipo de
agente a instalar.
Para el diseño de los dashboard, es necesario contar con un experto en data analytics, con el
objetivo de poder establecer visualizaciones que aporten a la toma de decisiones de manera
inmediata.
El componente de Machine Learning que ofrece la plataforma, es bastante potente, por lo que
es importante contar con un experto en Data Science y un experto en Seguridad informática,
de tal forma que se implementen los modelos más adecuados para la detección y prevención
de anomalías.
P á g i n a 47 | 48
Caso práctico Final
Se pudo conocer el uso de las herramientas que ofrece Elastic Stack Cluod que consiste en un
conjunto de productos de código abierto que han sido diseñados para tomar datos de cualquier
fuente, así como analizarlos y visualizarlos en tiempo real.
La generación de información a través de los Jobs es muy importante para las predicciones que
se realizarán, se debe tomar en cuenta el crecimiento de estos índices, para lo cual es necesario
un monitoreo y administración permanentes.
Recomendaciones
• Definir los roles, funciones y responsabilidades del talento humano que estará al frente de
la plataforma de observabilidad, con el objetivo de dar seguimiento y cumplimiento a las
políticas y procesos establecidos.
• Crear indicadores y KPIs que permitan retroalimentar el costo beneficio en el largo plazo,
con el objetivo de mantener informada a la alta gerencia y se garantice la sostenibilidad de
la plataforma tipo SaaS.
P á g i n a 48 | 48