Você está na página 1de 49

Integrantes – grupo 9

Cabezas Gutiérrez Cristhian Fabián


Calle Revelo Gustavo John
Gaibor Rojas Sonia Marlene
Muñoz Montenegro Miguel Fernando
Proaño Raza Hernán Vladimir

Profesor
Diego Montúfar Cevallos

CASOS Y TÓPICOS DE
BIG DATA
Mayo 2023
Caso práctico Final

Contenido
Lo que se pide: .............................................................................................................................. 3

Desarrollo del Caso Práctico ......................................................................................................... 4

Definición del caso y justificación ............................................................................................. 4

Diseño de Arquitectura tecnológica ......................................................................................... 6

Desarrollo en Elastic Cloud ....................................................................................................... 8

Creación del Deployment de Elastic Cloud ........................................................................... 8

Configuración inicial.............................................................................................................. 8

Auto escalamiento (opcional) ............................................................................................... 9

Configuración inicial de KIBANA ......................................................................................... 11

Integration Server ............................................................................................................... 12

Enterprise Search ................................................................................................................ 13

Costos de la configuración .................................................................................................. 13

Creación del deployment .................................................................................................... 14

Revisión del agente ............................................................................................................. 17

Instalación del demonio Elastic Agent ................................................................................ 18

Dashboard en KIBANA ........................................................................................................ 28

Herramienta de Machine Learning ..................................................................................... 28

Modelos de machine learning ............................................................................................ 31

Clasificación......................................................................................................................... 31

Instalación de agente en LINUX .......................................................................................... 39

Facilidad para realizar un Upgrade de versión de la plataforma cloud .............................. 43

P á g i n a 1 | 48
Caso práctico Final

Reglas de observabilidad .................................................................................................... 45

Regla creada ........................................................................................................................ 46

Creación del Webhook en slack .......................................................................................... 47

Discusión ................................................................................................................................. 47

Hallazgos ............................................................................................................................. 47

Recomendaciones ................................................................................................................... 48

P á g i n a 2 | 48
Caso práctico Final

CASO PRÁCTICO FINAL


Lo que se pide:
1. Definición del caso y justificación: explique el contexto del problema a resolver, por qué
es un caso de Big Data y su hipótesis de cómo lo planea resolver. Se deberá abordar la
justificación desde el punto de vista de negocio y también desde el punto de vista
técnico.
2. Diseño de Arquitectura conceptual: proponga en un diagrama (imagen) la arquitectura
conceptual, es decir sin colocar aún ninguna tecnología o herramienta para la solución.
Explique cada componente: para qué sirve y cómo fluyen los datos desde su origen hacia
su destino.
3. Diseño de Arquitectura tecnológica: póngale logos al diagrama de arquitectura anterior
en una nueva imagen. Explique cada tecnología o herramienta y por qué resolverá cada
paso del flujo de los datos.
4. Desarrollo del caso: mediante evidencia con capturas de pantalla, muestre y explique
el paso a paso de la implementación de su solución.
5. Discusión: explique sus hallazgos y conclusiones sobre lo aprendido durante la
implementación del caso.
6. Recomendaciones: ¿Cómo mejorar? ¿Qué faltó o sobró? ¿Qué recomendarías?
El entregable #2 será un archivo comprimido en formato .zip con todo el código fuente
generado: scripts, notebooks, archivos, datasets, etc.

P á g i n a 3 | 48
Caso práctico Final

Desarrollo del Caso Práctico


Definición del caso y justificación

La empresa “IT Calle Solutions” es una consultora que se dedica al asesoramiento a empresas en el
diseño e implementación de soluciones de inteligencia de negocios y analítica avanzada para lo cual,
mantiene su infraestructura on-premise de los diferentes servicios que ofrece entre las que están
soluciones de inteligencia de negocios que incluye modelos descriptivos como tableros de control,
cuadros de mando, consultas, reportes e informes personalizados. Con ello los clientes pueden acceder
a estos servicios para generar información y tomar decisiones de negocio de manera acertada, por esta
razón es que IT Calle Solutions debe tener una infraestructura robusta para garantizar a los clientes
disponibilidad constante de los servicios ya que de esto depende la continuidad del negocio de las
empresas a las que se ofrece las soluciones.

Problema

Ante el creciente y constante uso del Internet, y que hoy en día, es uno de los principales canales de
comunicación de todo el mundo y organizaciones, personas mal intencionadas, conocidas en ciertos
casos como hackers, también están constantemente creando nuevas formas de vulnerar la seguridad de
los diferentes equipos informáticos a través de software y como principal medio, el Internet, por lo que
en muchos casos ni un antivirus es suficiente para mitigar estos riesgos a los que nos enfrentamos día
a día. Así mismo, los ambientes de misión crítica están expuestos a los mismos riesgos, como ataques,
secuestro de información, entre otros, por lo que cada vez la disponibilidad y continuidad de los servicios
están siendo afectados, así como también la integridad y seguridad de la información está siendo
vulnerada.

Justificación

Para mitigar los riesgos a los que se expone la organización, es primordial, implementar principalmente,
políticas que permitan adoptar estándares de calidad y buenas prácticas, que reducen los riesgos y a su
vez se establece una cultura organizacional para que en conjunto se apalanque en la mejora continua.

Así mismo, existen varias herramientas y soluciones informáticas que apalancan las políticas, buenas
prácticas, procesos y mejora continua.

Para garantizar la continuidad y disponibilidad de los servicios que ofrece a sus diferentes clientes, así
como también asegurar la integridad de la información, es necesario contar con una solución de
observabilidad, que permita monitorear los recursos, disponibilidad y seguridad, de lo ambientes de
misión crítica, así como también los equipos personales de toda la organización. Para ello se implementa
una solución de Big Data, que facilitará el monitoreo cercano al tiempo real (NRT - Near Real Time), para
así prevenir posibles vulnerabilidades, como también poder planificar correctamente la capacidad de los
recursos y ambientes.

Analizando el costo de oportunidad, considerando que la organización no cuenta con los recursos
económicos ni talentos para administrar una plataforma on-premise, se implementará la solución con un
servicio tipo SaaS de Elastic Cloud, ya que en el largo plazo los beneficios son altamente aceptables.

Con la solución planteada se pretende monitorear los recursos de hardware y software para tener
información actualizada que facilitará la toma de decisiones con respecto a garantizar la disponibilidad,
continuidad y seguridad de los servicios que ofrece la consultora a sus diferentes clientes fidelizados.

P á g i n a 4 | 48
Caso práctico Final

Diseño de Arquitectura conceptual

• Cliente/Infraestructura:
o Se determinan los componentes de hardware y software a ser monitoreados
o Se instala un demonio que permitirá la ingesta de datos a la plataforma cloud
o Este demonio debe estar configurado con políticas de seguridad
• ETL NRT CLOUD:
o Esquema de extracción, procesamiento y carga en una base de datos en la nube,
el cual registrará cada evento que se produzca en los clientes
o La plataforma cloud ingesta, procesa y carga la información en casi tiempo real
• Visualización / métricas
o Componente que permite la visualización de los datos en tiempo real, mediante
la personalización de dashboards que facilitarán la toma de decisiones
o Las métricas permitirán establecer patrones de comportamiento tanto de los
componentes de hardware como software, y con el apoyo de componentes ML
(Machine Learning) permitirá predecir indisponibilidades y anomalías en los
servicios
Con el esquema propuesto, los datos viajarán en tiempo real a la plataforma cloud y permitirá
observar los mismos, en dashboards, así como también, con el uso de machine learning se
podrán detectar anomalías y predecir eventos de indisponibilidad.

P á g i n a 5 | 48
Caso práctico Final

Diseño de Arquitectura tecnológica

Elastic Stack Cloud, es una plataforma que ofrece diferentes servicios en la nube para
observabilidad, seguridad y analítica.

Al contratar el servicio tipo SaaS, la organización se olvida de administrar y mantener toda la


infraestructura que requiere esta solución, y se centra únicamente en analizar los datos que se
extraen desde los clientes en tiempo real.

Con la información recabada la organización podrá tomar decisiones de prevención de anomalías y


evitar eventos de indisponibilidad que podrían darse por vulnerabilidades detectadas a tiempo y
que se enfrentan en el día a día.

A continuación, se explica cada componente:

• Cliente/Infraestructura:
o Para la ingesta de datos, se debe instalar un agente o demonio en cada cliente
que se requiere monitorear.
o Existen 2 tipos de agentes:
▪ Beats, el cual se instala de manera independiente por cada tipo de
extracción de información (logs, métricas, etc) que se requiere enviar a
elasticsearch.
▪ Elastic Agent, este ya está preparado para extraer toda la información
necesaria, tanto de logs de aplicaciones como de métricas de recursos.
• ETL NRT CLOUD
o Este componente está integrado por los siguientes artefactos:
▪ Elasticsearch, actúa como base de datos no estructurada, la cual recepta
la información para que luego sea leída desde Kibana.
▪ Logstash, es un pipeline en el que se establece el flujo de datos y que se
encarga de extraer, procesar, transformar y cargar los datos de los
clientes de manera masiva hacia la base de elasticsearch.

P á g i n a 6 | 48
Caso práctico Final

• Visualización / Métricas
o Kibana, ofrece dashboards predefinidios y personalizables para cada tipo de
dato que se requiera analizar y visualizar. Establecer alertas y gestión de casos.
o Las diferentes métricas, permiten realizar análisis en tiempo real y detección de
anomalías para la toma de decisiones en cuanto a disponibilidad se refiere.
o Seguridad y ML, este componente utiliza modelos de machine learning como,
clasificación, regresión, con lo que se puede predecir diferentes
vulnerabilidades, prevención contra ransonware, comportamiento malicioso,
amenazas a la memoria, entre otros.
Con la arquitectura cloud propuesta en Elastic Cloud, basada en NRT, al ser una arquitectura de
alta disponibilidad, se garantiza el flujo de datos hacia elasticsearch, así como también la
visualización de los datos en Kibana, con lo que la prevención de anomalías y vulnerabilidades
con el apoyo de machine learning, permitirán mitigar los riesgos asociados y garantizar la
continuidad y disponibilidad de los servicios de la organización.

P á g i n a 7 | 48
Caso práctico Final

Desarrollo en Elastic Cloud

Creación del Deployment de Elastic Cloud

Se configura un deployment en el cloud de elastic.

Configuración inicial

P á g i n a 8 | 48
Caso práctico Final

Auto escalamiento (opcional)

P á g i n a 9 | 48
Caso práctico Final

P á g i n a 10 | 48
Caso práctico Final

Configuración inicial de KIBANA

Info

P á g i n a 11 | 48
Caso práctico Final

Integration Server

Permite la integración mediante Streaming para recolectar los datos hacia el Elastic Stack Cloud,
con lo que permitirá soportar todo lo necesario para la Observabilidad:

• Ingesta de datos, almacenamiento y reglas de transformación


• Configuraciones
• Dashboards y visualizaciones
• Documentación

P á g i n a 12 | 48
Caso práctico Final

Enterprise Search

Costos de la configuración

P á g i n a 13 | 48
Caso práctico Final

Creación del deployment

P á g i n a 14 | 48
Caso práctico Final

Credenciales td4uIqYRMyKM5Ng5XLWJxJdf

Configuración completada.

Accediendo al espacio cloud de Elastic recientemente configurado

Una vez ingresado al sitio, se presentan las configuraciones que se puede realizar como guías
de ayuda

P á g i n a 15 | 48
Caso práctico Final

A nivel de observabilidad se puede utilizar las siguientes funcionalidades

Una vez creado el espacio en la nube elastic se puede observar en la página principal todas las
herramientas disponibles:

P á g i n a 16 | 48
Caso práctico Final

Para este caso se va a utilizar el monitoreo de métricas de host (servidores y/o equipos
personales).

Revisión del agente

Para el caso de instalación del agente, existen 2 tipos:

• Beats: Para este tipo de agente, debe ser instalado de manera independiente por cada
tipo de dato que se requiera recolectar. Un agente para logs, otro para métricas, y otro
para disponibilidad.
• Elastic Agent: Solo se requiere un solo agente que colectará logs, métricas, seguridad.
Este a su vez se despliega en 2 modos:

P á g i n a 17 | 48
Caso práctico Final

o Managed Fleet: las políticas y ciclo de vida están centralizados en Kibana. Es


recomendado para usuarios comunes.
o Standalone mode: Toda política debe ser aplicada al agente manualmente
mediante un archivo YAML. Recomendado para usuarios avanzados.

Para este caso se utilizará el Elastic Agent en modo Managed Fleet.

Este agente permite la recolección de logs y métricas del equipo en tiempo real:

Logs: Captura de logs en streaming sobre eventos de las aplicaciones, así como eventos de
seguridad.

Métricas: Insight sobre el estado de servicios y rendimiento del equipo en tiempo real.

Instalación del demonio Elastic Agent

P á g i n a 18 | 48
Caso práctico Final

Windows
https://deploy-grupo-9-caso-practico.kb.southamerica-east1.gcp.elastic-
cloud.com:9243/app/fleet/integrations/windows-1.22.0/add-integration?useMultiPageLayout

$ProgressPreference = 'SilentlyContinue'

Invoke-WebRequest -Uri https://artifacts.elastic.co/downloads/beats/elastic-agent/elastic-agent-


8.7.1-windows-x86_64.zip -OutFile elastic-agent-8.7.1-windows-x86_64.zip

Expand-Archive .\elastic-agent-8.7.1-windows-x86_64.zip -DestinationPath .

cd elastic-agent-8.7.1-windows-x86_64

.\elastic-agent.exe install --url=https://6bebce1f0e5f4a379b7665eb1dc4ff6c.fleet.southamerica-


east1.gcp.elastic-cloud.com:443 --enrollment-
token=dHliYVA0Z0JBSmtkalF6YUwtSmM6cG51LWRFNFJTWEdScE5VbzlSYzdQUQ==

P á g i n a 19 | 48
Caso práctico Final

Abrimos powershell como administrador

P á g i n a 20 | 48
Caso práctico Final

P á g i n a 21 | 48
Caso práctico Final

Una vez que se confirma la instalación en el equipo local, se puede observar que en la
plataforma cloud se detecta el nuevo agente instalado y se confirma la instalación del agente
satisfactoriamente.

Se presiona el botón Add the integration para continuar la instalación.

P á g i n a 22 | 48
Caso práctico Final

Se puede marcar o desmarcar los tipos de datos a recolectar

P á g i n a 23 | 48
Caso práctico Final

P á g i n a 24 | 48
Caso práctico Final
Opciones avanzadas

P á g i n a 25 | 48
Caso práctico Final

Se confirma con el equipo local el nombre de host y se verifica que los datos se están
recolectando.

P á g i n a 26 | 48
Caso práctico Final

Se confirma en Kibana accediendo a un dashboard que los datos se están capturando en tiempo
real.

P á g i n a 27 | 48
Caso práctico Final

Dashboard en KIBANA

Herramienta de Machine Learning

Vamos a aprovechar el poder del machine learning en Elastic Search utilizando la información
de los agentes de metricbeat, recopilamos la información referente al rendimiento de varias
computadoras como se explicó anteriormente, crearemos Jobs de detección de anomalías para
contar con información suficiente que entrene los modelos respectivos, y de esta manera
podremos detectar y predecir anomalías en tiempo real.

P á g i n a 28 | 48
Caso práctico Final

P á g i n a 29 | 48
Caso práctico Final

Resultados

No se encuentran anomalías.

P á g i n a 30 | 48
Caso práctico Final

Modelos de machine learning

Clasificación

Se efectuará un ejercicio de detección de anomalías a partir de las series temporales que han
sido construidas en base a la información constantemente cargada desde los demás equipos.

El job utilizado para la carga de información ya se lo creó al efectuar la visualización y generar


el dashboard a través de Kibana, los Jobs son los siguientes:

P á g i n a 31 | 48
Caso práctico Final

Específicamente trabajaremos con el job denominado “kibana-logs-ui-default-default-log-


entry-rate”, a continuación, se puede ver la configuración del mismo:

Se puede ver que la retención de información es de 10 días, al ver en su datafeed se aprecia


que la base de datos es el índice “logs-*”.

P á g i n a 32 | 48
Caso práctico Final

Al explorar la información generada a través del job, se tiene el siguiente esquema, con cada
uno de los data sets recopilados:

Si consideramos el primer data set correspondiente a “elastic_agent” vemos que hay 689
datos, y el máximo valor asignado ha sido de 84.

En el esquema se puede ver que dicho valor ocurrió el 22 de mayo:

Posteriormente, el 27 de mayo se tiene otra alerta, ese día el valor había sido de 82. Son los dos
días con valor en rojo en el gráfico.

Se puede ver también la información de cada uno de los data sets y en el día en que ocurrieron
las anomalías:

P á g i n a 33 | 48
Caso práctico Final

Al filtrar por nivel, según el número de anomalías, se puede conocer que se clasifica como
críticas cuando tenemos un score de 75 o más.

Desplegando las dos primeras filas para ver el detalle se ve que en cada caso se recalcula la
probabilidad de ocurrencia, información que posteriormente se utilizará al predecir las
anomalías en un futuro.

P á g i n a 34 | 48
Caso práctico Final

Para ver la serie de datos se accede mediante “Single Metric Viewer”:

En cada uno de los data sets podemos apreciar la serie generada.

P á g i n a 35 | 48
Caso práctico Final

Para el dataset correspondiente a “elastic_agent_metricbeat”:

Y así para los demás:

P á g i n a 36 | 48
Caso práctico Final

Únicamente los dos primeros registraron score con valores críticos.

Estas series son las que utiliza el modelo para su entrenamiento, se puede hacer un forecast
para conocer la predicción que realiza Elastic Search a través de machine learning.

Igualmente, para el caso del dataset de “elastic_agent_metricbeat”:

P á g i n a 37 | 48
Caso práctico Final

De esta manera se puede predecir las anomalías que esperamos para la siguiente semana, a
partir de los datos generados previamente.

P á g i n a 38 | 48
Caso práctico Final

Instalación de agente en LINUX

curl -L -O https://artifacts.elastic.co/downloads/beats/elastic-
agent/elasticagent-8.7.1-linux-x86_64.tar.gz tar xzvf elastic-agent-8.7.1-linux-
x86_64.tar.gz cd elastic-agent-8.7.1-linux-x86_64

sudo ./elastic-agent install -


url=https://6bebce1f0e5f4a379b7665eb1dc4ff6c.fleet.southamerica-
east1.gcp.elasticcloud.com:443 --enrollment-

token=V0NnWlFJZ0JBSmtkalF6YTlvRlA6SUEwbElvVUtUWk9jbHEwT3otSTFSQQ==

Se está esperando la instalación del agente en el servidor Linux.

P á g i n a 39 | 48
Caso práctico Final

Instalación exitosa

Se confirma la instalación en la nube de Elastic

P á g i n a 40 | 48
Caso práctico Final

Se confirma el nombre del equipo LINUX como: bigdata-IMF

P á g i n a 41 | 48
Caso práctico Final

El mismo ya se encuentra registrado y puede visualizarse desde KIBANA

Ya se puede observar los logs que se registran del nuevo equipo LINUX

P á g i n a 42 | 48
Caso práctico Final

Facilidad para realizar un Upgrade de versión de la plataforma cloud

P á g i n a 43 | 48
Caso práctico Final

P á g i n a 44 | 48
Caso práctico Final

Reglas de observabilidad

Se crea una regla para enviar una alerta a un canal de slack.

P á g i n a 45 | 48
Caso práctico Final

Regla creada

P á g i n a 46 | 48
Caso práctico Final

Creación del Webhook en slack

Discusión

Hallazgos

La instalación de los demonios debe ser considerada por sistema operativo y se debe
determinar qué tipo de métrica se requiere extraer, para según eso determinar el tipo de
agente a instalar.

Conclusiones de lo aprendido en la implementación:

Para el diseño de los dashboard, es necesario contar con un experto en data analytics, con el
objetivo de poder establecer visualizaciones que aporten a la toma de decisiones de manera
inmediata.

El componente de Machine Learning que ofrece la plataforma, es bastante potente, por lo que
es importante contar con un experto en Data Science y un experto en Seguridad informática,
de tal forma que se implementen los modelos más adecuados para la detección y prevención
de anomalías.

P á g i n a 47 | 48
Caso práctico Final

Se pudo conocer el uso de las herramientas que ofrece Elastic Stack Cluod que consiste en un
conjunto de productos de código abierto que han sido diseñados para tomar datos de cualquier
fuente, así como analizarlos y visualizarlos en tiempo real.

La generación de información a través de los Jobs es muy importante para las predicciones que
se realizarán, se debe tomar en cuenta el crecimiento de estos índices, para lo cual es necesario
un monitoreo y administración permanentes.

Recomendaciones

• Implementar un modelo de Gobierno de Datos, para que se establezcan las políticas,


procesos y procedimientos, tanto de seguridad como de calidad, como puntos clave, para
determinar las métricas más adecuadas y apegadas al modelo de gobierno.

• Definir los roles, funciones y responsabilidades del talento humano que estará al frente de
la plataforma de observabilidad, con el objetivo de dar seguimiento y cumplimiento a las
políticas y procesos establecidos.

• Crear indicadores y KPIs que permitan retroalimentar el costo beneficio en el largo plazo,
con el objetivo de mantener informada a la alta gerencia y se garantice la sostenibilidad de
la plataforma tipo SaaS.

• Es importante realizar seguimientos y evaluaciones sobre los procesos y procedimientos, con


el objetivo de actualizarlos para garantizar la mejora continua.

P á g i n a 48 | 48

Você também pode gostar