Você está na página 1de 20

Administracin pblica

IBM Software
Business Analytics

Uso de los datos para la


deteccin de amenazas
internas y externas
Resumen ejecutivo
Contenido:
1 Resumen ejecutivo
1 Mtodos de deteccin de amenazas
internas
8 Mtodos de deteccin de amenazas
externas
16 Operacionalizar la evaluacin de
riesgos internos y externos
17 Acerca de las soluciones de
IBMSPSS para el anlisis predictivo
19 Acerca de IBM Business Analytics

El anlisis de la informacin es el cerebro que se esconde detrs de la


seguridad nacional. El objetivo de las actividades de inteligencia y de
contraterrorismo es el de descubrir las amenazas de seguridad en el
momento adecuado para poder actuar frente a ellas. Pero los patrones
que apuntan a estas amenazas muchas veces estn ocultos bajo grandes
volmenes de datos. Para resolver este problema, una forma de anlisis de
la informacin, el anlisis predictivo, es particularmente til. Las soluciones
de anlisis predictivo aplican sofisticadas tcnicas estadsticas, de explotacin
de datos y de aprendizaje de mquina en la informacin histrica para poder
descubrir tendencias y patrones ocultos, incluso en grandes y complejos
conjuntos de datos. Al contrario de los mtodos de deteccin y anlisis
basados en reglas, el anlisis predictivo puede identificar comportamientos
relativamente poco frecuentes, incluso aquellos con diferencias sutiles que
los dems mtodos muchas veces no detectan.
Las tcnicas del anlisis predictivo exploran y aprenden de todas las
dimensiones de los datos, lo cual permite a los analistas combinar conocimiento
humano, experiencia de primera mano e intuicin para guiar la aplicacin de las
tcnicas de anlisis. Las soluciones de anlisis predictivo ms eficaces no slo
pueden analizar datos tabulados, sino tambin datos textuales. Gracias a la
capacidad que tiene el anlisis predictivo de combinar una amplia variedad de
dimensiones, tipos y orgenes de datos de manera continua, es posible detectar
con rapidez y fiabilidad firmas inadvertidas de piratas informticos, criminales o
terroristas que generan nuevas ciberconversaciones o que intentan nuevas
tcticas para tener un acceso no adecuado a informacin sensible.
Este documento tcnico intentar definir varios retos de evaluacin
de riesgos de seguridad e inteligencia, que se pueden resolver total o
parcialmente mediante el uso de tcnicas de anlisis predictivo. Incluir
ejemplos de deteccin de amenazas tanto internas como externas, y
presentar mtodos especficos de manipulacin de datos y modelado
de datos. Se ofrecern ejemplos y grficos a partir de datos imaginarios.

Mtodos de deteccin de amenazas internas

El coste asociado a un ataque por parte de un actor incorrecto con


informacin o acceso interno privilegiado muchas veces puede tener
un impacto ms grande o ms prolongado en una organizacin que
una amenaza externa. Los las amenazas internas han causado un impacto
devastador, incluida la violacin de la confidencialidad, la prdida de la
integridad de la inteligencia, influencia adversa en la poltica nacional,
la revelacin de fuentes y mtodos, as como comprometer los agentes
en campo.1

Administracin pblica

IBM Software
Business Analytics

En una encuesta de crimen electrnico del 2004 realizada por la


CSO Magazine con la cooperacin del U.S. Secret Service y del CERT
Coordination Center, el 59% de ejecutivos de seguridad y aplicacin de la
ley contestaron algn tipo de impacto negativo en sus organizaciones como
consecuencia de intrusiones internas.2
Los crmenes electrnicos internos tienden a ser particularmente difciles
de detectar, ya que el causante muchas veces tiene un motivo lcito para el
acceso, la modificacin y la manipulacin de datos crticos y/o sensibles. No
obstante, a pesar de estos retos, muchas organizaciones tienen un volumen
importante de datos que se pueden utilizar para caracterizar y potencialmente
mitigar un ataque por parte de un empleado interno. Estos datos pueden
incluir informacin como demografa, revisiones de rendimiento,
asignaciones a proyectos actuales y en el pasado, comunicaciones electrnicas
internas y externas, as como registros de uso de archivos.

Modelar el comportamiento pasado para predecir el


comportamiento futuro
Un mtodo de deteccin de amenazas internas mediante el anlisis de
datos consiste en tomar casos conocidos de comportamiento ilcitos y
caracterizar la diferencia entre stos y los casos normales conocidos.
Aunque este enfoque es ideal en el sentido de que los algoritmos minera de
datos pueden aprender a reconocer rpida y fcilmente el comportamiento
en el pasado, existen dificultades inherentes en el uso nicamente de este
enfoque. Las amenazas internas son habitualmente un evento muy raro.
Los datos histricos disponibles para modelar el comportamiento futuro
generalmente carecen muchas veces de casos suficientes para predecir con
precisin casos que sean similares pero no exactamente los mismos que los
casos anteriores de amenazas conocidas.
Cuando se trata de una amenaza interna o de deteccin de fraudes, un
actor incorrecto puede tener patrones o un comportamiento normal que
sea dinmico y complejo. En estas situaciones, el crimen puede ser muy
difcil de detectar, ya que el comportamiento de dicha persona puede seguir
pareciendo lcito, con unos cambios sutiles en el tiempo. Como consecuencia,
es importante no slo determinar el comportamiento que muestra una
persona, sino tambin quin ha cambiado recientemente del de su grupo.
Si una empresa o departamento est preocupado por el acceso interno a
datos electrnicos sensibles, la empresa generalmente utilizar un conjunto
de reglas codificadas de manera fija para identificar un comportamiento
potencialmente anmalo. Por ejemplo, una persona que normalmente
trabaja con registros de recursos humanos podra marcarse para su auditora
si realizara varios intentos para acceder a archivos con datos sensibles del
departamento de ingeniera. No obstante, la actividad potencialmente
maliciosa muchas veces es ms sutil y difcil de detectar.

Clustering para identificar grupos significativos


Una tcnica que puede ser muy eficaz para identificar cambios en el
comportamiento en el transcurso del tiempo consiste en guardar una
instantnea de un cluster a intervalos regulares. Los modelos de clustering
se centran en identificar grupos de registros similares y etiquetar los
registros segn el grupo al que pertenecen. Esto se lleva a cabo sin la
ventaja de tener un conocimiento anterior de los grupos y de sus
caractersticas. En realidad, es muy posible que ni siquiera sepa exactamente
cuntos grupos hay que buscar.

Administracin pblica

IBM Software
Business Analytics

Esto es lo que distingue los modelos de clustering de otras tcnicas de


aprendizaje de mquina no existe una salida predefinida o un campo
objetivo para el modelo a predecir. Estos modelos a menudo se denominan
modelos de aprendizaje no supervisado, ya que no existe ningn estndar
externo mediante el cual poder juzgar el rendimiento de la clasificacin
efectuada por el modelo. No hay una respuesta correcta o errnea para
estos modelos. Su valor viene determinado por su capacidad para capturar
grupos de inters en los datos y para proporcionar descripciones tiles de
estos grupos.
Siempre se esperan cambios de comportamiento, ya que los grupos de
personas se asignan a proyectos y tareas distintos con el tiempo. No
obstante, cuando los cambios de una persona no son similares a los de sus
compaeros, puede indicar un problema potencial que merecera una
investigacin.
En la Figura 1, a continuacin, una agencia que quiere analizar los cambios
de comportamiento en el tiempo, primero puede agregar todas las variables
de inters de un mes y ao concretos. Estos totales o agregaciones
probablemente incluirn variables tales como: nmero de archivos a los que
se ha accedido, tipo de archivos accedidos, revisiones de rendimientos
pasados, as como la ubicacin y responsabilidades actuales de una persona
que puedan afectar a su necesidad de acceder a registros determinados. A
continuacin, pueden procesarse todos los datos relevantes mediante un
algoritmo de clustering para crear una instantnea del comportamiento de
ese mes. El algoritmo asigna automticamente cada persona a un cluster
concreto.

Figura 1: Se puede utilizar un algoritmo de clustering en intervalos definidos (en este

caso, mensuales) para asignar empleados a un grupo en base a su comportamiento


en la red. La comparacin de la pertenencia de grupo en los intervalos puede ayudar a
identificar empleados cuyo comportamiento haya cambiado y/o sea distinto al de sus
compaeros.

Administracin pblica

IBM Software
Business Analytics

El siguiente mes se recogen datos del mismo grupos de personas. Los


datos del nuevo mes se agregan y se clasifican mediante el mismo algoritmo
incorporado en el mes anterior. La pertenencia al cluster del mes inicial
se compara con la pertenencia de cluster del segundo mes y se genera un
informe de excepcin de las personas cuyo comportamiento ha cambiado
suficientemente como para salir de un cluster e incluirse en otro. Estas
personas se pueden investigar posteriormente.
La ventaja del clustering con el tiempo es que, a diferencia del modelo de
series temporales, cualquier variable, ya sea categrica o continua, puede
ayudar a determinar la pertenencia a un cluster. En un modelo de series
temporales, todos los campos deben ser numricos. Los predictores
potencialmente importantes, como el proyecto actual, la ubicacin o el nivel
de seguridad, no se pueden utilizar en un modelo de series temporales, pero s
se pueden incorporar en un modelo de clustering que realice un seguimiento
de los cambios en el tiempo. Un modelo de clustering tampoco requiere que
el investigador o analista se centre en una variable de salida especfica, como
por ejemplo nmero de archivos a los que se ha accedido, para poder
identificar un comportamiento poco habitual.
Los resultados de pertenencia de cluster generados por un modelo de
clustering se utilizan a menudo como entrada de modelos creados en
anlisis subsiguientes. Su utilidad en el anlisis exploratorio los convierten
en una parte importante de cualquier anlisis en el que deban aislarse los
eventos de alto riesgo a partir de un gran volumen de otros datos.

Deteccin de anomalas para descubrir casos no habituales


Existen varios mtodos de clustering y deteccin de anomalas. El siguiente
ejemplo destaca un mtodo en el que primero un algoritmo agrupa en
clusters los datos y despus encuentra los que caen fuera de dichos clusters.
Esto es particularmente til para el trabajo de inteligencia, porque el
proceso se puede automatizar, permitiendo a los analistas peinar millones
de registros para encontrar elementos aislados o datos anmalos en
subgrupos especficos de personas. En algunas herramientas de minera de
datos estn disponibles mtodos automatizados de deteccin de anomalas,
formando parte de la familia de algoritmos de clustering.
Mientras que los mtodos tradicionales de identificacin de anomalas
generalmente slo miran una o dos variables a la vez, un algoritmo
automatizado de deteccin de anomalas puede examinar un gran nmero
de campos para identificar clusters o grupos similares en los que se
encuentran registros similares. Despus, cada registro se puede comparar
con los dems de su grupo para identificar posibles anomalas. Cuanto ms
se aleje un caso de su centro normal, ms probabilidad tendr de ser
inhabitual. Por ejemplo, el algoritmo puede agrupar registros en tres
clusters distintos y marcar los que caen lejos del centro de cualquiera de
los clusters.

Administracin pblica

IBM Software
Business Analytics

En el ejemplo mostrado en la Figura 2, se han identificado cinco casos


como anmalos en comparacin con sus similares. Un ndice de anomala
identifica la desviacin de los campos del caso desde la norma del grupo de
iguales de dicho caso. Adems, se proporciona informacin de las variables
que han causado un mayor impacto en el alejamiento de cada caso del
centro de su grupo de similares.

Figura 2: En estos cinco casos anmalos, el ndice de anomala identifica la

desviacin de los campos del caso desde la norma del grupo de iguales de dicho
caso. Los campos 1 y 2 describen las variables que han tenido la mayor repercusin
en la determinacin del comportamiento anmalo.

Otra forma de deteccin de anomalas puede llevarse a cabo utilizando la


minera de texto en combinacin con el anlisis de correspondencia para
realizar un anlisis de redes sociales. Cuando sea importante determinar la
distancia relativa entre las categoras de inters, se puede utilizar el anlisis
de correspondencia para proporcionar dicha informacin adicional de una
red. Uno de los objetivos del anlisis de correspondencia es describir las
relaciones entre dos variables nominales de una tabla de correspondencia
en un espacio de baja dimensin, mientras al mismo tiempo se describen
las relaciones entre las categoras de cada variable.
Para cada variable, las distancias entre los puntos de categora de un grfico
refleja el nivel de relacin entre las categoras, donde las categoras ms
similares se dibujan ms cerca entre s.

Administracin pblica

IBM Software
Business Analytics

Figura 3: La correlacin vectorial muestra visualmente el resultado del anlisis


de texto para conocer a qu reas temticas han accedido los empleados.

Para determinar la distancia entre las categoras, el anlisis de


correspondencia considera las frecuencias de celda as como una serie de
otros factores. El clculo de las frecuencias de las celdas es similar al anlisis
de tabla cruzada. El anlisis de correspondencia tambin crea una serie de
estadsticas intermedias que, entre otras cosas, miden la influencia, la
varianza y la distancia de un objeto a otro.
El anlisis de correspondencia ayuda a los analistas a saber las diferencias
entre las categoras de una variable, as como las diferencias entre variables.
El grfico mostrado en la Figura 3, ms arriba, es el resultado del anlisis
de correspondencia efectuado en los empleados implicados en un proyecto
concreto y las categoras de asuntos extradas del anlisis de texto. Los
puntos de fila y columna ms cercanos entre s representan una
correspondencia ms estrecha o asociacin que apunta a una mayor
distancia. En este grfico, el empleado SRiley est estrechamente asociado
a los documentos relacionados con Asia, mi entras que el resto de sus
compaeros parecen estar accediendo (estn ms estrechamente asociados a
otros temas).
La ventaja de la minera de texto en este tipo de anlisis es que permite
a los analistas leer y examinar minuciosamente literalmente miles de
documentos para correlacionar por asunto quin est accediendo a qu
contenido en comparacin con los otros miembros del grupo.

Administracin pblica

IBM Software
Business Analytics

Anlisis de series de tiempo para visualizar


el comportamiento futuro
Una ventaja del anlisis de amenazas internas frente a la externa es que para
ciertos campos de datos, el total de informacin disponible es generalmente
mucho ms completa y que habitualmente se pueden atribuir los puntos de
datos a una persona, hora y evento especficos. Esto es til porque permite
que el analista pueda utilizar el anlisis de series de tiempo. A pesar de un
malentendido habitual, el anlisis de series de tiempo se puede utilizar no
slo para describir datos histricos, sino tambin con el objetivo de
pronosticar puntos de datos futuros, teniendo en cuenta factores como la
temporalidad, las apariciones nicas y las intervenciones o cambios en las
expectativas. Para demostrarlo en el siguiente ejemplo, se ha registrado el
uso de ancho de banda de red de cada empleado y se ha utilizado en un
algoritmo de series de tiempo con el fin de analizar las tendencias de uso.

Figura 4: Los modelos ARIMA (media mvil integrada autoregresiva) se pueden

utilizar no slo para dibujar valores histricos proyectos frente a los reales, sino
tambin para predecir valores futuros. Cuando el valor observado supera el valor
previsto, se incrementa la puntuacin de riesgo.

El resultado no solamente es un agregado de estadsticas de uso de red


histricas, sino tambin un componente de mirada hacia delante. En este
ejemplo, un modelo ARIMA (medias mviles integradas autoregresivas)
representa varios factores, tales como los patrones de uso de temporada
y los valores alejados, en la creacin de una prediccin del uso de ancho
de banda para una serie especificada de perodos de tiempo futuros. Si los
valores observados en los prximos perodos de tiempo superan los valores
previstos, puede activarse un incremento en la puntuacin de riesgo o
puede notificarse este hecho a un auditor.

Resumen de mtodos de anlisis para la deteccin de


amenazas internas
A menudo, el mejor enfoque para la evaluacin de riesgos internos combina
mtodos idealmente adaptados a los objetivos especficos del departamento,
as como a los datos disponibles. Como sucede con cualquier tipo de
aplicacin adecuada para el anlisis estadstico y la explotacin de datos,
es importante determinar primero los objetivos y los problemas potenciales
del resultado del anlisis. En la evaluacin y mitigacin de la amenaza
potencial de un ataque interno, pueden incluirse los siguientes objetivos:

Determinar una prediccin, nivel de confianza y nivel de propensin


del riesgo de un ataque interno.
Calcular el coste o impacto previsto de la infraccin de informacin.
Identificar la duracin y alcance de un ataque en aquellos casos en que
la prdida o el coste de la informacin sea incalculable.
Priorizar las auditoras de anomalas detectadas o amenazas en relacin
con el nivel de riesgo y los recursos disponibles para llevar a cabo la
investigacin.

Administracin pblica

IBM Software
Business Analytics

Mtodos de deteccin de amenazas externas

Las mismas tcnicas que se aplican al anlisis de amenazas internas suelen


ser tiles para el anlisis de amenazas externas. La principal diferencia entre
el anlisis de amenazas internas y externas es la disponibilidad de datos. Los
ataques que proceden de fuentes externas raramente proporcionan el tipo
de datos demogrficos disponibles en el anlisis de amenazas internas. Los
campos de datos tales como edad, afiliacin de grupo, ubicacin y patrones
de comportamiento histrico que se pueden atribuir a una persona o grupo
son mucho ms difciles de obtener cuando se analizan amenazas externas.

Anlisis de redes sociales para cubrir los gaps de datos


Cuando las amenazas externas no proporcionan informacin suficiente
sobre la persona o grupo responsable de un ataque real o potencial, el uso
de tcnicas Social Network Analysis (SNA) pueden ayudar a los
investigadores a evaluar mejor el riesgo de una amenaza externa concreta,
efectuando asociaciones con otras personas, grupos o intentos de ataques
anteriores conocidos.
Una red social es una estructura social formada por nodos (generalmente
personas u organizaciones) que se unen entre s mediante uno o varios tipos
especficos de interdependencia, como valores, visiones, ideas, intercambios
financieros, amistad, parentesco, rechazo o conflicto.3
Las funciones de anlisis de SNA pueden incluir teora grfica adems de
anlisis de enlaces. Otros enfoques de SNA incluyen reglas de asociacin,
anlisis de correspondencia y anlisis de regresin y series de tiempo.
Mediante el uso de un entorno de trabajo de anlisis predictivo generalizado,
podemos realizar ciertos tipos de SNA mediante la combinacin de
algoritmos de clasificacin y regresin, algoritmos de asociacin y anlisis
de correspondencia. Los algoritmos de asociacin, tales como los algoritmos
apriori, son tiles para pronosticar varios resultados por ejemplo, las
personas con un conjunto especfico de caractersticas probablemente
se asociarn a una persona, ubicacin u organizacin concretas.

Administracin pblica

IBM Software
Business Analytics

La ventaja de los algoritmos de reglas de asociacin frente a los algoritmos


de rbol de decisin ms estndares es que las asociaciones pueden realizarse
entre cualesquiera de los atributos. En otras palabras, un algoritmo de rbol
de decisin crear reglas con una sola conclusin, mientras que los algoritmos
de asociacin intentan encontrar muchas reglas, y cada una de ellas puede
tener una conclusin distinta. Adems, a diferencia de los anlisis sencillos de
enlace, los algoritmos de asociacin permiten realizar el anlisis de enlaces
uno a varios y varios a varios.

Figura 5: Utilizado con tcnicas SNA, se puede emplear el anlisis de texto para

encontrar relaciones entre personas de inters, grupos y ubicaciones, para predecir


asociaciones probables.

En la Figura 5, una agencia de inteligencia estaba interesada en identificar


asociaciones entre personas y un conjunto especfico de caractersticas y
comportamientos. Observando los registros de un agregador de canales
de noticias, se aplicaba un algoritmo apriori en todos los campos que un
analista de la agencia consideraba interesantes.
El resultado destacado se puede interpretar de la siguiente forma: en los
registros en los que la persona de inters est asociada a Khalfan y cuyo
pas de origen es Sitia y la ubicacin actual es Washington, entonces
probablemente tambin estar asociado a Ali Atwa. En este ejemplo,
cuando todos los antecedentes estaban presentes, el Ali Atwa consecuente
tambin estaba presente en el 100% de los casos. Por lo tanto, puede
sacarse la conclusin de que si se sabe que una persona de inters coincide
con todos los antecedentes de la regla del algoritmo, probablemente
tambin estar asociada a la persona de la consecuencia.

Administracin pblica

IBM Software
Business Analytics

Otra dificultad inherente de SNA es la incapacidad para crear asociaciones


eficaces a partir de un universo ilimitado de datos disponibles. Como sucede
en muchas funciones de anlisis de datos, la herramienta es ms eficaz
cuando la utiliza un experto en la materia que pueda centrar el anlisis en
un conjunto especfico de datos o campos.
Por ejemplo, se dice que una de las observaciones ms habituales de SNA
es que las personas demogrficamente similares tienen ms probabilidad de
formar vnculos sociales.4 Este tipo de observacin puede ser evidente para
un analista con cierta experiencia en SNA, y es el tipo de conocimiento que
puede mejorar considerablemente la probabilidad de obtener resultados
accionables de SNA en bases de datos complejas y grandes. Los algoritmos
de asociacin pueden aprovechar esta experiencia generando un conjunto
ms amplio de interacciones y medidas que el simple anlisis de enlaces uno
a uno.
Por ejemplo, en el anlisis de personas demogrficamente similares, un
listado o grfico de todas las personas vinculadas por una nacionalidad
comn puede abrumar rpidamente al analista con datos de ruido. Por el
contrario, un algoritmo de asociacin puede representar la nacionalidad, la
afiliacin de grupo social o profesional y la ciudad actual de residencia para
proporcionar un conjunto conciso de caractersticas que histricamente han
indicado una asociacin entre un grupo de personas.
Al igual que el ejemplo citado anteriormente para el anlisis de
correspondencia de una amenaza interna, la Figura 6 representa la misma
tcnica aplicada a amenazas externas. Se recopilan documentos de texto de
formato libre de los canales de noticias, blogs y foros de conversaciones
Internet, que se pasan por un algoritmo de anlisis de texto (procesamiento
de lenguaje natural) con el fin de determinar el tema que se comenta en
dichos documentos. A continuacin se aplica un algoritmo de anlisis de
enlace de texto dedicado en los datos con el fin de conectar la mencin de
seguridad especifica con las ubicaciones de inters (ciudades, en este caso).
Los puntos de datos resultantes se pasan a un algoritmo de anlisis de
correspondencia con el objeto de determinar los temas ms estrechamente
correlacionados con las ciudades especficas de inters.

10

Administracin pblica

IBM Software
Business Analytics

Figura 6: Se puede dibujar el anlisis de correspondencia de canales de noticias,

blogs, foros de debate Internet y otras fuentes de texto para mostrar reas temticas
habitualmente enlazadas con ciudades de inters.

Puntuacin de modelos para medir el impacto potencial


Una vez se ha creado un modelo, el siguiente paso consiste en medir
la probabilidad y el impacto potencial de un evento identificado o
pronosticado por el modelo.
Cuando se modelan eventos de seguridad, las caractersticas de un caso
raramente tienen suficiente claridad para poder emitir una afirmacin
absoluta sobre si el caso es positivo o negativo, o un evento frente a un no
evento. Puesto que muchos casos se encuentran en una escala de grises en
lugar de ocupar los extremos blanco o negro de una decisin, muchas veces
resulta til convertir un evento de s o no a una escala de propensin del
0 al 1 por medio de las cifras de confianza proporcionadas por el algoritmo
de prediccin. Las puntuaciones de propensin indican la probabilidad de
un resultado o una respuesta concretos. Esto puede proporcionar una
medida de la certeza en lugar de una clasificacin absoluta para un caso
concreto. Las decisiones cercanas a los extremos (1,0 o 0,0) son claras y
las que ocupan la parte central son ms inciertas.

1.0

11

0.0

Administracin pblica

IBM Software
Business Analytics

En este ejemplo, una agencia que intentaba modelar un comportamiento


normal/malicioso prepar una mielera una trampa de red para detectar
y contraatacar el acceso incorrecto a informacin sensible. Las mieleras,
generalmente un sistema, un conjunto de datos o un sitio de red con
informacin falsa de recursos que podran ser de valor para los atacantes,
normalmente no tienen valor real y, por lo tanto, no debe tener actividad
o trfico legal. Toda la informacin de trfico que capture se puede
presuponer como maliciosa o no autorizada. En el siguiente ejemplo,
todos los datos recogidos de la mielera estaban marcados como maliciosos.
A continuacin se aadi a la mielera un conjunto de datos que contena
trfico normal conocido con el fin de establecer la diferencia entre el acceso
adecuado y no adecuado. Se utiliz un algoritmo de clasificacin para crear
perfiles de trfico normal y de trfico malicioso. Adems, el algoritmo
proporcionaba un nivel de confianza de cada prediccin (clasificacin).
Se deriva una puntuacin de confianza de las cifras de confianza de tal
modo que tenga las propiedades de una clasificacin; es decir, casi 0 cuando
el trfico probablemente es normal y casi 1 cuando el trfico probablemente
es malicioso.

Figura 7: Las puntuaciones de propensin brutas, calculadas a partir de niveles de


confianza, ayudan a determinar la probabilidad de un resultado o respuesta dados,
pero no se puede confiar en ellas hasta que se prueben con datos adicionales y se
ajusten en consecuencia.

12

Administracin pblica

IBM Software
Business Analytics

Las puntuaciones de propensin brutas proporcionadas una herramienta


de anlisis se basan puramente en las estimaciones dadas por el modelo en
otras palabras, solamente se basan en un conjunto de datos y, en consecuencia,
pueden estar sobredimensionadas, lo que puede conducir a unas estimaciones
imprecisas de la propensin. Las propensiones ajustadas intentan compensarlo
mirando el rendimiento del modelo en las pruebas o particiones de validacin,
y ajustando las propensiones para que ofrezcan una mejor estimacin en
consecuencia.

Matrices de riesgo para clasificar la gravedad de las


amenazas
Hasta el momento, nos hemos centrado en el anlisis para la identificacin
de anomalas, la prediccin de eventos y la identificacin de asociaciones
entre personas y grupos. Con la mayora de estas tcnicas generalmente
hemos proporcionado una medida de la distancia de las anomalas, un nivel
de confianza para las predicciones y las clasificaciones (como en el ejemplo
anterior) y medidas de proximidad y fuerza de las relaciones para el anlisis
de asociaciones y redes.
Con el fin de determinar el nivel global de amenaza de un evento, podemos
utilizar esas medidas para que nos ayuden a llenar una matriz de riesgo. En
general, las matrices de riesgo permiten determinar la gravedad del riesgo
de un evento que se est produciendo. El riesgo de un peligro concreto se
puede definir como su probabilidad multiplicada por su consecuencia
(impacto).
En el siguiente grfico se muestra un ejemplo de una matriz de riesgo 3x3.
Si queremos distinguir ms los niveles de riesgo, la matriz de riesgo se
puede ampliar fcilmente a 4x4, 5x5 o a una matriz ms grande.

Matriz de riesgo 3 x 3

Propensin

1.00

.50

.10

10

50

100

Consecuencia o repercusin

Figura 8: Para obtener una puntuacin global de la amenaza, se puede multiplicar el


valor numrico de la probabilidad del evento por el valor numrico del impacto si se
produce el evento. El trazo de este resultado en una matriz de riesgo con cdigos de
colores puede ayudar a demostrar visualmente la gravedad de una amenaza. 5

13

Administracin pblica

IBM Software
Business Analytics

Si queremos expresar numricamente los valores de una matriz de riesgo,


existe una serie de frmulas matemticas y calculadoras de evaluacin de
riesgos disponibles para aplicaciones y sectores especficos. Con el objeto
de conservar la sencillez relativa de este ejemplo, utilizaremos una frmula
sencilla que mide los valores de impacto en una escala del 1 al 100 y los
valores de propensin (probabilidad) en una escala del 0 al 1,00. Para
obtener una puntuacin global de la amenaza, podemos multiplicar el valor
numrico de la probabilidad del evento por el valor numrico del impacto
si se produce el evento.
Como ejemplo, el impacto de una fuga interna de informacin muy sensible
de una agencia de inteligencia se puede considerar alto en una matriz 3x3.
No obstante, la probabilidad de este evento puede considerarse como
baja. En este caso, el nivel global de amenaza expresado numricamente
se calcula multiplicando 100 (impacto alto) por 0,10 (probabilidad baja),
con lo que se obtiene un nivel global de la amenaza de 10.
El ejemplo de la Figura 9, que se muestra a continuacin, muestra un
modelo de rbol de clasificacin y regresin que se utiliza para determinar
la probabilidad de que una solicitud de red sea de una fuente segura (vlida)
o no. A continuacin, se utiliza la puntuacin de propensin para crear tres
categoras correspondientes a bajo, medio y alto, basadas en una matriz de
riesgo 3x3.

Figura 9: Basndose en una matriz de riesgo 3x3, se pueden clasificar los eventos
(como un trfico de red anmalo) como de riesgo bajo, medio o alto.

14

Administracin pblica

IBM Software
Business Analytics

Para este ejemplo, supondremos que el impacto global de una solicitud de


red de una fuente desconocida o no confirmada plantea un riesgo medio
en la seguridad de la red. Se crear un nuevo campo que clasifica el impacto
global como medio en una matriz 3x3 o, expresado numricamente, una
puntuacin de 50 del impacto.

Figura 10: Pueden configurarse algoritmos para calcular la puntuacin global de la


amenaza, sumando el tipo de evento, el nivel de gravedad y la probabilidad en una
puntuacin combinada.

Con el fin de calcular la amenaza global, creamos un campo que multiplica


el impacto (50 en este modelo) por la propensin. El resultado es una
puntuacin global de la amenaza (Figura 10) que se puede poner en un
entorno operacional junto con otros modelos que midan diferentes tipos
de eventos de seguridad (posiblemente con niveles de impacto distintos).
Cuando se combinan todos los modelos, podemos clasificar y ordenar todos
los eventos entrantes segn su puntuacin global de amenaza. Este valor
nos permite priorizar una respuesta al evento, sumando el tipo de evento,
el nivel de gravedad y la probabilidad en una puntuacin combinada.

Resumen de mtodos de anlisis para la deteccin de


amenazas externas
Como sucede en el anlisis de amenazas internas, el mejor enfoque para
la evaluacin de riesgos externos es centrarse en un objetivo especfico que
pueda conseguirse, o al menos mejorarse, mediante el uso del anlisis de
datos. No siempre es una tarea fcil. En el anlisis de amenazas externas,
a veces existen ms datos disponibles que los que se pueden analizar
eficazmente. En otras ocasiones, en el anlisis de eventos muy raros,
como por ejemplo un ataque qumico, existen pocos datos histricos
y una correlacin pobre o nula entre los eventos.

15

Administracin pblica

IBM Software
Business Analytics

En la evaluacin y mitigacin de la amenaza potencial de un ataque externo,


los objetivos pueden ser los siguientes:

Determinar si se puede construir con xito un modelo utilizando datos


histricos y si es ms eficaz detectar cambios en el comportamiento
actual
Considerar el uso de un enfoque de estmulo/respuesta para el que
no existen datos histricos: puede recoger datos proporcionando un
estmulo para el evento de inters en un entorno controlado, por
ejemplo, la creacin de una mielera en un entorno de red
Asegurarse de que est disponible un experto en la materia para
ayudar a determinar las entradas correctas para el anlisis de datos.
Las herramientas de minera de datos son muy potentes, pero en
ltima instancia deben utilizarlas un experto en el dominio. Un modelo
puede llegar fcilmente a una falsa conclusin si se utilizan demasiados,
demasiado pocos o el conjunto errneo de campos en el proceso de
creacin del modelo.

Operacionalizar la evaluacin de riesgos


internos y externos

Un paso final en el proceso de disminucin de la probabilidad y el impacto


de un evento de seguridad es la operacionalizacin de los procesos de
construccin del modelo, puntuacin del modelo y evaluacin del riesgo.
Por ms eficaz o preciso que sea un modelo, las personas dedicadas a evitar
una medida de seguridad existente estn adaptando constantemente sus
comportamientos para anular la deteccin. Por este motivo, la
automatizacin del proceso de creacin del modelo para que tenga en
cuenta las observaciones y los puntos de datos recientes es una parte crtica
de la mitigacin del riesgo de seguridad. Este paso puede ser tan sencillo
como crear un proceso por lotes que punte nuevos registros cada noche
o podra implicar facilitar el proceso de anlisis de datos como un servicio
web con el fin de incorporarlo en una arquitectura orientada a servicios
(SOA).

Figura 11: Una vez se ha realizado el anlisis, es posible desplegar campos como
amenaza global para aadirlos en los correspondientes registros de las bases de
datos de la agencia, lo que permite a los usuarios finales acceder a la informacin
cundo, dnde y en el formato con que deseen verla.

16

Administracin pblica

IBM Software
Business Analytics

Adems de hacer ms fcil de detectar la constante variacin de los


esquemas de los ataques, la operacionalizacin de estos procesos tiene la
ventaja aadida de agilizar el despliegue de los resultados. A elaborar:
cuando se despliega un modelo en los procesos de negocio de una agencia,
no se ejecuta espontneamente.
Al contrario, el entorno de trabajo del anlisis predictivo est retirando y
distribuyendo activamente informacin de forma bidireccional. En otras
palabras, cuando se despliega un modelo en modalidad de tiempo real o
de proceso por lotes, no slo extrae automticamente informacin de otras
fuentes de datos (como sistemas de BI o ERP), sino que tambin puede
devolver sus resultados a estos sistemas para actualizar registros con
puntuaciones de propensin y/u otras variables de clasificacin. Al aadir
nuevas variables en los registros de otros conjuntos de datos, este despliegue
de los resultados permite a los usuarios finales acceder a la informacin
cundo, dnde y en el formato con que desean verla.

Acerca de las soluciones de IBM SPSS para el


anlisis predictivo
Lograr un mejor conocimiento y una mejor prediccin
El anlisis predictivo proporciona a las organizaciones una visin ms ntida
de las condiciones actuales y un mayor conocimiento de los eventos futuros.
Con nuestro entorno de trabajo de anlisis predictivo lder del mercado,
IBM SPSS Modeler, su agencia puede llevar a cabo anlisis que incorporen
muchos tipos de datos, lo que se traduce en un conocimiento ms detallado
de todos los aspectos de sus operaciones incluyendo un conocimiento ms
completo de sus datos de inteligencia.
IBM SPSS Modeler es una solucin abierta basada en estndares. Se integra
en los sistemas de informacin existentes en su organizacin, tanto cuando
accede a los datos como cuando despliega los resultados. No es necesario
mover los datos de un lugar a otro en un formato propietario. Esto le ayuda
a conservar recursos, ofrecer resultados ms rpidamente y reducir costes
de infraestructura.
Adicionalmente, IBM SPSS Modeler es famoso en todo el mundo entre
analistas y usuarios de negocio por igual, porque le permite:

Acceder, preparar e integrar fcilmente datos estructurados y tambin


datos de texto, web y encuestas.
Construir y validar modelos rpidamente, utilizando las tcnicas
estadsticas y de aprendizaje por mquina ms avanzadas disponibles.
Desplegar eficazmente conocimiento y modelos de prediccin de
forma planificada o en tiempo real, a las personas que toman decisiones
y elaboran recomendaciones, as como a los sistemas que les dan
soporte.

17

Administracin pblica

IBM Software
Business Analytics

Aprovechar todos los datos para mejorar los modelos


Solamente con IBM SPSS Modeler puede acceder directa y fcilmente a
datos de texto, web y encuestas, e integrar estos tipos adicionales de datos
en sus modelos de prediccin. Los clientes de IBM SPSS han descubierto
que el uso de tipos adicionales de datos incrementa el estmulo o
precisin de los modelos predictivos, lo que se traduce en unas
recomendaciones ms tiles y unos mejores resultados. Con el producto
IBM SPSS Text Analytics totalmente integrado, puede extraer conceptos y
opiniones desde cualquier tipo de texto, ya sean informes internos, canales
de noticias agregados, mensajes de correo electrnico, dilogos de salas de
conversaciones, blogs, etc.

Automatizar procesos crticos de anlisis de datos


Las tareas asociadas al anlisis y al desarrollo y despliegue de modelos
predictivos suelen repetirse de forma regular. IBM SPSS Collaboration
and Deployment Services le ayuda a aumentar la productividad, asegurar la
coherencia y lograr una mayor precisin en estos procesos, proporcionando
un potente entornos para la automatizacin de diversos pasos del proceso
de anlisis, tales como la preparacin de datos, las transformaciones, la
creacin de modelos, la evaluacin y la puntuacin. Como resultado, el
anlisis puede centrarse ms en la resolucin de problemas de negocio y no
tanto en crear y ejecutar manualmente los procesos de cada nuevo proyecto.
Adicionalmente, sus analistas generan un gran volumen de resultados
valiosos en el curso de su trabajo tales como puntuaciones, reglas, grficos,
diagramas, informes y otros tipos de materiales de anlisis. Para obtener el
mximo valor del anlisis, es necesario suministrar o desplegar los
resultados a los responsables de la toma de decisiones de la agencia de
forma que les ayude a tomar mejores decisiones.
En este sentido, IBM SPSS Collaboration and Deployment Services le
permite ofrecer:

Puntuaciones de los registros de personas de inters, que pueden


mostrar la probabilidad de que tengan vnculos con una organizacin
terrorista conocida
Conjuntos de reglas o criterios que definen un perfil de actividades
normales para un segmento concreto de empleados
Grficos que comparan la precisin de una serie de modelos de riesgo
Informes que muestran la precisin de una prediccin en comparacin
con los resultados reales

** IBM SPSS Text Analytics e IBM SPSS Collaboration and Deployment Services anteriormente se llamaban
PASW Text Analytics y PASW Collaboration and Deployment Services.

18

Administracin pblica

IBM Software
Business Analytics

Acerca de IBM Business Analytics

El software IBM Business Analytics proporciona informacin completa,


coherente y exacta en la cual los responsables de la toma de decisiones
confan para mejorar el rendimiento empresarial. Un portafolio completo
de business intelligence, anlisis predictivo, aplicaciones de gestin del
rendimiento financiero, analtica y de gestin de estrategia, proporciona un
conocimiento claro, inmediato y ejecutable acerca del rendimiento actual y
la capacidad de prever resultados futuros. Combinado con ricas soluciones
verticales, prcticas comprobadas y servicios profesionales, las
organizaciones de todos los tamaos pueden impulsar la mayor
productividad, automatizar con total confianza decisiones y ofrecer mejores
resultados.
Formando parte de este portafolio, el software de Anlisis Predictivo de
IBM SPSS ayuda a las organizaciones a pronosticar eventos futuros y a
actuar proactivamente con ese conocimiento para generar mejores
resultados de negocio. Clientes comerciales, gubernamentales y acadmicos
de todo el mundo confan en la tecnologa IBM SPSS como ventaja
competitiva en la atraccin, retencin y aumento del nmero de clientes,
disminuyendo el fraude y mitigando el riesgo. Con la incorporacin del
software IBM SPSS en sus operaciones diarias, las organizaciones se
convierten en empresas predictivas capaces de dirigir y automatizar
decisiones para alcanzar los objetivos de negocio y conseguir una ventaja
competitiva medible. Para obtener ms informacin o contactar con un
comercial, visite ibm.com/spss/es

Notas:
1. 2005 ARDA Challenge Workshop. Insider Threat: Analysis and Detection of Malicious Insiders.
2. 2004 eCrime Watch Survey. Realizada por la revista CSO con la cooperacin del U.S. Secret Service &
CERT Coordination Center Insider Threat Study: Computer System Sabotage in Critical
Infrastructure Sectors.
3. Peter Sheridan Dodds, Roby Muhamad, Duncan J. Watts. An Experimental Study of Search in Global
Social Networks. (8 de agosto de 2003)
4. Aili E. Malm et al. Social Network and Distance Correlation of Drug Production.
5. Wikipedia. Risk Matrix. http://en.wikipedia.org/wiki/Risk_Matrix

19

tics

IBM Espaa, S.A.


C/Santa Hortensia, 26-28
28002 Madrid

La pgina de inicio de IBM se encuentra en:


ibm.com/es
IBM, logotipo de IBM, ibm.com, WebSphere, InfoSphere y Cognos son marcas
registradas de International Business Machines Corporation en Estados Unidos y/o en
otros pases. Si estos y otros trminos con marca registrada de IBMestn identificados
en su primer ocurrencia en esta informacin con el smbolo correspondiente ( o ),
estos smbolos indican marcas registradas en EE.UU. o marcas registradas segn
el derecho constitudinario de propiedad de IBMen el momento que se public esta
informacin. Esas marcas registradas tambin pueden ser marcas registradas o marcas
registradas segn el derecho constitudinario en otros pases. Una lista actual de
marcas registradas de IBM est disponible en la Web en Copyright and trademark
information en
ibm.com/legal/copytrade.shtml
SPSS es una marca registrada de SPSS, Inc., una empresa de IBM registrada en
numerosas jurisdicciones en todo el mundo.
Los nombres de otras empresas, productos o servicios pueden ser marcas comerciales o
marcas de servicio de terceros.
Derechos Restringidos de Usuarios del Gobierno de EE.UU. - Uso y duplicacin de
divulgacin restringidos por el Contrato de Planificacin de ADP de GSA con IBM
Corp.
Copyright IBM Corporation 2010
Reservados todos los derechos.

Por favor, recicle

Business Analytics software

YTW03044-ESES-02

Você também pode gostar