Você está na página 1de 9

FIDES ET RATIO VOL 7: (58-66), MARZO 2014, ISSN 2071- 081X

A P L I C A C I O N D E L A M I N E R I A D E D AT O S S O B R E B A S E S
D E D AT O S T R A N S A C C I O N A L E S

A P L I C AT I O N O F D ATA M I N I N G O N T R A N S A C T I O N A L D ATA B A S E S

Alvaro Troche Clavijo


Instituto de Investigaciones de Ciencia y Tecnología
Universidad La Salle - Bolivia

alvarotrochec@hotmail.com

RESUMEN a través de patrones en grandes volúmenes


El presente artículo presenta un breve de datos. Utiliza los métodos de la
análisis sobre la aplicación de técnicas de inteligencia artificial, aprendizaje
minería de datos pero aplicadas sobre automático, estadística y sistemas de bases
ambientes distintos a los repositorios de datos. El objetivo general del proceso
correspondientes a bases de datos analíticas, de minería de datos consiste en extraer
es decir, cuál sería el impacto de realizar información de un conjunto de datos y
dichos análisis sobre bases de datos transformarla en una estructura
transaccionales. comprensible para su uso posterior. Además
de la etapa de análisis en bruto, que
ABSTRACT involucra aspectos de bases de datos y
This article presents a brief discussion on gestión de datos, procesamiento de datos,
the application of data mining techniques el modelo y las consideraciones de
applied to different environments but the inferencia, métricas de Intereses,
repositories corresponding to analytical consideraciones de la Teoría de la
databases, ie, what the impact of such complejidad computacional, post-
analyzes on transactional databases. procesamiento de las estructuras
PALABRAS CLAVE: Minería de Datos, descubiertas, la visualización y actualización
KDD, Integridad de información, Data en línea.
Warehousing, OLAP, OLTP
KDD.- (Knowledge Discovery from
Minería de datos.- Campo de las ciencias Databases) considerado un proceso para
orientadas a la informática referido al identificar comportamientos y/o patrones
proceso que intenta descubrir conocimiento válidos, novedosos, potencialmente útiles

58
APLICACION DE LA MINERIA DE DATOS SOBRE BASES DE DATOS
TRANSACCIONALES

y con la característica de que son OLTP.- Es la sigla en inglés de


comprensibles a partir de los datos. Se Procesamiento de Transacciones En Línea
pretende también, dicho en otras palabras (OnLine Transaction Processing) es un tipo
encontrar conocimiento útil, válido, de sistemas que facilitan y administran
relevante y nuevo sobre una determinada aplicaciones transaccionales, usualmente
actividad mediante algoritmos, dadas las para entrada de datos y recuperación y
crecientes órdenes de magnitud en los datos procesamiento de transacciones (gestor
Integridad de información.- Concepto que transaccional).
hace referencia a la exactitud, y legitimidad
que posee un dato o grupos de datos para KEYWORDS: Data Mining, KDD, data
que los mismos puedan ser usados para integrity, Data Warehousing, OLAP, OLTP
otros fines dando como resultado un alto
grado de confiabilidad de resultados. 1. INTRODUCCION
Data Warehousing.- Proceso de extraer y Hoy en día se ha popularizado, por así
filtrar datos de las operaciones comunes de decirlo, la aplicación practica de técnicas
la organización, procedentes de los distintos de BI y Data Warehouse en muchas
sistemas de información operacionales, instituciones de nuestro medio, tanto en el
transaccionales y/o sistemas externos, para sector público y tal vez con mayor
transformarlos, integrarlos y almacenarlos intensidad y utilidad en el sector privado.
en un depósito o almacén de datos (Data Todo este proceso de Data Warehousing
Warehouse, en inglés) con el fin de acceder según muchas teorías planteadas, sirve de
a ellos y que sirvan de apoyo al proceso de base para realizar procesos de Minería de
toma de decisiones de una organización Datos.
OLAP.- (On-Line Analytical Processing).
Es una solución utilizada en el campo de Si bien la minería de datos consiste en la
la llamada inteligencia empresarial (o extracción de patrones y modelos con un
Business Intelligence) cuyo objetivo es alto grado de utilidad sobre bases de datos
agilizar la consulta de grandes cantidades de gran tamaño también requiere que dichas
de datos. Para ello utiliza estructuras bases cuenten con ciertas características,
multidimensionales (o cubos OLAP) que como las de tener un muy alto grado de
contienen datos resumidos de grandes bases consistencia de información (ideal un 100%
de datos o Sistemas Transaccionales. Se de nivel de consistencia), y el nivel de
usa en informes de negocios de ventas, normalización del repositorio de datos tiene
marketing, informes de dirección, minería que ser adecuado. Por lo tanto todo indica
de datos y áreas similares. que la minería de datos tiene que ser

59
Älvaro Troche Clavijo

explotada de bases de datos OLAP, es decir de que la misma sea utilizada como insumo
bases de datos pre procesadas con para inferir resultados.
información asociada a temas específicos
y con un alto grado de consistencia. 3. CONTENIDO
De todo lo expuesto anteriormente, Empecemos primero resaltando la necesidad
podríamos inferir que realizar este proceso de almacenar información,
de análisis de información sobre bases de independientemente de la naturaleza o
datos transaccionales OLTP no tendría negocio a la cual este asociada. La
sentido debido al nivel de normalización experiencia nos ha enseñado esta
que se maneja, al nivel de inconsistencias información con el tiempo llega a ser un
que podría llegar a tener mismo que podría insumo importante para mejora o no cometer
generar información no real, y por último los mismos errores de tiempos pasados, es
la diversidad de información que se maneja de este aspecto que nace la necesidad de
ya que una base de datos transaccional a analizar información histórica.
diferencia de una base de datos del tipo
analítica, no está orientada a un solo tema Este análisis debe ser realizado de forma
en específico, sino a todos los ámbitos que ordenada y sistemática, detallando en
requiere una determinada institución, por primera instancia ¿Qué es lo que quiero
lo tanto es información muy variada. analizar?. No olvidemos que cualquiera que
sea la naturaleza de la información contenida
2. OBJETIVO en una base de datos, siempre esta dividida
El objetivo del presente artículo es o puede ser clasificada en "sectores de
identificar y discutir aspectos que sería información". A que nos referimos cuando
importante tomar en cuenta en el caso de hablamos de Sectores de información, pues
que se tenga la necesidad de aplicar técnicas bien, a que no toda la información tiene el
de minería de datos sobre bases de datos mismo fin y puede ser diferenciada por
que no hayan sido procesadas previamente Áreas de Negocio los cuales puedo analizar
(bases de datos transaccionales) debido al independientemente.
tiempo que tomaría crear bases de datos
alternas con información pre tratada para Pongamos el ejemplo de una universidad,
su análisis OLAP. si deseo analizar la información de la misma,
lo primero que tengo que hacer es dividir
Además se pretende resaltar las la información en Áreas de negocio como
consecuencias de no aplicar ciertas por ejemplo: (1) información administrativa,
consideraciones sobre la información antes (2) Información Académica, (3) Información

60
APLICACION DE LA MINERIA DE DATOS SOBRE BASES DE DATOS
TRANSACCIONALES

sobre la administración de Aulas, (4) Marts" que nos son más que subconjuntos
Información sobre los Docentes, de mi DWH con información de cada área
etc….(Grafico I) pero ya con un pre tratado previo.(Grafico
II)

I.- Clasificación y definición de Áreas de Negocio II.- Áreas de negocio asociados a Data Mart.
o Sectores de información. (Fuente Propia) (Fuente Propia)

Después de haber realizado esta Es importante recalcar que en el proceso


clasificación se procede a seleccionar que de Extracción, Transformación y Carga de
datos necesito de cada una de esas información al DWH, se realizan actividades
denominadas "áreas de negocio", con esto de
nos referimos a: como la quiero agrupar?, a) Depuración de información
que información cuantitativa voy a inconsistente
necesitar?, que información cualitativa b)Identificación de información
requiero?. Todo este proceso nos lleva pues inconsistente
a la construcción de lo que actualmente se
conoce como Data Warehouse. Estos procesos garantizan entonces que
cualquier tipo de análisis que se vaya a
Con este análisis ahora puedo asociar cada realizar sobre cualquiera de las áreas de
una de mis "sectores de información" o negocio (Data marts) tendrá un alto grado
"áreas de negocio" con los llamados "Data de confiabilidad.

61
Älvaro Troche Clavijo

Ya teniendo este repositorio de información


pre procesado y con un grado de
consistencia muy alto, puedo aplicar
distintas técnicas de análisis de información,
es entonces donde entra la minería de datos.

Aplicando técnicas de minería de datos


puedo entender la información que ahora
tengo, identificando ciertos
comportamientos que antes eran
imperceptibles como la relación entre
variables la dependencia entre variables,
etc. Todo esto con el fin de "entender" mi
III.- Proceso de construcción de un DWH
información, y de esta forma poder predecir
(Fuente Propia)
acontecimientos futuros y justificar el
comportamiento actual de la información.
Problema del tiempo….
Como se observa en el análisis realizado, Que sucede si no contamos con este
la minería de datos tiene por detrás otros tiempo?..Es necesario ver otras alternativas
procesos que ayudan a que la aplicación de que me ayuden a cumplir con mis objetivos,
estas técnicas tengan un resultado confiable, que para nuestro caso de estudio es "analizar
por lo tanto, este proceso de apoyo un sector de información sin contar con un
enmarquémoslo como Data Warehousing. repositorio OLAP disponible".

El proceso de Data Warehousing, requiere Empecemos entonces citando los problemas


un tiempo considerable para su creación, que se presentan en la información origen
tomando en cuenta que las etapas para su o transaccional, como quiera llamársele.
construcción son similares a un proceso de Esta información generalmente cuenta con
desarrollo de software, nos referimos a las información que tiene las siguientes
tareas de Análisis, Diseño, Pruebas, Puesta características:
en producción, citando solo los procesos i) Información no clasificada en
más básicos.(Grafico III) sectores de información
ii) Información altamente volátil
iii) Información con un determinado
nivel de inconsistencia

62
APLICACION DE LA MINERIA DE DATOS SOBRE BASES DE DATOS
TRANSACCIONALES

iv) Información no sumarizada (muy


alto nivel de granularidad)

Nos surge la pregunta entonces como


subsanar estos aspectos para que podamos
realizar directamente los procesos
involucrados en la minería de datos sin
tener resultados altamente distorsionados.

Subsanando inconvenientes….

En primera instancia debemos definir


claramente la información que deseamos
analizar, si bien la información no está
claramente identificada como en un DWH, IV.- Alternativa de acceso a datos con una base
puede ser clasificada sin muchos de datos alterna (Fuente Propia)
inconvenientes en una base transaccional,
la única diferencia que existiría seria la transaccional con procesos de análisis muy
cantidad de estructuras de datos a tomar en complejos que utilizarían muchos recursos
cuente. En resumen, la clasificación en del sistema (2) la información no sufriría
"sectores de información" se complica pero modificación.
es factible.
Con relación a la inconsistencia de
Como Segundo punto de análisis, en una información, podemos afirmar que este es
base de datos transaccional (OLTP) siendo uno de los problemas más delicados para
la información altamente cambiante o volátil nuestro estudio, ya que es el principal
es necesario tomar medidas para dejar en motivo para que un análisis sea incongruente
primera instancia estática la información. y muy poco real…
Este proceso puede ser realizado utilizando
"bases de datos alternas" con la información Cómo deberíamos tratar la información
estática a una fecha. (Grafico IV) inconsistente? Este punto implica un análisis
previo sobre qué porcentaje puede
Este proceso contribuiría a solucionar dos considerarse despreciable dependiendo de
problemas: (1) no entorpecer el qué sector de información estemos
desenvolvimiento de la base de datos analizando.(Grafico V)

63
Älvaro Troche Clavijo

V.- Porcentaje (%) de inconsistencias y % aceptable de sus existencia


(Fuente Propia)

Si nos referimos a sectores de información Que se logra con esto?, pues bien….
que manejan los datos de tipo monetario Enfocarnos en depurar la información que
(ingresos, egresos, recaudaciones, etc…), necesite y pueda ser depurada para apuntar
puede ser que el porcentaje de información a estos porcentajes de margen aceptable.
inconsistente no pase de un 2.00 %, si nos Para este proceso es necesario también
referimos a universos, por ejemplo de tomar las siguientes decisiones:
clientes o de transacciones x año, puede ser
que ese porcentaje pueda llegar a ser un a) Que información inconsistente puedo
poco mayor. excluir (por ser considerada información
basura)

64
APLICACION DE LA MINERIA DE DATOS SOBRE BASES DE DATOS
TRANSACCIONALES

b) Que información inconsistente puedo i) Se debe optimizar al máximo las


depurar (dependiendo si tengo acceso a consultas desarrolladas, considerando
información origen que me ayude a para esto la creación de índices, manejo
completar dicha información. Además de particionamiento de estructuras, etc…
de velar por la autorización respectiva de
los dueños de la información) ii) Evitar usar sub consultas y otro tipo
complejidad en las consultas a datos para
c) Que información inconsistente no acelerar los procesos (Mantener siempre
depurada debo incluir en las estadísticas la relación Maestro - Detalle en consultas)
finales por ser información crítica o de
alto grado de importancia. iii) Deshabilitar triggers o disparadores
que probablemente hayan estado
Tomando en cuenta los aspectos habilitados en la base de datos de
mencionados estoy garantizando que los producción, ya que su utilidad en la base
resultados obtenidos tengan un alto grado de datos alterna ya no es preponderante.
de confiabilidad. Pero es importante recalcar
que los niveles y porcentajes despreciables Este tipo de consideraciones no son el
mencionados anteriormente, deben ser de recurso único para crear accesos rápidos,
conocimiento, respaldados y aceptados por pero desde mi humilde punto de vista, son
los clientes o en todo caso los usuarios que la base para llegar a un acercamiento a las
van a recibir la información para su análisis. consultas OLAP.
Procesos que requieren mucho recurso del
procesador…. Finalizando podemos aplicar ya sobre esta
información pre tratada (entre comillas)
El ultimo inconveniente que se debería procesos de análisis, que desde ningún
analizar es el nivel de complejidad de las punto de vista serán exactamente iguales
consultas que van a ser ejecutadas. No que un análisis de datos realizado
olvidemos que estamos accediendo a un directamente sobre repositorios OLAP. Pero
repositorio de información altamente el apoyo a la toma de decisiones en mayor
normalizada, lo que ocasiona que cualquier o menor grado podrá ser visible.
consulta envíe de 5 a 10 veces más carga El proceso de "minería de datos" podrá ser
de trabajo a un procesador. realizado en todas sus etapas sobre una base
de datos con márgenes de error aceptables,
Por lo tanto consideremos las siguientes los cuales no deberían afectar en las
premisas: predicciones y la construcción de modelos
predictivos.

65
Älvaro Troche Clavijo

4.CONCLUSIONES Y 5. BIBLIOGRAFIA
RECOMENDACIONES Libros de referencia.-
Para concluir queda mencionar que estos [1] O'brien James, (2001) "Sistemas de
aspectos no son más que parámetros y Información Gerencial", Editorial McGraw
consideraciones importantes capaces de Hill.
darme otras posibilidades para aplicar
técnicas de "minería de datos" si pasar por [2] Hernández O. J., Ramírez Q. M. José,
ciertas etapas (saltos que muchos expertos Ferri R. C.(2004) "Introducción a la Minería
considerarían riesgosas), que conllevan a de Datos", Pearson.
utilizar grandes cantidades de tiempo y
recursos, pero que son importantes al fin. [3] Jiawei Han, Micheline Kamber, (2001)
"Minería de Datos, Técnicas y conceptos".
Con el presente análisis no se quiere
desmerecer la importancia innegable de la [4] Perez Lopez Cesar "Minería de Datos,
construcción de los repositorios de Data Técnicas y Herramientas, 2001.
Warehouse ya que como es de conocimiento
público, en su proceso está inmerso un [5] Nevado Cabello Victoria, (2005)
aspecto importante que es la de depurar, "Introducción a las Bases de Datos
filtrar y consolidar información en sus Relacionales", VisionLibros.
procesos denominados ETL, aspecto que
es de suma utilidad para cualquier empresa [6] Laudon Keneth C., Laudon Jane P.
hoy en día. "Sistemas de Información Gerencial", 8va
ed.

[7] Jhonson Joseph, (2002). "Data Base


Performance Tunnig", Sibex inc.

[8] http://datawarehouse.ittoolbox.com/

Recibido: 11/07/2013
Aceptado: 09/01/2014

66

Você também pode gostar