Você está na página 1de 9

Revista Cubana de Ciencias Informticas

ISSN: 1994-1536
rcci@uci.cu
Universidad de las Ciencias Informticas
Cuba

Rodrguez Surez, Yuniet; Daz Amador, Anolandy


Herramientas de Minera de Datos
Revista Cubana de Ciencias Informticas, vol. 3, nm. 3-4, julio-diciembre, 2009, pp. 73-
80
Universidad de las Ciencias Informticas
Ciudad de la Habana, Cuba

Disponible en: http://www.redalyc.org/articulo.oa?id=378343637009

Cmo citar el artculo


Nmero completo
Sistema de Informacin Cientfica
Ms informacin del artculo Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal
Pgina de la revista en redalyc.org Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
RCCI Vol. 3, No. 3-4 JULIO-DICIEMBRE, 2009 p. 73-80
Recibido: 11/06/2009

Herramientas de Minera de Datos


Data Mining Tools
Yuniet Rodrguez Surez1* y Anolandy Daz Amador1
1 Universidad de las Ciencias Informticas, Carreterra a San Antonio de los Baos km 2 1/2. Rpato Torrens, Boye-
ros, La Habana, C.P.: 19370. Cuba
*Autor para correspondencia: yuniet@hab.uci.cu
74 Resumen
En la actual sociedad de la informacin,
Introduccin
El almacenamiento de informacin en formatos
donde cada da se multiplica la cantidad de digitales es cada vez ms barato y sencillo. Se
datos almacenados casi de forma exponen- genera gran cantidad de datos. Hay que intentar
cial, la minera de datos es una herramienta sacar partido a estos volmenes de informacin
fundamental para analizarlos y explotarlos de para la toma de decisiones. La tecnologa in-
forma eficaz para los objetivos de cualquier formtica constituye la infraestructura funda-
organizacin. La minera de datos se define mental de las grandes organizaciones y permite,
tambin como el anlisis y descubrimiento hoy, registrar mltiples detalles de la vida de las
de conocimiento a partir de datos. La mine- empresas. Las bases de datos posibilitan alma-
ra de datos hace uso de todas las tcnicas cenar cada transaccin, as como otros muchos
que puedan aportar informacin til, desde elementos que reflejan la interaccin de la or-
un sencillo anlisis grfico, pasando por m- ganizacin con otras organizaciones, clientes, o
todos estadsticos ms o menos complejos, internamente, entre sus divisiones y empleados,
complementados con mtodos y algoritmos etctera. Es imprescindible convertir los grandes
del campo de la inteligencia artificial y el volmenes de datos existentes en experiencia,
aprendizaje automtico que resuelven pro- conocimiento y sabidura, formas que atesora la
blemas tpicos de agrupamiento automtico, humanidad para que sea til a la toma de de-
clasificacin, prediccin de valores, detec- cisiones, especialmente en las grandes orga-
cin de patrones, asociacin de atributos. nizaciones y proyectos cientficos. La bsqueda
En este trabajo se hace un estudio de he- de informacin relevante siempre es til a la
rramientas que se utilizan en la minera de administracin empresarial: el control de la pro-
datos as como algunas de las aplicaciones y duccin, el anlisis de los mercados, el diseo
deficiencias que tiene la misma. en ingeniera y la exploracin cientfica, porque
pueden ofrecer las respuestas ms apropiadas a
Palabras clave: Extraer, herramientas, minera las necesidades de informacin. La minera de da-
de datos. tos, es un conjunto de tcnicas agrupadas con el
fin de crear mecanismos adecuados de direccin,
entre ellas puede citarse la estadstica, el recono-
Abstract cimiento de patrones, la clasificacin y la predic-
In today's information society, where every cin. Para descubrir patrones de relaciones tiles
day is multiplied by the amount of data en un conjunto de datos se empezaron a utilizar
stored almost exponentially, data mining is mtodos que fueron denominados de diferente
a fundamental tool to analyze and exploit forma. El trmino Data Mining, en ingls, no era,
them effectively to the objectives of any al principio, del agrado de muchos estadsticos,
organization. Data mining is also defined as
porque sus investigaciones estaban dirigidas a
the analysis and knowledge discovery from
procesar y reprocesar suficientemente los datos,
data. Data mining uses all the techniques
that can provide useful information, from hasta que confirmasen o refutasen las hiptesis
a simple graphical analysis, statistical planteadas. Esta tecnologa ha sido de gran ayu-
methods through more or less complex, da en reas como la banca, telecomunicaciones,
complemented with methods and algorithms seguros y otros. En la actualidad hay un nmero
in the field of artificial intelligence and creciente de organizaciones inmersas en proyec-
machine learning to problems typical tos de Minera de Datos o Data Mining. La tec-
automatic clustering, classification, value nologa se puede aplicar a cualquier organizacin
prediction, pattern detection, association of que disponga de una gran cantidad de datos y
attributes. In this paper a study of tools used que se plantee explotarlos para obtener reglas de
in data mining and some of the applications negocio o mejorar el servicio que presta.
and has the same shortcomings.

Keywords: Extract, tools, Data Mining.


Desarrollo
La idea de Minera de Datos no es nueva. Ya desde
los aos sesenta los estadsticos manejaban tr-
minos como data fishing, data mining o data ar-
chaeology con la idea de encontrar correlaciones
sin una hiptesis previa en bases de datos con
ruido. A principios de los aos ochenta, Rakesh
Agrawal, Gio Wiederhold, Robert Blum y Gregory
Piatetsky-Shapiro, entre otros, empezaron a con-
En el mbito del descubrimiento de conocimiento
en bases de datos o Knowledge Discovery in Da- 75
solidar los trminos de data mining y KDD. A fi- tabases (KDD) tiene otro significado, el KDD se

Herramientas de Minera de Datos


nales de los aos ochenta slo existan un par de empez a utilizar en 1989 (Piatetsky-Shapiro y
empresas dedicadas a esta tecnologa; en 2002 Frawley, 1991) popularizndose por los expertos
existen ms de 100 empresas en el mundo que en inteligencia artificial (IA) y aprendizaje de or-
ofrecen alrededor de 300 soluciones. Las listas de denadores (Machine Learning), por lo que la min-
discusin sobre este tema las forman investiga- era de datos se define como:
dores de ms de ochenta pases. Esta tecnologa
ha sido un buen punto de encuentro entre perso- ti.JOFSBEF%BUPTDPOTJTUFFOPCUFOFSNPEFMPT
nas pertenecientes al mbito acadmico y al de comprensibles o patrones de una base de datos
los negocios. Es una tecnologa compuesta por (Siebes, 2000).
etapas que integra varias reas y que no se debe ti.JOFSBEF%BUPTCTRVFEBEFQBUSPOFTEFJO-
confundir con un gran software. ters mediante rboles o reglas de clasificacin,
tcnicas de regresin, clusterizado, modelizado
secuencial, dependencias, ect (Wang, 1999).
Definiciones de Minera de Datos
La definicin de Minera de Datos puede variar
entre los diferentes investigadores ya sean esta- Los investigadores la definen diferente yo
dsticos, analistas de datos u otros. A continua- coincido con todos, resumiendo la minera de
cin se muestran algunas definiciones: datos es el anlisis de archivos y bitcoras de
transacciones, trabaja a nivel del conocimiento
t i-B NJOFSB EF EBUPT QVFEF EFOJSTF DPNP con el fin de descubrir patrones, relaciones,
el proceso de extraer conocimiento til y com- reglas, asociaciones o incluso excepciones tiles
prensible, previamente desconocido, a partir de para la toma de decisiones.
grandes volmenes de datos (Gonzlez, 2006).
ti-BNJOFSBEFEBUPTFTMBFYQMPSBDJOZBOMJTJT 
mediante mtodos automticos o semiautomti-
Algunas dificultades en la aplicacin
cos, de grandes cantidades de datos para descubrir de Minera de Datos
reglas o patrones significativos (Berry y Linoff, Problemas a los que se enfrenta cualquier pro-
1997). yecto de Minera de Datos
t i-B NJOFSB EF EBUPT FT FM DPOKVOUP EF UD-
nicas y herramientas aplicadas al proceso trivial El nmero de posibles relaciones es demasiado
de extraer y presentar el conocimiento implcito, grande, y resulta prcticamente imposible validar
previamente desconocido, potencialmente til y cada una de ellas. Para resolver este problema
humanamente comprensible, a partir de grandes se utilizan estrategias de bsqueda, extradas del
conjuntos de datos, con el objeto de predecir de rea de aprendizaje automtico (Berry y Linoff,
forma autorizada tendencias y comportamientos 1997). Las herramientas funcionan mejor fijn-
y/o descubrir de forma automatizada modelos doles objetivos de bsqueda concretos. Si bien
previamente desconocidos (Piatetsky-Shapiro y la minera de datos es la impresin de que se
Frawley, 1991). puede simplemente aplicar como herramienta a
t i-B NJOFSB EF EBUPT FT MB FYUSBDDJO EF JO los datos, se debe tener un objetivo, o al menos
formacin implcita, previamente desconocida una idea general de lo que busca. El coste de
y potencialmente til de una base de datos esta prospeccin de datos debe ser coherente con
(Witten y Frank, 2000). el beneficio esperado. Si bien las herramientas
t i-B NJOFSB EF EBUPT DPNCJOB UDOJDBT EF MB han bajado su precio, el coste en tiempo, per-
estadstica, inteligencia artificial, bases de da- sonal y consultora se ha incrementado, llegando
tos, visualizacin y otras reas, para descubrir, de en algunos casos a hacer no viable el proyecto.
forma automtica o semiautomtica, modelos de Suele funcionar mejor en problemas ligados a em-
series de datos (Siebes, 2000) presas de xito que en otros casos, debido a la
ti-BNJOFSBEFEBUPTFTFMBOMJTJTEF gran dependencia que estas herramientas tienen
habitualmente grandes, series de datos para en- respecto a todos los estamentos de la empresa,
contrar relaciones inesperadas y resumir la infor- desde mantenimiento a compras. Es necesario
macin de nuevas maneras que sean entendibles y trabajar en estrecha colaboracin con expertos
tiles por el propietario de los datos en el negocio para definir modelos. A veces la
(Thuraisingham, 1999). informacin esta corrompida, tiene ruido o sim-
plemente le faltan partes. Para esto se aplican
76 tcnicas estadsticas que ayudan a estimar la
confiabilidad de las relaciones halladas.
Existen varias tcnicas de recopilacin de da-
tos que muchas de estas son utilizadas por
las herramientas que usan minera de datos:
Aplicaciones de la Minera de Datos Almacenamiento de datos (Data Warehous-
Las tcnicas de minera de datos se estn utili- ing): El almacenamiento de datos se define
zando desde hace varios aos para la obtencin como un proceso de organizacin de grandes
de patrones en los datos y para la extraccin de cantidades de datos de diversos tipos guardados
informacin valiosa en el campo de la Ingeniera en la organizacin con el objetivo de facilitar la
del Software. Entre estas aplicaciones podemos re-cuperacin de la misma con fines analticos.
citar: El al-macenamiento de datos tiene un gran im-
t-BVUJMJ[BDJOEFSCPMFTEFEFDJTJOFOMBDPOT portancia en el proceso de minera de datos pues
truccin de modelos de clasificacin de diferentes en cierta medida, permite la recuperacin o al
caractersticas del desarrollo de software. menos la referencia a determinados conjuntos de
t"TQFDUPTDMJNBUPMHJDPTQSFEJDDJOEFUPSNFO datos de importancia para un proceso de toma
tas, etc. de decisin dado. En la actualidad existe gran
t.FEJDJOBFODPOUSBSMBQSPCBCJMJEBEEFVOBSFT variedad de sistemas comerciales para el alma-
puesta satisfactoria a un tratamiento mdico. cenamiento de datos entre los que se destacan
t .FSDBEPUDOJDB JEFOUJDBS DMJFOUFT TVTDFQUJCMFT Oracle, Sybase, MS SQL Server, entre otros.
de responder a ofertas de productos y servicios por Anlisis exploratorio de datos (Exploratory
correo, fidelidad de clientes, afinidad de productos. Data Analysis (EDA)): Las tcnicas de anli-
t*OWFSTJOFODBTBTEFCPMTBZCBODBBOMJTJTEF sis exploratorio de datos juegan un papel muy
clientes, aprobacin de prstamos, determinacin im-portante en la minera de datos. Las mismas
de montos de crdito, etc. tienen como objetivo determinar las relaciones
t %FUFDDJO EF GSBVEFT Z DPNQPSUBNJFOUPT JOV entre las variables cuando no hay o no est to-
suales: telefnicos, seguros, en tarjetas de cr- talmente definida la naturaleza de estas relacio-
dito, de evasin fiscal, electricidad, etc. nes. Las tcnicas exploratorias tienen un fuerte
t"OMJTJTEFDBOBTUBTEFNFSDBEPQBSBNFKPSBSMB componente computacional abarcando desde los
organizacin de tiendas, segmentacin de mer- mtodos estadsticos simples a los ms avanza-
cado (clustering). dos como las tcnicas de exploracin de multi-
t%FUFSNJOBDJOEFOJWFMFTEFBVEJFODJBEFQSP variables diseadas para identificar patrones en
gramas televisivos. conjunto de datos multivariables.
t*OEVTUSJBZNBOVGBDUVSBEJBHOTUJDPEFGBMMBT
Entre las tcnicas estadsticas sencillas se in-
Algoritmos y tcnicas de Minera de cluyen el estudio de distribuciones de las vari-
ables, estudio de correlaciones entre matrices,
Datos tablas de contingencias, entre otros. Por su parte,
La minera de datos es un proceso de extraccin
entre las tcnicas ms complejas se incluyen el
de informacin y bsqueda de patrones de com-
Anlisis de Factores, el Anlisis de Grupos, el Es-
portamiento que a simple vista se ocultan en-
calado Multidimensional, etctera.
tre grandes cantidades de informacin, existen
varios algoritmos y tcnicas que ayudan en ob- Redes neuronales (Neural Networks): Las redes
tener la informacin. neuronales son tcnicas analticas que permiten
Algoritmos: modelar el proceso de aprendizaje de una forma
similar al funcionamiento del cerebro humano,
1. Supervisados o predictivos: predicen el valor
bsicamente, la capacidad de aprender a partir
de un atributo de un conjunto de datos, cono-
de nuevas experiencias. Estas tcnicas tuvieron
cidos otros atributos. A partir de datos cuya
un desarrollo impresionante en la ltima dcada,
etiqueta se conoce, se induce una relacin entre
con aplicaciones tanto a la medida como genera-
dicha etiqueta y otra serie de atributos. Esas rela-
les (comnmente llamados Shell) y tienen como
ciones sirven para realizar la prediccin de datos
objetivo fundamental sustituir la funcin de un
cuya etiqueta es desconocida.
experto humano.
2. No supervisados o del descubrimiento del co-
nocimiento: con estos algoritmos se descubren
patrones y tendencias en los datos actuales. El des- Una de las principales caractersticas de las re-
cubrimiento de esa informacin sirve para llevar a des neuronales, es que son capaces de trabajar
cabo acciones y obtener un beneficio de ellas. con datos incompletos e incluso paradjicos, que
dependiendo del problema puede resultar una
ventaja o un inconveniente. Adems esta tcnica
tes. Ejemplo: definida unas variables de entrada
se produce una determinada salida que clasifica 77
posee dos formas de aprendizaje: supervisado y al cliente en un grupo o en otro. Por ejemplo, si

Herramientas de Minera de Datos


no supervisado. la edad est entre 20 y 40, est casado y tiene
cuenta de ahorro, entonces contrata hipoteca en
t"OMJTJT1SFMJNJOBSEFEBUPTVTBOEP2VFSZUPPMT un 78% de posibilidades.
es el primer paso de un proyecto de Minera de t 1SFEJDDJO $POTJTUF FO JOUFOUBS DPOPDFS SF-
Datos, se aplica una consulta SQL al conjunto de sultados futuros a partir de modelizar los da-tos
datos, para rescatar algunos aspectos visibles an- actuales. Ejemplo: Creamos un modelo de vari-
tes de aplicar las tcnicas. ables para saber si el cliente compra o no com-
t5DOJDBTEF7JTVBMJ[BDJOTPOBQUBTQBSBVCJDBS pra. Aplicamos el modelo a un futuro cliente, y ya
patrones en un conjunto de datos, puede usarse podemos predecir si comprar o no.
al comienzo de un proceso de Minera de Datos
para determinar la calidad de los datos. Herramientas de Minera de Datos
t3FHMBTEF"TPDJBDJOFTUBCMFDFOBTPDJBDJPOFT Las herramientas de minera de datos empleadas
en base a los perfiles de los clientes sobre los en el proceso de extraccin de conocimiento se
cuales se realiza la Minera de Datos. pueden clasificar en dos grandes grupos:
t "MHPSJUNPT (FOUJDPT TPO UDOJDBT EF PQ
t 5DOJDBTEFWFSJDBDJO FOMBTRVFFMTJTUFNB
timizacin que usan procesos tales como combi-
se limita a comprobar hiptesis suministrada por
naciones genticas y mutaciones, proporcionan
el usuario).
programas y optimizaciones que pueden ser
t.UPEPEFEFTDVCSJNJFOUP FOMPTRVFTFIBOEF
usadas en la construccin y entrenamiento de
encontrar patrones potencialmente interesantes
otras estructuras como es el caso de las redes
de forma automtica, incluyendo en este grupo
neuronales. Adems los algoritmos genticos son
todas las tcnicas de prediccin.
inspirados en el principio de la supervivencia de
los ms aptos. Exsten algunas herramientas diseadas para ex-
t 3FEFT #BZFTJBOBT CVTDBO EFUFSNJOBS SFMBDJP- traer conocimientos desde bases de datos que
nes causales que expliquen un fenmeno segn contienen grandes cantidades de informacin.
los datos contenidos en una base de datos. Se Las ms populares de estas herramientas son
han usado principalmente para realizar predic- SPSS Clementine, Oracle Data Miner y Weka.
ciones.
t SCPM EF %FDJTJO TPO FTUSVDUVSBT RVF SFQSF Clmentine de SPSS: Clementine se centra en la
sentan conjuntos de decisiones, y estas decisio- integracin de data mining con otros procesos y
nes generan reglas para la clasificacin de un sistemas de negocio que ayuden a entregar inteli-
conjunto de datos. Los rboles de decisin son gencia predictiva en un tiempo eficiente durante
fciles de usar, admiten atributos discretos y las operaciones de negocio diarias. La funcionali-
continuos, tratan bien los atributos no significa- dad abierta de data mining en bases de datos que
tivos y los valores faltantes. Su principal ventaja posee Clementine permite que muchos de los pro-
es la facilidad de interpretacin. cesos de data mining se realicen en entornos que
t$MVTUFSJOH "HSVQBNJFOUP
"HSVQBOEBUPTEFO- mejoran tanto el rendimiento como el despliegue
tro de un nmero de clases preestablecidas o no, de los resultados de data mining. La ltima ver-
partiendo de criterios de distancia o similitud, sin de Clementine extiende la funcionalidad de
de manera que las clases sean similares entre s data mining al incluir un conjunto de reglas de
y distintas con las otras clases. Su utilizacin ha scoring y modelos de rboles de decisin y carga
proporcionado significativos resultados en lo que de resultados de data mining en la base de datos.
respecta a los clasificadores o reconocedores de Sistema integrado de minera de datos que per-
patrones, como en el modelado de sistemas. Este mite encontrar patrones en la informacin para
mtodo debido a su naturaleza flexible se puede facilitar la toma de decisiones a los usuarios. Uti-
combinar fcilmente con otro tipo de tcnica lizando Clementine se podr:
de minera de datos, dando como resultado un
sistema hbrido. t "DDFEFS  QSFQBSBS F JOUFHSBS GDJMNFOUF EBUPT
t 4FHNFOUBDJO $POTJTUF FO MB EJWJTJO EF MB numricos, de texto, datos provenientes de p-
totalidad de los datos, segn determinados cri- ginas Web y de encuestas.
terios. Ejemplo: Dividir los clientes en funcin de t $POTUSVJS Z WBMJEBS NPEFMPT SQJEBNFOUF  VUJ
su antigedad. lizando las tcnicas estadsticas y de aprendizaje
t $MBTJDBDJO $POTJTUF FO EFOJS VOB TFSJF EF automtico disponibles ms avanzadas.
clases, donde poder agrupar los diferentes clien- t *NQMBOUBS FDJFOUFNFOUF MPT NPEFMPT QSFEJD
78 tivos, en tiempo real o segn una programacin
establecida.
proporciona gran cantidad de herramientas para
la realizacin de tareas propias de minera de da-
tQBSBMBTQFSTPOBTRVFUPNBOEFDJTJPOFTZIBDFO tos, la visualizacion y permite la programacin
recomendaciones, y para los sistemas que los uti- en JAVA de algoritmos ms sofisticados para
lizan. analisis de datos y modelado predicativo, unidos
t 0CUFOFS SQJEBNFOUF VO NFKPS 3FUPSOP EF a una interfaz grafica de ususario para acceder
la Inversin y mejores tiempos de respuesta facilmente a sus funcionalidades. En ella se imple-
aprovechando las caractersticas de rendimiento mentan las tcnicas de clasificacin, asociacin,
y escalabilidad. agrupamiento, y prediccin existentes en la actuali-
t5SBOTNJUJSEFGPSNBTFHVSBMPTEBUPTDPOEFO- dad. Su sistema operativo es multiplataforma. Los
ciales a las aplicaciones de data mining en los puntos fuertes de Weka son:
casos donde la seguridad es crtica.
t&TUEJTQPOJCMFMJCSFNFOUFCBKPMBMJDFODJBQ
Esta herramienta permite seleccionar campos o blica general de GNU.
filtrar los datos, permite mostrar propiedades t&TNVZQPSUBCMFQPSRVFFTUDPNQMFUBNFOUFJN-
de los datos, encontrar relaciones, ambiente plementado en Java y puede correr en casi cual-
integrado de minera de datos para usuarios fi- quier plataforma.
nales y desarrolladores. Algoritmos mltiples de t$POUJFOFVOBFYUFOTBDPMFDDJOEFUDOJDBTQBSB
minera de datos y herramientas de visualizacin. reprocesamiento de datos y modelado.
Su compaa es SPSS/Integral Solutions Limited t&TGDJMEFVUJMJ[BSQPSVOQSJODJQJBOUFHSBDJBTB
(ISL). Funciona sobre todas las plataformas hard- su interfaz grafica de usuario.
ware y sistemas operativos, incluyendo Unix, VMS
y Windows NT. Las organizaciones utilizan el con- Weka soporta varias tareas estndar de minera de
ocimiento extrado con Clementine para: datos, especialmente, reprocesamiento de datos,
clustering, clasificacin, regresin, visualizacin,
tSFUFOFSBMPTDMJFOUFTSFOUBCMFT y seleccin. Todas las tcnicas de Weka se fun-
tJEFOUJDBSPQPSUVOJEBEFTEFWFOUBDSV[BEB damentan en la asuncin de que los datos estn
tEFUFDUBSGSBVEFT disponibles en un fichero plano (flan file) o una
t SFEVDJS SJFTHPT Z NFKPSBS MB QSFTUBDJO EF TFS relacin, en la que cada registro de datos est
vicios a la administracin, descrito por un nmero fijo de atributos (normal-
tBMDBO[BSVONBZPSOJWFMEFDPOPDJNJFOUPEFTVT mente numricos o nominales, aunque tambin
clientes online, y por lo tanto, mejorar el diseo se soportan otros tipos). Weka tambin propor-
de sus sitios web. ciona acceso a bases de datos va SQL gracias
a la conexin JDBC (Java Database Connecti-
YALE: Es una herramienta creada en la universi- vity) y puede procesar el resultado devuelto por
dad de Dortmund bastante flexible para el des- una consulta hecha a la base de datos. No puede
cubrimiento del conocimiento y la minera de realizar minera de datos multi-relacional, pero
datos. Puesto que YALE est escrito enteramente existen aplicaciones que pueden convertir una
en Java, funciona en las plataformas o sistemas coleccin de tablas relacionadas de una base de
operativos ms conocidos. Es un software de c- datos en una nica tabla que ya puede ser pro-
digo abierto GNU y con licencia GPL. Reciente- cesada con Weka.
mente fue lanzada la ltima versin, la cual in-
cluye caractersticas como las de implicar nuevos RAMSES: (Sistema de Gestin de Seleccin y
formatos de entrada de datos con operadores para Evaluacin de Anlisis de Riesgo - Risk Analysis
Microsoft Excel y SPSS. Desde la perspectiva de Management Selection & Evaluation System): es
la visualizacin YALE ofrece representaciones de un programa de gestin de riesgos integrado en
datos en dispersin en 2D y 3D; representaciones el sistema de proceso de datos de Bureau Veritas.
de datos en formato SOM (Self Organizing Map); El programa recopila todos los datos correspon-
coordenadas paralelas y grandes posibilidades dientes a las operaciones de comercio interna-
de transformar las vi-sualizaciones de los datos. cional y est interconectado con la aplicacin
de minera de datos Angoss Knowledge Studio.
WEKA: Es de libre distribucin (licencia GPL) y Este software es aceptado como uno de los lderes
destacada por la cantidad de algoritmos que pre- del mercado en minera de datos y cumple las
senta as como por la eficiencia de los mismos, recomendaciones de la Convencin de Kyoto de la
por los generadores de reglas, esta desarrollada OMA (Organizacin Mundial de Aduanas) de 1999
por miembros de la Universidad de Waikato, ella y del Marco de Normas de la OMC (Organizacin
Mundial del Comercio). Es utilizado por orga-
nismos gubernamentales en el mundo entero.
y fcil de entender. En la fundacin de PolyAna-
lyst tiene un lenguaje de programacin interno 79
RAMSES ofrece a las autoridades gubernamen- universal capaz de expresar reglas y algoritmos

Herramientas de Minera de Datos


tales una forma de identificar los embarques de arbitrarios.
mayor riesgo, facilitando por otro lado la circu- Su compaa es Megaputer lder en negocios y
lacin y el despacho de las mercancas de menor software inteligentes para web. Ofrece las mejo-
riesgo. Interconectado con las bases de datos de res herramientas para data mining, text mining y
Bureau Veritas, RAMSES proporciona una gestin web mining. Plataformas:
automatizada y digna de confianza de los riesgos
inherentes al comercio internacional. t.JDSPTPGU8JOEPXT91/5
Beneficios: t1BSB6/*9Z-JOVY
t"EFNTSFRVJFSFMBJOTUBMBDJOEF.JDSPTPGU&YDFM
t "OBMJ[BS UPEPT MPT EBUPT EFM QSPHSBNB EF JOT
peccin de importaciones. Otras herramientas de libre distribucin
t &WBMVBS MPT OJWFMFT EF SJFTHP EF MBT EJGFSFOUFT R: herramienta excelente para el anlisis de datos
expediciones de mercancas. basada en el conocido programa estadstico S-
t'BWPSFDFSMPTDPOUSPMFTNFKPSPSJFOUBEPT Plus y con un manejo de las mtrices y variables
t*OEJDBSMBTNFEJEBTBUPNBSQBSBBHJMJ[BSFMEFT equivalentes a MATLAB. Es muy til para el anli-
pacho aduanero. sis estadstico, transformacin y manipulacin de
t4FQVFEFBQMJDBSBEJGFSFOUFTUJQPTEFCBTFTEF los datos. Destacar la excelente asesora tcnica
datos. llevada a cabo principalmente por algunos de los
t0QUJNJ[BSMBBTJHOBDJOEFSFDVSTPTIVNBOPT principales profesores e investigadores en es-
tadstica del mundo.
SAS Enterprise Miner: Su compaa es SAS, es XELOPES: Otra librera de libre distribucin con
una solucin de minera de datos que permite cantidad de funciones para minera de datos. Per-
incorporar patrones inteligentes a los procesos mite la implementacin en JAVA o C++.
de marketing, tanto operativos como estratgi- SNNS: Aplicacin para el desarrollo, entrenamien-
cos. El software de SAS, es un sistema de entrega to y testeo de mltitud de tipos diferentes de
de informacin que provee acceso transparente redes neuronales. Muy til para desarrollar cla-
a cualquier fuente de datos, incluyendo archivos sificadores sofisticados y modelos basados en re-
planos, archivos jerrquicos, y los ms impor- des neuronales.
tantes manejadores de bases de datos relaciona- XmdvTool, Xgobi, IBM-OpenDX, Visipoint: Otras
les. Tambin incluye su propia base de datos de herramientas con licencia GPL que tienen dife-
informacin para almacenar y manejar los datos, rentes funciones de visualizacin muy tiles para
es decir, un "data warehouse". Tambin soporta encontrar patrones ocultos en los datos.
los principales protocolos de comunicacin, cu- En la Figura se puede apreciar una encuesta he-
bre los cinco modelos de pro-cesamiento cliente/ cha en el conocido portal sobre Minera de Datos
servidor de acuerdo a Gartner Group y cumple con y gestin del conocimiento, donde se da una idea
las 12 reglas de OLAP. El sistema soporta un am- de las aplicaciones que ms utilizan los profesio-
plio rango de aplicaciones, destacndose el anli- nales y las mltiples aplicaciones que existen
sis estadstico, anlisis grfico de datos, anlisis en el mercado. Aqu se destacan programas de
de datos guiado, mejoramiento de la calidad, di- familias de aplicaciones estadsticas ejemplo:
seo experimental, administracin de proyectos, SAS(SAS, SAS EnterpriseMiner) o SPSS(SPPS Cle-
programacin lineal y no lineal, ge-neracin de mentine, SPSS AnswerTree), estas contrastan con
reportes y grficas, manipulacin y despliegue de otras desarrolladas integramente en el campo de
imgenes, sistemas de informacin geogrfica, la Minera de Datos ejemplo: CART/MARS, IBM-
visualizacin multidimensional de datos, aplica- I-Miner, Angoss, Megaputer PolyAnalyst, KXEN
ciones de multimedia, as como los sistemas de estas abarcan principalmente mtodos estadsti-
informacin ejecutiva. cos y de visualizacin combinados con algorit-
mos mas propios de Minera de Datos. El grado de
PolyAnalyst de Megaputer. (Bigus, 1996): Es un eficiencia de cada herramineta depende de ml-
sistema de minera de datos premiados de la mul- tiples factores: tipos de algoritmos, funciones de
tiestrategia para descubrir la forma exacta de rel- tratamiento de la informacin, eficiencia de los
aciones funcionales ocultadas en datos. Adems algoritmos, generadores de informes, formas de
de des-cubrir reglas y algoritmos, PolyAnalyst les pasar la informacin. Estas herramientas aportan
presenta explcitamente en el una forma simple mltiples ventajas para los campos de investi-
80 Figura 1. Herramientas de Minera de Datos usadas habitualmente (KDnuggets, 2002).

gacin y docencia en el aprendizaje y desarrollo Referencias


de la Minera de Datos, nos han demostrado que Berry, M.J. y G. Linoff, Data Mining Techniques For
tienen grandes ventajas. Marketing, Sales and Customer Support. 1997.
Bigus, JP. Data Mining with Neural Networks"
1996. Disponible en: http://www.
Por qu usar Minera de Datos? megaputer.com
Ahorra grandes cantidades de dinero a una em- Delve Projects. Data for Evaluating Learning in
presa y abre nuevas oportunidades de negocios. Valid Experiments. Disponible en: http://
Contribuye a la toma de decisiones tcticas y es- www.cs.utoronto.ca/~delve/index.html
tratgicas. Hand, D., H. Mannila, and P. Smyth, Principles of
Proporciona poder de decisin a los usuarios del Data Mining. London: The MIT Press., 2001.
negocio, y es capaz de medir las acciones y resul- Gonzalez, P.P., Desarrollo de tecnicas de mineria de
tados de una mejor forma. datos en procesos industriales: Modelizacion
Genera modelos descriptivos: permite a empre- en lineas de produccion de acero. Julio de
sas, explorar y comprender los datos e identificar 2006: Universidad de la Rioja.
patrones, relaciones y dependencias que impac- KDnuggets. Data mining tools you regularly
tan en los resultados finales. use. junio 2002 . Disponible en: http://
Genera modelos predictivos: permite que relacio- www.kdnuggets.com/polls/2002/data_
nes no descubiertas a travs del proceso de la mining_tools.htm
Minera de Datos sean expresadas como reglas de Machine Learning Group at University of Waikato
negocio. Data Mining Software in Java. Disponible
en:http://www.cs.waikato.ac.nz/ml/
Conclusiones weka/
La Minera de Datos se presenta como una tec- Piatetsky-Shapiro, G. y W. J Frawley. Knowledge
nologa de apoyo para explorar, analizar, com- Discovery in Databases". AAAI/MIT Press,
prender y aplicar el conocimiento obtenido 1991.
usando grandes volmenes de datos y descubrir Siebes, A., Data Mining and Statistics. 2000.
patrones que ayuden a la identificacin de estruc- Thuraisingham, B. Data Mining. Technologies, Techniques,
turas en los datos. Tools and Trends CRC Press LLC, 1999.
Los productos a comercializar son costosos y re- Wang, X.Z., Data Mining and Knowledge Discovery
quieren de mucha experiencia para su utilizacin. For Process Monitoring and Control. 1999,
Es muy fcil hallar patrones equvocos o no in- London: Ed. Springer.
teresantes. Witten, I.H. y E. Frank, Data Mining. Practical
La aplicacin de estas herramientas ayuda en el Machine Lerning Tools and Techniques
proceso de toma de decisin de las organizacio- with Java Implementations. 2000: San
nes. Francisco, California.

Você também pode gostar