Você está na página 1de 35

Aguilar Chvez, J os Fernando

Estrada Mori, Cristhian Anthony


Rodrguez Ortiz, Carlos Vicente
Segovia Cabrera, Lizeth
Untiveros Morales, Miriam
UNIVERSIDAD NACIONAL DEL CALLAO
Facultad de Ingeniera Industrial y de Sistemas
INTEGRANTES:
Qu es Minera de Datos?
Proceso de la Minera de Datos
Protocolo de un proyecto de minera de datos
Tcnicas de minera de datos
Ejemplo de uso de la minera de datos
Herramientas de Software
Cada vez es ms frecuente el almacn de informacin en bases de
datos como en:
Data Warehouse
Empresas de Marketing
Escuelas
Gobierno
Esto dificulta la realizacin de anlisis de aspectos relevantes.
La bsqueda tradicional de datos se realiza mediante anlisis
estadsticos.
A finales de los 80s la estadstica se ampli a tcnicas como
lgica difusa, razonamiento heurstico y redes neuronales.
Actualmente, las tcnicas anteriores se aprovechan para generar
conocimiento.
4
La minera de datos (DM) es el proceso de obtener
conocimiento a partir de conjuntos grandes de datos.
Es tambin una de las principales actividades de la
Inteligencia de Negocios (BI).
Utiliza el anlisis matemtico para deducir los patrones
y tendencias que existen en los datos.
Normalmente, estos patrones no se pueden detectar
mediante la exploracin tradicional de los datos
porque las relaciones son demasiado complejas o
porque hay demasiado datos.
5
Estos patrones y tendencias se pueden recopilar y
definir como un modelo de minera de datos. Los
modelos de minera de datos se pueden aplicar a
situaciones empresariales como las siguientes:
Predecir ventas
Dirigir correo a clientes especficos
Determinar los productos que se pueden vender juntos
Buscar secuencias en el orden en que los clientes
agregan productos a una cesta de compra
6
7
La generacin de un modelo de minera de datos forma parte de un
proceso mayor que incluye desde la formulacin de preguntas acerca de
los datos y la creacin de un modelo para responder dichas cuestiones,
hasta la implementacin del modelo en un entorno de trabajo. Este proceso
se puede definir mediante los seis pasos bsicos siguientes:
1. Definir el problema
2. Preparar los datos
3. Explorar los datos
4. Generar modelos
5. Explorar y validar los modelos
6. Implementar y actualizar los modelos
8
Aunque el proceso que se ilustra en el diagrama es circular, esto
no significa que cada paso conduzca directamente al siguiente. La
creacin de un modelo de minera de datos es un proceso
dinmico e iterativo.
Una vez que ha explorado los datos, puede que descubra que
resultan insuficientes para crear los modelos de minera de datos
adecuados y que, por tanto, debe buscar ms datos. O bien,
puede generar varios modelos y descubrir entonces que no
responden adecuadamente al problema planteado cuando los
defini y que, por tanto, debe volver a definir el problema.
Es posible que deba actualizar los modelos una vez
implementados debido a que haya ms datos disponibles. Puede
que haya que repetir cada paso del proceso muchas veces para
crear un modelo adecuado.
9
El primer paso del proceso de minera de datos, como se resalta en
el siguiente diagrama, consiste en definir claramente el problema
empresarial y considerar formas de proporcionar una respuesta
para el mismo.
Este paso incluye analizar
los requisitos
empresariales, definir el
mbito del problema,
definir las mtricas por las
que se evaluar el modelo
y definir los objetivos
concretos del proyecto de
minera de datos.
10
Estas tareas se traducen en preguntas como las siguientes:
Qu est buscando? Qu tipos de relaciones intenta buscar?
Refleja el problema que est intentando resolver las directivas o
procesos de la empresa?
Desea realizar predicciones a partir del modelo de minera de
datos o solamente buscar asociaciones y patrones interesantes?
Qu atributo del conjunto de datos desea intentar predecir?
Cmo se relacionan las columnas? En caso de que haya varias
tablas, cmo se relacionan?
Cmo se distribuyen los datos? Los datos son estacionales? Los
datos representan con precisin los procesos de la empresa?
11
El segundo paso del proceso de minera de datos, como se indica
en el siguiente diagrama, consiste en consolidar y limpiar los
datos identificados en el paso Definir el problema.
12
Los datos pueden estar dispersos en la empresa y
almacenados en formatos distintos; tambin pueden contener
incoherencias como entradas que faltan o incorrectas.
Por ejemplo, los datos pueden mostrar que un cliente adquiri
un producto incluso antes que se ofreciera en el mercado o
que el cliente compra regularmente en una tienda situada a
2.000 kilmetros de su casa.
13
La limpieza de datos no solamente implica quitar los datos no vlidos,
sino tambin buscar las correlaciones ocultas en los datos, identificar los
orgenes de datos que son ms precisos y determinar qu columnas son
las ms adecuadas para usarse en el anlisis.
Por ejemplo, debera utilizar la fecha de envo o la fecha de pedido?
Qu influye ms en las ventas: la cantidad, el precio total o un precio
con descuento? Los datos incompletos, los datos equivocados y las
entradas que parecen independientes, pero que de hecho estn
estrechamente correlacionadas pueden influir en los resultados del
modelo de maneras que no espera.
Por consiguiente, antes de empezar a generar los modelos de minera
de datos, debera identificar estos problemas y determinar cmo los
corregir.
14
El tercer paso del proceso de minera de datos, como se
resalta en el siguiente diagrama, consiste en explorar los
datos preparados.
15
Debe conocer los datos para tomar las decisiones adecuadas al crear los
modelos de minera de datos. Entre las tcnicas de exploracin se incluyen
calcular los valores mnimos y mximos, calcular la media y las desviaciones
estndar, y examinar la distribucin de los datos.
Por ejemplo, al revisar el mximo, el mnimo y los valores de la media se
podra determinar que los datos no son representativos de los clientes o
procesos de negocio, y que por consiguiente debe obtener ms datos
equilibrados o revisar las suposiciones que son la base de sus expectativas.
Al explorar los datos para conocer el problema empresarial, puede decidir
si el conjunto de datos contiene datos defectuosos y, a continuacin, puede
inventar una estrategia para corregir los problemas u obtener una
descripcin ms profunda de los comportamientos que son tpicos de su
negocio.
16
El cuarto paso del proceso de minera de datos, como se
resalta en el siguiente diagrama, consiste en generar el
modelo o modelos de minera de datos. Utilizar los
conocimientos adquiridos en el paso Explorar los datos para
definir y crear los modelos.
17
Defina qu datos desea que se utilicen creando una estructura de minera
de datos. La estructura de minera de datos define el origen de datos,
pero no contiene ningn dato hasta que lo procesa.
Antes de que se procese el modelo, un modelo de minera de datos
simplemente es un contenedor que especifica las columnas que se usan
para la entrada, el atributo que est prediciendo y parmetros que
indican al algoritmo cmo procesar los datos. El proceso de un modelo
tambin se denomina entrenamiento.
El entrenamiento hace referencia al proceso de aplicar un algoritmo
matemtico concreto a los datos de la estructura para extraer patrones.
Los patrones que encuentre en el proceso de entrenamiento dependern de
la seleccin de los datos de entrenamiento, el algoritmo que elija y cmo se
haya configurado el algoritmo.
18
El quinto paso del proceso de minera de datos, como se resalta en
el siguiente diagrama, consiste en explorar los modelos de minera
de datos que ha generado y comprobar su eficacia.
Antes de implementar un modelo
en un entorno de produccin, es
aconsejable probar si funciona
correctamente. Adems, al generar
un modelo, normalmente se crean
varios con configuraciones
diferentes y se prueban todos
para ver cul ofrece los resultados
mejores para su problema y sus
datos.
19
El ltimo paso del proceso de minera de datos, como se
resalta en el siguiente diagrama, consiste en implementar los
modelos que funcionan mejor en un entorno de produccin.
20
Una vez que los modelos de minera de datos se encuentran en el
entorno de produccin, puede llevar acabo diferentes tareas,
dependiendo de sus necesidades. Las siguientes son algunas de las
tareas que puede realizar:
Utilizar los modelos para crear predicciones que pueda utilizar para
tomar decisiones empresariales.
Crear consultas de contenido para recuperar estadsticas, reglas o
frmulas del modelo.
Incrustar la funcionalidad de minera de datos directamente en una
aplicacin. Puede incluir Objetos de administracin de anlisis (AMO),
que contiene un conjunto de objetos que la aplicacin pueda utilizar
para crear, cambiar, procesar y eliminar estructuras y modelos de
minera de datos.
21
Crear un informe que permita a los usuarios realizar consultas
directamente en un modelo de minera de datos existente.
Actualizar los modelos despus de la revisin y anlisis. Cualquier
actualizacin requiere que vuelve a procesar los modelos.
Actualizar dinmicamente los modelos, cuando entren ms datos en
la organizacin, y realizar modificaciones constantes para mejorar
la efectividad de la solucin debera ser parte de la estrategia de
implementacin.
22
Un proyecto de minera de datos tiene varias fases
necesarias que son, esencialmente:
Comprensin del negocio y del problema que se quiere
resolver.
Determinacin, obtencin y limpieza de los datos
necesarios.
Creacin de modelos matemticos.
Validacin, comunicacin, etc. de los resultados obtenidos.
Integracin, si procede, de los resultados en un sistema
transaccional o similar.
23
Las tcnicas de la minera de datos provienen de la
Inteligencia artificial y de la estadstica, dichas
tcnicas, no son ms que algoritmos, ms o menos
sofisticados que se aplican sobre un conjunto de
datos para obtener unos resultados
24
Las tcnicas ms representativas son:
Redes neuronales
Regresin lineal
rboles de decisin
Modelos estadsticos
Agrupamiento o Clustering
25
Son capaces de detectar y aprender patrones y caractersticas de
los datos.
Una vez adiestradas las redes pueden hacer previsiones,
clasificaciones y segmentacin.
Esto se realiza estructurando niveles o capas.
Se tienen dos tipos de aprendizaje: supervisado y no supervisado.
26
Es la ms utilizada para formar relaciones entre
datos. Rpida y eficaz pero insuficiente en espacios
multidimensionales donde puedan relacionarse ms
de 2 variables.
27
Se construye partiendo el
conjuntos de dos o ms.
Cada subconjunto a su vez es
particionado.
Se continua hasta no encontrar
diferencias significativas de
influencia.
Herramientas analticas empleadas para el descubrimiento de
reglas y relaciones.
28
Tcnica tradicional en el tratamiento de grandes
volmenes de datos.
Existen varios modelos:
ANOVA (Anlisis de Varianza). Contrasta con
variables continuas.
Ji cuadrado. Contrasta con la independencia de
variables.
Componentes principales. Permite reducir el nmero
de variables.
29
Es un procedimiento de agrupacin de una serie de
vectores segn criterios habitualmente de distancia;
se tratar de disponer los vectores de entrada de
forma que estn ms cercanos aquellos que tengan
caractersticas comunes. Ejemplos:
Algoritmo K-means.
Algoritmo K-medoids.
30
31
FRAUDES
Un caso anlogo es el de la deteccin de transacciones
de blanqueo de dinero o de fraude en el uso de
tarjetas de crdito o de servicios de telefona mvil e,
incluso, en la relacin de los contribuyentes con el fisco.
Generalmente, estas operaciones fraudulentas o
ilegales suelen seguir patrones caractersticos que
permiten, con cierto grado de probabilidad,
distinguirlas de las legtimas y desarrollar as
mecanismos para tomar medidas rpidas frente a ellas.
32
COMPORTAMIENTO EN INTERNET
Tambin es un rea en boga el del anlisis del
comportamiento de los visitantes sobre todo, cuando son
clientes potenciales en una pgina de Internet. O la
utilizacin de la informacin obtenida por medios ms o
menos legtimos sobre ellos para ofrecerles propaganda
adaptada especficamente a su perfil. O para, una vez
que adquieren un determinado producto, saber
inmediatamente qu otro ofrecerle teniendo en cuenta la
informacin histrica disponible acerca de los clientes que
han comprado el primero.
33
Privadas:
IBM Intelligent Miner for Data
SPSS Clementine
DB2 Datawarehouse Suite
STATISTICA Data Miner
Libres:
Orange
RapidMiner
Weka
KNIME
JHepWork
34
http://msdn.microsoft.com/es-es/library/ms
174949.aspx
http://es.wikipedia.org/wiki/Miner%C3%ADa_
de_datos
http://www.sinnexus.com/business_intelligence/
datamining.aspx
35

Você também pode gostar