Você está na página 1de 10

FASES DE UN PROYECTO DE MINERIA DE DATOS

FILDRADO DE DATOS
El proceso de la minera de datos pasa por las siguientes fases:
Filtrado de datos
Seleccin de variables
Extraccin de conocimiento
Interpretacin y evaluacin
Base de datos (datos) seleccin procesado seleccin de caractersticas
Extraccin de conocimiento evaluacin modelo clasificador de conocimiento
(conocimiento)
Filtrado de datos
El formato de los datos contenidos en la fuente de datos (base de datos, data warehouse..) nunca es idneo.
La mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera sobre los datos en
bruto.
Mediante el preprocesado se filtran los datos (de forma que se eliminen valores incorrectos, no validos,
desconocidos segn las necesidades y el algoritmo a usar)
Se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se
reduce el numero de valores posibles (mediante redondeo , clustering)
En muchos casos el formato de los datos fuente no son adecuadamente ligeros para ser tratados en estos
procesos.
Por tal motivo el objetivo en esta fase, es filtrar los datos de tal manera que se eliminen todos los valores
incorrectos, todos los valores no validos y desconocidos, reduciendo as el nmero de valores posibles para
ser tratados en un proceso como lo es el proceso de Data Mining.
Propsito
El filtrado de datos ayuda a crear modelos de minera de datos que usan subconjuntos de datos en una
estructura de minera de datos.
El filtrado proporciona flexibilidad a la hora de disear orgenes de datos y estructuras de minera de datos
propios, porque se puede crear una estructura de minera de datos nica basndose en una vista del origen
de datos completa.
A continuacin, puede crear filtros para usar solo una parte de esos datos para aprendizaje y probar una
variedad de modelos, en lugar de generar una estructura diferente y un modelo relacionado para cada
subconjunto de datos.
Por ejemplo, define la vista del origen de datos en la tabla Clientes y las tablas relacionadas.
Luego define una estructura de minera de datos nica que incluye todos los campos necesarios.
Por ltimo, crea un modelo que se filtra en un atributo de cliente determinado, como Regin.
A continuacin, puede realizar fcilmente una copia de ese modelo y cambiar la condicin de filtro para
generar un nuevo modelo basado en una regin diferente.
Algunos escenarios de uso real donde podra aprovechar las ventajas de esta caracterstica son los
siguientes:
Creacin de modelos independientes para valores discretos como gnero, regiones, etc.
Por ejemplo, un almacn de ropa podra usar los datos demogrficos de los clientes para generar modelos
independientes por gnero, aunque los datos de ventas procedan de un origen de datos nico para todos los
clientes.
Experimentar con modelos creando y probando a continuacin varias agrupaciones de los mismos datos,
como edades de 20 a 30 frente a edades de 20 a 40 y de 20 a 25 aos.

Seleccin de variables
Seleccionar las mejores variables puede llegar a ser uno de los principales problemas en un proyecto de Data
Mining.

Una opcin es elegir aquellas variables que desde el punto de vista del negocio parecen importantes. Para
esto se debe conocer muy bien el negocio y se puede correr el riesgo de elegir variables altamente
correlacionadas. Adems es muy posible que el grupo de variables seleccionadas diste mucho de ser el
ptimo (por ejemplo, podran quedar afuera ciertas variables que aportan buena informacin). Otra
alternativa es la fuerza bruta, pero slo en casos con muy pocas variables disponibles. Cuando la cantidad de
variables comienza a ser importante, este enfoque queda descartado debido a la enorme cantidad de
pruebas que hay que realizar.
Un mtodo que ha demostrado ser muy eficiente es el que se basa en la Teora de la Informacin. Los pasos
a seguir son los siguientes:
Seleccionar del total de las variables, aquella que transmite mayor cantidad de informacin.
Seleccionar del resto de variables disponibles, aquella que transmita la mayor cantidad de informacin
nueva
Continuar en el paso 2 hasta que la ganancia de informacin ya no justifique la prdida de representatividad
de poblacin Este procedimiento toma muy poco tiempo y crea un conjunto de variables que cumple con las
siguientes caractersticas:
Este procedimiento crea un conjunto de variables que cumple con las siguientes caractersticas:
Contiene la mayor cantidad de informacin dado los datos disponibles
Contiene la mejor relacin seal/ruido
Las variables seleccionadas no son colineales
Tiene en cuenta las interacciones entre variables
Usualmente aparecen seleccionadas variables que son consideradas como muy importantes desde el punto
de vista del negocio
Algoritmos de Extraccin de Conocimiento
Desde el punto de vista de las Organizaciones, se puede definir el conocimiento como aquella informacin
que permite generar acciones asociadas a satisfacer las demandas del mercado, y apoyar las nuevas
oportunidades a travs de la explotacin de las competencias centrales de la Organizacin
se centran en la extraccin asistida por ordenador de conocimientos tiles desde datos e informaciones.
Ayudan a descubrir y a identificar patrones ocultos (no evidentes y, en ocasiones, inesperados) en los datos,
que sean comprensibles para las personas y que ofrezcan puntos de vista tiles (lo que resulta
especialmente importante en el caso de los grandes fondos de informacin, donde los recursos humanos
disponibles pueden ser limitados).
Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones
de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre
dichas variables.
Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada
tcnica obliga a un preprocesado diferente de los datos
Tcnicas de minera de datos
Como ya se ha comentado, las tcnicas de la minera de datos provienen de la inteligencia artificial y de
la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un
conjunto de datos para obtener unos resultados.
Las tcnicas ms representativas son:
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en
que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en
una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son:
El perceptrn.
El perceptrn multicapa.
Los mapas autoorganizados, tambin conocidos como redes de Kohonen.
Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en
espacios multidimensionales donde puedan relacionarse ms de 2 variables.
rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de
la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lgicas,
muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y categorizar una
serie de condiciones que suceden de forma sucesiva, para la resolucin de un problema. Ejemplos:
Algoritmo ID3.
Algoritmo C4.5.
Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea en todos
los diseos experimentales y en la regresin para indicar los diferentes factores que modifican la variable de
respuesta.
Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn criterios
habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que estn ms cercanos
aquellos que tengan caractersticas comunes. Ejemplos:
Algoritmo K-means.
Algoritmo K-medoids.
Reglas de asociacin.- Se utilizan para descubrir hechos que ocurren en comn dentro de un determinado
conjunto de datos.
Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no
supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a priori, a
partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y tendencias en
los datos.

Interpretacin y evaluacin de las fases del proyecto de minera de datos
Cualquier proyecto de Minera de Datos, independiente de su enfoque y de las tcnicas de extraccin
utilizadas al transcurso del proceso, debe atravesar por una serie de fases que hace que el proceso sea
exitoso desde que inicia hasta que culmina. Dando as un anlisis completo y efectivo para tomar una
decisin correcta.
El proceso de minera de datos pasa por las siguientes fases:
Filtrado de datos.
Seleccin de Variables.
Extraccin de Conocimiento.
Interpretacin y Evaluacin
Filtrado de datos
En muchos casos el formato de los datos fuente no son adecuadamente ligeros para ser tratados en estos
procesos, por tal motivo el objetivo en esta fase, es filtrar los datos de tal manera que se eliminen todos los
valores incorrectos, todos los valores no validos y desconocidos, reduciendo as el nmero de valores
posibles para ser tratados en un proceso como lo es el proceso de Data Mining.
Seleccin de variables
Para reducir el tamao de los datos elegidos, se deben establecer las caractersticas correspondientes y
necesarias para ser aplicadas a la seleccin correcta de los datos. As tener las variables que influyen con mas
fuerza en el problema a solucionar; los mtodos utilizados para la seleccin de las caractersticas son los
siguientes:.

Los mtodos para la seleccin de caractersticas son bsicamente dos:
Aquellos basados en la eleccin de los mejores atributos del problema.
Aquellos que buscan variables independientes mediante pruebas de sensibilidad, algoritmos de distancia.
Algoritmos de Extraccin de Conocimiento
Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones
de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre
dichas variables.
Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada
tcnica obliga a un pre-procesado diferente de los datos.
Interpretacin y evaluacin
Una vez obtenido el modelo, se debe proceder a su validacin, comprobando que las conclusiones que
arroja son vlidas y suficientemente satisfactorias.

En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los
modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los
resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

Extensiones Data Mining
Text mining
Estudios recientes indican que el ochenta por ciento de la informacin de una compaa est almacenada en
forma de documentos. Sin duda, este campo de estudio es muy vasto, por lo que tcnicas como la
categorizacin de texto, el procesamiento de lenguaje natural, la extraccin y recuperacin de la
informacin o el aprendizaje automtico, entre otras, apoyan al text mining (minera de texto).
El text mining se refiere a examinar una coleccin de documentos y descubrir informacin no contenida en
ningn documento individual de la coleccin; en otras palabras, trata de obtener informacin sin haber
partido de algo (Nasukawa y otros, 2001).
Una aplicacin muy popular del text mining es relatada en Hearst (1999). Don Swanson intenta extraer
informacin derivada de colecciones de texto. Teniendo en cuenta que los expertos slo pueden leer una
pequea parte de lo que se publica en su campo, por lo general no se dan cuenta de los nuevos desarrollos
que se suceden en otros campos.
As, Swanson ha demostrado cmo cadenas de implicaciones causales dentro de la literatura mdica pueden
conducir a hiptesis para enfermedades poco frecuentes,algunas de las cuales han recibido pruebas de
soporte experimental. Investigando las Data mining: torturando a los datos hasta que confiesen.
Web Mining
El Web Mining es una metodologa de recuperacin de la informacin que usa herramientas de la minera
de datos para extraer informacin tanto del contenido de las pginas, de su estructura de relaciones
(enlaces) y de los registro de navegacin de los usuarios.
Es la aplicacin de tcnicas de minera de datos para descubrir los patrones de la Web. De acuerdo a los
objetivos de anlisis, la minera web se puede dividir en tres tipos diferentes:
Minera del contenido de la Web, o Web Content Mining;
Minera de la estructura de la Web, o Web Structure Mining;
Minera de los registro de navegacin en la Web, o Web Usage Mining.
La minera del uso de la Web es un proceso de extraccin de informacin til a partir de los registros del
servidor, es decir, del historial de los usuarios
Minera del contenido de la Web es el proceso de descubrir informacin til de texto, imagen, audio o datos
de vdeo en la web. La minera de contenido web a veces se llama la minera de textos web, porque el
contenido del texto es la zona ms ampliamente investigado.
Minera de la estructura de la Web es el proceso de utilizacin de la teora de grafos para analizar el nodo y
la estructura de conexin de un sitio web.
Ventajas
La capacidad de prediccin de la aplicacin de la minera puede beneficia a la sociedad mediante la
identificacin de actividades delictivas.
Las compaas pueden establecer una relacin mejor atencin al cliente, dndoles exactamente lo que
necesitan.
Las empresas pueden entender las necesidades del cliente mejor y pueden reaccionar a las necesidades del
cliente ms rpido.
Desventajas
Web Mining la tecnologa en s misma no crea problemas, pero esta tecnologa cuando se utiliza en los datos
de carcter personal puede causar problemas. La cuestin tica ms criticada sobre el uso de Web Mining es
la invasin de la privacidad.
Otra preocupacin importante es que las empresas de recogida de los datos para un propsito especfico
podran utilizar los datos para un fin totalmente distinto.

FILTRADO DE DATOS
El formato de los datos contenidos en la fuente de datos (base de datos, data warehouse..) nunca es
idneo.
La mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera sobre los datos
en bruto.

Mediante el preprocesado se filtran los datos (de forma que se eliminen valores incorrectos, no
validos, desconocidos segn las necesidades y el algoritmo a usar)
Se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o
se reduce el numero de valores posibles (mediante redondeo , clustering)

En muchos casos el formato de los datos fuente no son adecuadamente ligeros para ser tratados en
estos procesos.
Por tal motivo el objetivo en esta fase, es filtrar los datos de tal manera que se eliminen todos los
valores incorrectos, todos los valores no validos y desconocidos, reduciendo as el nmero de valores
posibles para ser tratados en un proceso como lo es el proceso de Data Mining.
Propsito
El filtrado de datos ayuda a crear modelos de minera de datos que usan subconjuntos de datos en
una estructura de minera de datos.
El filtrado proporciona flexibilidad a la hora de disear orgenes de datos y estructuras de minera
de datos propios, porque se puede crear una estructura de minera de datos nica basndose en una
vista del origen de datos completa.
A continuacin, puede crear filtros para usar solo una parte de esos datos para aprendizaje y probar
una variedad de modelos, en lugar de generar una estructura diferente y un modelo relacionado
para cada subconjunto de datos.
Ejemplo

Algunos escenarios de uso real donde podra aprovechar las ventajas de esta caracterstica son los
siguientes:
Creacin de modelos independientes para valores discretos como gnero, regiones, etc.
Por ejemplo, un almacn de ropa podra usar los datos demogrficos de los clientes para generar
modelos independientes por gnero, aunque los datos de ventas procedan de un origen de datos
nico para todos los clientes.
Experimentar con modelos creando y probando a continuacin varias agrupaciones de los mismos
datos, como edades de 20 a 30 frente a edades de 20 a 40 y de 20 a 25 aos.

Algunos escenarios de uso real donde podra aprovechar las ventajas de esta caracterstica son los
siguientes:
Creacin de modelos independientes para valores discretos como gnero, regiones, etc.
Por ejemplo, un almacn de ropa podra usar los datos demogrficos de los clientes para generar
modelos independientes por gnero, aunque los datos de ventas procedan de un origen de datos
nico para todos los clientes.
Experimentar con modelos creando y probando a continuacin varias agrupaciones de los mismos
datos, como edades de 20 a 30 frente a edades de 20 a 40 y de 20 a 25 aos.

Equipo 2
Seleccionar las mejores variables puede llegar a ser uno de los principales problemas en un proyecto de
Data Mining.

Una opcin es elegir aquellas variables que desde el punto de vista del negocio parecen importantes. Para
esto se debe conocer muy bien el negocio y se puede correr el riesgo de elegir variables altamente
correlacionadas. Adems es muy posible que el grupo de variables seleccionadas diste mucho de ser el
ptimo (por ejemplo, podran quedar afuera ciertas variables que aportan buena informacin).

Otra alternativa es la fuerza bruta, pero slo en casos con muy pocas variables disponibles. Cuando
la cantidad de variables comienza a ser importante, este enfoque queda descartado debido a la
enorme cantidad de pruebas que hay que realizar.

Un mtodo que ha demostrado ser muy eficiente es el que se basa en la Teora de la Informacin.
Los pasos a seguir son los siguientes:
Seleccionar del total de las variables, aquella que transmite mayor cantidad de informacin.
Seleccionar del resto de variables disponibles, aquella que transmita la mayor cantidad de
informacin nueva
Continuar en el paso 2 hasta que la ganancia de informacin ya no justifique la prdida de
representatividad de poblacin Este procedimiento toma muy poco tiempo y crea un
conjunto de variables que cumple con las siguientes caractersticas:

Este procedimiento crea un conjunto de variables que cumple con las siguientes caractersticas:
1. Contiene la mayor cantidad de informacin dado los datos disponibles
2. Contiene la mejor relacin seal/ruido
3. Las variables seleccionadas no son colineales
4. Tiene en cuenta las interacciones entre variables
5. Usualmente aparecen seleccionadas variables que son consideradas como muy importantes
desde el punto de vista del negocio

FASES DE UN PROYECTO DE MINERIA DE DATOS

Cualquier proyecto de Minera de Datos, independiente de su enfoque y de las tcnicas de extraccin
utilizadas al transcurso del proceso, debe atravesar por una serie de fases que hace que el proceso sea
exitoso desde que inicia hasta que culmina. Dando as un anlisis completo y efectivo para tomar una
decisin correcta.
El proceso de minera de datos pasa por las siguientes fases:
Filtrado de datos.
Seleccin de Variables.
Extraccin de Conocimiento.
Interpretacin y Evaluacin.

Filtrado de datos
En muchos casos el formato de los datos fuente no son adecuadamente ligeros para ser tratados en
estos procesos, por tal motivo el objetivo en esta fase, es filtrar los datos de tal manera que se
eliminen todos los valores incorrectos, todos los valores no validos y desconocidos, reduciendo as el
nmero de valores posibles para ser tratados en un proceso como lo es el proceso de Data Mining.
Seleccin de variables


Para reducir el tamao de los datos elegidos, se deben establecer
las caractersticas correspondientes y necesarias para ser aplicadas a la seleccin correcta de
los datos. As tener las variables que influyen con mas fuerza en el problema a solucionar; los
mtodos utilizados para la seleccin de las caractersticas son los siguientes:.

Los mtodos para la seleccin de caractersticas son bsicamente dos:
Aquellos basados en la eleccin de los mejores atributos del problema.
Aquellos que buscan variables independientes mediante pruebas de sensibilidad, algoritmos de
distancia.

Algoritmos de Extraccin de Conocimiento
Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa
patrones de comportamiento observados en los valores de las variables del problema o relaciones
de asociacin entre dichas variables.
Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque
generalmente cada tcnica obliga a un pre-procesado diferente de los datos.
Interpretacin y evaluacin
Una vez obtenido el modelo, se debe proceder a su validacin, comprobando que las conclusiones
que arroja son vlidas y suficientemente satisfactorias.

En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben
comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos
alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos
modelos.


Algoritmos de Extraccin de Conocimiento
Desde el punto de vista de las Organizaciones, se puede definir el conocimiento como aquella
informacin que permite generar acciones asociadas a satisfacer las demandas del mercado, y
apoyar las nuevas oportunidades a travs de la explotacin de las competencias centrales de la
Organizacin

se centran en la extraccin asistida por ordenador de conocimientos tiles desde datos e
informaciones. Ayudan a descubrir y a identificar patrones ocultos (no evidentes y, en ocasiones,
inesperados) en los datos, que sean comprensibles para las personas y que ofrezcan puntos de vista
tiles (lo que resulta especialmente importante en el caso de los grandes fondos de informacin,
donde los recursos humanos disponibles pueden ser limitados).

Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa
patrones de comportamiento observados en los valores de las variables del problema o relaciones
de asociacin entre dichas variables.
Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque
generalmente cada tcnica obliga a un preprocesado diferente de los datos.

Tcnicas de minera de datos
Como ya se ha comentado, las tcnicas de la minera de datos provienen de la inteligencia artificial y de
la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se aplican sobre un
conjunto de datos para obtener unos resultados.
Las tcnicas ms representativas son:
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en
que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexin de neuronas en
una red que colabora para producir un estmulo de salida. Algunos ejemplos de red neuronal son:
El perceptrn.
El perceptrn multicapa.
Los mapas autoorganizados, tambin conocidos como redes de Kohonen.
Regresin lineal.- Es la ms utilizada para formar relaciones entre datos. Rpida y eficaz pero insuficiente en
espacios multidimensionales donde puedan relacionarse ms de 2 variables.
rboles de decisin.- Un rbol de decisin es un modelo de prediccin utilizado en el mbito de
la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones
lgicas, muy similares a los sistemas de prediccin basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva, para la resolucin de un
problema. Ejemplos:
Algoritmo ID3.
Algoritmo C4.5.
Modelos estadsticos.- Es una expresin simblica en forma de igualdad o ecuacin que se emplea
en todos los diseos experimentales y en la regresin para indicar los diferentes factores que
modifican la variable de respuesta.
Agrupamiento o Clustering.- Es un procedimiento de agrupacin de una serie de vectores segn
criterios habitualmente de distancia; se tratar de disponer los vectores de entrada de forma que
estn ms cercanos aquellos que tengan caractersticas comunes. Ejemplos:
Algoritmo K-means.
Algoritmo K-medoids.

Reglas de asociacin.- Se utilizan para descubrir hechos que ocurren en comn dentro de un
determinado conjunto de datos.
Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en supervisados y no
supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto de ellos) desconocido a
priori, a partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento): se descubren patrones y
tendencias en los datos.

Você também pode gostar