Escolar Documentos
Profissional Documentos
Cultura Documentos
Índice
1. Introducción al descubrimiento del conocimiento en base de datos (KDD) y de
minería de datos.
2. Arquitectura de minería de datos
3. El proceso de minería de datos
4. Evaluación
5. Aplicación de la minería de datos
Knowledge Discovery data base introducción al proceso de descubrimiento
de conocimiento en base de datos (KDD).
El “KDD” se refiere al proceso de la búsqueda de conocimiento en base de datos
para enfatizar la aplicación a alto nivel, se utiliza métodos específicos de minería de
datos, en general el descubrimiento es un tipio de inducción de conocimiento no
supervisado, que implica dos procesos:
1. Búsqueda de irregularidades interesantes entre los datos de partida.
2. Formulación de leyes que la describan.
Descubrimiento implica observar, recolectar datos, formar hipótesis para explicar
nuestro hallazgos, diseñar, experimentar y comprobar la conexión de las hipótesis
y repetir el ciclo las computadoras son capaces de armar y recoger datos, avece
mejor que los observadores humanos, los programas estadísticos pueden generar
agrupaciones de manera automática entre los datos recogidos, también hay
programas con cierta capacidad para diseñar experimentos y algunos sistemas
robóticos realizan las manipulaciones necesarias en cierto experimentos. Pero
ninguna computadora reúne aplicar nuevos problemas en este sentido las
computadoras no son capaces de descubrir. Sin embargo, el descubrimiento no
requiere realizar todas estas tareas simultáneas.
De igual modo que un investigador puede descubrir nuevo conocimiento a través
del análisis de sus datos, una computadora puede examinar datos disponibles o
recogidos por otras computadoras y encontrar relaciones y explicaciones
previamente desconocida, realizando así descubrimiento en un contenido más
restringido.
La capacidad de las computadoras para analizar búsquedas excautivas de forma
inalcanzable entre grandes cantidades de datos ofrece buenas expectativas para
obtener descubrimientos de forma automática.
Arquitectura del proceso del KDD
El proceso de extraer conocimiento a partir de grandes volúmenes de datos es un
tópico de investigación clave en los sistemas de base de datos y es una importante
área y una oportunidad para obtener mayores ganancias, se define como “el
proceso no trivial de identificación de patrones validas, novedosas, potencialmente
útiles y fundamentalmente entendible al usuario a partir de los datos”.
El descubrimiento de conocimiento en base de datos es básicamente el proceso
automático en el que se combina descubrimientos y análisis, consiste en extraer
patrones en forma de reglas o funciones, a partir de los datos para que el usuario
los analice esta tarea implica generalmente procesar los dato, hacer minería de
datos y presentar resultados. KDD se puede aplicar en diferentes dominios, por
ejemplo, para descubrir perfiles de cliente fraudulentos (evasión de impuesto), Para
descubrir relaciones implícitas existentes entre sintomas y enfermedades, entre
características técnicas y diagnóstico del estado de equipos y maquinas, para
determinar perfiles de estudiantes “académicamente exitoso” en términos de sus
características socioeconómicas y para determinar patrones de comprar de los
clientes en su canasta de mercado.
Etapas del proceso KDD
El proceso de KDD es interactivo e iterativo, involucra numerosos pasos con la
intervención del usuario en la toma de muchas decisiones.
Se resume en las siguientes etapas:
1. Entendimiento del dominio del negocio
La identificación de riesgo del negocio es directamente proporcional al
entendimiento del negocio, a mayor entendimiento mayor es la probabilidad
de identificar riegos de negocio. Cada vez que iniciamos un trabajo de
auditoria en nuestros clientes, en la fase de planeación de la auditoria,
debemos analizar los factores internos y externos que pueden afectar el
cumplimiento del objetivo del negocio. Dentro de ese análisis debemos
obtener un conocimiento sobre las actividades del negocio, del cliente, su
estructura organizacional, su ambiente interno, sus relaciones e
interacciones con su ambiente externo y los riesgos del negocio.
3. Limpieza de datos.
Eliminación de ruido y datos aislado o datos atípicos.
Uso del conocimiento previo para eliminar las inconsistencias y los
duplicados.
Selección y uso de estrategia para manejar la información faltante de
data sets.
4. Transformación de datos:
Los datos transformados a un formato apropiado para minería de datos.
6. Evaluación:
Identificar los patrones interesantes representando conocimiento o medidas
de interés.
INTERFAZ GRAFICA
EVALUACIÓN PATRONES
BASE DE
DATOS
ALGORITMOS DE M.D
Filtrado
línea de datos
DATA
integración de datos B.D WARE
HOME
Aprendizaje Supervisado
El aprendizaje supervisado es una técnica para deducir una información o función
a partir de datos de entrenamiento. Los datos de entrenamiento consisten en pares
de objetos (vectores): un componente del par son los datos de entrada y el otro, los
resultados deseados. La salida de la función puede ser un valor numérico (como en
los problemas de regresión) o una etiqueta de clase (como en los de clasificación).
El objetivo del aprendizaje supervisado es en el de crear una función capaz de
predecir el valor correspondiente de cualquier objeto de entrada valida, después de
haber visto una serie de ejemplos, los datos de entrenamiento, para ello, tiene que
generalizar a partir de los datos presentados a las situaciones no vistas
previamente.
Las redes de entrenamiento supervisada han sido los modelos de redes más
desarrolladas desde inicio de estos diseños. Los datos para el entrenamiento están
construidos por varios padres de patrones de entrenamiento de entrada y salida. El
hecho de conocer la salida implica que el entrenamiento se beneficia la supervisión
del muestreo.
De este modo el aprendizaje se muestran los patrones a la red y la salida deseada
para estos patrones, se usa una fórmula matemática de minimización del error que
ajuste los paso para dar la salida más cercana posible a la salida deseada.
Aprendizaje No Supervisado
Es un método de aprendizaje automático done un modelo es ajustado a las
observaciones, se distingue de aprendizaje supervisado por el hecho de que no hay
conocimiento a priori. El aprendizaje no supervisado es un conjunto de objetos el
cual es tratado en su entrada si, el aprendizaje no supervisado típicamente trata los
objetos con un conjunto de variable aleatorio siendo construido un modelo de
densidad para un conjunto de datos, el aprendizaje no supervisado puede ser usado
en un conjunto con la inferencia bayesiana para producir probabilidades
condicionales (es decir aprendizaje supervisado) para cualquiera de las variables
aleatorias dadas. El aprendizaje no supervisado es la creación de un condigo
factorial de los datos, esto es un código de componentes estadísticamente de
independiente. El aprendizaje supervisado normalmente funciona mucho mejor
cuando los datos iniciales son primero traducidos en un código factorial.
Análisis Predictivo
El análisis predictivo es un área de la minería de datos que consiste en la extracción
de información existente en los datos y su utilización para predecir tendencias y
patrones de comportamiento pudiendo aplicarse sobre cualquier evento
desconocido, ya sea en el pasado, presente, o futuro. El análisis predictivo se
fundamenta en la identificación, de relaciones entre variables en eventos pasados,
para explotar dichas relaciones y predecir posibles resultados en futuras
situaciones, hay que tener en cuenta que la precisión en los resultados obtenidos
dependa mucho de cómo se ha realizado el análisis de los datos, así como la calidad
de las suposiciones.
Los datos
Los datos son la fuente de la que se obtiene las variables, las relaciones entre ellas,
el conocimiento incluido o los patrones de comportamiento identificados,
convirtiéndose en un elemento vital de todo análisis predictivo.
Con la generalización de la tecnología de la información a parecido una nueva
dimensión en la que contemplar a las personas. Si antes podían ser vista como
ciudadanos, contribuyentes o consumidores (entre otras visiones), las TI permite
contemplar a las personas como proveedores de datos.
Actos como conducir o caminar con un dispositivo capas de geo posicionar a su
usuario, pagar una tarjeta de crédito o ver una serie en línea, generan información
susceptible de ser explotada. Enviar correos electrónicos, interactuar en las redes
sociales o simplemente utilizar motores de búsqueda, también genera datos.
El concepto que engloba almacenamiento de grandes cantidades de datos y las
técnicas utilizadas para encontrar patrones repetitivos en los mismo es denominado
big data.
En resumen, puede afirmarse que todo evento que se registra se puede analizar
para encontrar patrones de comportamiento que puedan ser útiles para tomar unas
mejores decisiones en el futuro. Por ello una vez que se dispone de los datos, llega
el momento de inducir conocimiento. Para ello se emplea técnicas de aprendizaje
computacional.
APRENDIZAJE COMPUTACIONAL
El aprendizaje computacional es parte funcional y fundamental en el proceso de
análisis predictivo. El aprendizaje computacional proporciona las técnicas de
análisis de datos mediante las cuales se pueden descubrir relaciones ente variables
que en un principio pueden parecer insignificante, para que tras la aplicación de
estas técnicas pueda descubrirse la trascendencia de las misma.
Por ejemplo, un estudio realizado sobre los clientes de una compañía descubrió que
los hábitos de compra podrían influir en la fiabilidad de pago de un deudor. Si el
cliente suele pagar con tarjeta de crédito en bares supone un mayor riesgo de no
pago, mientras que si la utiliza para pagar el dentista su pone un menor riesgo. Una
posible explicación a este descubrimiento puede ser que la persona que visita al
dentista se considera que, sea más conservadora y lleve una vida más planificada.
Una vez que se han establecido correlaciones entre variables, entrar en juego la
labor del ser humano, que consiste en saber interpretar las mismas(variables) y
hacer las suposiciones apropiadas.