Você está na página 1de 10

Minería De Datos

Maestro: José Ricardo Ramírez Días


Correo: jricardord@gmail.com
EC:35%
EP:35%
ED:20%
EA:10%

Definición de minería de datos.


La disciplina denominada minería de datos(MD) estudia métodos y algoritmos que
permiten la extracción automática de información sintetizada que permite
caracterizar las relaciones escondidas en la gran cantidad de datos, también se
pretende que la información obtenida posea capacidad predictiva, facilitando el
análisis de los datos de forma eficiente. Bajo la denominación de minería de datos
se han agrupado recientemente diversas técnicas estadísticas y del aprendizaje
automático (inteligencia artificial IA) enfocados, principalmente a la visualización,
análisis y modelización de información de bases de datos masivas

Índice
1. Introducción al descubrimiento del conocimiento en base de datos (KDD) y de
minería de datos.
2. Arquitectura de minería de datos
3. El proceso de minería de datos
4. Evaluación
5. Aplicación de la minería de datos
Knowledge Discovery data base introducción al proceso de descubrimiento
de conocimiento en base de datos (KDD).
El “KDD” se refiere al proceso de la búsqueda de conocimiento en base de datos
para enfatizar la aplicación a alto nivel, se utiliza métodos específicos de minería de
datos, en general el descubrimiento es un tipio de inducción de conocimiento no
supervisado, que implica dos procesos:
1. Búsqueda de irregularidades interesantes entre los datos de partida.
2. Formulación de leyes que la describan.
Descubrimiento implica observar, recolectar datos, formar hipótesis para explicar
nuestro hallazgos, diseñar, experimentar y comprobar la conexión de las hipótesis
y repetir el ciclo las computadoras son capaces de armar y recoger datos, avece
mejor que los observadores humanos, los programas estadísticos pueden generar
agrupaciones de manera automática entre los datos recogidos, también hay
programas con cierta capacidad para diseñar experimentos y algunos sistemas
robóticos realizan las manipulaciones necesarias en cierto experimentos. Pero
ninguna computadora reúne aplicar nuevos problemas en este sentido las
computadoras no son capaces de descubrir. Sin embargo, el descubrimiento no
requiere realizar todas estas tareas simultáneas.
De igual modo que un investigador puede descubrir nuevo conocimiento a través
del análisis de sus datos, una computadora puede examinar datos disponibles o
recogidos por otras computadoras y encontrar relaciones y explicaciones
previamente desconocida, realizando así descubrimiento en un contenido más
restringido.
La capacidad de las computadoras para analizar búsquedas excautivas de forma
inalcanzable entre grandes cantidades de datos ofrece buenas expectativas para
obtener descubrimientos de forma automática.
Arquitectura del proceso del KDD
El proceso de extraer conocimiento a partir de grandes volúmenes de datos es un
tópico de investigación clave en los sistemas de base de datos y es una importante
área y una oportunidad para obtener mayores ganancias, se define como “el
proceso no trivial de identificación de patrones validas, novedosas, potencialmente
útiles y fundamentalmente entendible al usuario a partir de los datos”.
El descubrimiento de conocimiento en base de datos es básicamente el proceso
automático en el que se combina descubrimientos y análisis, consiste en extraer
patrones en forma de reglas o funciones, a partir de los datos para que el usuario
los analice esta tarea implica generalmente procesar los dato, hacer minería de
datos y presentar resultados. KDD se puede aplicar en diferentes dominios, por
ejemplo, para descubrir perfiles de cliente fraudulentos (evasión de impuesto), Para
descubrir relaciones implícitas existentes entre sintomas y enfermedades, entre
características técnicas y diagnóstico del estado de equipos y maquinas, para
determinar perfiles de estudiantes “académicamente exitoso” en términos de sus
características socioeconómicas y para determinar patrones de comprar de los
clientes en su canasta de mercado.
Etapas del proceso KDD
El proceso de KDD es interactivo e iterativo, involucra numerosos pasos con la
intervención del usuario en la toma de muchas decisiones.
Se resume en las siguientes etapas:
1. Entendimiento del dominio del negocio
La identificación de riesgo del negocio es directamente proporcional al
entendimiento del negocio, a mayor entendimiento mayor es la probabilidad
de identificar riegos de negocio. Cada vez que iniciamos un trabajo de
auditoria en nuestros clientes, en la fase de planeación de la auditoria,
debemos analizar los factores internos y externos que pueden afectar el
cumplimiento del objetivo del negocio. Dentro de ese análisis debemos
obtener un conocimiento sobre las actividades del negocio, del cliente, su
estructura organizacional, su ambiente interno, sus relaciones e
interacciones con su ambiente externo y los riesgos del negocio.

2. Identificación de los datos relevantes


Este proceso suele incluir como paso previo a la etapa de minería de datos
a partir de la cual se va a construir la vista minable (selección y construcción
de un subconjunto de datos que va a minar) que servirá de entrada de
proceso, se define como el proceso no trivial de, identificador, patrones
válidos, novedosos, potencialmente útiles y comprensibles a partir de los
datos. Las propiedades deseables del conocimiento extraídos son:
Valido: hace referencia a que los patrones deben seguir siendo
precisos para datos nuevos (con un cierto grado de incertidumbre).
Novedoso: qué aporte algo desconocido tanto para el sistema y
preferiblemente al usuario.
Utilidad: la información debe conducir a acciones que reporten algún
tipo de beneficio al usuario.
Comprensibles. La extracción de patrones no comprensibles dificulta
e imposibilita su interpretación, revisión, validación y uso de toma de
decisiones.

3. Limpieza de datos.
 Eliminación de ruido y datos aislado o datos atípicos.
 Uso del conocimiento previo para eliminar las inconsistencias y los
duplicados.
 Selección y uso de estrategia para manejar la información faltante de
data sets.

La data sets disponible en la actualidad usualmente están incompletos


(valores de atributos faltantes), tienen ruido (errores y datos aislados o
outsiders) o presentan inconsistencia (discrepancia en los datos
recolectados).
Estos datos sucios pueden confundir el proceso de minería y conducir a
resultados inválidos o pocos confiables.
El pre procesamiento y la limpieza tiene como objetivo mejorar la calidad de
los datos y los resultados de la minería.

4. Transformación de datos:
Los datos transformados a un formato apropiado para minería de datos.

5. Identificación de tarea de minería de datos:


Proceso esencial donde métodos inteligentes son aplicados para extraer
patrones de datos.

6. Evaluación:
Identificar los patrones interesantes representando conocimiento o medidas
de interés.

7. Representación del conocimiento:


Técnicas de visualización y presentación del conocimiento son usados para
presentar el conocimiento minado.
Arquitectura de minería de datos
Un repositorio es un deposito o archivo en un sitio centralizado donde se almacena,
organiza, mantiene y difunde información digital habitualmente base de datos o
archivos informático.
La minería de datos es un proceso que implica la iteración de varios componentes.
Puede tener acceso a orígenes de datos en una base de datos de SQL server,
Oracle, mysql, o cualquier otro origen de datos para la predicción.

INTERFAZ GRAFICA

EVALUACIÓN PATRONES
BASE DE
DATOS
ALGORITMOS DE M.D

SISTEMA DE B.D O DATA


WARE HOME

Filtrado
línea de datos
DATA
integración de datos B.D WARE
HOME

Servidores De Base De Datos:


También conocidos como RD relational data base.
Son programas que permiten organizar datos en uno o más tablas relacionadas.
Los servidores de base de datos se utilizan en una amplia variedad de aplicaciones.
Los servidores de base de datos surgen con la necesidad de las empresas de
manejar grandes y complejos volúmenes de datos, at tiempo que requiere compartir.
La información con un conjunto de clientes, que deben ser tanto aplicaciones como,
usuarios de una manera segura y debe proporcionar servicios de forma global. Y en
la medida posible independientemente de la plataforma.
Para base de datos con múltiples usuarios sirve un servidor de base de datos, las
bases de datos están situadas en un servidor y se puede acceder a ellas desde
terminales o equipos con un programa llamado cliente que permite el acceso a la
base o bases de datos. SGBD. De este tipo permiten que varios usuarios hagan
operaciones sobre ellas al mismo tiempo: sé pueden hacer consultas al mismo
tiempo que otro, situados en lugares diferentes.

Base De Datos De Conocimiento:


Una base de conocimiento es un repositorio de conocimiento sobre los datos que
le permiten comprender y mantener su integridad. Una base de conocimiento costa
de dominios en la cual se representan los datos de un campo de datos. DQS (Data
Quality Service) utiliza la base de conocimiento para realizar la limpieza de datos y
la eliminación de datos duplicado en la base de datos. Para preparar la base de
conocimiento para la limpieza de datos, puede ejecutar un análisis asistido por pc
de una muestra de datos, así como administrar de forma interactiva los valores de
los dominios. DQS le permite importar conocimiento, crear reglas y relaciones,
cambiar los valore de los datos directamente y utilizar una base de datos
predeterminada.

Proceso De Minería De Datos


Pasos que permiten un proceso de minería de datos:
1. Seleccionar el conjunto de datos:
Se trata de seleccionar la información relacionada con los variables objetivo
y las variables independientes como también el muestreo de los registros
disponibles.

2. Analizar las propiedades de los datos:


Con respecto al histograma, los diagramas de disposición, la presencia de
valores atípicos y la ausencia de datos.

3. Transformación de los datos de entrada:


Se realiza de diversas formas y en función de un análisis previo con la
intención de prepararlo para la aplicación de las técnicas de minería de datos,
que mejor se adapta a la información contenida. En realidad, se trata de un
procesamiento de datos.

4. La selección y la aplicación de las técnicas de minería de datos:


Es un proceso en donde se construye el modelo predictivo, de clasificación
o de segmentación
5. La extracción de conocimiento:
Se realiza mediante una técnica de minería de datos en donde se obtiene un
modelo de conocimiento que representa a las variables del comportamiento
que son observadas en las variables del problema o sobre las relaciones que
están asociadas a las mencionadas variables.

6. La interpretación y la evaluación de los datos:


Una vez que se ha obtenido el modelo se debe validar los datos en donde se
comprobara que los resultados se han válidos y satisfactorios. Al realizar todo
el proceso en la minería de datos se incluye que si el modelo final no supera
la evaluación del mismo se podría llegar a repetir desde el principio o en
cualquiera de los pasos cuantas veces sea necesario hasta lograr la
obtención de un modelo satisfactorio. Una vez encontrado el modelo si este
resulta aceptable ya estaría listo para su explotación, en donde se aplicará
en los sistemas de análisis de información de las organizaciones e inclusive
en los sistemas transaccionales de la empresa.

Aprendizaje Supervisado
El aprendizaje supervisado es una técnica para deducir una información o función
a partir de datos de entrenamiento. Los datos de entrenamiento consisten en pares
de objetos (vectores): un componente del par son los datos de entrada y el otro, los
resultados deseados. La salida de la función puede ser un valor numérico (como en
los problemas de regresión) o una etiqueta de clase (como en los de clasificación).
El objetivo del aprendizaje supervisado es en el de crear una función capaz de
predecir el valor correspondiente de cualquier objeto de entrada valida, después de
haber visto una serie de ejemplos, los datos de entrenamiento, para ello, tiene que
generalizar a partir de los datos presentados a las situaciones no vistas
previamente.

Las redes de entrenamiento supervisada han sido los modelos de redes más
desarrolladas desde inicio de estos diseños. Los datos para el entrenamiento están
construidos por varios padres de patrones de entrenamiento de entrada y salida. El
hecho de conocer la salida implica que el entrenamiento se beneficia la supervisión
del muestreo.
De este modo el aprendizaje se muestran los patrones a la red y la salida deseada
para estos patrones, se usa una fórmula matemática de minimización del error que
ajuste los paso para dar la salida más cercana posible a la salida deseada.
Aprendizaje No Supervisado
Es un método de aprendizaje automático done un modelo es ajustado a las
observaciones, se distingue de aprendizaje supervisado por el hecho de que no hay
conocimiento a priori. El aprendizaje no supervisado es un conjunto de objetos el
cual es tratado en su entrada si, el aprendizaje no supervisado típicamente trata los
objetos con un conjunto de variable aleatorio siendo construido un modelo de
densidad para un conjunto de datos, el aprendizaje no supervisado puede ser usado
en un conjunto con la inferencia bayesiana para producir probabilidades
condicionales (es decir aprendizaje supervisado) para cualquiera de las variables
aleatorias dadas. El aprendizaje no supervisado es la creación de un condigo
factorial de los datos, esto es un código de componentes estadísticamente de
independiente. El aprendizaje supervisado normalmente funciona mucho mejor
cuando los datos iniciales son primero traducidos en un código factorial.

El aprendizaje no supervisado también es útil para compresión de datos:


fundamentalmente, todos los algoritmos de compresión dependen tanto explicita
como implícitamente de una distribución de probabilidades sobre un conjunto de
entrada.
Otra forma de aprendizaje no supervisado es la agrupación (closterin), el cual a
veces no es probabilístico.

Análisis Predictivo
El análisis predictivo es un área de la minería de datos que consiste en la extracción
de información existente en los datos y su utilización para predecir tendencias y
patrones de comportamiento pudiendo aplicarse sobre cualquier evento
desconocido, ya sea en el pasado, presente, o futuro. El análisis predictivo se
fundamenta en la identificación, de relaciones entre variables en eventos pasados,
para explotar dichas relaciones y predecir posibles resultados en futuras
situaciones, hay que tener en cuenta que la precisión en los resultados obtenidos
dependa mucho de cómo se ha realizado el análisis de los datos, así como la calidad
de las suposiciones.

En un principio puede parecer que el análisis predictivo es lo mismo que hacer un


pronóstico, pero se trata de algo completamente distinto. Mientras que un pronóstico
pueda predecir cuantos helados se van a vender en el mes que viene, el análisis
predictivo puede indicar que individuo es más probable que se coman un helado.
Esta información, si se utiliza de forma correcta supone un cambio radical en el
juego, ya que permite orientar los esfuerzos para ser más productivos en la
consecución de los objetos.
Para llevar a cabo el análisis predictivo es indispensable disponer de una
considerable cantidad de datos, tanto actuales como pasados, para poder
establecer patrones de comportamiento y así inducir comportamiento. ejemplo, en
el caso comentado anterior acerca de quién es más probable que se coma un
helado, si se cruzan datos acerca de temperatura registrada, la época del año y si
es fin de semana o festivo se puede impedir que perfil de persona comerá helados.
Este proceso se realiza gracias al aprendizaje computacional los ordenadores
pueden aprender de manera autónoma y de esta forma desarrollar nuevo
conocimiento y capacidades, para ello basta con proporcionales el más potente y
gran recurso natural de la sociedad moderna.

Los datos
Los datos son la fuente de la que se obtiene las variables, las relaciones entre ellas,
el conocimiento incluido o los patrones de comportamiento identificados,
convirtiéndose en un elemento vital de todo análisis predictivo.
Con la generalización de la tecnología de la información a parecido una nueva
dimensión en la que contemplar a las personas. Si antes podían ser vista como
ciudadanos, contribuyentes o consumidores (entre otras visiones), las TI permite
contemplar a las personas como proveedores de datos.
Actos como conducir o caminar con un dispositivo capas de geo posicionar a su
usuario, pagar una tarjeta de crédito o ver una serie en línea, generan información
susceptible de ser explotada. Enviar correos electrónicos, interactuar en las redes
sociales o simplemente utilizar motores de búsqueda, también genera datos.
El concepto que engloba almacenamiento de grandes cantidades de datos y las
técnicas utilizadas para encontrar patrones repetitivos en los mismo es denominado
big data.
En resumen, puede afirmarse que todo evento que se registra se puede analizar
para encontrar patrones de comportamiento que puedan ser útiles para tomar unas
mejores decisiones en el futuro. Por ello una vez que se dispone de los datos, llega
el momento de inducir conocimiento. Para ello se emplea técnicas de aprendizaje
computacional.

APRENDIZAJE COMPUTACIONAL
El aprendizaje computacional es parte funcional y fundamental en el proceso de
análisis predictivo. El aprendizaje computacional proporciona las técnicas de
análisis de datos mediante las cuales se pueden descubrir relaciones ente variables
que en un principio pueden parecer insignificante, para que tras la aplicación de
estas técnicas pueda descubrirse la trascendencia de las misma.
Por ejemplo, un estudio realizado sobre los clientes de una compañía descubrió que
los hábitos de compra podrían influir en la fiabilidad de pago de un deudor. Si el
cliente suele pagar con tarjeta de crédito en bares supone un mayor riesgo de no
pago, mientras que si la utiliza para pagar el dentista su pone un menor riesgo. Una
posible explicación a este descubrimiento puede ser que la persona que visita al
dentista se considera que, sea más conservadora y lleve una vida más planificada.
Una vez que se han establecido correlaciones entre variables, entrar en juego la
labor del ser humano, que consiste en saber interpretar las mismas(variables) y
hacer las suposiciones apropiadas.

Você também pode gostar