Você está na página 1de 30

MINERIA DE DATOS

Ricardo Cesar Manrique Jaeger


Sebastian Mazeyra Zuiga

MINERIA DE DATOS = EXPLORACION DE DATOS

Minera de datos es la
exploracin y anlisis de
grandes cantidades de datos
con el objeto de encontrar
patrones y reglas
significativas (conocimiento)

Originalmente iba a ser


llamado simplemente "la
mquina de aprendizaje
prctico", y el trmino
"minera de datos" se aadi
por razones de marketing

La minera de datos o exploracin de


datos es la etapa de anlisis de
"Knowledge Discovery in Databases" o KDD
es un campo de las ciencias de la
computacin referido al proceso que
intenta descubrir patrones en grandes
volmenes de conjuntos de datos.
Utiliza los mtodos de la inteligencia
artificial, aprendizaje automtico,
estadstica y sistemas de bases de datos.

OBJETIVO
Extraer informacin de un conjunto de
datos y transformarla en una estructura
comprensible para su uso posterior
Anlisis automtico o semi-automtico de
grandes cantidades de datos para extraer
patrones interesantes hasta ahora
desconocidos, como los grupos de
registros de datos (anlisis clster),
registros poco usuales (la deteccin de
anomalas) y dependencias (minera por
reglas de asociacin)

MINERIA DE DATOS

El anlisis e interpretacin manual de los datos se torna imprctico


(lento, caro y subjetivo) en la medida que los volmenes de datos
crecen exponencialmente

KDDsenutredediferentesdisciplinas:
Estadstica.
Sistemasdeinformacin/basesdedatos.
Aprendizajeautomtico/InteligenciaArtificial.
Visualizacindedatos.
Computacinparalela/distribuida.
Interfacesdelenguajenaturalabasesdedatos.

Data Mining : confluencia de mltiples


disciplinas
Visualizacin

Estadstic
a

Data Mining

Sistemas de
informacin

Aprendizaj
e
automtic
o

Otras
disciplinas

KDD Knowledge Discovery from Databases


Proceso de KDD
Datos
iniciales

Almacn de
Datos
(Data
Warehouse)

Integracin y
recopilacin

Datos
seleccionado
s

Seleccin,
limpieza y
transformacin

DATA MINING

Patrone
s

Evaluacin e
interpretacin

Conocimient
o

HERRAMIENTAS TRADICIONALES VS MINERIA DE DATOS


El analista empieza con una
pregunta, una suposicin o
simplemente una intuicin y
explora los datos y
construye un modelo. El
analista propone el modelo

Aunque el analista no pierde la


posibilidad de proponer
modelos, el sistema
encuentra y sugiere modelos.

Ventajas:
Generar un modelo requiere menos esfuerzo manual y permite
evaluar cantidades ingentes de datos.
Se pueden evaluar muchos modelos generados automticamente,
y esto aumenta la probabilidad de encontrar un buen modelo.
El analista necesita menos formacin sobre construccin de
modelos y menos experiencia.

Un resultado adecuado por mineria de datos tiene las


siguientes caracteristica

Es comprensible (por seres humanos)

Es vlido con cierto grado de certeza

Es potencialmente til

Es novedoso o sirve para validar una hiptesis

Tipos de aplicaciones de la
minera de datos

Aplicaciones o problemas de minera de datos pueden


clasificarse en las siguientes categoras

Clasificacin

Estimacin

Pronstico

Asociacin

Agrupacin o segmentacin

Clasificacin

Examinar las caractersticas de un nuevo objeto y


asignarle una clase o categora de acuerdo a un
conjunto de tales objetos previamente definido

Ejemplos:

Clasificar aplicaciones a crdito como bajo, medio y alto


riesgo

Detectar reclamos fraudulentos de seguros

Estimacin

Relacionado con clasificacin

Mientras clasificacin asigna un valor discreto, estimacin


produce un valor continuo

Ejemplos:

Estimar el precio de una vivienda

Estimar el ingreso total de una familia

Pronstico

Predecir un valor futuro con base a valores pasados

Ejemplos:

Predecir cunto efectivo requerir un cajero automtico


en un fin de semana

Asociacin

Determinar cosas u objetos que van juntos

Ejemplo:

Determinar que productos se adquieren conjuntamente en


un supermercado

Agrupacin o segmentacin

Dividir una poblacin en un nmero de grupos ms


homogneos

No depende de clases pre-definidas a diferencia de


clasificacin

Ejemplo:

Dividir la base de clientes de acuerdo con los hbitos de


consumo

Proceso de data mining

Un proceso tpico de minera de datos tiene los siguientes


pasos:

1.

2.

Seleccin del conjunto de datos:

Variables objetivo: variables que quiero predecir.

Variables independientes: variables que sirven para hacer el


calculo.

Anlisis de las propiedades de los datos:

Histogramas

Diagramas de dispersin

Valores atpicos

etc.

3.

Transformacin del conjunto de datos de entrada:

4.

Seleccionar y aplicar la tcnica de minera de datos:

5.

Se construye un modelo predictivo.

Extraccin de conocimiento:

6.

Pre procesamiento de los datos (prepara los datos para aplicar la tcnica de data
mining que mejor se adapte).

Usando el modelo predictivo se obtiene los valores de las variables, observando los
patrones de comportamiento.

Interpretacin y evaluacin de datos:

Se debe comprobar que las conclusiones que arrojan los modelos predictivos sean
validas y suficientemente satisfactorias.

En el caso de no ser as debe encontrarse otro modelo que si cumpla utilizando


otra tcnica de data mining.

Tcnicas del data mining

Estas tcnicas provienen de la inteligencia artificial y de la


estadstica, y no son mas que algoritmos sofisticados que se
aplican a un conjunto de datos para obtener los resultados.

Las tcnicas mas representativas son:

Redes neuronales

Regresin lineal

Arboles de decisin

Modelos estadsticos

Agrupamiento

Reglas de asociacin

Red neuronal artificial

La redes neuronales artificiales son un paradigma de aprendizaje y


procesamiento automtico inspirado en la forma como funciona el
sistema nervioso de los animales.

Se trata de un sistema de interconexin de neuronas que


colaboran entre si para producir un estimulo de salida.

Regresin lineal

En estadstica la regresin lineal es un mtodo


matemtico que modela la relacin entre una
variable dependiente y las variables
independientes.

Arboles de decisin

Es un modelo de prediccin, basado en diagramas


de construcciones lgicas que sirven para
representar y categorizar una serie de condiciones
que ocurren de forma sucesiva .

Modelos estadsticos

Un modelo estadstico es una expresin simblica


en forma de igualdad que se emplea en todos los
diseos experimentales para indicar los diferentes
factores que modifican la variable de respuesta.

Agrupamiento

Un algoritmo de agrupamiento es un procedimiento


de agrupacin de una serie de vectores de acuerdo a
un criterio.

Estos criterios por lo general son distancia o


similitud.

El conocimiento de este grupo de vectores nos


permite una descripcin sinttica de un conjunto de
datos multidimensional complejo.

Reglas de asociacin

Las reglas de asociacin se utilizan para descubrir


hechos que ocurren en comn dentro de un
determinado conjunto de datos.

(cebollas, vegetales) (carne)

Esta regla encontrada en un supermercado indica que un consumidor


que compra cebollas y vegetales, es probable que compre tambin
carne.

Conceptos clave

Paradigma: un paradigma de programacin es una


propuesta tecnolgica que es adoptada por una
comunidad de programadores que trata de
resolver uno o varios problemas claramente
delimitados.

Vector: en programacin, es una zona de


almacenamiento continuo, que contiene una serie
de elementos del mismo tipo (varios datos del
mismo tipo).

Você também pode gostar