Você está na página 1de 30

PART I.

Teoría (40 puntos)

Responda las siguientes preguntas:

1. Identifique tres casos de éxito reales de áreas de aplicación y los problemas que
se han resuelto con Minería de Datos. Indique empresa, problema a resolver,
software, modelo o algoritmo, problema, resultados obtenidos, etc. (10 puntos).

A) Hospital Universitario de San Juan de Alicante

Objetivo: Reducción de costes al permitir un óptimo consumo de recursos.

Problema planteado: Las pruebas preparatorias que se llevan a cabo antes de


cualquier intervención suelen ser excesivas, invasivas, caras y generan listas
de espera para la intervención.

Solución: Analizando los datos del histórico de operaciones y aplicando


técnicas de Minería de Datos se descubren aquellos casos en que dichas
pruebas son prescindibles. El sistema de calidad proporciona información
detallada del resultado de la operación, de forma que aquellos casos en los
que no se han realizado las pruebas y sí hubiesen sido necesarias permiten al
sistema seguir aprendiendo y mejorar la identificación de los patrones
adecuados.

B) Portal B2B Neumáticos Soledad

Objetivo: Aumentar las ventas a través del portal.

Problema planteado: Cómo modificar el portal de compra online que usan los
talleres asociados para aumentar las ventas por este canal.

Solución: Extraer patrones de comportamiento de los usuarios sobre el motor


de búsquedas del portal, analizando aquellas búsquedas que terminan en
pedido y las que no.

C) Goldcar

Objetivo: Reducción de gastos anticipándose a problemas derivados de la


demanda.

Problema planteado: Las reservas a través de su portal online que no terminan


en alquiler generan grandes gastos. Como no se requiere pago previo para
realizar una reserva, muchos usuarios no se presentar a recoger el coche
reservado. Esto genera grandes gastos por los coches que quedan esperando
a esos usuarios que nunca llegan.

Solución: Por medio del análisis de los datos de las reservan se identifican
perfiles concretos que terminan en casos de reservas canceladas o clientes no
presentados, en función de la la procedencia, la temporada, antelación y otros
factores clave.
2. Explique 5 técnicas de minería de datos y en qué casos prácticos se puede aplicar
cada una de ellas (10 puntos).

Las técnicas de la minería de datos provienen de la inteligencia artificial y de la


estadística, dichas técnicas, no son más que algoritmos, más o menos sofisticados
que se aplican sobre un conjunto de datos para obtener unos resultados.

Las técnicas más representativas son:

A) Redes neuronales: Son un paradigma de aprendizaje y procesamiento


automático inspirado en la forma en que funciona el sistema nervioso de los
animales. Se trata de un sistema de interconexión de neuronas en una red que
colabora para producir un estímulo de salida. Algunos ejemplos de red
neuronal son:

A) Perceptron
Es un modelo concebido como un sistema capaz de realizar tareas de
clasificación de forma automática, a partir de un conjunto de ejemplo con
clases diferentes.

B) Perceptrón multicapa

Es una red neuronal artificial (RNA) formada por múltiples capas, de tal
manera que tiene capacidad para resolver problemas que no son
linealmente separables, lo cual es la principal limitación del perceptrón
(también llamado perceptrón simple). El perceptrón multicapa puede estar
totalmente o localmente conectado. En el primer caso cada salida de una
neurona de la capa "i" es entrada de todas las neuronas de la capa "i+1",
mientras que en el segundo cada neurona de la capa "i" es entrada de una
serie de neuronas (región) de la capa "i+1".

C) Mapa autoorganizado

Un mapa auto-organizado (SOM por sus siglas en inglés) o un mapa auto-


organizado de características (SOFM por sus siglas en inglés) es un tipo de
red neuronal artificial (ANN por sus siglas en inglés), que es entrenada
usando aprendizaje no supervisado para producir una representación
discreta del espacio de las muestras de entrada, llamado mapa. Los mapas
auto-organizados son diferentes de otras redes neuronales artificiales, en
el sentido que estos usan una función de vecindad para preservar las
propiedades topológicas del espacio de entrada.

B) Regresión lineal
Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero
insuficiente en espacios multidimensionales donde puedan relacionarse más
de 2 variables.

C) Árboles de decisión

Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la


inteligencia artificial y el análisis predictivo, dada una base de datos se
construyen estos diagramas de construcciones lógicas, muy similares a los
sistemas de predicción basados en reglas, que sirven para representar y
categorizar una serie de condiciones que suceden de forma sucesiva, para la
resolución de un problema. Ejemplos:

A) Algoritmo ID3

El algoritmo ID3 es utilizado dentro del ámbito de la inteligencia artificial. Su


uso se engloba en la búsqueda de hipótesis o reglas en él, dado un
conjunto de ejemplos.

El conjunto de ejemplos deberá estar conformado por una serie de tuplas


de valores, cada uno de ellos denominados atributos, en el que uno de
ellos, ( el atributo a clasificar ) es el objetivo, el cual es de tipo binario (
positivo o negativo, sí o no, válido o inválido, etc. ).

De esta forma el algoritmo trata de obtener las hipótesis que clasifiquen


ante nuevas instancias, si dicho ejemplo va a ser positivo o negativo.

ID3 realiza esta labor mediante la construcción de un árbol de decisión.

Los elementos son:

 Nodos: Los cuales contendrán atributos.


 Arcos: Los cuales contienen valores posibles del nodo padre.
 Hojas: Nodos que clasifican el ejemplo como positivo o negativo.

B) Algoritmo C4.5

C4.5 es un algoritmo usado para generar un árbol de decision desarrollado


por Ross Quinlan.

C4.5 es una extensión del algoritmo ID3 desarrollado anteriormente por


Quinlan. Los árboles de decisión generados por C4.5 pueden ser usados
para clasificación, y por esta razón, C4.5 está casi siempre referido como
un clasificador estadístico.

D) Modelos estadísticos

Es una expresión simbólica en forma de igualdad o ecuación que se emplea en


todos los diseños experimentales y en la regresión para indicar los diferentes
factores que modifican la variable de respuesta.

E) Agrupamiento o Clustering

Es un procedimiento de agrupación de una serie de vectores según criterios


habitualmente de distancia; se tratará de disponer los vectores de entrada de
forma que estén más cercanos aquellos que tengan características comunes.
Ejemplos:

A) Algoritmo K-means
K-means (medias) es un método de agrupamiento, que tiene como objetivo
la partición de un conjunto de n observaciones en k grupos en el que cada
observación pertenece al grupo cuyo valor medio es más cercano. Es un
método utilizado en minería de datos.

La agrupación del conjunto de datos puede ilustrarse en una partición del


espacio de datos en celdas de Voronoi.

El problema es computacionalmente difícil (NP-hard). Sin embargo, hay


eficientes heurísticas que se emplean comúnmente y convergen
rápidamente a un óptimo local. Estos suelen ser similares a los algoritmos
expectation-maximization de mezclas de distribuciones gausianas por
medio de un enfoque de refinamiento iterativo empleado por ambos
algoritmos. Además, los dos algoritmos usan los centros que los grupos
utilizan para modelar los datos, sin embargo k-medias tiende a encontrar
grupos de extensión espacial comparable, mientras que el mecanismo
expectation-maximization permite que los grupos tengan formas diferentes.

B) Algoritmo K-medoids

k-medoids es un algoritmo de agrupamiento (del inglés clustering)


relacionado con los algoritmos k-means y medoidshift.
Tanto el k-medoids como el k-means son algoritmos que trabajan con
particiones (dividiendo el conjunto de datos en grupos) y ambos intentan
minimizar la distancia entre puntos que se añadirían a un grupo y otro
punto designado como el centro de ese grupo. En contraste con el
algoritmo k-means, k-medoids escoge datapoints como centros y trabaja
con una métrica arbitraria de distancias entre datapoints en vez de usar la
norma l2. En 1987 se propuso este método para el trabajo con la norma l1 y
otras distancias.
K-medoid es una técnica clásica de particionado de grupos que divide los
datos conformados por n objetos en k grupos (con k conocido de
antemano).

Es más robusto ante el ruido y a partes aisladas que k-means porque


minimiza una suma de disimilaridades (entre pares de puntos) en vez de
una suma de distancias euclidianas cuadradas.

3. Explique la importancia del proceso KDD y sus principales etapas en el uso de


minería de datos (10 puntos).

etapas en el proceso:

A) Selección de datos:
Consiste en buscar el objetivo y las herramientas del proceso de minería,
identificando los datos que han ser extraídos, buscando los atributos
apropiados de entrada y la información de salida para representar la tarea.
Esto quiere decir, primero se debe tener en cuenta lo que se saber lo que se
quiere obtener y cuáles son los datos que nos facilitarán esa información para
poder llegar a nuestra meta, antes de comenzar el proceso en tal.

B) Limpieza de datos.

En este paso se limpian los datos sucios, incluyendo los datos incompletos
(donde hay atributos o valores de atributos perdidos), el ruido (valores
incorrectos o inesperados) y datos inconsistentes (conteniendo valores y
atributos con nombres diferentes). Los datos sucios en algunos casos deben
ser eliminados ya que pueden contribuir a un análisis inexacto y resultados
incorrectos.

C) Integración de datos

Combina datos de múltiples procedencias incluyendo múltiples bases de datos,


que podrían tener diferentes contenidos y formatos.

D) Transformación de datos

Consisten principalmente en modificaciones sintácticas llevadas a cabo sobre


datos sin que supongan un cambio para la técnica de minería aplicada. Las
transformaciones discretas de los datos[HLT99] tienen la ventaja de que
mejoran la comprensión de las reglas descubiertasal transformar los datos de
bajo nivel en datos de alto nivel y también reduceSignificativamente el tiempo
de ejecución del algoritmo de búsqueda. Su principal Desventaja es que se
puede reducir la exactitud del conocimiento descubierto, debido a que puede
causar la perdida de alguna información. Existen diferentes métodos de
transformación de variables continuas a discretas que se pueden agrupar
según distintas aproximaciones: métodos locales (realizan la transformación
discreta en una región del espacio de las instancias, por ejemplo, utilizando un
subconjunto de las instancias), métodos globales (utilizan el espacio de las
instancias), métodos supervisados (utilizan la información de la clave (valor del
atributo objetivo).

E) Reducción de datos.

Reducir el tamaño de los datos, encontrando las características más


significativas dependiendo del objetivo del proceso.

Se pueden utilizar métodos de transformación para reducir el número efectivo


de variables a ser consideradas, o para encontrar otras representaciones de
los datos.

I) Reducción de dimensiones (la extracción irrelevante y débil de


atributo), compresión de datos (reemplazando valores de datos con
datos alternativos codificados)
II) Reducción de tamaño (reemplazando valores de datos con
representación alternativa más pequeña)

III) Una generalización de datos (reemplazando valores de datos de


niveles conceptuales bajos con niveles conceptuales más altos), etc.

F) Minería de Datos.

Consiste en la búsqueda de los patrones de interés que pueden expresarse como


un modelo o simplemente que expresen dependencia de los datos.

Se tiene que especificar un criterio de preferencia para seleccionar un modelo de


un conjunto de posibles modelos. También se tiene que especificar la estrategia
de búsqueda a utilizar (normalmente está determinado en el algoritmo de minería).

G) Evaluación de los patrones

Se identifican verdaderamente patrones interesantes que representan


conocimiento usando diferentes técnicas incluyendo análisis estadísticos y
lenguajes de consultas.

H) Interpretación de resultados

Consiste en entender los resultados del análisis y sus implicaciones y puede llevar
a regresar a algunos de los pasos anteriores.

4. Desarrolle un cuadro comparativo con 5 ventajas y 5 desventajas de cuatro


herramientas de software de minería de datos. Señale para cada herramienta
información de fabricante, sitio web, sistema operativo, precio licencia, etc. (10
puntos).

Sitio Web Sistemas Operativos Precio


Licencia
http://www.ailab.si/orange Libre
PARTE II. Aplicación práctica (60 puntos)

Usted es un empleado de Adventure Works Cycles a quien se le ha asignado la tarea de


aprender más sobre los clientes de la compañía basándose en compras históricas y luego
usar esos datos históricos para hacer predicciones que se pueden usar en marketing. La
compañía nunca ha hecho minería de datos antes, por lo que debe crear un nuevo
proyecto de datos específicamente para la minería de datos y configurar varios modelos
de minería de datos. Para ello, usted deberá:

a) Crear un proyecto multidimensional y de minería de datos usando el


datawarehouse AdventureWorks seleccionando dos modelos de minería de datos
diferentes y distintos al de árbol de decisión visto en clases (20 ptos)
Pacifico es el área que no ha tenido mucho éxito en estas mediciones vs sus contrapartes
de america y europa que los cálculos son buenos

b) Proponga una recomendación, para la campaña de marketing a implementar, en


base a los resultados obtenidos a la empresa (10 ptos)

Crear opciones de pago y garantías buenas para el mercado del pacifico y atraer
clientes con publicidades atractivas

c) Entregue un informe del procedimiento que se siguió explicando cada paso (5


ptos) y el código fuente del proyecto generado (5 ptos).

Parte 1 DM.rar

Una vez iniciado el programa se selecciona file > new > Project

Se selecciona el analysis services multidimentional y se cambia el nombre a


lesson 2
Na vez creado hacemos la conexión al servidor

Hacemos la conexión al servidor


Conectamos al servidor si es local se pone el nombre si es externo se pone la ip
del servidor
Se hace la prueba de conexion

Se selecciona el servidor de datos


Ingresamos usuario y contraseña

Confirmamos y salimos
Ahora hacemos una data source view

Se abre el asistente

Seleccionamos el servidor
Seleccionamos la tabla vTimes

Cambiamos el nombre de AdventureWorks 2014 a SalesByRegion


Abrimos salesbyregion Hacemos click en explore data
Dejamos en lo que sale en pantalla y salimos
Aca le hacemos en logical primary key
Y Iniciamos la minería de datos

Abrimos el asistente
Mantenemos seleccionado from existing relational database or data warehosuse

Seleccionamos Microsoft time series


Dejamos como esta

Aca también dejamos como esta

Y le damos en finish
Arrastramos amounth hacia columns
Amounth Ignore a Predict

Después configuramos los algoritmos


Periodicity_hint {12}

Dejamos como esta


Dejamos como esta

Mean
Le damo start

Se debe compilar
Les damos run

Vemos los resultados


Le decimos que si

También en si
Esperamos

Resultados completos

b) Analizar e interpretar cada uno los resultados para cada uno dos modelos de minería
de datos (20 ptos).
Lección 2: Crear un escenario de pronóstico (minería de datos intermedia)
Puede leer la primera lección básica en la página 1 (página 40) (usar el Árbol de decisiones)
para aprender
lo básico y usar esta herramienta de datos del Servicio de análisis para crear un nuevo
proyecto de minería
de datos de la siguiente manera.
1. Siga la Lección básica 1 - 3 en la página 1 - 40 en el tutorial (el enlace de arriba) para
aprender el
Modelo de minería y obtener los resultados para ver las predicciones - Opcional (si puede
hacer la
Lección Intermedia 2 en la página 47 - página 66 directamente sin la lección básica 1-3)
2. Complete la Lección 2 en la página 47 - página 66 y obtenga el resultado para la predicción.

Requerido
3. Active la salida (Capturas de pantalla) del resultado de su proyecto que creó a partir de la
Lección en
el Tutorial.
Para obtener más información sobre MS Data Mining y Data Mining

Abrir Aquí

Pasos Parte
2-2.docx

Você também pode gostar