Escolar Documentos
Profissional Documentos
Cultura Documentos
MDULO
ALGORITMOS DE MINERIA DE DATOS CON MICROSOFT SQL
SERVER
AUTOR
MBA. PERSI WILLIANSH CABRERA ANTN ING.
PIURA - PER
ABRIL - 2013
INDICE
PG.
INTRODUCCIN
04
I.
ASPECTOS GENERALES
06
06
08
09
10
14
16
19
20
20
II.
24
24
25
27
27
29
30
III.
32
39
40
40
42
44
46
IV.
47
47
48
53
56
V.
VI.
67
67
BIBLIOGRAFIA
71
INTRODUCCIN
I.
ASPECTOS GENERALES
Discreto
El tipo de contenido discreto indica que la columna contiene un nmero
finito de valores no continuos. Por ejemplo, una columna de estado civil
es una columna de atributos discreta muy habitual, en la que los datos
representan un nmero especfico de categoras.
Los valores de una columna de atributos discreta no pueden implicar la
ordenacin, aun cuando los valores sean numricos. Adems, aunque
los valores utilizados para la columna discreta sean numricos, no se
Continuo
Continuo indica que la columna contiene valores que representan datos
numricos en una escala que permite valores intermedios. A diferencia
de una columna discreta, que representa datos numerables y finitos,
una columna continua representa medidas escalables; adems, es
posible que los datos contengan un nmero infinito de valores
fraccionarios. Una columna de precios de artculos es un ejemplo de
una columna de atributos continua.
Discretized
La discretizacin es el proceso mediante el cual los valores de un
conjunto de datos continuo se incluyen en grupos o depsitos para que
haya un nmero limitado de valores posibles. Solo se pueden
discretizar los datos numricos.
Por tanto, el tipo de contenido discretized indica que la columna
contiene valores que representan grupos o depsitos de valores que se
derivan de una columna continua. Los depsitos se tratan como si
fueran valores ordenados y discretos.
Se pueden discretizar los datos manualmente, para asegurarse de que
se obtienen los depsitos deseados, o se pueden utilizar los mtodos
de
discretizacin
proporcionados
en
SQL
Server
Analysis
Services. Algunos
algoritmos
realizan
la
discretizacin
automticamente.
Clave
El tipo de contenido clave indica que la columna identifica una fila de
forma inequvoca. Normalmente, en una tabla de casos, la columna de
clave es un identificador numrico o de texto. Establezca el tipo de
contenido en key para indicar que la columna no debe utilizarse para el
anlisis, sino para realizar el seguimiento de los registros.
Las tablas anidadas tambin tienen claves, pero el uso de la clave de
tabla anidada es ligeramente diferente. En una tabla anidada debe
establecer el tipo de contenido en key si la columna es el atributo que
desea analizar. Los valores de la clave de tabla anidada deben ser
nicos para cada caso, pero puede haber duplicados en todo el
conjunto de casos.
Por ejemplo, si est analizando los productos que compran los clientes,
debe
establecer
el
tipo
de
contenido
en
Key
para
la
Secuencia de Claves
El tipo de contenido secuencia de claves solamente se puede utilizar en
modelos de agrupacin en clsteres de secuencia. Cuando se
establece el tipo de contenido en key sequence, se indica que la
columna
contiene
valores
que
representan
una
secuencia de
Clave Temporal
El tipo de contenido clave temporal solamente se puede utilizar en
modelos de serie temporal. Cuando se establece el tipo de contenido
en key time, se indica que los valores estn ordenados y que
representan una escala de tiempo.
Tabla
El tipo de contenido tabla indica que la columna contiene otra tabla de
datos, con una o ms columnas y una o ms filas. Para cualquier fila
concreta de la tabla de casos, esta columna puede contener varios
valores, todos ellos relacionados con el registro del caso primario. Por
ejemplo, si la tabla de casos principal contiene una lista de clientes,
podra tener varias columnas con tablas anidadas, como una
columna ProductosComprados, donde la tabla anidada muestre una
lista de los productos que este cliente ha comprado en el pasado, y una
columna Aficiones que muestre las aficiones del cliente.
Cclico
El tipo de contenido cclico indica que la columna contiene valores que
representan un conjunto ordenado cclico. Por ejemplo, los meses
numerados del ao es un conjunto ordenado cclico, ya que el mes
nmero uno sigue al mes nmero doce.
Ordenado
El tipo de contenido ordenado indica tambin que la columna contiene
valores que definen una secuencia u orden. Sin embargo, en este tipo
de contenido los valores utilizados para la ordenacin no implican
ninguna relacin de distancia o magnitud entre los valores del
conjunto. Por ejemplo, si una columna de atributos ordenados contiene
informacin acerca de una lista de niveles de especializacin que vayan
del uno al cinco, no existe informacin implcita entre los niveles de
especializacin; un nivel cinco de especializacin no es necesariamente
cinco veces mejor que un nivel uno de especializacin.
Funcin de
prediccin
IsDescendant (DMX)
IsInNode (DMX)
PredictHistogram
(DMX)
PredictNodeId (DMX)
PredictStdev (DMX)
PredictSupport (DMX)
PredictVariance (DMX)
Uso
Determina si un nodo es un elemento secundario de otro nodo
del modelo.
Indica si el nodo especificado contiene el caso actual.
Devuelve un valor o un conjunto de valores predichos para una
columna especificada.
Devuelve el Node_ID de cada caso.
Devuelve la desviacin estndar del valor predicho.
Devuelve el valor de soporte de un estado especificado.
Devuelve la varianza de una columna especificada.
Predict (DMX)
PredictAssociation (DMX)
PredictHistogram (DMX)
PredictAdjustedProbability
(DMX)
II.
IsDescendant (DMX)
PredictProbability (DMX)
PredictNodeId (DMX)
PredictSupport (DMX)
Grfico 01
Grfico del Modelo de Minera de Datos - Regresin Lineal
obtener
la
ecuacin
de
regresin
modelo,
pero
deben
ser
tipos
de
datos
numricos
Columnas
de
entrada: Deben
contener
datos
numricos
Tipos de contenido
Atributo de entrada
Atributo de prediccin
Grfico 02
Modelo de Regresin Lineal - Nodo - Frmula de Regresin
Nodo All
Visor de rboles
de Micorsoft
Frmula de
Regresin Lineal
Puede utilizar la regresin lineal para determinar una relacin entre dos
columnas continuas. Por ejemplo, puede utilizar la regresin lineal para
calcular una lnea de tendencias en los datos de Crditos de Consumo
en Moneda Nacional en funcin al Nmero de Deudores que tienen un
Crdito. Tambin podra utilizar la regresin lineal como precursor para
entrada
y a y b son
coeficientes
ajustables. Puede
recuperar
los
ATTRIBUTE_NAME
Nodo raz: en blanco
Nodo de regresin: el nombre del atributo de prediccin.
Identificador del
Tipo
Descripcin
de regresin
tipo de nodo
25
y la de salida.
CHILDREN_CARDINALITY: Clculo
del
nmero
de
elementos
VALUETYPE
1 (ausente)
3 (continuo)
7 (coeficiente)
8 (ganancia de puntuacin)
9 (estadsticas)
11 (interseccin)
proporcionan
los
detalles
sobre
la
frmula
para
Grfico 03
Tabla del Nodo de Distribucin
Coeficiente
Para cada regresor se calcula un coeficiente (VALUETYPE = 7). El
propio coeficiente aparece en la columna ATTRIBUTE_VALUE,
mientras que la columna VARIANCE indica la varianza para el
coeficiente. Los coeficientes se calculan con una linealidad mxima.
Ganancia de puntuacin
La ganancia de puntuacin (VALUETYPE = 8) de cada regresor
representa la puntuacin de grado de inters del atributo. Puede utilizar
este valor para calcular la utilidad de varios regresores.
Estadsticas
La estadstica de regresores (VALUETYPE = 9) es la media del atributo
para los casos que tienen un valor. La columna ATTRIBUTE_VALUE
contiene la propia media, mientras que la columna VARIANCE contiene
la suma de desviaciones de la media.
Interseccin
Normalmente, la interseccin (VALUETYPE = 11) o valor residual en
una ecuacin de regresin indica el valor del atributo de prediccin, en
el punto del atributo de entrada, es 0. En muchos casos, esto podra no
suceder y se podran producir resultados poco intuitivos.
Por ejemplo, en el modelo que prediga el monto de los Crditos de
Consumo en Moneda Nacional segn el Nmero de Deudores, es intil
obtener informacin sobre los montos con 0 Deudores. En la vida real,
suele ser ms til saber el comportamiento en el margen con respecto a
los valores medios. Por consiguiente, SQL Server Analysis Services
modifica la interseccin para expresar cada regresor en una relacin
con la media.
Este ajuste es difcil de ver en el contenido del modelo de minera de
datos, pero es obvio si se ve la ecuacin completada en la Leyenda de
minera de datos del Visor de rboles de Microsoft. La frmula de
regresin se desva del punto 0 al punto que representa la media. Esto
presenta una vista que es ms intuitiva dados los datos actuales.
Por consiguiente, suponiendo que el Nmero de Deudores medios est
alrededor de 373125.45 deudores de un crdito, la interseccin
los
realizar
del
modelo
de
regresin
lineal
(Ver
almacenados
Grfico
en
una
03). Cada
fila
variable
independiente
coeficiente
de
la
estn
tabla
Grfico 04
Consulta - Devolver el Coeficiente del Modelo
Grfico 05
Consulta DMX y su Resultado
Grfico 07
Consulta DMX - Funcin para Predecir la Desviacin Estndar
Grfico 08
Consulta DMX - Funcin Histograma
III.
Realizar Predicciones
Una vez entrenado el modelo, los resultados se almacenan como un
conjunto de patrones que se puede explorar o utilizar para realizar
predicciones.
Grfico 09
Visor Bayes Naive - Distribucin de los Estados Entrada y Prediccin
Columna s
de Entrada
Estados de las
Columnas de
Entrada
Grfico 10
Visor Bayes Naive - Red de Dependencias
relacionadas,
el
efecto
sera
multiplicar
la
que
representan
los
atributos
de
prediccin
10)
puede
tener
varios
nodos
secundarios
Grfico 11
Estructura de un Modelo Bayes Naive
obtener
el
estado,
use
MSOLAP_NODE_SHORT_CAPTION.
9 (atributo de prediccin)
10 (atributo de entrada)
Descripcin
Contiene estadsticas que describen el
conjunto completo de casos de
entrenamiento para el modelo.
Contiene el nombre del atributo de
prediccin.
Contiene el nombre de una columna de
atributos de entrada, as como nodos
secundarios que contienen los valores
para el atributo.
Contiene los valores o los valores de
datos discretos de todos los atributos de
entrada que se emparejaron con un
atributo de salida determinado.
marginales:
por
definicin,
no
tiene
elementos
NODE_DISTRIBUTION:
Tabla
que
contiene
el
histograma
de
MSOLAP_MODEL_COLUMN:
Etiqueta
que
se
usa
para
la
Tipo de nodo
Raz del modelo (1)
Grfico 13
Estados de los Atributos de Entrada
Tipo de nodo
En blanco.
Nodo de estadsticas
marginales (24)
En blanco.
Estado de atributo de
entrada (11)
Grfico 14
SELECT FLATTENED
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT],
[PROBABILITY], VALUETYPE FROM NODE_DISTRIBUTION) as t
FROM M_BAYESNAIVE.content
WHERE NODE_TYPE = 11
distinguir
entre
"missing"
como
cadena
el
Grfico 15
Metadatos del Modelo usando DMX
calculada,
(VALUETYPE = 1).
ajustados
para
los
valores
que
faltan
Grfico 16
Consulta Resumen de los Datos de Entrenamiento - Usando DMX
Grfico 17
Informacin del Atributo de Entrada Desc Tipo Trab - Usando DMX
Grfico 18
Puntuaciones de Importancia de los Atributos del Modelo
Grfico 19
Procedimiento Almacenado - Caractersticas del Atributo de
Prediccin Centro de Costo
utiliza
el
NODE_UNIQUE_NAME.
nombre
del
modelo
creado
el
Grfico 20
Histograma - Estados y Soporte por Estado para el Atributo de
Prediccin Centro de Costo
El
procedimiento
almacenado
GetAttributeDiscrimination('M_BayesNaive',
PROCESO
LOGISTICO',1,'GASTOS
CALL
'100000000',
PROCESO
'GASTOS
CONTABLE',1,
Grfico 21
Discriminacin de dos Estados del Atributo Prediccin Centro de
Costo
Consulta de ejemplo 5:
La consulta siguiente utiliza una consulta singleton para proporcionar un
nuevo valor y predecir, segn el modelo, donde es probable que un
nuevo trabajador con las caractersticas de estado civil casado y tipo de
trabajador obrero estable sea ubicado en un centro de costo de la
empresa de la empresa.
La
respuesta
sta
consulta
es:
Mantenimiento
Equipo
Grfico 22
Consulta de Prediccin DMX
IV.
BIBLIOGRAFIA
6.1 Csar Prez Lpez, Daniel Santn Gonzlez. Minera de Datos:
Tcnicas y Herramientas. Paraninfo. 1 Edicin. 2008.
6.2 Jos Hernndez Orallo. Departamento de Sistemas Informticos y
Computacin. Universidad Politcnica de Valencia.
6.3 Tutorial de SQL Server Analysis Services
http://msdn.microsoft.com/es-es/library/ms170208(v=sql.100).aspx
6.4 Tutoriales para disear e implementar paquetes
http://msdn.microsoft.com/library/ms167031(v=sql.105)
6.5 SQL Server 2008: Reporting Services
http://msdn.microsoft.com/es-es/sqlserver/cc511478.aspx