Você está na página 1de 8

Validacin cruzada

(Analysis Services Minera de datos)


SQL Server 2016
Otras versiones

Se aplica a: SQL Server 2016


Validacin cruzada es una herramienta estndar de anlisis y es una caracterstica
importante que ayudan a desarrollar y ajustar los modelos de minera de datos. La
validacin cruzada se usa despus de crear una estructura de minera de datos y los
modelos de minera de datos relacionados para determinar la validez del modelo. La
validacin cruzada tiene las aplicaciones siguientes:
Validar la solidez de un modelo de minera de datos determinado.
Evaluar varios modelos de una instruccin nica.
Generar varios modelos e identificar a continuacin el mejor modelo basndose
en estadsticas.
En esta seccin se describe cmo usar las caractersticas de validacin cruzada
proporcionadas para la minera de datos y cmo interpretar sus resultados para un
nico modelo o para varios basados en un nico conjunto de datos.

Informacin general sobre el proceso de


validacin cruzada
La validacin cruzada consta de dos fases: entrenamiento y generacin de resultados.
En estas fases se incluyen los pasos siguientes:
Debe seleccionar una estructura de minera de datos de destino.
Luego especifica los modelos que desea probar. Este paso es opcional; puede
probar solo la estructura de minera de datos.
Especifique los parmetros para probar los modelos entrenados.
o El atributo de prediccin, el valor de prediccin y el umbral de precisin.
o El nmero de plegamientos en los que desea crear particiones de los
datos del modelo o de la estructura.
Analysis Services crea y entrena tantos modelos como plegamientos.
Analysis Services devuelve un conjunto de medidas de precisin para cada
plegamiento de cada modelo o para el conjunto de datos en conjunto.

Configurar la validacin cruzada


Puede personalizar el modo de funcionamiento de la validacin cruzada para controlar
el nmero de secciones cruzadas, los modelos probados y la barra de precisin para las

predicciones. Si usa los procedimientos almacenados de validacin cruzada, tambin


puede especificar el conjunto de datos que se usa para validar los modelos. Esta
variedad de opciones implica que puede producir con facilidad muchos conjuntos de
resultados diferentes que a continuacin se deben comparar y analizar.
En esta seccin se proporciona informacin para ayudarle a configurar la validacin
cruzada correctamente.

Establecer el nmero de particiones


Al especificar el nmero de particiones, se determina cuntos modelos temporales se
van a crear. Para cada particin se marca una seccin transversal de los datos para su
uso como conjunto de pruebas y se crea un nuevo modelo mediante entrenamiento en
los datos restantes y no en la particin. Este proceso se repite hasta que Analysis
Services ha creado y probado el nmero de modelos especificado. Los datos
especificados como disponibles para validacin cruzada se distribuyen uniformemente
entre todas las particiones.
El ejemplo del diagrama muestra el uso de los datos si se especifican tres
plegamientos.

En el escenario del diagrama, la estructura de minera de datos contiene un conjunto


de datos de exclusin que se usa para pruebas, pero el conjunto de datos de pruebas
no se ha incluido para la validacin cruzada. Como resultado, todos los datos del
conjunto de datos de aprendizaje, el 70 por ciento de los datos de la estructura de
minera de datos, se usan para validacin cruzada. El informe de validacin cruzada
muestra el nmero total de casos usados en cada particin.
Tambin puede especificar la cantidad de datos que se usan durante la validacin
cruzada si especifica el nmero de casos totales que se van a usar. Los casos se
distribuyen de forma uniforme en todos los plegamientos.
En las estructuras de minera de datos almacenada en una instancia de SQL Server
Analysis Services, el valor mximo que puede establecer para el nmero de
plegamientos es 256, o el nmero de casos, lo que sea menor. Si utiliza una estructura
de minera de datos de sesin, el nmero mximo de plegamientos es 10.

Nota

A medida que aumenta el nmero de plegamientos, aumenta en consecuencia el tiempo


necesario para realizar la validacin cruzada porque se debe generar y probar un modelo
para cada plegamiento. Puede experimentar problemas de rendimiento si el nmero de
plegamientos es demasiado alto.

Establecer el umbral de precisin


El umbral de estado le permite establecer la barra de precisin para las predicciones.
Para cada caso, el modelo calcula la probabilidad de prediccin, que indica la
probabilidad de que el estado de prediccin sea correcto. Si la probabilidad de
prediccin supera la barra de precisin, la prediccin se considera correcta; de no ser
as, la prediccin se cuenta como incorrecta. Para controlar este valor, hay que
establecer State Threshold en un nmero entre 0.0 y 1.0, donde los nmeros ms
cercanos a 1 indican un alto nivel de confianza en las predicciones, y los nmeros ms
prximos a 0 indican que hay mayor probabilidad de que la prediccin sea verdadera.
El valor predeterminado para el umbral de estado es NULL, lo que significa que el
estado de prediccin con la probabilidad superior se considera el valor de destino.
Debe tener en cuenta que el valor del umbral de estado afecta a las medidas de
precisin del modelo. Por ejemplo, suponga que tiene tres modelos que desea probar.
Todos se basan en la misma estructura de minera de datos y todos predicen la
columna [Bike Buyer]. Adems, desea predecir un nico valor 1, lo que significa s,
comprar. Los tres modelos devuelven predicciones con probabilidades de prediccin
de 0.05, 0.15 y 0.8. Si establece el umbral de estado en 0.10, dos de las predicciones
se cuentan como correctas. Si establece el umbral de estado en 0.5, solo se cuenta que
un modelo ha devuelto una prediccin correcta. Si usa el valor predeterminado, null, la
prediccin ms probable se cuenta como correcta. En este caso, las tres predicciones
se contaran como correctas.

Nota

Puede establecer un valor de 0.0 para el umbral, pero el valor carece de significado
porque todas las predicciones se contarn como correctas, incluso las de probabilidad
cero. Tenga cuidado con no establecer por error State Threshold en 0.0.

Elegir los modelos y columnas para la validacin


Al utilizar la pestaa Validacin cruzada del Diseador de minera de datos, debe
seleccionar primero la columna de prediccin de la lista. Normalmente, una estructura
de minera de datos puede admitir muchos modelos de minera, de los cuales no todos
utilizan la misma columna de prediccin. Al ejecutar una validacin cruzada, solo se

podrn incluir en el informe aquellos modelos que utilicen la misma columna de


prediccin.
Para elegir un atributo de prediccin, haga clic en Atributo de destino y seleccione la
columna de la lista. Si el atributo de destino es una columna anidada o una columna en
una tabla anidada, debe escribir el nombre de la columna anidada con el formato <
nombre de tabla anidada>(clave). < columna anidada>. Si la nica columna utilizada
de la tabla anidada es la columna de clave, puede usar < nombre de tabla
anidada>(clave).
Despus de seleccionar el atributo de prediccin, Analysis Services prueba todos los
modelos que utilizan el mismo atributo de prediccin automticamente. Si el atributo
de destino contiene valores discretos, despus de haber seleccionado la columna de
prediccin, puede escribir un estado de destino, en caso de que haya un valor concreto
que desee predecir.
La seleccin del estado de destino afectar a las medidas que se devuelvan. Si
especifica que un atributo de destino (es decir, un nombre de columna) no obtiene un
valor concreto que el modelo deba predecir, el modelo se evaluar, de forma
predeterminada, de acuerdo a su prediccin del estado ms probable.
Cuando se utiliza la validacin cruzada con modelos de agrupacin en clsteres, no hay
ninguna columna de prediccin; en su lugar, seleccione#Cluster de la lista en
la atributo Target cuadro de lista. Cuando haya seleccionado esta opcin, otras
opciones que no son relevantes para los modelos de agrupacin en clsteres,
como Estado del destino, se deshabilitarn. Analysis Services probar a continuacin
todos los modelos de agrupacin en clsteres que estn asociados a la estructura de
minera de datos.

Herramientas para la validacin cruzada


Puede utilizar la validacin cruzada del Diseador de minera de datos o puede realizar
la validacin cruzada ejecutando procedimientos almacenados.
Si utiliza las herramientas del Diseador de minera de datos para realizar la validacin
cruzada, puede configurar los parmetros de resultados de precisin y entrenamiento
en un solo cuadro de dilogo. Esto facilita la configuracin y la visualizacin de
resultados. Puede medir la precisin de todos los modelos de minera datos
relacionados con una estructura de minera de datos nica y, a continuacin, ver
inmediatamente los resultados en un informe HTML. Sin embargo, los procedimientos
almacenados proporcionan algunas ventajas, como las personalizaciones agregadas y
la capacidad de incluir en un script el proceso.

Validacin cruzada en el Diseador de minera de datos


Puede realizar la validacin cruzada mediante la la validacin cruzada ficha de la
vista de grfico de precisin de minera de datos de una SQL Server Management
Studio o SQL Server Development Studio.
Para ver un ejemplo de cmo crear un informe de validacin cruzada mediante la
interfaz de usuario, consulte crear un informe de validacin cruzada.

Procedimientos almacenados de validacin cruzada

Para los usuarios avanzados, la validacin cruzada tambin est disponible en forma de
procedimientos almacenados del sistema totalmente parametrizados. Puede ejecutar
los procedimientos almacenados conectndose a una instancia de SQL Server 2016
Analysis Services (SSAS) desde SQL Server Management Studioo desde cualquier
aplicacin de cdigo administrado.

Los procedimientos almacenados se agrupan por tipo de modelo de minera de datos.


Un conjunto de procedimientos funciona solo con modelos de agrupacin en clsteres.
El otro conjunto de procedimientos funciona con otros modelos de minera de datos.
Para cada tipo de modelo de minera de datos, en clster o sin clster, los
procedimientos almacenados realizan la validacin cruzada en dos fases
independientes.
Realizar particiones de datos y generar mtricas para particiones
En la primera fase, llama a un procedimiento almacenado del sistema que crea tantas
particiones como especifique dentro del conjunto de datos y devuelve los resultados de
precisin para cada particin. Para cada mtrica, Analysis Services calcula entonces las
desviaciones media y estndar para las particiones.
SystemGetCrossValidationResults & #40; Analysis Services: minera de datos y
n 41;
SystemGetClusterCrossValidationResults & #40; Analysis Services: minera de
datos y n 41;
Generar mtricas para todo el conjunto de datos
En la segunda fase, llama a otro conjunto de procedimientos almacenados. Estos
procedimientos almacenados no crean particiones del conjunto de datos, pero generan
resultados de precisin para el conjunto de datos especificados como un todo. Si ha
creado particiones y ha procesado una estructura de minera de datos, puede llamar a
este segundo conjunto de procedimientos almacenados para obtener los resultados.
SystemGetAccuracyResults & #40; Analysis Services: minera de datos y n 41;
SystemGetClusterAccuracyResults & #40; Analysis Services: minera de datos y
n 41;

Definir los datos de prueba


Al ejecutar los procedimientos almacenados de validacin cruzada que calculan la
precisin (SystemGetAccuracyResults o SystemGetClusterAccuracyResults), puede
especificar el origen de los datos que se usan para realizar pruebas durante la
validacin cruzada. Esta opcin no est disponible en la interfaz de usuario.
Puede especificar como origen de datos de prueba cualquiera de las siguientes
opciones:
Usar solo los datos de aprendizaje.
Incluir un conjunto de datos de pruebas existente.
Usar solo el conjunto de datos de pruebas.
Aplicar los filtros existentes a cada modelo.
Cualquier combinacin del conjunto de entrenamiento, conjunto de pruebas y
filtros de modelos.
Para especificar un origen de datos de prueba, proporcione un valor entero para el
parmetro DataSet del procedimiento almacenado. Para obtener una lista de los
valores de argumento, vea la seccin Notas del tema de referencia sobre los
procedimientos almacenados correspondiente.
Si realiza una validacin cruzada utilizando el validacin cruzada de informes en el
Diseador de minera de datos, no se puede cambiar el conjunto de datos que se
utiliza. De forma predeterminada, se usan los casos de entrenamiento para cada
modelo. Si un filtro est asociado a un modelo, se aplica dicho filtro.

Resultados de la validacin cruzada

Si usa el Diseador de minera de datos, estos resultados se muestran en un visor Web


similar a una cuadrcula. Si usa los procedimientos almacenados de validacin cruzada,
estos mismos resultados se devuelven como una tabla.
El informe contiene dos tipos de acciones: agregados que indican la variabilidad del
conjunto de datos cuando se divide en subconjuntos y medidas especficas del modelo
de la precisin para cada plegamiento. En los siguientes temas se proporciona ms
informacin sobre estas mtricas:
Frmulas de validacin cruzada
Enumera todas las medidas por el tipo de prueba. Describe en general cmo se pueden
interpretar las medidas.
Medidas en el informe de validacin cruzada
Describe las frmulas para calcular cada medida y muestra el tipo de atributo en el que
cada medida se puede aplicar.

Restricciones sobre la validacin cruzada


Si realiza una validacin cruzada utilizando el informe de validacin cruzada de SQL
Server Development Studio,, existen algunas limitaciones en los modelos que puede
probar y en los parmetros que puede establecer.
De forma predeterminada, se realizar una validacin cruzada de todos los
modelos asociados a la estructura de minera de datos seleccionada. No puede
especificar el modelo o una lista de modelos.
No se admite el uso de la validacin cruzada en modelos que estn basados en
el algoritmo de serie temporal de Microsoft o en el algoritmo de clsteres de
secuencia de Microsoft.
No se podr crear el informe si su estructura de minera de datos no contiene
ningn modelo que pueda probar la validacin cruzada.
Si la estructura de minera de datos contiene modelos de agrupacin en
clsteres y no clster y no elige el #Cluster opcin, resultados de ambos tipos
de modelos se muestran en el mismo informe, incluso aunque la configuracin
de umbral, el estado y el atributo podra no ser adecuada para los modelos de
agrupacin en clsteres.
Algunos valores de los parmetros estn restringidos. Por ejemplo, se mostrar
una advertencia si el nmero de plegamientos es superior a 10, ya que generar
tantos modelos podra provocar la ralentizacin de la presentacin del informe.
Si prueba varios modelos de minera de datos y estos tienen filtros, cada modelo se
filtra por separado. No se puede agregar a un modelo un nuevo filtro o cambiar uno
existente durante la validacin cruzada.
Dado que la validacin cruzada prueba de manera predeterminada todos los modelos
de minera de datos asociados a una estructura, puede recibir resultados incoherentes
si algunos modelos tienen un filtro y otros no. Para asegurarse de que compara solo los
modelos que tienen el mismo filtro, debera usar los procedimientos almacenados y
especificar una lista de modelos de minera de datos. O bien, use solo el conjunto de
pruebas de la estructura de minera de datos sin filtros para asegurarse de que se usa
un conjunto coherente de datos para todos los modelos.
Si realiza una validacin cruzada utilizando procedimientos almacenados, tiene la
opcin adicional de elegir el origen de datos de prueba. Si realiza una validacin
cruzada utilizando el Diseador de minera de datos, debe utilizar el conjunto de datos
de prueba que est asociado al modelo o a la estructura, si existe. Por lo general, si

desea especificar la configuracin avanzada, debe utilizar los procedimientos


almacenados de la validacin cruzada.
La validacin cruzada no se puede utilizar con modelos de clsteres de secuencia o
serie temporal. Concretamente, ningn modelo que contenga una columna KEY TIME o
una columna KEY SEQUENCE puede incluirse en la validacin cruzada.

Contenido relacionado
Vea los siguientes temas para obtener ms informacin sobre la validacin cruzada o la
informacin sobre los mtodos relacionados para probar los modelos de minera de
datos, como grficos de precisin.

Temas

Vnculos

Describe cmo establecer los parmetros de


validacin cruzada en SQL Server Development
Studio.

Pestaa validacin cruzada & #40;


Vista de grfico de precisin de
minera de datos & #41;

Describe las mtricas que proporciona la


validacin cruzada

Frmulas de validacin cruzada

Explica el formato del informe de validacin


cruzada y define las medidas estadsticas
proporcionadas para cada tipo de modelo.

Medidas en el informe de validacin


cruzada

Enumera los procedimientos almacenados para


calcular las estadsticas de validacin cruzada.

Minera de datos almacena


procedimientos & #40; Analysis
Services: minera de datos y n 41;

Describe cmo crear un conjunto de datos de


pruebas para las estructuras y los modelos

Conjuntos de datos de entrenamiento

Temas

Vnculos

relacionados.

y de prueba

Vea los ejemplos de otros tipos de grficos de


precisin.

Matriz de clasificacin & #40;


Analysis Services: minera de datos y
n 41;
Grfico de elevacin & #40; Analysis
Services: minera de datos y n 41;
Grfico de beneficios & #40;
Analysis Services: minera de datos y
n 41;
Grfico de dispersin & #40;
Analysis Services: minera de datos y
n 41;

Describe los pasos para crear varios grficos de


precisin.

Pruebas y validacin tareas y


procedimientos & #40; minera de
datos y n 41;

Você também pode gostar