Você está na página 1de 2

Prueba y validacin (minera de datos)

Otras versiones

Este tema an no ha recibido ninguna valoracin - Valorar este tema La validacin es el proceso de evaluar cul sera el rendimiento de sus modelos de minera de datos con datos reales. Es importante que valide sus modelos de minera de datos entendiendo su calidad y sus caractersticas antes de implementarlos en un entorno de produccin. Esta seccin presenta algunos conceptos bsicos relacionados con la calidad de los modelos, as como las estrategias para la validacin de modelos que se proporcionan en Microsoft Analysis Services. Para obtener informacin general sobre cmo encaja la validacin de modelos en procesos de minera de datos ms grandes, vea Soluciones de minera de datos.

Mtodos de prueba y validacin de los modelos de minera de datos


Existen muchos enfoques a la hora de evaluar la calidad y las caractersticas de un modelo de minera de datos.

Use varias medidas de validez estadstica para determinar si existen problemas en los datos o en el modelo. Separe los datos en conjuntos de entrenamiento y de prueba con el fin de probar la precisin de predicciones. Solicite a los expertos comerciales que revisen los resultados del modelo de minera de datos para determinar si los patrones detectados tienen sentido en un escenario empresarial concreto.

Todos estos mtodos son tiles para la metodologa de minera de datos y se usan de forma iterativa a la hora de crear, probar y refinar modelos para responder a un problema concreto. No hay ninguna regla completa nica que pueda indicarle si un modelo es suficientemente bueno, o si cuenta con suficientes datos.

Definicin de los criterios para validar los modelos de minera de datos


Las medidas de minera de datos se suelen agrupar en las categoras de precisin, confiabilidad y utilidad. La precisin es una medida que indica hasta qu punto el modelo pone en correlacin un resultado con los atributos de los datos que se han proporcionado. Existen varias medidas de precisin, pero todas ellas dependen de los datos que se utilicen. En realidad, podran faltar valores o stos ser aproximados, o incluso diferentes procesos podran cambiar los datos. En particular, en la fase de exploracin y desarrollo, podra decidir aceptar una cierta cantidad de errores en los datos, sobre

todo si stos son suficientemente uniformes en sus caractersticas. Por ejemplo, un modelo que predice las ventas para un almacn determinado en base a las ventas pasadas puede estar muy correlacionado y ser muy preciso, incluso si ese almacn ha utilizado un mtodo de contabilidad equivocado continuamente. Por tanto, es necesario equilibrar las mediciones de precisin mediante las valoraciones de confiabilidad. La confiabilidad evala la manera en la que se comporta un modelo de minera de datos en conjuntos de datos diferentes. Un modelo de minera de datos es confiable si genera el mismo tipo de predicciones o encuentra los mismos tipos generales de patrones independientemente de los datos de prueba que se proporcionen. Por ejemplo, el modelo que ha generado para el almacn que utiliz un mtodo de contabilidad equivocado no podra extrapolarse correctamente a otros almacenes, y por tanto, no sera confiable. La utilidad incluye diferentes mtricas que le indican si el modelo proporciona informacin til. Por ejemplo, un modelo de minera de datos que pone en correlacin la ubicacin del almacn con las ventas podra ser preciso y fiable, pero podra no ser til, ya que no se podra generalizar ese resultado si se agregaran ms almacenes en la misma ubicacin. Es ms, no responde a la pregunta comercial fundamental de porqu ciertas ubicaciones tienen ms ventas que otras. Tambin podra descubrir que un modelo que parece correcto, en realidad no tiene sentido porque est basado en correlaciones cruzadas de los datos.

Herramientas de prueba y validacin de modelos de minera de datos


Analysis Services admite varios enfoques para la validacin de soluciones de minera de datos, que abarcan todas las fases de la metodologa de prueba de la minera de datos.

Crear particiones de los datos de los conjuntos de prueba y entrenamiento. Filtrar modelos para entrenar y probar combinaciones diferentes de los mismos datos de origen. Medir la mejora respecto al modelo predictivo y la ganancia. Un grfico de mejora respecto al modelo predictivo es un mtodo para visualizar la mejora que obtendr de usar un modelo de minera de datos, si lo compara con una estimacin aleatoria. Realizar una validacin cruzada de los conjuntos de datos. Generar matrices de clasificacin. Estos grficos ordenan las estimaciones buenas y malas en una tabla, lo que permite analizar rpida y fcilmente con qu precisin predice el modelo el valor de destino. Crear grficos de dispersin para evaluar el ajuste de una frmula de regresin. Crear grficos de beneficios que permiten asociar ganancias o costos financieros con el uso de cierto modelo de minera de datos, para poder evaluar el valor de las recomendaciones.

Estas mtricas no pretenden responder a la pregunta de si el modelo de minera de datos resuelve sus preguntas empresariales, sino que proporcionan medidas objetivas que puede usar para evaluar la confiabilidad de los datos para los anlisis predictivos, y le ofrecen ayuda a la hora de decidir si debe usar una iteracin determinada en el proceso de desarrollo. Los temas de esta seccin proporcionan informacin general de cada mtodo y le guan en el proceso de medir la exactitud de los modelos generados mediante la minera de datos de SQL Server.

Você também pode gostar