Você está na página 1de 8

Introduccin

El anlisis estadstico detallado de una serie de cierta importancia, como el total


de ventas de una cadena de supermercados o la tirada de un periodo en una
ciudad, es de tal amplitud que el acceso a los datos es slo una parte pequea del
problema. Pero cuando lo que se quiere analizar es, por ejemplo, las ventas
porcada punto de venta, o an ms, las ventas de cada producto en cada punto; el
nmero de datos crece vertiginosamente, al mismo tiempo que disminuye la
importancia del nodo analizado. Entonces se hace necesaria la bsqueda de
nuevas tcnicas de estimacin que impliquen sustanciosas rebajas en el consumo
de recursos, para establecer una relacin aceptable de coste y beneficio
del anlisis. Una posible estrategia consiste en desarrollar mtodos de estimacin
que utilicen exclusivamente las herramientas de la propia base de datos.
Algoritmo de regresin lineal de Microsoft

El algoritmo de regresin lineal de Microsoft es una variacin del algoritmo de


rboles de decisin de Microsoft que ayuda a calcular una relacin lineal entre una
variable independiente y otra dependiente y, a continuacin, utilizar esa relacin
para la prediccin.
La relacin toma la forma de una ecuacin para la lnea que mejor represente una
serie de datos. Por ejemplo, la lnea del siguiente diagrama muestra la mejor
representacin lineal de los datos.

Cada punto de datos del diagrama tiene un error asociado con su distancia con
respecto a la lnea de regresin. Los coeficientes a y b de la ecuacin de regresin
ajustan el ngulo y la ubicacin de la recta de regresin. Puede obtener la
ecuacin de regresin ajustando a y b hasta que la suma de los errores asociados
a todos los puntos alcance su valor mnimo.
Hay otros tipos de regresin que utilizan varias variables y tambin hay mtodos
no lineales de regresin. Sin embargo, la regresin lineal es un mtodo til y
conocido para modelar una respuesta a un cambio de algn factor subyacente.

Algoritmo de regresin lineal Reducida


Modelos linea
les en SQL

En primer
lugar se
expone de
forma terica
un mtodo de
estimacin de
regresiones
lineales por mnimos cuadrados, y despus se presenta el cdigo TOL

Necesario para su implementacin. Finalmente se muestran los resultados


prcticos simulados para hacer patente la potencia del mtodo expuesto. La
regresin lineal es el modelo estadstico ms sencillo pero no por ello deja de ser
til en multitud de ocasiones, pues bajo las transformaciones pertinentes es capaz
de amoldarse a situaciones diversas y resulta de una claridad de exposicin
indudable.

Ejemplo

Puede utilizar la regresin lineal para determinar una relacin entre dos columnas
continuas. Por ejemplo, puede utilizar la regresin lineal para calcular una lnea de
tendencias en los datos de fabricacin o ventas. Tambin podra utilizar la
regresin lineal como precursor para el desarrollo de modelos de minera de datos
ms complejos, con el fin de evaluar las relaciones entre las columnas de datos.
Aunque hay muchas maneras de calcular la regresin lineal que no requieren
herramientas de minera de datos, la ventaja de utilizar el algoritmo de regresin
lineal de Microsoft para esta tarea es que se calculan y se prueban
automticamente todas las posibles relaciones entre las variables. No tiene que
seleccionar un mtodo de clculo, como por ejemplo para resolver los mnimos
cuadrados. Sin embargo, la regresin lineal podra simplificar en exceso las
relaciones en escenarios en los que varios factores afectan al resultado.

Cmo funciona el algoritmo


El algoritmo de regresin lineal de Microsoft es una variacin del algoritmo de
rboles de decisin de Microsoft . Al seleccionar el algoritmo de regresin lineal de
Microsoft , se invoca un caso especial del algoritmo de rboles de decisin de
Microsoft , con parmetros que restringen el comportamiento del algoritmo y
requieren ciertos tipos de datos de entrada. Adems, en un modelo de regresin
lineal, el conjunto de datos completo se utiliza para calcular las relaciones en el
paso inicial, mientras que en un modelo de rboles de decisin estndar los datos
se dividen repetidamente en rboles o subconjuntos ms pequeos.

Datos requeridos para los modelos de regresin lineal


Cuando se preparan datos para utilizarse en un modelo de regresin lineal, se
deben entender los requisitos del algoritmo determinado. Esto incluye saber
cuntos datos se necesitan y cmo se utilizan. Los requisitos para este tipo de
modelo son los siguientes:
Una columna de una sola clave : cada modelo debe contener una
columna numrica o de texto que identifique cada registro de manera nica.
No estn permitidas las claves compuestas.
Una columna de prediccin . Se requiere al menos una columna de
prediccin. Se pueden incluir varios atributos de prediccin en un modelo,
pero deben ser tipos de datos numricos continuos. No se puede utilizar un
tipo de datos de fecha y hora como atributo de prediccin aunque el
almacenamiento nativo para los datos sea numrico.
Columnas de entrada Deben contener datos numricos continuos y se les
debe asignarse el tipo de datos adecuado.
Para obtener ms informacin, vea la seccin Requisitos de Referencia tcnica del
algoritmo de regresin lineal de Microsoft.
Ver un modelo de regresin lineal
Para examinar el modelo, puede utilizar el Visor de rboles de Microsoft. La
estructura de rbol de un modelo de regresin lineal es muy simple, con toda la
informacin sobre la ecuacin de regresin contenida en un nodo nico. Para
obtener ms informacin, vea Examinar un modelo usando el Visor de rboles de
Microsoft.
Si desea obtener informacin ms detallada sobre la ecuacin, tambin puede ver
los coeficientes y otros detalles utilizando el Visor de rbol de contenido genrico
de Microsoft.
En un modelo de regresin lineal, el contenido incluye metadatos, la frmula de
regresin y estadsticas sobre la distribucin de los valores de entrada. Para
obtener ms informacin, vea Contenido del modelo de minera de datos para los
modelos de regresin lineal (Analysis Services - Minera de datos).
Crear predicciones
Una vez procesado el modelo, los resultados se almacenan como un conjunto de
estadsticas junto con la frmula de regresin lineal, que se puede utilizar para
calcular tendencias futuras. Para obtener ejemplos de consultas que se usan con
un modelo regresin lineal, vea Ejemplos de consultas de modelos de regresin
lineal.
Para obtener informacin general sobre cmo crear consultas con modelos de
minera de datos, vea Consultas de minera de datos.
Adems de crear un modelo de regresin lineal seleccionando el algoritmo de
regresin lineal de Microsoft , si el atributo de prediccin es un tipo de datos
numricos continuo, puede crear un modelo de rbol de decisin que contenga
regresiones. En este caso, el algoritmo dividir los datos cuando encuentre puntos
de separacin adecuados, pero en cambio crear una frmula de regresin para
algunas regiones de datos. Para obtener ms informacin sobre los rboles de
regresin en un modelo de rboles de decisin, vea Contenido del modelo de
minera de datos para los modelos de rboles de decisin (Analysis Services -
Minera de datos).
Comentarios
No admite el uso del Lenguaje de marcado de modelos de prediccin
(PMML) para crear modelos de minera de datos.
No admite la creacin de dimensiones de minera de datos.
Admite la obtencin de detalles.
Admite el uso de modelos de minera de datos OLAP.

Ejemplos de consultas de modelos de regresin lineal

Cuando se crea una consulta en un modelo de minera de datos, puede tratarse


de una consulta de contenido, que proporciona detalles de los patrones
detectados durante el anlisis, o de una consulta de prediccin, que utiliza los
patrones del modelo para realizar predicciones de los nuevos datos. Por ejemplo,
una consulta de contenido podra proporcionar detalles adicionales sobre la
frmula de regresin, mientras que una consulta de prediccin podra indicar si un
nuevo punto de datos se ajusta al modelo. Tambin se pueden recuperar
metadatos sobre el modelo mediante una consulta.
Buscar informacin sobre el modelo de regresin lineal

La estructura de un modelo de regresin lineal es sumamente simple: el modelo


de minera de datos representa los datos como un nodo nico, que define la
frmula de regresin. Para ms informacin, vea Contenido del modelo de minera
de datos para los modelos de regresin logstica (Analysis Services - Minera de
datos).

Volver al principio

Consulta de ejemplo 1: usar el conjunto de filas de esquema de minera de datos


para determinar los parmetros que se usan para un modelo

Al consultar el conjunto de filas de esquema de minera de datos, puede buscar


los metadatos acerca del modelo. Podra incluirse cundo se cre el modelo,
cundo se proces en ltimo lugar, el nombre de la estructura de minera de datos
en la que se basa y el nombre de la columna que se usa como atributo de
prediccin. Tambin se pueden devolver los parmetros que se utilizaron cuando
se cre el modelo por primera vez.

SELECT MINING_PARAMETERS
FROM $system.DMSCHEMA_MINING_MODELS
WHERE MODEL_NAME = 'TM_PredictIncome'

Resultados del ejemplo:

MINING_PARAMETERS

COMPLEXITY_PENALTY=0.9,
MAXIMUM_INPUT_ATTRIBUTES=255,
MAXIMUM_OUTPUT_ATTRIBUTES=255,
MINIMUM_SUPPORT=10,
SCORE_METHOD=4,
SPLIT_METHOD=3,
FORCE_REGRESSOR=
MINING_PARAMETERS

Usar el algoritmo
Utilice el Visor de rboles de Microsoft para explorar un modelo de minera de
datos de regresin lineal.
Un modelo de regresin lineal debe contener una columna de clave, columnas de
entrada y al menos una columna de prediccin.
El algoritmo Regresin lineal de Microsoft admite los tipos de contenido de
columna de entrada, tipos de contenido de columna de prediccin e indicadores de
modelado especficos que se enumeran en la siguiente tabla.
Tipos de contenido de columna de Continuous, Cyclical, Key, Table y
entrada Ordered

Tipos de contenido de columna de Continuous, Cyclical y Ordered


prediccin

Indicadores de modelado NOT NULL y REGRESSOR


Todos los algoritmos de Microsoft son compatibles con un conjunto comn de
funciones. No obstante, el algoritmo Regresin lineal de Microsoft admite las
funciones adicionales que se enumeran en la siguiente tabla.
IsDescendant PredictStdev

IsInNode PredictSupport

PredictHistogram PredictVariance

PredictNodeId
Para consultar una lista de las funciones comunes a todos los algoritmos de
Microsoft, vea Algoritmos de minera de datos. Para obtener ms informacin
acerca del modo de utilizar estas funciones, vea Referencia de funciones de
Extensiones de minera de datos (DMX).
El algoritmo Regresin lineal de Microsoft es compatible con varios parmetros
que influyen en el rendimiento y la precisin del modelo de minera de datos
resultante. Estos parmetros se describen en la tabla siguiente.
Parmetro Descripcin

MAXIMUM_INPUT_ATTRIBUTES Define el nmero de atributos de entrada


que puede administrar el algoritmo antes
de invocar la seleccin de caractersticas.
Establezca este valor en 0 para desactivar
la seleccin de caractersticas.
El valor predeterminado es 255.

MAXIMUM_OUTPUT_ATTRIBUTE Define el nmero de atributos de salida


S que puede administrar el algoritmo antes
de invocar la seleccin de caractersticas.
Establezca este valor en 0 para desactivar
la seleccin de caractersticas.
El valor predeterminado es 255.

FORCED_REGRESSOR Impone al algoritmo la utilizacin de las


columnas indicadas como regresores,
independientemente de su importancia
segn los clculos del algoritmo.