P 40

III CONGRESO INTERNACIONAL
DE
COMPUTACIN
TELECOMUNICACIONES
Aplicacin de la Tcnica Regresin Logstica de la Minera de Datos en el proceso de Descubrimiento de Conocimiento (KDD) en Bases de Datos Operativas o Transaccionales
Juan Camilo Giraldo Meja1, Fabio Alberto Vargas Agudelo1 Tecnolgico de Antioquia, TdeA. Institucin Universitaria jgiraldo1@tdea.edu.co, fvargas@tdea.edu.co
Resumen
El artculo presenta la caracterizacin de la tcnica Regresin Logstica de la Minera de Datos (Data Mining). Igualmente, se muestra la funcionalidad y aplicacin de la tcnica para apoyar al proceso de obtencin de conocimiento (Knowledge Discovery in Databases o KDD), a encontrar informacin interesante a partir de Datos "ocultos". La funcionalidad de la tcnica se ejemplifica con los resultados obtenidos en un trabajo de investigacin que se realiz buscando encontrar el nivel de innovacin y desarrollo tecnolgico en algunas empresas de Colombia. La finalidad es mostrar el proceso de obtencin de conocimiento de un sistema de bases de datos Transaccionales u operativos para empresas de bienes y servicios. En l se desarrollan los antecedentes conceptuales e investigativos y la caracterizacin de los conceptos fundamentales relacionados con el proceso de descubrir conocimiento, Minera de Datos y la Tcnica de Regresin Logstica. Palabras clave: SGBD, KDD, Minera de Datos.
Abstract
The article presents the characterization of the logistic regression technique of data mining (Data Mining). Also shows the functionality and application of technology to support the process of obtaining knowledge (Knowledge Discovery in Databases or KDD), to find interesting information from data "hidden". The functionality of the technique is exemplified by the results of a research which was carried out seeking to find the level of innovation and technological development in some companies in Colombia. The aim is to show the process of obtaining knowledge of a database system Transactional or operational goods and services companies. In the develop conceptual and research background and characterization of the fundamental concepts related to the process of discovering knowledge, data mining and logistic regression. Keywords: DBMS, KDD, Data Mining.
1.
Introduccin
En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido bsicamente, al gran poder de procesamiento de las mquinas como a su bajo coste de almacenamiento. Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de informacin oculta de gran importancia estratgica a la que no se puede acceder por las tcnicas clsicas de recuperacin de la informacin. El descubrimiento de esta informacin oculta es posible gracias a la Minera de Datos (DataMining), que entre otras sofisticadas tcnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacin de modelos, es decir, representaciones abstractas de la
1
DE
COMPUTACIN
TELECOMUNICACIONES
realidad, pero es el descubrimiento del conocimiento (KDD) el que se encarga de la preparacin de los datos y la interpretacin de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados (Vallejos, 2006). La posesin real de toda la informacin obtenida depende de nuestra capacidad para hacer ciertas operaciones con la informacin textual, por ejemplo: buscar informacin interesante Guzmn (2005). Posteriormente, con el apoyo de la tecnologa de informacin, justificada en las bases de datos relacionales, los ordenadores personales y la computacin grfica, el acceso a la informacin y su representacin por parte de los usuarios finales, comenzaron a ser cada da ms frecuentes. Todo esto enmarcado en el concepto de Descubrimiento u obtencin de Conocimiento (KDD). Existen diversos mtodos durante el proceso de KDD para el anlisis de la informacin. Cada una de ellos ofrece herramientas conceptuales para extraer cierta inteligencia o conocimiento de los datos acumulados en la empresa. Estas tecnologas son las tcnicas de Minera de Datos. La Minera de Datos utiliza algoritmos, como Regresin Logstica, para explorar los repositorios de datos y extraer conocimiento a partir de los datos. La tcnica de la regresin logstica se origin en la dcada de los 60 con el trabajo de Cornfield, Gordon y Smith. En 1967 Walter y Duncan la utilizan ya en la forma que la conocemos actualmente, o sea para estimar la probabilidad de ocurrencia de un proceso en funcin de ciertas variables. Su uso se incrementa desde principios de los 80 como consecuencia de los adelantos ocurridos en el campo de la computacin. Domnguez (2001). La regresin logstica es un procedimiento cuantitativo de gran utilidad para problemas donde la variable dependiente toma valores en un conjunto finito. El objetivo primordial que resuelve esta tcnica es el de modelar cmo influye en la probabilidad de aparicin de un suceso, habitualmente dicotmico, la presencia o no de diversos factores y el valor o nivel de los mismos. Tambin puede ser usada para estimar la probabilidad de aparicin de cada una de las posibilidades de un suceso con ms de dos categoras (politmico) (Molinero, 2001).
2. Descubrimiento de Conocimiento o KDD

KDD se define como la extraccin no trivial de informacin implcita, desconocida, y potencialmente til de los datos. El proceso de KDD consiste en usar mtodos de minera de datos (algoritmos) para extraer (identificar) lo que se considera como conocimiento de acuerdo con la especificacin de ciertos parmetros usando una base de datos junto con preprocesamientos y posprocesamientos. En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades de generar y colectar datos debido, bsicamente, al gran poder de procesamiento de las mquinas como a su bajo coste de almacenamiento. Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad de informacin "oculta", de gran importancia estratgica, a la que no se puede acceder por las tcnicas clsicas de recuperacin de la informacin. El descubrimiento de esta informacin "oculta" es posible gracias a la Minera de Datos (Data Mining), que entre otras sofisticadas tcnicas aplica la Inteligencia Artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacin de modelos, es decir, representaciones abstractas de la realidad, pero es el Descubrimiento de Conocimiento (KDD, por sus siglas en ingls) que se encarga de la preparacin de los datos y la interpretacin de los resultados obtenidos, los cuales dan un significado a estos patrones encontrados (Valcrcel, 2004).
DE
COMPUTACIN
TELECOMUNICACIONES
Lezcano (2002) plantea que el proceso de KDD usa algoritmos de Minera de Datos para extraer (identificar) lo que se considera como conocimiento de acuerdo con la especificacin de ciertos parmetros usando una base de datos junto con pre-procesamientos y posprocesamientos. 2.1 Etapas del Descubrimiento de Conocimiento 2.1.1. Fase 1 Ubicacin y seleccin de los datos Esta etapa responde preguntas como: en qu tipo de almacenamiento se encuentran los datos, qu tipo de estructura tienen, qu significado tienen los datos, y si esos datos estn relacionados con los objetivos del proyecto. Se seleccionan los datos desde una Base Datos, los cuales se encuentran almacenados en una o ms tablas (Estructuras de Datos). El origen de los datos puede ser un archivo sin formato o plano, un archivo en formato de hoja electrnica, por ejemplo Microsoft Excel, o un archivo creado en un sistema gestor de Bases de Datos (SGBD), como SQL Server, ORACLE, MySql, entre otros. 2.1.2. Fase 2 Limpieza y preprocesado Aplicacin de estrategias adecuadas para manejar ruido en los datos, valores incompletos, secuencias de tiempo, casos extremos (si es necesario). Igualmente, en esta etapa se pueden realizar muestras al azar para reducir el volumen de los datos, y tambin concretar variables y registros apropiados como datos de entrada para el proceso de Minera de Datos a utilizar. 2.1.3. Fase 3 Transformacin En esta fase, se transforman los datos al tipo de formato requerido por la tcnica de Minera de Datos que se aplique. Y, posteriormente, se selecciona la tcnica de descubrimiento a utilizar, por ejemplo, Reglas de Asociacin, Clasificacin, Regresin Logstica, Clustering, entre otras. 2.1.4. Fase 4 Minera de Datos Llevar a cabo el proceso de minera de datos. Se buscan patrones que pueden expresarse como un modelo o simplemente que expresen dependencias de los datos. Se especifica la estrategia de bsqueda a utilizar (normalmente est predeterminada en el algoritmo de minera). 2.1.5. Fase 5 Interpretacin y Validacin Interpretar los resultados puede involucrar repetir, el proceso, quizs con otros datos, otros algoritmos, otras metas y otras estrategias. Este es un paso importante, en donde se requiere tener conocimiento del dominio. La interpretacin puede beneficiarse de procesos de visualizacin como la regresin, y sirve tambin para borrar patrones redundantes o irrelevantes obtenidos en tcnicas como el Clustering o las Reglas de Asociacin. El conocimiento que se obtiene permite realizar acciones dentro de un sistema de desempeo o simplemente para almacenarlo y posteriormente disponer de l por parte de los usuarios involucrados en un dominio especfico.
III CONGRESO INTERNACIONAL 3. Regresin Logstica
DE
COMPUTACIN
TELECOMUNICACIONES
La regresin logstica surgi durante la dcada de 1960 como alternativa al procedimiento de estimacin de los mnimos cuadrados ordinarios (OLS, Ordinary Least Squares) tradicionalmente usado en el modelo de regresin lineal y su objetivo era estimar la probabilidad de ocurrencia de un evento como funcin de un conjunto de variables predictoras. No obstante, su uso comenz a popularizarse a partir de los aos setenta cuando comenz a implementarse en el software estadstico. Puga (2011). Segn Aguayo (2007), la Regresin Logstica es probablemente el tipo de anlisis multivariante ms empleado en Ciencias de la Vida. Las razones ms poderosas son: Permite introducir como variables predictoras de la respuesta (efecto o v.dependiente) una mezcla de variables categricas y cuantitativas. El objetivo primordial que resuelve esta tcnica es el de modelar cmo influye en la probabilidad de aparicin de un suceso, habitualmente dicotmico, la presencia o no de diversos factores y el valor o nivel de los mismos. Tambin puede ser usada para estimar la probabilidad de aparicin de cada una de las posibilidades de un suceso con ms de dos categoras (policotmico). En la regresin Logstica la variable dependiente (la que se desea modelizar, Y) es categrica, habitualmente dicotmica (RL binaria), lo que constituye una circunstancia muy frecuente y simple de representar fenmenos en la naturaleza y en ciencias de la vida: SI/NO, PRESENTE/AUSENTE, etc. Esto hace a este tipo de anlisis el ideal para aplicar en los estudios de casos y controles, estudios en los que los casos tienen algo (habitualmente una Enfermedad, un efecto o un desenlace). Aguayo (2007). La variable dependiente o respuesta tambin presenta dos categoras, pero en este caso representan la ocurrencia y no ocurrencia del acontecimiento definido por la variable, codificndose con los valores uno y cero, respectivamente. Por lo que se refiere a las variables independientes o explicativas, no se establece ninguna restriccin, pudiendo ser cuantitativas, tanto continuas como discretas, y categricas, con dos o ms modalidades. Mures (2005) 3.1. Funcionalidad del modelo de Regresin Logstica La regresin logstica permite estudiar las asociaciones o relaciones que existen entre variables independientes y una variable dependiente dicotmica. La variable dicotmica es aquella que slo admite dos estados, o valores, ejemplo: la variable Y=SI, N=NO; la variable puede tomar los valores 0 1. El modelo de Regresin Logstica funciona generando la estimacin o prediccin probabilstica de que una variable tenga una caracterstica a partir de las caractersticas individuales de otras variables de entrada. Es decir, el modelo de regresin logstica permite predecir la proporcin de una de las dos categoras de la variable dependiente dicotmica (Y=SI, N=NO) en funcin de una o ms variables independientes (X1, X2, X3... X n). Los valores que contienen las variables dicotmicas deben estar dentro del rango real de 0 a 1, ya que la probabilidad estimada solo puede incluir un valor entre 0 y 1. La estimacin de los valores estn dados por el siguiente modelo matemtico: = (
0 + 1
) / (1 +
+ 1
3.2. Aplicacin de la Tcnica en un caso especfico Tipificacin de la innovacin tecnolgica en el establecimiento.
DE
COMPUTACIN
TELECOMUNICACIONES
Los datos fueron tomados de la Encuesta sobre Desarrollo Tecnolgico en el Establecimiento Industrial Colombiano. En esta seccin se presentan algunas preguntas de la encuesta y su respectiva codificacin en la base de datos. Las variables utilizadas contienen los resultados de la innovacin e impacto de la innovacin. Variable I107: Identifica la Naturaleza jurdica de la empresa (1= empresa unipersonal, 2= sociedad en comandita simple, 3= entidad sin nimo de lucro, 4= sociedad annima, 5= sociedad de hecho, 6= sociedad comandita por acciones, 7= sucursal extranjera, 8= economa solidaria, (9= sociedad colectiva, 10=sociedad limitada, 11=empresa industrial del estado, 12= empresa de economa mixta). Variable IV401: Es la variable que se comporta como predictiva, o dependiente, e indica si se han colocado nuevos productos innovadores en el mercado. Ha colocado en el mercado nuevos productos elaborados por el establecimiento desde 1993? (si=1, 2=no). Variable IV402_02: Variable independiente. Indica los productos nuevos como resultado de actividades de innovacin (s = 1, 2=no). Variable IV402_03: Variable independiente. Indica productos nuevos asociados con nuevos procesos productivos (s = 1, 2=no) 3.3. Algunos Registros o transacciones utilizados para el procesamiento de la Tcnica (ver tabla 1)
NCUEST 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 IV707 4 4 10 10 10 10 10 10 4 10 10 10 4 10 4 10 1 4 10 4 10 4 10 4 IV4 2_3 IV4 3-3 IV401 2 2 2 2 2 1 1 1 1 2 2 2 1 1 1 1 1 1 2 2 1 1 2 1
1 1 1 1
1 2 2 2
2 1 1 2 1 1 1 2 1
2 2 2 2 2 2 2 2 2
Tabla 1. Muestra de registros transaccionales
La columna NCUEST corresponde al identificador de cada uno de los 198 registros que se tomaron como muestra de la poblacin total (885) encuestada en el sector industrial.
DE
COMPUTACIN
TELECOMUNICACIONES
La columna IV707 contiene los valores que identifican el tipo de empresa encuestada. IV42_3, es el campo que contiene los valores que indican si la empresa encuestada ha creado productos a partir de actividades innovadoras, los valores asociados son: 1 si la empresa respondi S, 2 si la empresa respondi NO. IV4 3_3, muestra los valores 1 para indicar que la empresa respondi S, a la pregunta de haber creado nuevos productos a partir de nuevos procesos, y 2 cuando la empresa respondi NO a esta pregunta. La columna IV401, corresponde a los valores de la variable predictiva, 1 indica que la empresa S ha colocado en el mercado nuevos productos innovadores, a partir de procesos o nuevas actividades que ayuden a mejorar la competitividad del pas. 2 indica que la empresa NO ha colocado en el mercado nuevos productos innovadores, a partir de procesos o nuevas actividades. Las celdas que aparecen sin valor en las tres ltimas columnas corresponden a los valores missing (datos no suministrados por el establecimiento por reserva o por no tenerlos disponibles en el momento de la encuesta). Total de registros de la muestra=198. Algunos de estos registros se muestran en la base de datos.
4. Resultados con la Tcnica de Regresin Logstica

El anlisis de las variables est soportado a partir de las columnas: Atributo, Valor, Favorece [valor 1] y Favorece [valor 2]. En este caso, la columna de atributo apunta a todas las variables que se comportan como independientes, y la variable de salida o dependiente es la variable seleccionada como variable de prediccin. Ver tabla 2.
NOMBREVARIABLE TIPO COMPORTAMIENTO VALORES SOCIEDAD COLECTIVA, UNIPERSONAL, EMPRESA INDUSTRIAL, SUCURSAL EXTRANJERA, COMANDITA POR ACCIONES, SIN ANIMO DE LUCRO, ANONIMA, SOCIEDAD DERECHO, LIMITADA, COMANDITA SI, NO SI, NO SI, NO
TIPO EMPRESA
INDEPENDIENTE
ENTREDA
ACTIVIDADES DE INNOVACIN PRODUCTO PROCESO INNOVACIN PRODUCTO MERCADO 1993
INDEPENDIENTE INDEPENDIENTE INDEPENDIENTE
ENTREDA ENTREDA SALIDA
Tabla 2. Comportamiento de las variables
4.1.1. Variable de prediccin: productos colocados en el mercado 1993, Valor= 1(SI) En la figura 1 (Grfico de elevacin), el eje X del grfico representa el porcentaje del conjunto de datos de prueba que se utiliza para comparar las predicciones. El eje Y del grfico representa el porcentaje de valores que se predicen con el estado especificado.
6
DE
COMPUTACIN
TELECOMUNICACIONES
Figura 1 - Grfico de elevacin para valor SI
Con las etiquetas que referencian colores se identifican las lneas para el modelo real (para el caso particular color verde). La lnea identificada con etiqueta color rojo (para este caso), muestra la elevacin ideal, o mejora en los resultados, para el modelo. Esta lnea muestra los resultados ideales para los datos de entrenamiento establecidos, si pudiera crear un modelo que siempre predijera perfectamente. La lnea de etiqueta color azul indica el modelo de estimacin aleatorio generado por el programa. En el grfico, la lnea ideal alcanza el mximo el 55%, lo que significa que si tuviera un modelo perfecto, podra llegar al 100 por ciento de las empresas sobre la poblacin total. La lnea vertical se encuentra en ese punto (55%), porque se trata del punto donde el modelo parece ser ms eficiente, y despus de este punto la elevacin decae. Teniendo en cuenta las empresas que respondieron NO a la pregunta de realizar actividades de Innovacin. En la figura 2, anterior, el eje X del grfico de elevacin para el valor de prediccin NO, representa el porcentaje del conjunto de datos de prueba que se utiliza para comparar las predicciones. El eje Y del grfico representa el porcentaje de valores que se predicen con el estado especificado.
Figura 2 - Elevacin Valor NO
La lnea identificada con etiqueta verde indica el modelo real. La lnea identificada con etiqueta color rojo, muestra la elevacin ideal, o mejora en los resultados, para el modelo. Esta lnea muestra los resultados ideales para los datos de entrenamiento establecidos, si
DE
COMPUTACIN
TELECOMUNICACIONES
pudiera crear un modelo que siempre predijera perfectamente. La lnea de etiqueta color azul indica el modelo de estimacin aleatorio generado por el programa. En el grfico, la lnea ideal alcanza el mximo el 30%, lo que significa que si tuviera un modelo perfecto, podra llegar al 100 por ciento de las empresas sobre la poblacin total. La lnea vertical se encuentra en ese punto (30%), porque se trata del punto donde el modelo parece ser ms eficiente, y despus de este punto la elevacin decae. La elevacin real para el modelo al destinarse al 30 por ciento de la poblacin est entre el 63% aproximadamente, lo que significa que se podra considerar que el 63 por ciento de las empresas sobre la poblacin total de las mismas, no han colocado nuevos productos en el mercado desde 1993.
5. Conclusiones La regresin logstica es una de las herramientas estadsticas con mejor capacidad para el anlisis de datos en investigacin de diferente contexto, de ah su amplia utilizacin. El momento en que la mayora de los profesionales tenga acceso a herramientas de Minera de Datos para obtener conocimiento de las Bases de Datos transaccionales u operativas trae consigo un mejoramiento en el tipo de organizaciones que se encuentran compitiendo en el mercado debido a que se elevan los niveles de calidad desde las mejores tomas de decisiones por parte de sus analistas.
6. Referencias
[Molinero, 2001] Molinero, L. (2001). La Regresin Logstica, Asociacin de la sociedad Espaola de Hipertension, Espaa. [Molinero, 2006] Vallejos, S. (2006). Minera de Datos, Facultad de Ciencias Exactas, Naturales, y Agrimensura, Universidad Nacional del Nordeste. [Domnguez, 2001] Domnguez, E. (2001). Regresin Logstica, un ejemplo de su uso en endocrinologa, Instituto Nacional de Endocrinologa, Revista Cubana Endocrinol, Cuba. [Valcrcel, 2004] Valcrcel, V. (2004). Data Mining y el descubrimiento de conocimiento. Revista de la Facultad de Ingeniera Industrial. Vol. (7) 2: pp. 83-86 (2004) UNMSM ISSN: 1560-9146. Diciembre de 2004. [Lezcano, 2002] Lezcano, R. (2002). Minera de Datos. Trabajo de Investigacin. Universidad Nacional del Nordeste. 2002. [Guzmn, 2005] Guzmn, G. (2005). Bsqueda de colocaciones en la Web para sinnimos de Wordnet. Universidad de Guanajuato. 2005. [Mures, 2005] Mures, J. (2005). Aplicacin del Anlisis Discriminante y Regresin Logstica en el estudio de la morosidad en las entidades financieras. Comparacin de Resultados, Revista pecvnia, Universidad de Len. [Puga, 2011] Puga, J. Eventos por Variable en Regresin Logstica y Redes Bayesianas para Predecir Actitudes Emprendedoras, Revista Electrnica de Metodologa Aplicada, Universidad de Almeria. [Aguayo, 2007] Aguayo, M. (2007). Como hacer una Regresin Logstica con SPSS paso a paso, Servicio de Medicina Interna, Hospital Universitario Virgen Macarena, Sevilla Espaa.
8

P 40

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

P 40

Enviado por

Direitos autorais:

Formatos disponíveis

III CONGRESO INTERNACIONAL

III CONGRESO INTERNACIONAL

2. Descubrimiento de Conocimiento o KDD

III CONGRESO INTERNACIONAL

III CONGRESO INTERNACIONAL 3. Regresin Logstica

3.2. Aplicacin de la Tcnica en un caso especfico Tipificacin de la innovacin tecnolgica en el establecimiento.

III CONGRESO INTERNACIONAL

Tabla 1. Muestra de registros transaccionales

III CONGRESO INTERNACIONAL

4. Resultados con la Tcnica de Regresin Logstica

ACTIVIDADES DE INNOVACIN PRODUCTO PROCESO INNOVACIN PRODUCTO MERCADO 1993

INDEPENDIENTE INDEPENDIENTE INDEPENDIENTE

ENTREDA ENTREDA SALIDA

Tabla 2. Comportamiento de las variables

III CONGRESO INTERNACIONAL

Figura 1 - Grfico de elevacin para valor SI

Figura 2 - Elevacin Valor NO

III CONGRESO INTERNACIONAL

Você também pode gostar