Você está na página 1de 4

APLICACIN DE MINERA DE DATOS PARA DETECCIN DE PATRONES EN

INVESTIGACIONES BIOTECNOLGICAS
Ruiz Omar1, Bauz Sergio2, Jimnez Mara3
123
Escuela Superior Politcnica del Litoral
Campus Galindo, Km. 30.5 va Perimetral
Apartado 09-01-5863, Guayaquil, Ecuador
Email: oruiz@espol.edu.ec

RESUMEN
El presente trabajo despeja la interrogante de la aplicabilidad de la minera de datos, en
estudios de diferentes variedades de banano ubicadas en varias zonas geogrficas. Aborda
cada una de las etapas que conlleva la preparacin de los datos, la creacin del repositorio de
la data, y una aplicacin amigable que hace uso de Excel y sus tablas dinmicas cuando se
realizan las consultas; para los algoritmos de minera de datos, se utilizaron libreras del
software estadstico R. Se determin que los datos deben ser muy trabajados para poder
obtener informacin de ellos; la minera de datos es aplicable para este tipo de estudios;
finalmente se detectaron patrones biolgicos estables en las variedades estudiadas.
INTRODUCCIN
La poca disponibilidad de tiempo para obtener informacin con sustento estadstico, crea la
necesidad de aplicar nuevas metodologas de anlisis para estudios biolgicos realizados
especialmente en campo.
Cuando los datos son analizados de forma tradicional, la informacin a conseguir es limitada.
Anlisis estadsticos matemticos complejos estarn ausentes; lo que genera escasa
valoracin, desperdicio de informacin importante, que por falta de una herramienta
informtica ms eficiente y amigable, no se pueda explorar a fondo para encontrar patrones
conductuales de los entes investigados. Es claro que esta situacin limita al investigador al
momento de tomar decisiones al no contar con informacin gil, fidedigna, demostrable y
estadsticamente sustentada.
Para realizar lo anteriormente expuesto se aplica Minera de Datos (MD); el desarrollo de una
aplicacin informtica que utilice libreras del software R, ayudar a detectar patrones
biolgicos.
Se utilizarn datos obtenidos en estudios realizados por el Centro de Investigaciones
Biotecnolgicas del Ecuador (CIBE-ESPOL), sobre variables agronmicas, fitosanitarias y
geogrficas, obtenidas desde el 2004 hasta el 2006, de plantaciones bananeras de este sector
productivo de la costa ecuatoriana.
MATERIALES Y MTODOS
La primera etapa del proyecto consisti en construir la base de datos (BD) y almacenar la data
para obtener su integridad, validez, relevancia y confiabilidad, a travs de la normalizacin de
los mismos y su posterior pre-procesamiento, siguindose el esquema conceptual planteado a
continuacin:

Se investigaron diferentes herramientas informticas para desarrollar el Data Warehouse


(DW), se seleccion MS SQL-SERVER. Adems se decidi hacer uso de las herramientas de
Microsoft tales como: Visual Basic y Servicios OLAP entre otros.
Creada la BD multidimensional, se procedi a elaborar el diseo fsico del Cubo de Datos
(DC), mediante un esquema en estrella y con dimensiones variables de procesamiento. Luego,
para dar facilidades de manipulacin supervisada de los datos, hacia los usuarios de la
aplicacin, se crea un enlace entre el Analisys Services y la herramienta de escritorio,
Microsoft Excel, de tal manera que el DC pueda ser administrado desde una tabla dinmica.

Se realiz la recopilacin de la data histrica para ser depositadas en la nueva BD, se dise y
desarroll un Sistema para Transferencia de Datos (DTS) considerando las validaciones en
cuanto a los comportamientos estadsticos de las variables, valores mximos y mnimos
permisibles, si son crecientes en el tiempo o son series temporales, etc. bajo estas
restricciones, se procedi a la transferencia de los datos.
Se realiz la depuracin y validacin, luego se procedi con el Preprocesamiento o
Preparacin de los datos. Este paso es muy importante, porque en l se debe decidir que hacer
con los valores perdidos (missing values), cual ser la regla por la cual se haga inferencia de
dichos valores si se decide completar la data faltante; para ello existen diferentes
metodologas en dependencia del tipo de datos y su comportamiento estadstico; por ejemplo,
si la variable es creciente en el tiempo, se puede hacer interpolacin cruzada o regresin
lineal; si es una variable que flucta en el tiempo, se puede utilizar modelos de series
temporales; si sus valores giran alrededor de un valor central, se puede utilizar la media de los
valores conocidos, etc.
Se detect la necesidad de crear nuevas variables, a travs de funciones de variables
aleatorias, las cuales ofrecen mayor informacin, tal es el caso de la aplicacin del rea bajo
la curva para analizar la evolucin en el tiempo de variables que describen caractersticas
especiales como la altura o el dimetro de una planta, desde la siembra hasta la cosecha.

Finalizada la construccin de la BD, la aplicacin del DC y del DTS, y una vez normalizados
y preprocesados los datos, se procede a la seleccin de las metodologas estadsticas bsicas y
la seleccin de los algoritmos de MD.
Para la realizacin del anlisis exploratorio de los datos, son indispensables las tcnicas
estadsticas clsicas de para el anlisis descriptivo, adems estadstica inferencial a travs de
contrastes de hiptesis. La siguiente etapa es la Estadstica predictiva a travs de la obtencin
de modelos matemticos que describan el comportamiento de los datos, para ello se puede
aplicar anlisis de regresin o multivariado.
Seguidamente se deben seleccionar los mtodos o tcnicas de clasificacin para la MD en
base a la aplicacin de mtodos estadsticos robustos y comprobados.
Ya que la idea principal del presente estudio es proveer informacin gil con soporte
estadstico pero de fcil interpretacin para los investigadores, se consideraron las
metodologas de menor complejidad al momento de analizar los resultados.
Como tcnica de agrupamiento se utilizo el clustering. Una buena alternativa es el clustering
No supervisado jerrquico, porque ofrece la posibilidad de mostrar a travs de
Dendogramas el agrupamiento de los casos o registros, no as el clustering No supervisado
No jerrquico, pues este no da esa posibilidad; y La Correlacin, como mtodo para realizar
agrupamiento por afinidad.
El anlisis de regresin fue considerado para realizar predicciones. El anlisis discriminante
como mtodo de clasificacin, pues este asigna un caso o registro a uno de los diferentes
grupos previamente definidos en base a informacin histrica.
Otra tcnica estudiada es la Regla de induccin, (extraccin de reglas if-then de datos
basados en significado estadstico) identifica elementos de las poblaciones estudiadas que
pudiesen responder de manera similar ante eventos especficos. Algoritmos genticos, no
fueron considerados en el estudio.
Se utiliz el Software Estadstico R, por su amplio contenido de libreras tiles para el
proyecto y adems es libre. Finalmente se procedi al acoplamiento de las diferentes
herramientas.
RESULTADOS
Se obtuvo una aplicacin informtica amigable al usuario y que da respuestas con el debido
sustento estadstico, realizado con los comandos de R. La misma ofrece, grficos explicativos,
editables y de fcil entendimiento con respecto a las variables seleccionadas, obtenidos
inmediatamente ejecutada la consulta en el cubo de datos.

El anlisis exploratorio de minera de datos, muestra tendencias en el tiempo y las localidades


de las variedades estudiadas, clarificando la respuesta del genotipo en cada ambiente en el que
se desarrolla.
Observadas las tendencias y haciendo uso de la Aplicacin, se realizaron pruebas que
validaran estadsticamente esos resultados; con la ayuda de las libreras del R se comprob de
manera numrica las diferencias apreciadas con su respectiva significancia estadstica.
CONCLUSIONES
o Se detectaron patrones de respuesta agronmica y fitosanitarias de las variedades
estudiadas, mostrando que las tcnicas de minera de datos son aplicables en este tipo
de estudios, siempre que se cuente con la data necesaria.
o El tiempo empleado en realizar la preparacin de los datos, fue aproximadamente el
70% del tiempo del proyecto.
o Se aplicaron las tres tcnicas de minera de datos ms utilizadas, rboles de decisin
(56.6%), Agrupamiento (43.9%) y Estadstica clsica (43.2%).
o La Aplicacin desarrollada, describe cmo la variedad de prueba estudiada por el
CIBE, evoluciona de manera muy favorable, en comparacin con las dems. Adems
hubo discriminacin entre las variedades, mantenindose una estabilidad relativa en la
variedad de prueba. La ubicacin geogrfica no afect la estabilidad de la evolucin
en los parmetros agronmicos o fitosanitarios.
o Por la falta de datos de clima, quedaron sin respuesta preguntas muy importantes:
existe un patrn de crecimiento de algn parmetro relacionado directa o
indirectamente con temperatura y/u otro parmetro climtico?; existe un patrn
biolgico entre el desarrollo de la Sigatoka versus mayores temperaturas y/u otro
parmetro climtico?

Você também pode gostar