Escolar Documentos
Profissional Documentos
Cultura Documentos
INVESTIGACIONES BIOTECNOLGICAS
Ruiz Omar1, Bauz Sergio2, Jimnez Mara3
123
Escuela Superior Politcnica del Litoral
Campus Galindo, Km. 30.5 va Perimetral
Apartado 09-01-5863, Guayaquil, Ecuador
Email: oruiz@espol.edu.ec
RESUMEN
El presente trabajo despeja la interrogante de la aplicabilidad de la minera de datos, en
estudios de diferentes variedades de banano ubicadas en varias zonas geogrficas. Aborda
cada una de las etapas que conlleva la preparacin de los datos, la creacin del repositorio de
la data, y una aplicacin amigable que hace uso de Excel y sus tablas dinmicas cuando se
realizan las consultas; para los algoritmos de minera de datos, se utilizaron libreras del
software estadstico R. Se determin que los datos deben ser muy trabajados para poder
obtener informacin de ellos; la minera de datos es aplicable para este tipo de estudios;
finalmente se detectaron patrones biolgicos estables en las variedades estudiadas.
INTRODUCCIN
La poca disponibilidad de tiempo para obtener informacin con sustento estadstico, crea la
necesidad de aplicar nuevas metodologas de anlisis para estudios biolgicos realizados
especialmente en campo.
Cuando los datos son analizados de forma tradicional, la informacin a conseguir es limitada.
Anlisis estadsticos matemticos complejos estarn ausentes; lo que genera escasa
valoracin, desperdicio de informacin importante, que por falta de una herramienta
informtica ms eficiente y amigable, no se pueda explorar a fondo para encontrar patrones
conductuales de los entes investigados. Es claro que esta situacin limita al investigador al
momento de tomar decisiones al no contar con informacin gil, fidedigna, demostrable y
estadsticamente sustentada.
Para realizar lo anteriormente expuesto se aplica Minera de Datos (MD); el desarrollo de una
aplicacin informtica que utilice libreras del software R, ayudar a detectar patrones
biolgicos.
Se utilizarn datos obtenidos en estudios realizados por el Centro de Investigaciones
Biotecnolgicas del Ecuador (CIBE-ESPOL), sobre variables agronmicas, fitosanitarias y
geogrficas, obtenidas desde el 2004 hasta el 2006, de plantaciones bananeras de este sector
productivo de la costa ecuatoriana.
MATERIALES Y MTODOS
La primera etapa del proyecto consisti en construir la base de datos (BD) y almacenar la data
para obtener su integridad, validez, relevancia y confiabilidad, a travs de la normalizacin de
los mismos y su posterior pre-procesamiento, siguindose el esquema conceptual planteado a
continuacin:
Se realiz la recopilacin de la data histrica para ser depositadas en la nueva BD, se dise y
desarroll un Sistema para Transferencia de Datos (DTS) considerando las validaciones en
cuanto a los comportamientos estadsticos de las variables, valores mximos y mnimos
permisibles, si son crecientes en el tiempo o son series temporales, etc. bajo estas
restricciones, se procedi a la transferencia de los datos.
Se realiz la depuracin y validacin, luego se procedi con el Preprocesamiento o
Preparacin de los datos. Este paso es muy importante, porque en l se debe decidir que hacer
con los valores perdidos (missing values), cual ser la regla por la cual se haga inferencia de
dichos valores si se decide completar la data faltante; para ello existen diferentes
metodologas en dependencia del tipo de datos y su comportamiento estadstico; por ejemplo,
si la variable es creciente en el tiempo, se puede hacer interpolacin cruzada o regresin
lineal; si es una variable que flucta en el tiempo, se puede utilizar modelos de series
temporales; si sus valores giran alrededor de un valor central, se puede utilizar la media de los
valores conocidos, etc.
Se detect la necesidad de crear nuevas variables, a travs de funciones de variables
aleatorias, las cuales ofrecen mayor informacin, tal es el caso de la aplicacin del rea bajo
la curva para analizar la evolucin en el tiempo de variables que describen caractersticas
especiales como la altura o el dimetro de una planta, desde la siembra hasta la cosecha.
Finalizada la construccin de la BD, la aplicacin del DC y del DTS, y una vez normalizados
y preprocesados los datos, se procede a la seleccin de las metodologas estadsticas bsicas y
la seleccin de los algoritmos de MD.
Para la realizacin del anlisis exploratorio de los datos, son indispensables las tcnicas
estadsticas clsicas de para el anlisis descriptivo, adems estadstica inferencial a travs de
contrastes de hiptesis. La siguiente etapa es la Estadstica predictiva a travs de la obtencin
de modelos matemticos que describan el comportamiento de los datos, para ello se puede
aplicar anlisis de regresin o multivariado.
Seguidamente se deben seleccionar los mtodos o tcnicas de clasificacin para la MD en
base a la aplicacin de mtodos estadsticos robustos y comprobados.
Ya que la idea principal del presente estudio es proveer informacin gil con soporte
estadstico pero de fcil interpretacin para los investigadores, se consideraron las
metodologas de menor complejidad al momento de analizar los resultados.
Como tcnica de agrupamiento se utilizo el clustering. Una buena alternativa es el clustering
No supervisado jerrquico, porque ofrece la posibilidad de mostrar a travs de
Dendogramas el agrupamiento de los casos o registros, no as el clustering No supervisado
No jerrquico, pues este no da esa posibilidad; y La Correlacin, como mtodo para realizar
agrupamiento por afinidad.
El anlisis de regresin fue considerado para realizar predicciones. El anlisis discriminante
como mtodo de clasificacin, pues este asigna un caso o registro a uno de los diferentes
grupos previamente definidos en base a informacin histrica.
Otra tcnica estudiada es la Regla de induccin, (extraccin de reglas if-then de datos
basados en significado estadstico) identifica elementos de las poblaciones estudiadas que
pudiesen responder de manera similar ante eventos especficos. Algoritmos genticos, no
fueron considerados en el estudio.
Se utiliz el Software Estadstico R, por su amplio contenido de libreras tiles para el
proyecto y adems es libre. Finalmente se procedi al acoplamiento de las diferentes
herramientas.
RESULTADOS
Se obtuvo una aplicacin informtica amigable al usuario y que da respuestas con el debido
sustento estadstico, realizado con los comandos de R. La misma ofrece, grficos explicativos,
editables y de fcil entendimiento con respecto a las variables seleccionadas, obtenidos
inmediatamente ejecutada la consulta en el cubo de datos.