Você está na página 1de 16

En el mbito del acceso, recuperacin y organizacin de informacin, la minera Web es un campo importante de aplicacin en Internet.

Se utiliza para el estudio del comportamiento de ciertos aspectos esenciales para mejorar la arquitectura de un sitio ayuda a descubrir conocimientos potencialmente tiles a las organizaciones. Etzioni define la minera Web como el empleo de las tcnicas de la minera de datos data mining (DM) para descubrir y extraer informacin automticamente del Web.1 Entre sus campos de aplicacin principales se encuentran:2 Los motores de bsqueda. El comercio electrnico. El diseo Web. El posicionamiento Web. La seguridad. La minera Web se subdivide en reas que abarcan el contenido del sitio, la estructura de navegacin y el comportamiento de los usuarios. Mapa conceptual de la clasificacin minera

Minera de UsoWeb La minera de uso web es el descubrimiento de patrones nuevos, tiles e interpretables a partir de datos generados de transacciones cliente-servidor sobre uno o ms servidores Web. Fuentes de datos tpicas son las siguientes logs de acceso en servidores, proxies, agentes, cookies, etc.

Clases de minera

En materia de minera Web, existen tres clases fundamentales: Minera Web de contenido. En el Web existen variados documentos, hipertexto, imgenes, vdeos, audio, smbolos, datos, meta-datos, link, textos, pdf y muchos otros, que dificulta su clasificacin. La minera de contenido del Web trata de extraer informacin relevante sobre el contenido del Web, con vista a su clasificacin y mejor organizacin de este, para posteriormente perfeccionar el acceso y la recuperacin de la informacin.

Minera Web de estructura. Permite conocer cmo se organiza un Web, cmo se estructura y

cmo ocurre la navegacin en ella. Minera de uso Web. Tiene como principal objetivo extraer patrones de uso del Web por parte de los usuarios. Para esto, se utilizan los archivos Log (registros de sucesos/eventos) de los servidores Web. Este tipo de minera tiene dos objetivos principales: Extraer patrones generales de uso de un sitioWeb de manera que pueda reestructurarse para que sea ms fcil de utilizar y mejore el acceso por parte de los usuarios.
Obtener perfiles de los distintos tipos de usuarios a partir de su comportamiento y navegacin, para ofrecer una atencin ms personalizada.

El procesamiento de Log que se genera automticamente en los servidores produce informacin de alto valor. Los datos almacenados en los Log siguen un formato estndar y se almacenan en un archivo de texto, separado cada campo por comas (",") y cada acceso es un rengln distinto. Entre los datos que registran los llamados Log se encuentran: Direccin IP del usuario. Fecha y hora de acceso. URL de la pgina accedida. Protocolo utilizado para la transmisin de los datos. Cdigo de error. Nmero de bytes transmitidos.

Fases

La minera de uso Web presenta cuatro fases fundamentales (fig. 2): Recoleccin de datos- bsqueda. Consiste en la recuperacin automtica de la informacin relevante para su posterior procesamiento. Procesamiento de los datos. Una vez recuperados los documentos, se ordenan y se preparan para la prxima etapa; se utilizan herramientas para obtener informacin valiosa en forma automtica. Descubrimiento de patrones. Existen mltiples tcnicas, aplicables al descubrimiento de patrones. Entre ellas, para el agrupamiento y clasificacin, para el establecimiento de reglas de asociacin y el hallazgo de secuencias frecuentes. Anlisis de patrones. Comprende la interpretacin y validacin de los patrones. FIG. 2. Fases de la minera de uso Web.

Los datos espaciales son aquellos datos que ocupan espacio. Estos estn siendo recopilados continuamente por diversos tipos de aplicaciones tales como los Sistemas de Informacin Geogrfica y cartografa computarizada. En consecuencia, el anlisis de estos datos mediante tcnicas manuales es en ocasiones una tarea complicada y difcil dado el volumen de datos. Para solucionar este problema, diversos mtodos han sido propuestos y aplicados para descubrir conocimiento en datos espaciales, entre stos encontramos tcnicas de aprendizaje mquina, tecnologa de base de datos y estadstica. La minera de datos, en trminos generales, es la bsqueda de patrones que pudiesen existir en bases de datos. Minera de datos espaciales es el descubrimiento de conocimiento implcito y previamente desconocido en base de datos espaciales. El conocimiento a ser descubierto en los datos espaciales puede ser de varios tipos, como caractersticas representativas, estructuras o agrupamientos, asociaciones espaciales, solamente por mencionar algunos. Los mtodos de minera de datos espaciales son aplicados para extraer conocimiento interesante y regular. Estos mtodos pueden ser usados para entender los datos espaciales, descubrir relaciones entre datos espaciales y no espaciales, reorganizar los datos en bases de datos espaciales y determinar sus caractersticas generales de manera simple y concisa.

Tcnicas empleadas en la minera de uso Web Entre las tcnicas utilizadas se encuentran:3

Agrupamiento y clasificacin. Las tcnicas de agrupamiento o clustering distribuyen comportamientos de

individuos similares en grupos homogneos, es decir, dos elementos con caractersticas similares pertenecern al mismo grupo y las caractersticas de un grupo (definidas por el elemento prototipo o ideal) sern diferentes a las de otro grupo. En dependencia de la informacin almacenada en los ficheros Log, es posible detectar grupos de usuarios como: Aquellos que visitan gran cantidad de pginas con un tiempo de estancia similar en todas ellas. Los que visitan un nmero pequeo de pginas en sesiones cortas. Los que visitan un nmero pequeo-mediano de pginas con tiempo variable en cada una de ellas. Una vez descubiertos los prototipos o perfiles de cada grupo, se pueden utilizar las caractersticas de cada uno de ellos para realizar la clasificacin. En la minera de uso Web, las tcnicas de clasificacin permiten desarrollar un perfil para clientes/usuarios que acceden a ficheros particulares del servidor, en funcin de sus patrones de acceso. El agrupamiento de clientes/usuarios puede facilitar el desarrollo de estrategias de mercado futuras, tanto en lnea como fuera de lnea. Por ejemplo, envo de correos automticos a aquellos clientes/usuarios que se encuentren en cierto grupo, reasignacin dinmica de servidor para un cliente, tal vez menos sobrecargado, para darle un mejor servicio o la presentacin de contenidos especficos segn el tipo de cliente.

Reglas de asociacin. Las reglas de asociacin permiten determinar patrones en los conjuntos de datos en los que ocurren transacciones de datos. Con esta tcnica, pueden encontrarse relaciones sin que exista intervencin
alguna por parte de algn operador. El descubrimiento de estas reglas ayuda a las organizaciones dedicadas al e-commerce a definir estrategias de mercado efectivas. El aprendizaje de reglas de asociacin se divide normalmente en dos fases: Extraccin de los conjuntos de tems que cumplen con la cobertura requerida a partir de los datos. Generacin de las reglas a partir de estos documentos.

Secuencias frecuentes. La minera de secuencias permite descubrir el tiempo de las secuencias ordenadas de

URLs que han seguido los usuarios y predecir los futuros. En general, en las bases de datos de transacciones estn disponibles los datos en un perodo de tiempo y se dispone de la fecha en que se realiz la transaccin. El descubrimiento de patrones de secuencia (sequential patterns) en el Log puede utilizarse para predecir las futuras visitas y as poder organizar mejor los accesos y publicidades para determinados perodos de tiempo. Por ejemplo, los das laborables entre las 9 a.m. y las 12 m., muchas de las personas que accedieron al servidor lo hicieron para ver las ofertas, y en los siguientes das la mayora compr productos. Entonces, por las maanas se debera facilitar el acceso a las ofertas y brindar la publicidad ms llamativa posible.

Herramientas para el anlisis de Log

Con el crecimiento explosivo de las fuentes de informacin disponibles en Internet, es cada vez ms necesario que los investigadores utilicen herramientas automatizadas para el hallazgo de los recursos deseados de la informacin, y as poder conocer y analizar sus patrones de uso. Para realizar el proceso de extraer conocimiento del contenido de los documentos y de sus descripciones, algo que tambin se conoce como explotacin minera y que permite identificar patrones de comportamiento en los registros de acceso a Internet, existen variadas herramientas. Estas herramientas son sistemas inteligentes que trabajan tanto del lado del servidor, como del lado del cliente, para poder minar la informacin que se genera con el uso de Internet y su anlisis se realiza a partir de la informacin que existe en los archivos Log del servidor de Internet y el servidor de correo. Tenemos entonces: Las que trabajan como herramientas incorporadas al propio servidor. Estas son aplicaciones del lado del servidor, que corresponden a programas que procesan en tiempo real los datos que se almacenan en los archivos Log. Corren en el servidor, y el acceso a la informacin del trfico, tanto estadstica, como grafica, se realiza mediante una interfase en lnea. Generalmente, este tipo de soluciones vienen incluidas en las ofertas de alojamiento Web, sea un servidor dedicado o compartido. Las que trabajan como herramientas en mquinas personales. Son software que se instalan de manera independiente en mquinas de escritorio, y su objetivo es igualmente realizar anlisis de archivos Log pero no en tiempo real. Esta opcin consiste en la descarga de los archivos Log y su posterior procesamiento; por lo tanto, es necesario tener acceso a estos registros, cuestin que debe consultarse con el proveedor del alojamiento Web. Luego, mediante uno de estos programas especializados que se utiliza en una tpica PC de escritorio, y sin requerir acceso a Internet, se desarrollan informes estadsticos en poco tiempo. Este es uno de los modos ms atractivos y productivos de ejecutar anlisis los investigadores del Web. Cada una de estas herramientas tiene propsitos especficos, como el anlisis del uso de la tecnologa, el nivel del conocimiento en una institucin, las estadsticas de ventas, la usabilidad y muchas otras. Cabe destacar que cada una de estas herramientas tiene sus propios requerimientos tcnicos: espacio disponible en disco, capacidad de memoria, sistema operativo y, por tanto, tambin diferentes resultados finales. Entre las herramientas que trabajan incorporadas al servidor de navegacin o de correo, se encuentran: OmniAnalyzer, AWStats, Deep Log Analizer V 3.1, Advanced Log Analizer, y WebLog Expert. Entre los comerciales, estn DB Miner y SpeedTracer; entre los pblicos: STstat y Analog.

Sawmill ofrece una gran cantidad de opciones, incluida


una base de datos persistente, el control sobre la apariencia de las pginas de estadsticas y diversas opciones de filtrado sobre el Log. Este software muestra, tras su instalacin, una interfase amigable en Windows Internet Explorer y presenta, en un cuadro de seleccin de opciones ubicado a la izquierda, una serie de estadsticas posibles:

Cantidad de visitas por hora, por da, por mes, etctera. Horas pico y horas de baja audiencia. Pginas ms visitadas. Pginas de entrada y salida ms frecuentes del sitio. Utilizacin de buscadores, clasificacin de palabras clave empleadas para buscar.

Você também pode gostar