Você está na página 1de 11

Materia: Gestin del Conocimiento

Perspectivas para la integracin de la minera de textos y la


gestin del conocimiento
Luciana Bordoni y Ernesto d'Avanzo, ENEA
Resumen
Asunto: El creciente volumen de informacin disponible en la web plantea nuevos problemas y
retos para la recuperacin de la informacin. Los motores de bsqueda pueden desempear

un papel esencial en la viabilidad de los sistemas de informacin basados en Internet, siempre


que existan aplicaciones que puedan analizar y evaluar la relevancia de la informacin para el
usuario. Nuevos enfoques basados en la integracin de la minera de textos con la gestin del

conocimiento pueden ofrecer mejores soluciones a la gestin de la informacin.

Relevancia: Los usuarios individuales y las organizaciones con responsabilidad poltica que
utilizan la recuperacin cooperativa de la informacin, se encuentran inmersos en el proceso
de bsqueda de la informacin y de puesta al da del conocimiento. Por lo tanto, la gestin del
conocimiento es una parte importante del buen funcionamiento de cualquier organizacin
poltica.

Texto
El reto para la gestin del conocimiento (KM) es traducir el conocimiento tcito, que es
personal, difcil de formular, en las mentes de las personas, y difcil de comunicar, en un
conocimiento explcito que es formal, sistemtico, y que puede compartirse.
Introduccin
La gestin del conocimiento (KM) es una prctica empresarial relativamente nueva en la que el

contenido digital en muchas formas y formatos se rene en una arquitectura integrada que
permite utilizar los datos semnticos subyacentes en el
comprensin estratgica y a la toma de decisiones.

corpus como una ayuda a la

Materia: Gestin del Conocimiento

La KM est destinada a servir a las prcticas empresariales, habindose originado en el


mundo de la empresa como un mtodo para unificar las enormes cantidades de informacin
generada en reuniones, propuestas, presentaciones, documentos analticos, material de

enseanza, etc. La KM la utilizan fundamentalmente las grandes organizaciones, aunque el


problema de navegar en un corpus de documentos multiformatos es relevante para cualquier
individuo o grupo que cree o consuma conocimiento distribuido. Ikujiro Nonaka en su artculo,
'La empresa creadora de conocimiento' sostiene que 'poner al alcance de los dems el
conocimiento personal es la actividad central de la empresa creadora de conocimiento'
(Nonaka, 1991).

El reto para la gestin del conocimiento (KM) es traducir el conocimiento 'tcito', que es
personal, difcil de formular, 'en las mentes de las personas', y difcil de comunicar, en un
conocimiento 'explcito' que es formal, sistemtico, y que puede compartirse. El conocimiento
se crea convirtiendo el conocimiento 'tcito' en 'explcito'. A travs de la creacin de
conocimiento, una empresa puede traducir sus ideas en tecnologas y productos innovadores.

En los ltimos aos, la industria, el mundo acadmico y los gobiernos han prestado una
creciente atencin a la KM.

La KM efectiva se cita con frecuencia como una capacidad clave para adquirir una ventaja
competitiva en la empresa global, y la tecnologa del lenguaje humano juega un papel central
en la KM; mejora el funcionamiento de la organizacin compartiendo el conocimiento, y
mediante el aprendizaje y la aplicacin de la experiencia. Tambin son importantes los

avances en las tcnicas de inteligencia artificial y basadas en el conocimiento para almacenar


normas y modelos, as como los sistemas de informacin que almacenan y organizan el
conocimiento (Stewart et al., 2000). Como indicacin de la importancia de la KM, muchas
corporaciones que tradicionalmente medan slo los aspectos financieros del valor estn
empezando tambin a medir los valores humanos e intelectuales.

Materia: Gestin del Conocimiento

Un conjunto de tecnologas del lenguaje humano puede facilitar la KM, incluyendo la mejora
de la recuperacin de informacin, la extraccin de informacin, el resumen, presentacin y
generacin de documentos. Adems, las tecnologas del lenguaje humano prometen mejorar

el acceso humano a la informacin y la interaccin humana. La KM puede mejorar la eficiencia


de las organizaciones mediante la integracin de aspectos tecnolgicos con otros humanos y
organizativos.

Un conjunto de tecnologas del lenguaje humano puede facilitar la KM, incluyendo la mejora
de la recuperacin, la extraccin de informacin, el resumen, presentacin y generacin de
documentos.

Este artculo describe las perspectivas de la integracin de la minera de textos y las tcnicas
de descubrimiento de conocimiento utilizando inteligencia artificial en la interfaz con los
recursos lingsticos.

Las aplicaciones de la minera de textos se utilizan principalmente para:

Extraer informacin relevante de un documento

Agregar y comparar informacin automticamente

Clasificar y organizar documentos segn su contenido

Organizar depsitos para bsqueda y recuperacin

Clasificar textos e indizarlos en la web

Las metodologas empleadas en los campos de la inteligencia artificial y la lingstica


computacional pueden mejorar las tecnologas de la minera de textos y en consecuencia la
KM. En particular, nuestro enfoque considera el papel fundamental desempeado por las
frases clave y las tcnicas de indizacin conceptual en el campo de la minera de textos.

Materia: Gestin del Conocimiento

La minera de textos frente a la extraccin de informacin

La minera de textos es un rea de creciente de inters en el campo de la KM y en particular


de la minera de datos y el descubrimiento de conocimiento. Un problema creciente al que se
enfrentan las grandes empresas e instituciones pblicas es el descubrimiento de nuevo
conocimiento y su gestin. Los avances recientes en este campo incluyen la aplicacin de
tcnicas de minera de datos para encontrar conocimiento significativo a partir de datos

textuales sin estructurar (Feldman et al., 1999). Se aplican las tcnicas de tratamiento del
lenguaje natural (NLP) para extraer informacin til a partir de una amplia coleccin de textos
de documentos almacenados. Se extraen de los documentos los trminos duplicados y las
entidades de mayor nivel y se utilizan como sus palabras clave. Esta metodologa tambin
puede aplicarse a los documentos en la Web, en lo que se viene a llamar minera de textos en

la Web. La minera de textos se centra en encontrar reglas de asociacin tiles y significativas


para los trminos o palabras duplicados.

La minera de textos se centra en encontrar normas de asociacin tiles y significativas para


los trminos o palabras duplicados y se trata de un rea de creciente inters en el campo de la
KM y en particular de la minera de datos y el descubrimiento de conocimiento.

Una de las reas principales de aplicacin de la minera de textos es la recogida y


condensacin de hechos como una base de ayuda a la toma de decisiones. Las principales
ventajas de la tecnologa de minera frente a la tradicional actividad del 'intermediario de
informacin' son:

La capacidad de procesar rpidamente grandes cantidades de datos textuales, lo que no puede


ser llevado a cabo eficazmente por lectores humanos.

La 'objetividad' y capacidad de personalizacin del proceso.

La posibilidad de automatizar las laboriosas tareas de rutina, dejando las tareas ms exigentes
para los lectores humanos.

Materia: Gestin del Conocimiento

Tomando ventaja de estas propiedades, las aplicaciones de la minera de textos se usan


fundamentalmente para:

Extraer informacin relevante de un documento (resumiendo, extrayendo lo ms notable,


etc.).

Adquirir

perspectivas

sobre

las

tendencias,

las

relaciones

entre

gentes/lugares/organizaciones, etc. agregando y comparando automticamente la


informacin extrada de documentos de un cierto tipo.

Clasificar y organizar documentos segn su contenido; es decir, preseleccionar


automticamente grupos de documentos con un tema especfico y asignarlos a la

persona adecuada.

Organizar depsitos de meta-informacin relacionada con documentos para la bsqueda


y recuperacin.

Recuperar documentos basndose en varios tipos de informacin sobre el contenido del


documento.

La lista de actividades muestra que las principales reas de aplicacin de las tecnologas de
minera de textos cubren dos aspectos: (1) el descubrimiento de conocimiento y (2) la

extraccin de informacin.

Un sistema de extraccin de informacin busca informacin especfica en un documento,


segn normas predefinidas. Las normas son especficas de un rea temtica dada. Por
ejemplo, si el rea temtica son las noticias sobre ataques terroristas, las normas pueden

especificar que el sistema de extraccin de informacin debera identificar (i) la organizacin


terrorista que participa en el ataque, (ii) las vctimas del ataque, (iii) el tipo de ataque, y la
restante informacin de este tipo que puede esperarse en un documento tpico del rea

temtica.

Un sistema de extraccin de informacin busca informacin especfica en un documento,


segn normas predefinidas (especficas del tema). Tales sistemas se construyen, por lo
comn, manualmente para una sola rea temtica, lo que requiere una gran cantidad de
trabajo de expertos.

Materia: Gestin del Conocimiento

La mayora de los sistemas de extraccin de informacin se construyen manualmente para


una sola rea temtica, lo que requiere una gran cantidad de trabajo de expertos. Por
ejemplo, el mejor rendimiento en la 5 Conferencia sobre Comprensin de Mensajes (MUC-

5,1993) se obtuvo con un coste de dos aos de intenso esfuerzo de programacin.

Analoga entre documentos utilizando la extraccin de frases clave.

Ya en 1977, el sistema THOMAS (Oddy, 1977) ilustr cmo las palabras o las frases clave
podan utilizarse para guiar a los usuarios en el descubrimiento de documentos de referencia
tiles. Las frases clave son un tipo especialmente til de informacin abreviada. Condensan

documentos en unas pocas palabras y frases, ofreciendo una descripcin breve y precisa de
los contenidos de un documento. Tienen muchas aplicaciones: clasificacin o agrupacin de
documentos, interfaces de bsqueda y de hojeo, motores de bsqueda y construccin de
tesauros. Las frases clave se eligen con frecuencia manualmente, casi siempre por los
autores de un documento pero a veces por indizadores profesionales. La asignacin manual

de frases clave es tediosa y lleva tiempo, requiere experiencia y puede dar resultados no
coherentes, de modo que los mtodos automticos benefician tanto a los que renen como a
los usuarios de grandes colecciones de documentos. En consecuencia, se han propuesto
varias tcnicas automticas.

Se sabe, desde hace tiempo, que las frases clave son un tipo especialmente til de
informacin abreviada. Sin embargo, tales frases se eligen con frecuencia manualmente, bien

por los autores o por indizadores profesionales.

Materia: Gestin del Conocimiento

Un amplio conjunto de tcnicas se ha aplicado al problema de la extraccin de frases. Turney

fue el primero en tratar la extraccin como un problema de aprendizaje bajo supervisin


(http://extractor.iit.ncr.ca/). El Proyecto de Biblioteca Digital de Nueva Zelanda (NZDL)
(http://www.nzdl.org) ha desarrollado el sistema Kea (Frank et al., 1999) que aplica las
tcnicas de aprendizaje automtico a la extraccin automatizada de frases clave. Kea utiliza
un modelo para identificar las frases de un documento que muy probablemente sern buenas

frases clave. Las frases clave de ejemplo generalmente las dan los autores y una vez que se
aprende un modelo para identificar frases clave a partir de documentos de prcticas, se puede
utilizar para extraer frases clave de otros documentos.

De este modo, las frases clave extradas automticamente de los textos de los documentos
pueden usarse para establecer enlaces a documentos similares y para sugerir frases de
bsqueda adecuadas para los usuarios. Esta tcnica, esencial para el acceso al conocimiento

y el procesado de las bsquedas, promete incrementar la riqueza y amplitud del material


accesible, a la vez que se mejora la precisin y exhaustividad de la bsqueda.

Los sistemas de extraccin automtica de frases clave prometen incrementar la riqueza y


amplitud del material accesible a la vez que se mejora la precisin y exhaustividad de la
bsqueda.

La minera de textos puede utilizarse como una herramienta eficaz de gestin del
conocimiento que apoya la creacin de conocimiento y la extraccin de informacin relevante
a partir de grandes cantidades de datos textuales no estructurados.

Materia: Gestin del Conocimiento

Conclusin

Mientras que la KM es un fenmeno reciente que pretende solucionar problemas de


organizacin y epistmicos1, la investigacin en minera de textos ya ha experimentado con

muchos objetivos y necesidades de KM. La minera de textos puede utilizarse como una
herramienta para ayudar en la creacin de conocimiento y en la extraccin de informacin
relevante. Por definicin, buena parte de la KM lleva consigo la necesidad de herramientas de
bsqueda eficaces e inteligentes, y cuando el depsito de la organizacin es grande, la
contribucin de la KM como herramienta de minera de textos puede ser fundamental. Los

beneficios que se pueden obtener al integrar la KM con la tecnologa de minera de datos


parecen valiosos. Esto puede conducir a mtodos que permitan a los investigadores satisfacer
sus necesidades de informacin y conocimiento.

El desarrollo de aplicaciones de gestin del conocimiento viene apoyado por un conjunto de


tecnologas que ya estn maduras. La rpida difusin de las tecnologas de redes y
telecomunicaciones contribuye a facilitar al acceso a las fuentes de informacin.

El desarrollo de aplicaciones de gestin del conocimiento viene apoyado por un conjunto de


tecnologas que ya estn maduras. La rpida difusin de las tecnologas de redes y
telecomunicaciones contribuye a facilitar el acceso a las fuentes de informacin. El aumento
de la potencia de los ordenadores y la disponibilidad de software ms inteligente de gestin de

bases de datos permite el procesado rpido, y la adaptacin de tcnicas de inteligencia


artificial a problemas ms estructurados proporciona la lgica necesaria a los sistemas. Los
sistemas de gestin del conocimiento no pueden evidentemente sustituir a los seres humanos
en las tareas de anlisis de la informacin, pero pueden brindar una ayuda importante a la
hora de reducir algunas de las actividades de recogida y tratamiento de la informacin que
consumen mucho tiempo, y de ese modo permitir a los usuarios que tomen decisiones ms
informadas.

Materia: Gestin del Conocimiento

Desde el punto de vista del poltico, los avances en la gestin del conocimiento son
bienvenidos y pueden utilizarse para ayudar a los polticos a procesar grandes cantidades de

informacin. Vistas como una extensin natural del campo general de la tecnologa de la
informacin y la comunicacin, tales aplicaciones contribuyen - casi por definicin - a la
construccin de una sociedad basada en el conocimiento. Tambin heredan los principales

problemas polticamente relevantes del campo de las TIC, tales como las normas, los
derechos de autor y la seguridad. Por otro lado, no se deberan despreciar las cuestiones de
normalizacin en las tecnologas relacionadas con las TIC, incluyendo cmo explotan las

organizaciones la informacin y el conocimiento adquiridos, y qu mecanismos de seguridad


existen para los individuos cuyos datos personales han sido procesados y almacenados en un
sistema con tales capacidades.

Palabras clave

Extraccin de informacin, minera de textos, gestin del conocimiento y de los contenidos


Referencias
R. Feldman, Y. Aumann, M. Fresko, O. Liphstat, B. Rosenfeld, Y. Schler, Text Mining via
Information Extraction, Proceedings of PKDD99, 1999, pgs. 165-173.
E. Frank, G. Paynter, I. Witten, C. Gutwin, y C. Nevill-Manning, Domain-specific keyphrase
extraction, Proceedings of the sixteenth international joint conference on artificial intelligence,

San Mateo, CA:Morgan Kaufmann, 1999.


B. Hjorland, Information seeking a subject representation. An activity-theoretical approach to
information science, Westport, CT: Greenwod Press.

S. Jones, G.W. Paynter, Automatic Extraction of documents keyphrases for use in digital
libraries: evaluation and applications, Journal of the American Society for Information Science
and Technology, 53 (8), 2002.
S. Jones, M.S. Staveley, Phrasier: a system for interactive document retrieval using
keyphrases, Proceedings of the annual international conference on research and development

in information retrieval, agosto 1999.

Materia: Gestin del Conocimiento

I. Nonaka, The Knowledge Creating Company, Harvard Business Review, noviembrediciembre, 1991.

R.N. Oddy, Information retrieval through man-machine dialogue, Journal of Documentation,


33, 1, 1977.

D.E. OLeary, Using AI in Knowledge Management: Knowledge Bases and Ontologies,


IEEE Intelligent Systems, mayo/junio 1998.
D.E. OLeary, R. Studer, Knowledge Management: An Interdisciplinary Approach, IEEE
Intelligent Systems, 2001.
S. Staab, Human Language Technologies for Knowledge Management, IEEE Intelligent
Systems, noviembre/diciembre 2001.
K.A. Stewart, R. Baskerville, V.C. Storey, J.A. Senn, A.Raven, C. Long, Confronting the

assumptions underlying the management of knowledge: an agenda for understanding and


investigating knowledge management, The DATA BASE for Advances in Information
Systems, otoo 2000, 31, 4.
M. Sumner, Knowledge Management: Theory and Practice, SIGCPR 1999, Nueva Orleans,
EE.UU.

Recuperado

de:

http://libros-revistas-derecho.vlex.es/vid/integracion-mineria-textos-

conocimiento-172096 10 de julio d 2011.

Você também pode gostar