Você está na página 1de 5

ALGORITMOS DE MINERÍA DE TEXTO

Los algoritmos de minería de texto no son más que algoritmos específicos de minería de
datos en el dominio del texto en lenguaje natural. El texto puede ser cualquier tipo de
contenido: publicaciones en redes sociales, correo electrónico, documentos de negocios,
contenido web, artículos, noticias, publicaciones de blog y otros tipos de datos no
estructurados.

Los algoritmos para el análisis de texto incorporan una variedad de técnicas, como la
clasificación de texto, la categorización y la agrupación. Todos ellos tienen como objetivo
descubrir relaciones, tendencias y patrones ocultos que son una base sólida para la toma
de decisiones empresariales.

Una lista de los principales algoritmos de significado de texto son:

1. Agrupación de K-medias

La agrupación de K-means es un algoritmo de análisis de datos popular que tiene como


objetivo encontrar grupos en un conjunto de datos dado. El número de grupos está
representado por una variable llamada K.

Es uno de los algoritmos de aprendizaje no supervisados más simples que resuelven


problemas de agrupamiento. La idea clave es definir k centroides que se utilizan para
etiquetar nuevos datos.

K-Means Clustering es una forma clásica de categorización de texto . Es ampliamente


utilizado para clasificaciones de documentos, creación de grupos en datos de texto de
redes sociales, agrupación de palabras clave de búsqueda, etc.

El uso de la agrupación de k-means para datos de texto requiere realizar una


transformación de texto a número de nuestros datos de contenido. Si trabajamos con R,
se puede saber que tiene varios paquetes para simplificar el proceso.

2. Clasificador ingenuo de Bayes

Naive Bayes es considerado uno de los algoritmos de minería de datos más efectivos. Es
un algoritmo probabilístico simple para las tareas de clasificación.

El clasificador Naive Bayes se basa en el llamado teorema bayesiano y proporciona


resultados excelentes y confiables cuando se utiliza para el análisis de datos de texto.

El clasificador Naive Bayes no es un algoritmo único, sino una familia de algoritmos que
supone que los valores de las características utilizadas en la clasificación son
independientes.

Es muy fácil codificar con los lenguajes de programación estándar como PHP, JAVA, C #,
etc.
Como una de las mejores técnicas de clasificación de texto, Naive Bayes tiene una
variedad de aplicaciones en la detección de spam de correo electrónico, categorización de
documentos, clasificación de correo electrónico, identificación de edad / género, detección
de idioma y análisis de sentimientos.

3. Vecino más cercano a K (KNN)

K-Nearest Neighbour (KNN) es también uno de los algoritmos de minería de texto más
utilizados debido a su simplicidad y eficiencia.

KNN es un método no paramétrico que utilizamos para la clasificación.

En pocas palabras, KNN es un algoritmo simple que almacena todos los objetos de datos
existentes y clasifica los nuevos objetos de datos en función de una medida de similitud.

En el dominio de análisis de texto, se utiliza para verificar la similitud entre documentos y


k datos de entrenamiento. El objetivo es determinar la categoría de los documentos de
prueba.

Una de las mayores aplicaciones de minería de texto de KNN se encuentra en la


"Búsqueda de conceptos" (es decir, la búsqueda de documentos semánticamente
similares), una característica en las herramientas de software, que se utiliza para ayudar a
las empresas a encontrar sus correos electrónicos, correspondencia comercial, informes,
contactos, etc.

4. Máquinas de vectores de soporte (SVM)

Este enfoque es uno de los algoritmos de minería de texto de clasificación más precisos.

Prácticamente, SVM es un algoritmo supervisado de aprendizaje automático utilizado


principalmente para problemas de clasificación y detecciones de valores atípicos.
También se puede usar para desafíos de regresión.

SVM se utiliza para ordenar dos conjuntos de datos por clasificación similar. Este
algoritmo de análisis de datos dibuja líneas (conocidas como hiperplanos) que separan los
grupos de acuerdo con algunos patrones.

El objetivo de SVM es crear este hiperplano. El hiperplano con el margen máximo de


ambos grupos es el mejor. En el mundo real, SVM puede modelar problemas complejos
como la clasificación de texto e imagen, reconocimiento de escritura manual, detección de
rostros y análisis de biosecuencia.
Cuando se trata de minería de texto, SVM se usa ampliamente para actividades de
clasificación de texto, como la detección de spam, análisis de sentimientos, clasificación
de documentos en categorías como noticias, correos electrónicos, artículos, páginas web,
etc.

5. Árbol de decisiones

El algoritmo de árbol de decisión es una técnica de aprendizaje automático bien conocida


para la minería de datos que crea modelos de clasificación o regresión en forma de
estructura de árbol.

La estructura incluye un nodo raíz, ramas y nodos hoja. Cada nodo interno indica una
prueba en un atributo y cada rama indica el resultado de una prueba. Finalmente, cada
nodo hoja indica una etiqueta de clase.

El algoritmo del árbol de decisión es no lineal y simple.

Como algoritmos de minería de texto, Decision Trees tiene muchas aplicaciones, como
analizar todo el texto que proviene de la gestión de relaciones con los clientes. También
se usa para hacer predicciones médicas basadas en documentos de historial médico, etc.

6. Modelos lineales generalizados (GLM)

Los modelos lineales generalizados son una técnica estadística popular utilizada para el
modelado lineal.

En realidad, los GLM combinan una gran cantidad de modelos que incluyen modelos de
regresión lineal , regresión logística, regresión de Poisson, ANOVA, modelos log-lineales,
etc.

La combinación del enfoque lineal con las herramientas de minería de datos tiene muchas
ventajas, como acelerar el proceso de modelado y lograr una mayor precisión.

Algunos de los mejores proveedores de software de análisis de contenido (como Oracle )


usan GLM como uno de los algoritmos clave de minería de texto.
7. Redes neuronales

Las redes neuronales son modelos no lineales que representan una metáfora del
funcionamiento del cerebro humano.

A pesar de que las redes neuronales tienen una estructura compleja y un largo tiempo de
entrenamiento, tienen su lugar en el análisis de datos y los algoritmos de minería de
textos.

En el dominio de análisis de texto, la red neuronal se puede utilizar para agrupar patrones
similares, para clasificar patrones , etc.

La aplicación de la red neuronal es importante en la minería de datos debido a algunas


características como la adaptabilidad autoorganizada, el rendimiento paralelo, la
tolerancia a fallas y la robustez.

Cuando se trata del análisis de datos de texto, las redes neuronales son populares en el
área de documentos de investigación médica, finanzas y minería de contenido de
marketing.

8. Reglas de asociación

Las reglas de asociación son declaraciones if / then que tienen como objetivo descubrir
algunas relaciones entre datos no relacionados en una base de datos determinada.

Pueden encontrar relaciones entre los elementos que se usan regularmente juntos.

Las aplicaciones populares de las reglas de asociación son el análisis de datos de


canasta, marketing cruzado, agrupación, clasificación, diseño de catálogos, etc. Por
ejemplo, si el cliente compra huevos, entonces también puede comprar leche.

El uso de este enfoque en la minería de datos de texto puede ayudar a los usuarios a
obtener conocimiento de la recopilación de diferentes tipos de contenido, como
documentos web (para disminuir el tiempo de lectura de todos esos documentos).

Otro ejemplo es, las reglas de asociación utilizadas para identificar asociaciones positivas
o negativas entre síntomas, medicamentos y resultados de laboratorio e informes de
datos de textos médicos.
9. Algoritmos genéticos

Los algoritmos genéticos o los algoritmos evolutivos son una familia de algoritmos de
búsqueda estocástica cuyo mecanismo de inspiración se inspira en el proceso de
evolución neodarwinista.

Naturalmente, los GA han aplicado cadenas binarias (cromosomas) para codificar las
características que forman un individuo. Básicamente intentan imitar la evolución humana.

La razón para usar GAs para la minería de datos es que son técnicas de búsqueda
adaptativas y robustas.

Los GA pueden resolver varios problemas de minería de datos de texto, como la


agrupación, el descubrimiento de reglas de clasificación, la selección de atributos y la
construcción.

10. Asignación de Dirichlet latente (LDA)

La asignación de Dirichlet latente es una de las técnicas que actualmente se utiliza en el


modelado de texto de temas .

De hecho, la asignación de Dirichlet latente (LDA) es un modelo probabilístico generativo


diseñado para colecciones de datos discretos (para saber qué son datos discretos,
consulte nuestra publicación de datos discretos vs continuos ).

Para decirlo de otra manera, LDA es un método que busca automáticamente temas que
contienen documentos dados.

LDA tiene varias versiones avanzadas (dinámicas, correlacionadas, etc.) que tienen una
variedad de aplicaciones en la recuperación de información.

Por ejemplo, si tiene una tonelada de documentos (como correos electrónicos) y desea
saber de qué se tratan sin necesidad de leerlos. En este caso, LDA puede darle varios
temas que se caracterizan por las palabras más probables.

Você também pode gostar