Escolar Documentos
Profissional Documentos
Cultura Documentos
Los algoritmos de minería de texto no son más que algoritmos específicos de minería de
datos en el dominio del texto en lenguaje natural. El texto puede ser cualquier tipo de
contenido: publicaciones en redes sociales, correo electrónico, documentos de negocios,
contenido web, artículos, noticias, publicaciones de blog y otros tipos de datos no
estructurados.
Los algoritmos para el análisis de texto incorporan una variedad de técnicas, como la
clasificación de texto, la categorización y la agrupación. Todos ellos tienen como objetivo
descubrir relaciones, tendencias y patrones ocultos que son una base sólida para la toma
de decisiones empresariales.
1. Agrupación de K-medias
Naive Bayes es considerado uno de los algoritmos de minería de datos más efectivos. Es
un algoritmo probabilístico simple para las tareas de clasificación.
El clasificador Naive Bayes no es un algoritmo único, sino una familia de algoritmos que
supone que los valores de las características utilizadas en la clasificación son
independientes.
Es muy fácil codificar con los lenguajes de programación estándar como PHP, JAVA, C #,
etc.
Como una de las mejores técnicas de clasificación de texto, Naive Bayes tiene una
variedad de aplicaciones en la detección de spam de correo electrónico, categorización de
documentos, clasificación de correo electrónico, identificación de edad / género, detección
de idioma y análisis de sentimientos.
K-Nearest Neighbour (KNN) es también uno de los algoritmos de minería de texto más
utilizados debido a su simplicidad y eficiencia.
En pocas palabras, KNN es un algoritmo simple que almacena todos los objetos de datos
existentes y clasifica los nuevos objetos de datos en función de una medida de similitud.
Este enfoque es uno de los algoritmos de minería de texto de clasificación más precisos.
SVM se utiliza para ordenar dos conjuntos de datos por clasificación similar. Este
algoritmo de análisis de datos dibuja líneas (conocidas como hiperplanos) que separan los
grupos de acuerdo con algunos patrones.
5. Árbol de decisiones
La estructura incluye un nodo raíz, ramas y nodos hoja. Cada nodo interno indica una
prueba en un atributo y cada rama indica el resultado de una prueba. Finalmente, cada
nodo hoja indica una etiqueta de clase.
Como algoritmos de minería de texto, Decision Trees tiene muchas aplicaciones, como
analizar todo el texto que proviene de la gestión de relaciones con los clientes. También
se usa para hacer predicciones médicas basadas en documentos de historial médico, etc.
Los modelos lineales generalizados son una técnica estadística popular utilizada para el
modelado lineal.
En realidad, los GLM combinan una gran cantidad de modelos que incluyen modelos de
regresión lineal , regresión logística, regresión de Poisson, ANOVA, modelos log-lineales,
etc.
La combinación del enfoque lineal con las herramientas de minería de datos tiene muchas
ventajas, como acelerar el proceso de modelado y lograr una mayor precisión.
Las redes neuronales son modelos no lineales que representan una metáfora del
funcionamiento del cerebro humano.
A pesar de que las redes neuronales tienen una estructura compleja y un largo tiempo de
entrenamiento, tienen su lugar en el análisis de datos y los algoritmos de minería de
textos.
En el dominio de análisis de texto, la red neuronal se puede utilizar para agrupar patrones
similares, para clasificar patrones , etc.
Cuando se trata del análisis de datos de texto, las redes neuronales son populares en el
área de documentos de investigación médica, finanzas y minería de contenido de
marketing.
8. Reglas de asociación
Las reglas de asociación son declaraciones if / then que tienen como objetivo descubrir
algunas relaciones entre datos no relacionados en una base de datos determinada.
Pueden encontrar relaciones entre los elementos que se usan regularmente juntos.
El uso de este enfoque en la minería de datos de texto puede ayudar a los usuarios a
obtener conocimiento de la recopilación de diferentes tipos de contenido, como
documentos web (para disminuir el tiempo de lectura de todos esos documentos).
Otro ejemplo es, las reglas de asociación utilizadas para identificar asociaciones positivas
o negativas entre síntomas, medicamentos y resultados de laboratorio e informes de
datos de textos médicos.
9. Algoritmos genéticos
Los algoritmos genéticos o los algoritmos evolutivos son una familia de algoritmos de
búsqueda estocástica cuyo mecanismo de inspiración se inspira en el proceso de
evolución neodarwinista.
Naturalmente, los GA han aplicado cadenas binarias (cromosomas) para codificar las
características que forman un individuo. Básicamente intentan imitar la evolución humana.
La razón para usar GAs para la minería de datos es que son técnicas de búsqueda
adaptativas y robustas.
Para decirlo de otra manera, LDA es un método que busca automáticamente temas que
contienen documentos dados.
LDA tiene varias versiones avanzadas (dinámicas, correlacionadas, etc.) que tienen una
variedad de aplicaciones en la recuperación de información.
Por ejemplo, si tiene una tonelada de documentos (como correos electrónicos) y desea
saber de qué se tratan sin necesidad de leerlos. En este caso, LDA puede darle varios
temas que se caracterizan por las palabras más probables.