Você está na página 1de 15

INTRODUÇÃO

A BIG DATA E
INTERNET DAS
COISAS (IOT)

Priscila Gonçalves
Mineração de textos
(Text Mining)
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:

 Reconhecer o conceito de Text Mining.


 Descrever o processo de descoberta de conhecimento em textos.
 Enumerar as principais ferramentas de Text Mining.

Introdução
O processo de extração de conhecimento e informação a partir de dados
de bases textuais é denominado Text Mining — mineração de textos em
português — e pode ser realizado a partir de diversas técnicas, cada vez
mais desenvolvidas.
Neste capítulo, você aprenderá a reconhecer o conceito de Text Mining,
saberá descrever o processo de descoberta de conhecimento em textos
e conhecerá as principais ferramentas de mineração de textos.

O conceito de Text Mining


A mineração de texto é um campo interdisciplinar que combina técnicas de
linguística, ciência da computação e estatística para construir ferramentas que
possam recuperar e extrair informações de forma eficiente do texto digital.
Objetivamente, a mineração de texto refere-se à forma de conseguir infor-
mações importantes a partir de um texto. Essas informações, geralmente, são
obtidas a partir da construção de padrões e tendências, como, por exemplo,
padrão estatístico de aprendizagem. Normalmente, a mineração de texto
circunda o processo de estruturação do texto de entrada, de derivação de
padrões dentro de uma estrutura de dados e de avaliação e interpretação do
resultado. Essas informações importantes em mineração de texto são relativas
a combinações de relevância, originalidade e interesse.
2 Mineração de textos (Text Mining)

Dentre as tarefas de mineração de texto, pode-se incluir a categorização


e o agrupamento de texto, a extração de conceito/entidade, a produção de
taxonomias granulares, a análise de sentimentos, resumo de documentos e a
modelagem de relações entre entidades.
A mineração de texto envolve informações de recuperação, análise lexical
utilizada para estudar a frequência de distribuição de palavras, o reconhe-
cimento de padrões, a identificação/anotação, a extração de informações, as
técnicas de mineração de dados, em que se pode incluir link e associação de
análises, a visualização e a analítica preditiva. Seu objetivo é transformar
o texto em dados para análise por meio da aplicação do processamento de
linguagem natural (PLN) e de métodos analíticos.
O campo de maturação da mineração de textos tem como objetivo resolver
problemas relacionados à recuperação, extração e análise de informações
não estruturadas em texto digital e revolucionar a forma como os cientistas
acessam e interpretam dados que, de outra forma, poderiam permanecer
enterrados na literatura.
Segundo Aranha e Passos (2006), dentre as técnicas utilizadas, pode-se citar:

 Indexação: utilizada para fazer uma busca rápida de documentos a


partir de palavras-chave. Nessa técnica, um aumento de desempe-
nho é proporcionado por uma estrutura de dados de armazenamento,
recuperam-se dados textuais, sendo possível, inclusive, realizar cálculos
com múltiplas palavras-chave a partir da ordenação segundo a avaliação
para cada documento.
 PLN (processamento de linguagem natural): técnica que utiliza co-
nhecimentos da linguística, permitindo o máximo aproveitamento do
conteúdo do texto, extraindo as entidades e relacionamentos, corrigindo
palavras, verificando sinônimos.
 Mineração de dados: essa técnica é muito pertinente para atuação sobre
banco de dados, tornando possível a identificação de conhecimentos
relevantes da base de dados. Na mineração de dados, aplicam-se clas-
sificação, clusterização e otimização.
Mineração de textos (Text Mining) 3

Na Figura 1, a seguir, você pode ver um exemplo de tarefas de mineração


por clusterização.

Figura 1. Text mining tasks — exemplo de clusterização.


Fonte: Bruley (2014, documento on-line).

Dentre as técnicas de mineração de dados aplicadas à mineração de textos,


estão a mineração por classificação, clusterização e otimização. Nos próximos
parágrafos, você aprenderá um pouco mais sobre cada uma dessas técnicas.

Mineração de texto por classificação


Nesta funcionalidade, vários atributos podem ser utilizados para identificar uma
classe específica de itens. São atribuídos itens às categorias ou classes de destino
pela classificação, de forma que possa ser previsto com uma maior precisão o que
poderá ocorrer dentro das classes. É uma técnica que, por exemplo, geralmente,
é utilizada dentro do marketing para classificar o público para suas campanhas.

Mineração de texto por clustering


A funcionalidade de clustering agrupa registros semelhantes, ou seja, em
grupos de elementos que possuem as mesmas propriedades a fim de que o
usuário final possa, entre outras coisas, saber o que está ocorrendo no banco
4 Mineração de textos (Text Mining)

de dados. Essa técnica é bastante utilizada pelo marketing para saber quais
objetos podem ajudar na segmentação, como, por exemplo, segmentando o
mercado em subconjuntos de clientes, e cada um desses subconjuntos poderá
ser direcionado para uma estratégia de marketing diferente, com padrões
diferentes para diferentes tipos de clientes.

Mineração texto por otimização


Esta funcionalidade tem como premissa otimizar os recursos limitados, como,
por exemplo: tempo, espaço, dinheiro, matéria-prima, recursos humanos, entre
outros. Dessa forma, pretende alcançar maiores resultados em variáveis, como,
por exemplo, aumento de vendas, lucros, distribuição, economia, entre outras.
Aproxima-se da área de pesquisa operacional, objetivando tratar problemas de
otimização que tenham restrições. Na Figura 2, apresentada a seguir, temos
um exemplo da mineração de texto por otimização.

Figura 2. Exemplo de extração de entidades.


Fonte: Aranha e Passos (2006, p. 06).

A Figura 3 representa as funcionalidades em mineração de dados, mos-


trando que diferentes funcionalidades são utilizadas para tipos diferentes
de análise; neste caso, estão representadas as funcionalidades para análise
preditivas e de prognóstico.
Mineração de textos (Text Mining) 5

Figura 3. Funcionalidades em mineração de dados.


Fonte: Côrtes, Porcaro e Lifschitz (2002, documento on-line).

Processo de descoberta de conhecimento


em textos
Atualmente, um grande número de dados são gerados a cada instante por
sistemas que dão respaldo às atividades das organizações e que dificultam a
tarefa de análise dos gestores. A partir disso, criaram-se os Sistemas de Apoio
à Decisão (SADs) para apoiar, contribuir e influenciar em tomadas de decisões.
Diante dos dados das transações das empresas, é possível, com base nesses
sistemas, gerar informações que facilitem o processo de gestão.
Dessa forma, passa a ser fundamental a utilização da técnica de mineração
de texto (Knowledge Discovery in Texts, KDT) a fim de identificar os padrões
e conhecimentos necessários para auxiliar em tomadas de decisões. O conhe-
cimento construído pode determinar se é, ou não, de relevância para o usuário/
cliente, avaliando o desempenho do processo de mineração de textos para gerar
conhecimentos. Para essas avaliações, são utilizadas métricas, de forma que
as principais são relacionadas a desempenho, precisão, cobertura e exatidão.
O processo de mineração de textos é divido em quatro etapas:

 Seleção: os documentos importantes devem ser escolhidos e serão


processados.
 Pré-processamento: ocorre a conversão de documentos em estrutura que
tenha compatibilidade com o minerador, assim como um tratamento
especial do texto. Essa etapa pode ser dividida em subetapas, que são:
6 Mineração de textos (Text Mining)

■ tokenização;
■ remoção de StopWords;
■ redução do léxico;
■ frequência de documentos;
■ naive Bayes;
■ conflação;
■ normalização de sinônimos;
■ indexação.
 Mineração: o minerador detectará padrões embasado no algoritmo definido.
 Assimilação: os usuários/clientes utilizarão conhecimento gerado para
apoiar decisões que devam ser tomadas.

Na Figura 4, temos o infográfico referente às quatro etapas que fazem


parte do processo de mineração de textos.

Figura 4. Processo de mineração de texto.


Fonte: Devmedia (2016, documento on-line).

Dentro do pré-processamento, também temos a tokenização, a primeira etapa,


que tem como objetivo seccionar o documento de texto em unidades mínimas, que
apresentem a mesma semântica do texto. O termo token é utilizado para designar
essas unidades, porque, às vezes, elas não podem ser consideradas palavras ou
ainda apresentam mais de uma palavra, como, por exemplo, “guarda-chuva”.
Na Figura 4, é apresentada a metodologia proposta em Kondchady (2006
apud SOARES, 2008), na qual, a partir da utilização de dicionários de dados
e regras de formação de palavras, mantém-se o mesmo nível semântico que é
apresentado pelos tokens de um texto antes de ocorrer o processo de tokenização.
Mineração de textos (Text Mining) 7

Figura 5. Metodologia de identificação de tokens.


Fonte: Soares (2008, p. 45).

A próxima etapa é a de StopWords, na qual é realizada a identificação do


que poderá ser retirado do processamento de dados; trata-se de uma forma
de retirar aquilo que não produzirá conhecimento nos textos. Geralmente,
são palavras como conjunções, preposições, pronomes e artigos, porque
são consideradas de menor relevância. Por meio de uma stoplist bem feita,
é possível eliminar termos irrelevantes, fazendo com que o resultado obtido
seja mais eficiente.
Para a realização da mineração de texto, também é aplicada a técnica de
redução do léxico, que tem por objetivo obter somente tokens importantes, que
traduzem a essência do texto. A partir disso, ocorre a seleção de características,
em que se define o subconjunto mais discriminante das características, fazendo
com que, dessa forma, o espaço inicial seja menor, trazendo o aumento de
desempenho das tarefas de mineração e a diminuição do tempo de execução
dos algoritmos utilizados.
8 Mineração de textos (Text Mining)

A frequência de documentos utiliza como critério computar o número


de documentos em que um termo específico aparece e remover aqueles que
tenham uma frequência abaixo da espera e predefinida.
Dentre os algoritmos utilizados na mineração de textos, pode-se citar
o naive Bayes, que projeta um classificador com base nas probabilidades
incondicionais de um atributo que venha a partir do conjunto de treinamento.
Esse classificador de baseia na suposição de que vários atributos são inde-
pendentes condicionalmente de acordo com o valor final da função de saída.
Dessa forma, a probabilidade da ocorrência de uma conjunção de atributos
em um referido exemplo é igual ao produto da probabilidade da ocorrência
de cada atributo de forma isolada.
A conflação ocorre quando um grupo de palavras diferentes pode com-
partilhar um mesmo radical; a mineração, nesse caso, deverá identificar esses
grupos de palavras, que são pequenas variações sintáticas umas das outras,
de modo que se torna possível armazenar apenas o radical.
Nas subetapas normalização e indexação, o objetivo é tornar mais fácil
a identificação da similaridade de significado entre as palavras a partir das
variações de ordem morfológicas e problemas de sinonímia. Tem como resul-
tado a geração de índice que é construído por meio do processo de indexação.
Esse processo identifica as características do documento e coloca-as em uma
disposição chamada índice.

Os processos de KDD (Knowledge Discovery in Databases) e KDT são semelhantes e a


diferença entre eles está no fato de que KDT não possui a etapa de transformação.
Isso ocorre porque a etapa de pré-processamento do KDT, além de fazer o tratamento
no texto, permite que seja definida uma estrutura que tenha compatibilidade com
entradas de algoritmos de mineração.
Mineração de textos (Text Mining) 9

Exemplos de ferramentas de mineração de textos


Para realizar a mineração de dados, existem algumas ferramentas auxiliando
no processo. Dentre elas, pode-se citar:

 TextAlyser: ferramenta gratuita on-line para analisar textos destacando


grupos de palavras. Permite ao usuário descobrir de forma rápida o
assunto principal do texto que está sendo analisado, verificando as
palavras e expressões utilizadas.
 Wordcounter: ferramenta criada por Steven Morgan Friedman, tam-
bém on-line e gratuita, que apresenta uma relação de palavras mais
utilizadas em um texto, ou seja, mostra as palavras redundantes
em uma lista, e tem por objetivo encontrar estatísticas de uso de
palavras e termos no texto.
 TagCrowd: trata-se de uma ferramenta on-line, criada por Dainel
Steinbock, que permite a criação de nuvens de marcadores de qualquer
texto em diversos idiomas. Apresenta os textos de uma forma mais
visual do que as anteriores, dando ênfase aos termos e palavras mais
frequentes.
 Sobek: ferramenta criada por uma equipe multidisciplinar da Uni-
versidade Federal do Rio Grande do Sul que pode ser executada em
computadores com sistemas operacionais, como, por exemplo, Win-
dows, Linux ou Mac OS, e permite utilização sem restrições. Essa
ferramenta pode minerar textos em diferentes formatos de uma forma
rápida e se diferencia das demais por apresentar principais conceitos
no texto e o relacionamento entre eles, utilizando grafos, mas não
está disponível on-line.
10 Mineração de textos (Text Mining)

A seguir, na Figura 5, veja um exemplo referente à mineração de texto.

Figura 6. Exemplo de mineração de texto.


Fonte: Hokanson (2013, documento on-line).

Acesse o site a seguir e saiba mais a respeito das informações não estruturadas e da
mineração de textos.

https://goo.gl/9XZEBF
Mineração de textos (Text Mining) 11

ARANHA, C.; PASSOS, E. A Tecnologia de Mineração de Textos. RESI - Revista Eletrônica de


Sistemas de Informação, v. 5, n. 2, p. 1-8, 2006. Disponível em: <http://www.spell.org.br/
documentos/ver/26518/a-tecnologia-de-mineracao-de-textos>. Acesso em: 4 jan. 2019.
BRULEY, M. Big Data & Text Mining. 16 jan. 2014. Disponível em: <https://www.slideshare.
net/MichelBruley/1-text-mining-v0a>. Acesso em: 4 jan. 2019.
CÔRTES, S.; PORCARO, R.; LIFSCHITZ, S. Mineração de Dados: funcionalidades, técnicas
e abordagens. Rio de Janeiro: Puc-Rio, 2002. Disponível em: <ftp://obaluae.inf.puc-rio.
br/pub/docs/techreports/02_10_cortes.pdf>. Acesso em: 4 jan. 2019.
DEVMEDIA. Mineração de texto: análise comparativa de algoritmos - Revista SQL Magazine
138. 2016. Disponível em: <https://www.devmedia.com.br/mineracao-de-texto-analise-
-comparativa-de-algoritmos-revista-sql-magazine-138/34013>. Acesso em: 4 jan. 2019.
HOKANSON, B. Going Large: Notes on Increasing Class Scale in an eLearning Context.
2013. Disponível em: <https://uminntilt.com/2013/05/28/going-large-notes-on-incre-
asing-class-scale-in-an-elearning-context/>. Acesso em: 4 jan. 2019.
SOARES, F. A. Mineração de Textos na Coleta Inteligente de Dados na Web. 2008. 120 f.
Dissertação (Mestrado em Engenharia Elétrica) – Pontifícia Universidade Católica do
Rio de Janeiro, Rio de Janeiro, 2008. Disponível em: <https://www.maxwell.vrac.puc-
-rio.br/Busca_etds.php?strSecao=resultado&nrSeq=13212@1>. Acesso em: 4 jan. 2019.

Leituras recomendadas
ARANHA, C. et al. Um modelo de desambigüização de palavras e contextos. 2004. Disponível
em: <http://www.lbd.dcc.ufmg.br/colecoes/til/2004/0011.pdf>. Acesso em: 4 jan. 2019.
BRITO, M. Aspectos teóricos da mineração de dados e aplicação das regras de classifica-
ção para apoiar o comércio. 2012. Disponível em: <https://www.devmedia.com.br/
aspectos-teoricos-da-mineracao-de-dados-e-aplicacao-das-regras-de-classificacao-
-para-apoiar-o-comercio/25429 >. Acesso em: 4 jan. 2019.
DP6. Text Mining: extraindo informação de dados não estruturados. 06 fev. 2016. Dispo-
nível em: <https://blog.dp6.com.br/text-mining-extraindo-informa%C3%A7%C3%A3o-
-de-dados-n%C3%A3o-estruturados-fc509ff3043c>. Acesso em: 4 jan. 2019.
12 Mineração de textos (Text Mining)

FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery
in Databases. Artificial Intelligence Magazine, v. 17, n. 3, p. 37-54, 1996. Disponível em: <ht-
tps://www.aaai.org/ojs/index.php/aimagazine/article/view/1230>. Acesso em: 4 jan. 2019.
FELDMAN, R.; SANGER, J. TheText Mining Handbook. Cambridge: Cambridge University
Press, 2009.
FERREIRA, R. S. 10 Ferramentas e bibliotecas para trabalhar com Data Mining e Big Data – Parte
1. 02 jun. 2017. Disponível em: <https://imasters.com.br/data/10-ferramentas-e-bibliotecas-
-para-trabalhar-com-data-mining-e-big-data-parte-01>. Acesso em: 4 jan. 2019.
GONÇALVES, L. Categorização em Text Mining. 2002. 173 f. Dissertação (Mestrado em
Ciências da Computação e Matemática Computacional) – Universidade de São Paulo,
São Carlos, 2002. Disponível em: <http://www.teses.usp.br/teses/disponiveis/55/55134/
tde-22062015-202748/publico/LeaSilviaMGoncalves.pdf>. Acesso em: 4 jan. 2019.
PIATETSKY, G. R, Python Duel As Top Analytics, Data Science software. 2016. Disponível
em: <https://www.kdnuggets.com/2016/06/r-python-top-analytics-data-mining-data-
-science-software.html>. Acesso em: 4 jan. 2019.
RAMAKRISHNAN, R.; GEHRKE, J. Sistemas de Gerenciamento de Banco de Dados. 3. ed.
Porto Alegre: Penso, 2013.
Conteúdo:

Você também pode gostar