Você está na página 1de 8

MINERAÇÃO DE DADOS

MINERAÇÃO DE TEXTO

Anderson Castro Soares de Oliveira

Departamento de Estatística/ICET/UFMT
Mineração de Texto
MINERAÇÃO DE TEXTOS

• Mineração de textos(Text Mining) é um processo de Des-


coberta de Conhecimento, que utiliza técnicas de análise
e extração de dados a partir de textos, frases ou apenas
palavra
• A Mineração de textos é um campo novo e multidisciplinar
que inclui conhecimentos de áreas como Computação, Es-
tatística, Linguística e Ciência Cognitiva
MINERAÇÃO DE TEXTOS

• Mineração de textos é um conjunto de métodos usados


para navegar, organizar, achar e descobrir informação em
bases textuais
• Seu principal objetivo é descobrir padrões emergentes de
banco de dados não estruturados ou semi-estruturados.
ORIGEM DE DADOS TEXTUAIS

• O dados textuais podem ser obtidos de diversas maneiras:

• Documento (livro, artigo, acórdão, lei, etc)


• Conteúdo de uma pagina da internet
• Comentários e interações em redes sociais
• 80% do conteúdo online está em formato textual (Chen,
2001)
• 80% das informações armazenadas por uma empresa são
também dados não-estruturados (Tan, 1999)
DESAFIOS DA MINERAÇÃO DE TEXTO

• Dependência da língua - métodos baseado em dicionários


léxicos (maior parte em inglês);
• Ambiguidade - uma palavra pode atender a mais de um
significado dependendo do contexto;
• Estruturas dinâmicas: - a lingua está em constante mu-
dança e pode ser utilizado diversas formas de comunicação
a exemplo do emmotions
• Dados ruidosos - podem ser encontrados erros ortográfi-
cos, palavras sem acento, ausência de espaço entre as pa-
lavras, tags html etc.
• Grandes volumes de dados - bases em torno de 1GB a 1TB
MINERAÇÃO DE TEXTO NO R

• Pacotes do R para mineração de texto


• tm - fornece funções para o pré-processamento e manipu-
lação do texto.
• tidytext - fornece funções para o pré-processamento e ma-
nipulação do texto e algumas analises textuais como nuvem
de palavras, analise de sentimentos, entre outros.
• tidytext
• syuzhet - fornece funções para analise de sentimentos
• lexiconPT - Fornece léxico de sentimentos para quem de-
seja fazer análise de texto em textos em português, estão
disponíveis: ’SentiLex-PT02’ e ’OpLexicon’
• RTextTools - fornece funções para classificação automática
de textos.

Você também pode gostar