Departamento de Estatística/ICET/UFMT Mineração de Texto MINERAÇÃO DE TEXTOS
• Mineração de textos(Text Mining) é um processo de Des-
coberta de Conhecimento, que utiliza técnicas de análise e extração de dados a partir de textos, frases ou apenas palavra • A Mineração de textos é um campo novo e multidisciplinar que inclui conhecimentos de áreas como Computação, Es- tatística, Linguística e Ciência Cognitiva MINERAÇÃO DE TEXTOS
• Mineração de textos é um conjunto de métodos usados
para navegar, organizar, achar e descobrir informação em bases textuais • Seu principal objetivo é descobrir padrões emergentes de banco de dados não estruturados ou semi-estruturados. ORIGEM DE DADOS TEXTUAIS
• O dados textuais podem ser obtidos de diversas maneiras:
• Documento (livro, artigo, acórdão, lei, etc)
• Conteúdo de uma pagina da internet • Comentários e interações em redes sociais • 80% do conteúdo online está em formato textual (Chen, 2001) • 80% das informações armazenadas por uma empresa são também dados não-estruturados (Tan, 1999) DESAFIOS DA MINERAÇÃO DE TEXTO
• Dependência da língua - métodos baseado em dicionários
léxicos (maior parte em inglês); • Ambiguidade - uma palavra pode atender a mais de um significado dependendo do contexto; • Estruturas dinâmicas: - a lingua está em constante mu- dança e pode ser utilizado diversas formas de comunicação a exemplo do emmotions • Dados ruidosos - podem ser encontrados erros ortográfi- cos, palavras sem acento, ausência de espaço entre as pa- lavras, tags html etc. • Grandes volumes de dados - bases em torno de 1GB a 1TB MINERAÇÃO DE TEXTO NO R
• Pacotes do R para mineração de texto
• tm - fornece funções para o pré-processamento e manipu- lação do texto. • tidytext - fornece funções para o pré-processamento e ma- nipulação do texto e algumas analises textuais como nuvem de palavras, analise de sentimentos, entre outros. • tidytext • syuzhet - fornece funções para analise de sentimentos • lexiconPT - Fornece léxico de sentimentos para quem de- seja fazer análise de texto em textos em português, estão disponíveis: ’SentiLex-PT02’ e ’OpLexicon’ • RTextTools - fornece funções para classificação automática de textos.