Você está na página 1de 57

Business Analytics

Seja bem-vindo!
Business Analytics
Business Analytics

Os benefícios da mineração de textos pode se


estender a qualquer domínio que utilize textos,
sendo que suas principais contribuições estão
relacionadas à busca de informações específicas em
documentos, à análise qualitativa e quantitativa de
grandes volumes de textos, e a melhor compreensão
do conteúdo disponível em documentos textuais.
Business Analytics

A maior parte da informação


disponível no mundo não está - e, de
fato, jamais esteve! - armazenada em
tabelas de bancos de dados
relacionais!
Business Analytics

Quando trabalhamos com dados textuais


precisamos lidar com informações que, na
maioria das vezes, não possuem
um esquema para descrever a sua estrutura.
Business Analytics
Business Analytics

A Classificação é, provavelmente, a tarefa de mineração de


texto mais conhecida e utilizada.

Entrada Classificador Saída

Mensagem Classe da Mensagem


Business Analytics

Outro exemplo interessante de


aplicação prática para a classificação
de texto trata-se do algoritmo utilizado
pelo Internet Explorer para identificar o
idioma de uma página Web.
Business Analytics

Mas como o IE procede para classificar o


idioma da página?

A ideia básica consiste em tentar “advinha-lo”


baseado na frequência com que determinadas
sequências de bytes ocorram no texto.
Business Analytics

Descobrir conhecimento significa identificar e


receber informações relevantes, e poder
processá-las e agregá-las ao conhecimento prévio
de uma pessoa, mudando o estado do seu
conhecimento atual, a fim de que determinada
situação ou problema, possa ser resolvido.
Business Analytics

Mecanismos automáticos de processamento


tendem a tornar o processo de descoberta de
conhecimento mais eficiente.
Business Analytics

Descoberta de Conhecimento Apoiada por Computador


(Knowledge Discovery - KD)

KD Process

Text Analytics é a aplicação de técnicas de Data


Science para análise de dados em formato de texto
Business Analytics

KD
Process
Business Analytics
Business Analytics

Descoberta de Conhecimento em Bancos de Dados


(Knowledge Discovery in Databases - KDD)
Business Analytics

Processo de KDD

• Identificação do problema

• Pré-processamento ou preparação dos


dados

• Mineração de dados (data-mining)

• Pós-processamento
Business Analytics

Processo de KDD

Identificação do problema
Business Analytics

Processo de KDD

Pré-processamento
Business Analytics

Processo de KDD

Mineração de Dados
(Data Mining)
Business Analytics

Processo de KDD

Pós-processamento
Business Analytics

O processo de KDD é voltado para


análise de dados armazenados em
formato estruturado
Business Analytics

Descoberta de Conhecimento em Textos


(Knowledge Discovery from Text - KDT)
Business Analytics

Como a forma mais comum de


armazenamento de informação é através de
texto, KDT, teoricamente, tem um potencial
maior de utilização do que KDD, pois cerca de
80% das informações contidas nas
organizações estão armazenadas em
documentos textuais.
Business Analytics

Textos estes que podem


estar representados das
mais diversas formas, dentre
elas: e-mails, arquivos em
diferentes formatos (pdf, doc,
txt, xml, json), páginas Web,
campos textuais em bancos
de dados, textos eletrônicos
digitalizados a partir de
papéis, etc...
Business Analytics

Atualmente, mineração de textos pode ser


considerado sinônimo de descoberta de
conhecimento em textos.

• Text Data Mining


• Knowledge Discovery from Textual Databases
• Text Analytics
• Information Seeking
• Undiscovered Public Knowledge
• Knowledge Retrieval
Business Analytics

Descoberta de Conhecimento em Textos


(Knowledge Discovery from Text - KDT)
Business Analytics

• Seleção de documentos
• Definição do tipo de abordagem dos dados (análise semântica ou estatística)
• Preparação dos dados
• Indexação e normalização
• Cálculo da relevância dos termos
• Seleção dos termos
• Pós-processamento (análise de resultados)
Business Analytics

Análise Semântica
Business Analytics

Análise Estatística
Business Analytics

Análise Estatística

• Codificação dos Dados


• Estimativa dos Dados
• Modelos de Representação de Documentos
(Bag of Words)
Business Analytics

Preparação dos Dados


Função de Similaridade
Business Analytics

Preparação dos Dados

• Modelo Booleano
• Modelo Espaço-Vetorial
• Modelo Probabilístico
• Modelo Difuso (Fuzzy)
• Modelo de Busca Direta
• Modelo de Clusters
• Modelo Lógico
• Modelo Contextual ou Conceitual
Business Analytics

Indexação e Normalização
Business Analytics

Indexação e Normalização
Business Analytics

Indexação e Normalização

• Identificação de Termos
▪ Identificação de Termos Simples
▪ Identificação de Termos Compostos
• Remoção de Stopwords
• Normalização Morfológica (Stemming)
▪ Método do Stemmer S
▪ Método de Porter
▪ Método de Lovins
Business Analytics

Portuguese Stemming
Business Analytics

Portuguese Stemming

1- Redução do Plural
2- Redução (ou Remoção) do Feminino
3- Remoção de Advérbio
4- Remoção de Aumentativo e Diminutivo
5- Remoção de Sufixos em Nomes
6- Remoção de Sufixos em Verbos
7- Remoção de Vogais
8- Remoção de Acentos
Business Analytics

Cálculo da Relevância
Business Analytics

Cálculo da Relevância

A este grau de relacionamento de uma palavra com um texto dá-se o nome de peso.

Logo, é o peso que indica a importância da palavra em relação a um texto.


Business Analytics

Frequência Absoluta

Cálculo da Relevância Frequência Absoluta

Frequência Inversa de
Documentos
Business Analytics

Seleção de Termos
Business Analytics

Filtragem Baseada no Peso do Termo

Seleção Baseada no Peso do Termo

Seleção de Termos
Seleção por Análise de Co-ocorrência

Seleção por Análise de Linguagem


Natural
Business Analytics

A fim de obter significado de


texto ou um documento,
precisamos de uma medida!
Business Analytics

O primeiro passo é assumirmos que


um documento é uma coleção de
palavras onde a ordem não
influencia nossa análise.
Business Analytics

Documento-1: Os sorvetes no verão são impressionantes


Documento-2: Eu amo sorvetes no verão
Documento-3: Os sorvetes são impressionantes toda a estação

Para resolver este problema,


usamos a frequência inversa do
documento.
Business Analytics

IDF = Inverse Document Frequency

N é o número de documentos no corpus e df (termo) é o número de


documentos em que o termo aparece.
Business Analytics

IDF = Inverse Document Frequency


Business Analytics

Esta pontuação termo-documento é conhecida como TF * IDF, e


é amplamente utilizado.
Business Analytics
Business Analytics

RWeka
Business Analytics

RcmdrPlugin.temis
Graphical Integrated Text Mining Solution
Business Analytics

Pacote tm
Framework para Aplicações de Text Mining em R
Business Analytics

languageR
Analisando Dados Linguísticos
Business Analytics

koRpus:
Análise de Texto
Business Analytics

RKEA
Extração de Keywords em Textos
Business Analytics

lsa
Latent Semantic Analysis
Muito obrigado!

Você também pode gostar