Você está na página 1de 79

Anlise de Informaes

Marcio Victorino 1
Minerao de Dados
(Navathe)

Marcio Victorino 2
Minerao de Dados
Descoberta de novas informaes em termos de padres
ou regras com base em grandes quantidades de dados.
Processo de encontrar estruturas interessantes em
dados.
Processo de empregar uma ou mais tcnicas de
aprendizado computacional para analisar e extrair
automaticamente conhecimento dos dados.
O data warehouse uma base de dados histrica
projetada para dar suporte tomada de deciso.
A minerao de dados pode ser usada junto com um
data warehouse para ajudar com certos tipos de
decises.

Marcio Victorino 3
Minerao de Dados
As ferramentas de Minerao de Dados, so
especializadas em procurar padres nos dados.
Essa busca pode ser efetuada automaticamente
pelo sistema ou interativamente com um
analista, responsvel pela gerao de hipteses.

Diversas ferramentas distintas, como redes


neurais, induo de rvores de deciso, sistemas
baseados em regras e programas estatsticos,
tanto isoladamente quanto em combinao,
podem ser ento aplicadas ao problema.

Marcio Victorino 4
Minerao de Dados
Em geral, o processo de busca interativo, de
forma que os analistas reveem o resultado,
formulam um novo conjunto de questes para
refinar a busca em um dado aspecto das
descobertas, e realimentam o sistema com
novos parmetros.

Ao final do processo, o sistema de Minerao de


Dados gera um relatrio das descobertas, que
passa ento a ser interpretado pelos analistas de
minerao.

Marcio Victorino 5
Minerao de Dados
Minerao de dados , na verdade, um passo de um
processo maior conhecido como descoberta de
conhecimento nos bancos de dados (KDD).

O processo de Knowledge Discovery in Database


(KDD) ou descoberta de conhecimento em banco de
dados compreende seis fases:
Seleo de dados: separar dados relevantes.
Limpeza de dados: corrigir ou eliminar dados incorretos.
Enriquecimento: melhorar os dados com fontes
adicionais.
Transformao: criar categorias ou agrupar os dados (por
exemplo, agrupar itens em eletrodomsticos).
Minerao: extrair regras e padres.
Anlise, assimilao, interpretao, avaliao, divulgao
e exposio das informaes.
Marcio Victorino 6
Minerao de Dados
O resultado da garimpagem pode ser descobrir:
Regras de associao: venda casada.
Padres sequenciais: sequencia de compras ao longo do
tempo.
rvores de classificao: classes de clientes.
Objetivos do Data Mining:
Previso: comportamento futuro.
Identificao: existncia de um item, evento ou atividade.
Classificao: classes de coisas.
Otimizao: melhor uso de recursos.
Tipos de conhecimentos:
Dedutivo: deduz novas informaes com base na aplicao
de regras lgicas previamente especificadas sobre o dado
indicado.
Indutivo: descobre novas regras e padres com base nos
dados fornecidos. Esse o foco da minerao de dados.

Marcio Victorino 7
Minerao de Dados
Tipos de conhecimento descobertos:
Regras de associao.
Hierarquias de classificao.

Padres sequenciais.

Padres dentro de sries temporais.

Agrupamento (segmentao).

Marcio Victorino 8
Regras de Associao
Regras de associao so frequentemente usadas para
gerar regras de dados de cesta de mercado.
A cesta de mercado corresponde aos conjuntos de
itens que um consumidor compra em um
supermercado durante uma visita.
O conjunto dos itens comprados pelos clientes
chamado itemset.
Uma regra de associao tem a forma X=>Y, onde X
={x1, x2, ., xn } e Y = {y1,y2, ., yn} so
conjuntos de items, com xi e yi sendo distintos para
todo i e todo j.
Para que uma regra de associao seja de interesse,
a regra deve satisfazer no mnimo suporte e
confiana.

Marcio Victorino 9
Regras de Associao
Suporte:
A porcentagem mnima de exemplos no banco de dados que contm todos
os itens listados em uma dada regra de associao.
Confiana:
Dada uma regra da forma A=>B, a regra da confiana a probabilidade
condicional que B verdadeira quando sabemos que A verdadeira.
Fator de Interesse (lift):
Taxa entre a confiana da regra e o suporte do conjunto de itens no
consequente da regra.

{leite, po} => {manteiga}

Suporte = 1/5 = 0.2


Confiana = = 0.5
Lift = Confiana(A->B)/ Suporte(B)
= 0.5/0.4 = 1.25
Marcio Victorino 10
Reduo da Complexidade da Regra de Associao

Para reduzir o espao de pesquisa


combinatria, os algoritmos para
encontrar regras de associao
utilizam as seguintes propriedades.
Fechamento para baixo:
Um subconjunto de um itemset grande tambm
deve ser grande (excede o suporte mnimo
exigido).
Antimonotonicidade:
Um superconjunto de um itemset pequeno
tambm pequeno (implicando que ele no tem
suporte suficiente).
Marcio Victorino 11
Regras de Associao
O algoritmo Apriori foi o primeiro
algoritmo usado para gerar regras de
associao.
O algoritmo Apriori usa o algoritmo
geral para criar regras de associao
em conjunto com as propriedades de
fechamento para baixo e
antimonotonicidade.

Marcio Victorino 12
Regras de Associao
O algoritmo de Amostragem
seleciona uma amostra pequena, que
caiba na memria principal, do banco de
dados de transaes e determina os
itemsets frequentes com base nessa
amostra.
Se esses itemsets frequentes formarem um
superconjunto dos itemsets frequentes para o
banco de dados inteiro, ento podemos
determinar os itemsets frequentes reais fazendo
a varredura do restante do banco de dados.
Em casos raros, uma segunda varredura do
banco de dados necessria.

Marcio Victorino 13
Regras de Associao
O algoritmo de rvore de Padro
Frequente reduz o nmero total de
itemsets candidatos ao produzir uma verso
compactada do banco de dados em relao
a uma rvore FP.
A rvore FP armazena informaes
relevantes do itemset e permite a
descoberta eficiente de itemsets
frequentes.
O algoritmo consiste de dois passos:
Passo 1: construo da rvore FP.
Passo 2: usar a rvore para encontrar itemsets
frequentes.
Marcio Victorino 14
Regras de Associao
O algoritmo de Partio divide o banco de
dados em subconjuntos no sobrepostos.
So individualmente considerados como bancos
de dados separados onde cada partio cabe
inteiramente na memria principal.
O algoritmo Apriori pode ento ser usado de
modo eficiente em cada partio.
Recuperamos a unio de todos os itemsets
frequentes de cada partio.
Isso forma os itemsets frequentes candidatos
globais para o banco de dados inteiro.
Verificar o conjunto de itemsets global medindo
seu suporte real para o banco de dados inteiro.

Marcio Victorino 15
Regras de Associao
Outros tipos de regras de associao:
Regras de Associao entre Hierarquias: ocorre quando as
regras so entre itens dentro de hierarquias, ao invs de ser entre
hierarquias. Por exemplo, pode acontecer de no se ter a confiana
e o suporte necessrios para se afirmar que o consumidor que
compra sorvete compra bebida (sorvete => bebida). No entanto, a
regra picol de morango => guaran pode produzir a confiana e
o suporte suficientes para ser considerada uma regra de associao
vlida.
Associaes Multidimensionais: nesse caso, ao invs de
analisarmos as regras entre itens vendidos (dimenso produto), faz
a anlise de vendas de determinados produtos em um perodo de
tempo especfico (dimenso tempo).
Associaes Negativas: o problema da descoberta da associao
negativa mais difcil do que o da descoberta de uma associao
positiva. Um exemplo de associao negativa seria: 60% dos
clientes que compram batatas no compram sorvete. Normalmente
a descoberta dessas regras envolvem bilhes de regras inteis
devido ao baixo suporte.

Marcio Victorino 16
Regras de Associao
Complicaes em regras de associao:
A cardinalidade dos conjuntos de itens na
maioria das situaes extremamente grande.
A regra de associao da minerao mais difcil
quando as transaes mostram variabilidade em
fatores como localizao geogrfica e estaes.
As classificaes de itens existem ao longo de
mltiplas dimenses.
A qualidade dos dados varivel; existem
problemas significativos com dados faltando,
errneos, em conflito, bem como dados
redundantes.

Marcio Victorino 17
Classificao
Classificao o processo de aprender
um modelo que descreve diferentes classes
de dados.
O aprendizado supervisionado conforme
as classes a serem aprendidas so
predeterminadas.
O aprendizado realizado com um conjunto
de treinamento de dados que j foram
classificados.
O modelo que produzido costuma ser na
forma de uma rvore de deciso ou um
conjunto de regras.

Marcio Victorino 18
Classificao
rvore de deciso baseada nos dados de treinamento onde
os ns folha so representados por um grupo de regras.

Aqui est uma das regras extradas da rvore de deciso:


SE 50K > salrio >= 20K
E idade >=25
ENTO classe sim

Marcio Victorino 19
Agrupamento
O aprendizado no supervisionado,
ou agrupamentos, constri modelos a
partir dos dados sem ter classes
predefinidas.
O objetivo do agrupamento colocar
registros em grupos, de modo que os
registros em um grupo sejam
semelhantes uns aos outros e diferentes
dos registros em outros grupos.
O algoritmo k-Means uma tcnica de
agrupamento simples, porm efetiva.
Marcio Victorino 20
Mtodos adicionais de Minerao de Dados
Anlise de padres sequenciais

Anlise de Sries Temporais

Regresso

Redes Neurais

Algoritmos Genticos
Marcio Victorino 21
Anlise de padres sequenciais
Transaes so ordenadas por momento da
compra gerando uma sequncia de itemsets.

O problema encontrar todas as subsequncias


para os conjuntos de sequncias indicados que
possuem um suporte mnimo.

A sequncia S1, S2, S3, ... um indicador do


fato de que um cliente que compra o itemsets
S1 provavelmente comprar o itemsets S2 e
depois S3, e assim por diante.

Marcio Victorino 22
Anlise de Sries Temporais
Sries temporais so sequncias de eventos.
Por exemplo, o preo de fechamento de uma
ao ou de um fundo um evento que ocorre a
cada dia da semana para cada ao e fundo.

A anlise de sries temporais pode ser usada


para identificar tendncias nos preos de aes
ou de fundos mtuos.

A anlise de sries temporais uma


funcionalidade estendida do gerenciamento de
dados temporais.

Marcio Victorino 23
Anlise de Regresso
A regresso uma aplicao especial da regra de
classificao.
Se uma regra de classificao considerada uma
funo sobre as variveis, que mapeia essas variveis
em uma varivel de classe de destino, a regra
denominada regra de regresso.
A equao de regresso estima uma varivel
dependente usando um conjunto de variveis
independentes e um conjunto de constantes.
As variveis independentes, assim como a varivel
dependente, so numricas.
A equao de regresso pode ser escrita na forma
Y=f(x1,x2,,xn) onde Y a varivel dependente.
Se f linear no domnio de variveis xi, a equao
chamada equao de regresso linear.

Marcio Victorino 24
Redes Neurais
Uma rede neural um conjunto
interconectado de ns projetado para
imitar o funcionamento do crebro.
As conexes dos ns tm pesos que so
modificados durante o processo de
aprendizado.
Redes neurais podem ser usadas para
aprendizado supervisionado e
agrupamentos no supervisionados.
O resultado de uma rede neural
quantitativo e no facilmente entendido.

Marcio Victorino 25
Algoritmos Genticos
O aprendizado gentico baseado na
teoria da evoluo.

Uma populao inicial de vrias solues


candidatas fornecida ao modelo de
aprendizado.

Uma funo de ajuste define quais solues


sobrevivero de uma gerao para a outra.

Crossover, mutao e seleo so usadas


para criar novos elementos de populao.
Marcio Victorino 26
Aplicaes de Minerao de Dados
Marketing: estratgias de Marketing
comportamento do consumidor.
Finanas: deteco de fraude, anlise de
crdito e de investimento.
Manufatura: otimizao de recursos.

Sade: anlise de imagem, efeitos


colaterais de drogas, e eficincia de
tratamentos.

Marcio Victorino 27
Minerao de Dados
(Pang-Ning Tan)

Marcio Victorino 28
Minerao de Dados
Processo de descoberta automtica de
informaes teis em grandes depsitos de dados.

Aspectos motivadores da Minerao de Dados:


Escalabilidade: lidar com terabytes e petabytes.
Alta dimensionalidade: componentes temporais e
espaciais.
Dados complexos e heterogneos: dados
estruturados, semi-estruturados e no estruturados.
Propriedade e distribuio de dados: vrias fontes
em localizaes distintas.
Anlises No Tradicionais: automao do processo
de gerao e avaliao de hipteses.
Marcio Victorino 29
Minerao de Dados

Marcio Victorino 30
Minerao de Dados
Categorias das Tarefas de Minerao de Dados:
Tarefas de Previso: o objetivo dessas tarefas prever
o valor de um determinado atributo baseado nos valores
de outros atributos. O atributo a ser previsto
comumente conhecido como a varivel dependente ou
alvo, enquanto que os atributos usados para fazer a
previso so conhecidos como as variveis
independentes ou explicativas.

Tarefas Descritivas: o objetivo dessas tarefas derivar


padres (correlaes, tendncias, grupos, trajetrias e
anomalias) que resumem os relacionamentos subjacentes
nos dados. As tarefas descritivas da minerao so muitas
vezes exploratrias em sua natureza e frequentemente
requerem tcnicas de ps-processamento para validar e
explicar resultados.

Marcio Victorino 31
Minerao de Dados
Tarefas de Minerao de Dados:
Modelagem de Previso:
Classificao: usada para variveis alvo discreta.
Regresso: usada para variveis alvo contnua.
Anlise de Associao: usada para descobrir
padres que descrevam caractersticas altamente
associadas dentro dos dados.
Anlise de Grupo: procura encontrar grupos de
observaes intimamente relacionados de modo que
observaes que pertenam ao mesmo grupo sejam
mais semelhantes entre si do que pertenam a outros
grupos. Tem sido usado para juntar conjunto de
clientes relacionados.
Deteco de Anomalias: a tarefa de identificar
observaes cujas as caractersticas sejam
significativamente diferentes do resto dos dados.
Marcio Victorino 32
As Quatro Tarefas Nucleares em Data Miming

Marcio Victorino 33
Classificao (linearmente separvel)

Marcio Victorino 34
Classificao (no-linearmente separvel)

Marcio Victorino 35
Overfitting de Modelo
Os erros cometidos por um modelo de classificao so
geralmente divididos em dois tipos:
Erros de treinamento: erros de classificao equivocada
cometidos nos registros de treinamento.
Erros de generalizao: erros esperados do modelo em
registros no vistos anteriormente.

Um bom modelo de classificao deve no apenas se adaptar


bem aos dados de treinamento, como tambm deve
classificar com preciso os registros que nunca havia visto
antes, ou seja, deve ter baixa quantidade de erros de
treinamento e generalizao.
Um modelo que seja apropriado aos dados de treinamento
pode muito bem ter um erro de generalizao mais pobre do
que um modelo com um alto grau de erro de treinamento. Tal
situao conhecida como overfitting de modelo.

Marcio Victorino 36
Agrupamento

Marcio Victorino 37
Deteco de Anomalia

Marcio Victorino 38
Minerao de Dados
Passos do KDD:
Pr-processamento: transformar os dados de
entrada brutos em um formato apropriado para
anlises subsequentes. o passo mais
trabalhoso e demorado do processo de KDD.
Minerao de Dados: descoberta.
Ps-processamento: permite explorar os
dados e os resultados da minerao dos mesmos
a partir de uma diversidade de pontos de vista.
Medies estatsticas ou mtodos de teste de
hiptese tambm podem ser aplicados para
eliminar resultados no legtimos da minerao
de dados.

Marcio Victorino 39
KDD

Marcio Victorino 40
Minerao de Dados
Abordagens do Pr-processamento:
Agregao: combinar dois ou mais objetos em um nico.
Amostragem: selecionar um subconjunto dos objetos de
dados a serem analisados.
Reduo de dimensionalidade: diminuir o nmero de
atributos para facilitar a anlise (uso de tcnicas de lgebra
linear).
Seleo de subconjuntos de recursos: eliminar
caractersticas irrelevantes ou redundantes (senso comum).
Criao de recursos (caractersticas): criar, a partir dos
originais, um novo conjunto de atributos que capture as
informaes importantes em um conjunto de dados muito mais
eficazmente (extrair faces de uma foto).
Discretizao e binarizao: categorizar atributos para
facilitar o uso de algoritmos de classificao.
Transformao de variveis: transformar atributos ou
variveis, por exemplo, uso do valor absoluto.

Marcio Victorino 41
Minerao de Dados
Tarefas de previso: prever o valor de um atributo baseado nos
valores de outros atributos.
Tarefas descritivas: explicar resultados.
Modelagem de Previso: construir um modelo para a varivel
alvo como uma funo das variveis independentes ou explicativas.
Anlise de Associao: descobrir padres que descrevem
caractersticas altamente associadas dentro dos dados (venda
casada).
Anlise de Grupo: encontrar grupos de observaes intimamente
relacionadas (agrupamento de artigos por assunto).
Deteco de Anomalias: identificar observaes cujas
caractersticas sejam significativamente diferentes do resto dos
dados.

Marcio Victorino 42
Modelo de referncia
CRISP-DM

Marcio Victorino 43
Modelo de Referncia CRISP-DM
Cross Industry Process Model for Data Mining
Modelo de processo hierrquico que parte de um
conjunto de tarefas mais gerais para um conjunto de
tarefas mais especficas, discriminadas em quatro
nveis de abstrao:
no topo da hierarquia, o processo de Minerao de Dados
organizado em fases;
as fases, por sua vez, so constitudas por diversas tarefas
genricas, que formam o segundo nvel da hierarquia;
o terceiro nvel, de tarefas especializadas, envolve a
descrio de como as aes das tarefas genricas so
aplicadas em situaes especficas.
Por exemplo, uma tarefa genrica do segundo nvel a
limpeza de dados. No terceiro nvel, essa tarefa seria
descrita em diferentes situaes, tais como limpeza de
valores numricos ou de valores categricos.
o quarto nvel, de instncias do processo, um registro
das aes, decises e resultados da minerao de dados
de uma aplicao em particular.
Marcio Victorino 44
CRISP-DM

Marcio Victorino 45
Entendimento do Negcio
Foca o entendimento dos objetivos e
requerimentos do projeto, da perspectiva
do domnio, a relevncia do conhecimento
prvio e os objetivos do usurio final.
Nessa etapa so elaborados o plano do
projeto, especificando os passos a serem
executados no resto do projeto e a
definio do problema.

Marcio Victorino 46
Entendimento dos Dados
Seleo do conjunto de dados.
Anlise dos dados:
identificar problemas de qualidade.
descobrir os primeiros conhecimentos.
descrio dos dados:
formato, quantidade de registros e campos,
distribuio dos atributos,
relacionamentos entre pares de atributos,
identificao de agrupamentos ou
subconjuntos existentes nos dados.

Marcio Victorino 47
Pr-processamento dos Dados
Seleo de atributos, limpeza, construo,
integrao e formatao dos dados de
entrada:
remoo de rudo ou de dados esprios,
estratgias para lidar com valores faltantes,
formatao dos dados para a ferramenta a usar,
criao de atributos derivados e de novos
registros,
integrao de tabelas,
discretizao dos dados numricos, se
necessrio.
Marcio Victorino 48
Base de Dados Desbalanceada
Desbalanceamento de classe (classes
raras):
Casos de uma classe ocorrem com maior
frequncia que casos de outra(s) classe(s):
fraudes so menos frequentes que transaes
legtimas.
Desbalanceamento de casos dentro de
uma classe (casos raros):
Subconjunto de estados de atributos com
menor representao em vista de outros:
ocorrncia de tipos pouco frequentes de
fraudes, por exemplo fraudes milionrias.
Marcio Victorino 49
Base de Dados Desbalanceada
Desbalanceamento de classes:
Classificadores tendem a ignorar a classe
minoritria:
Aproximadamente 1 fraude a cada 850 transaes.
Casos raros:
Classificadores tendem a ignorar regies com
poucos casos:
Fraudes muito especficas.
As duas caractersticas so problemticas
quando a classe de interesse uma classe rara:
Modelo tendencioso para a classe majoritria
e/ou regies com mais casos.

Marcio Victorino 50
Base de Dados Desbalanceada
Tcnicas para reduo do desbalanceamento
No ha garantia de que a distribuio original seja
a mais adequada para a construo de
classificadores
A distribuio que maximiza a performance do
classificador deve ser determinada de forma
emprica
Amostragem undersampling e oversampling:
Visa mudar a distribuio dos dados de treinamento de
modo a aumentar a acurasse dos modelos treinados a
partir deles.
Undersamplig: eliminao de casos da classe majoritria.
Oversamplig: replicao de casos da classe minoritria.

Marcio Victorino 51
Modelagem
Quais modelos e parmetros usaremos?
funo do tipo de dados (numricos ou
nominais).
problema de minerao de dados.
Elaborao do plano de testes
permitir avaliar os modelos gerados.
Diviso da massa de dados:
conjunto de treinamento,
conjunto de testes,
conjunto de validao.
Marcio Victorino 52
Modelagem
Seleo de Modelos
Tarefa de classificao:
rvore de deciso,
A
Classificadores neurais,

Classificadores probabilsticos.


Tarefa de regresso:
Regresso no linear com redes neurais.


Tarefa de descoberta de associaes:
Modelo neural combinatrio.

Marcio Victorino 53
Avaliao
Desempenho no conjunto de treinamento
NO um bom indicador de desempenho em
conjuntos de testes independentes.
Diviso dos dados: treinamento, teste e
validao
Classificadores predizem a classe de cada
instncia:
Taxa de sucesso:
proporo dos sucessos em relao a todas as
instncias.
Qual a relao entre a taxa de sucesso no
conjunto de teste e a verdadeira taxa de
sucesso?
intervalo de confiana para a taxa de sucesso.
Marcio Victorino 54
Avaliao
Avaliar a qualidade dos modelos obtidos
no treinamento:
do ponto de vista de anlise dos dados.
critrio para seleo entre modelos.

Verificar se os objetivos do negcio foram


atingidos:
de acordo com os critrios de sucesso
adotados.

Marcio Victorino 55
Implantao
Modelo selecionado:
i
ncorporado ao processo de tomada de
deciso da organizao.

Plano de monitorao e manuteno:

previne uso incorreto dos resultados do
minerao, durante um longo perodo de
tempo.

Marcio Victorino 56
CRISP-DM

Marcio Victorino 57
Minerao de Texto

Marcio Victorino 58
Minerao de Texto
Text Mining a aplicao de Data Mining
em arquivos de texto no estruturados ou
semi estruturados.
Text mining trabalha com informaes
menos estruturadas.
Raramente os documentos tm uma
estrutura slida, e quando tm,
frequentemente est focada no formato
do documento ao invs do contedo do
documento.
Marcio Victorino 59
Minerao de Texto
Objetivos:
Encontrar o contedo escondido dos documentos,
incluindo relaes adicionais teis.
Relacionar documentos ao longo de prvias divises
despercebidas (descobrir que clientes em duas
divises distintas de produto tm as mesmas
caractersticas).
Agrupar documentos por assuntos em comum.
O text mining no a mesma coisa que
mecanismos de busca na web. Em uma busca,
estamos tentando encontrar o que os outros
prepararam. Com text mining queremos descobrir
novos padres, pedaos de informao que
podem no ser bvios ou conhecidos.
Marcio Victorino 60
Minerao de Texto
Basicamente text mining envolve a gerao de ndices
numricos significativos a partir de textos no estruturados e,
em seguida, processa esses ndices, usando os vrios
algoritmos de data mining.
Ao criar esses ndices numricos, podemos compactar
documentos segundo conceitos chaves, agrupar documentos
com base na semelhana, visualizar relaes entre
documentos, e assim por diante.
Empresas esto reconhecendo que um grande recurso de
vantagem competitiva o conhecimento no estruturado
contido em seu repositrio de informaes na forma de
documentos, memorandos, e-mails, minutas de reunies,
regulamentos, etc.
Toda essa informao textual precisa ser codificada e extrada
para que as ferramentas preditivas de data mining possam
ajudar a empresa a gerar valor real desses locais de
armazenamento.

Marcio Victorino 61
Minerao de Texto
Pelo menos trs especialidades aparecem
nesse campo:
Recuperao da informao: refere-se
consulta e localizao do texto e
apresentao textual.
Extrao da informao: o processamento em
linguagem natural ou a lingustica
computacional so usados para analisar e
processar textos.
Resumo: refere-se aos resumos automticos
de documentos.
Marcio Victorino 62
Minerao de Texto
Text mining usado para extrair entidades
e objetos para anlise de frequncia,
identificar arquivos que tem determinados
atributos para anlise estatstica mais
detalhada e criar novos itens de dados
para modelagem preditiva.
Extrao de termos a forma mais bsica
de text mining. Como todas as outra
tcnicas de data mining, ela mapeia
informaes de dados no estruturados
em um formato estruturado.
Marcio Victorino 63
Minerao de Texto
A estrutura mais simples em text maning o vetor de
caractersticas (termos so eixos), ou lista de palavras
ponderada. As palavras mais importantes em um texto so
listadas, junto com um indicador de sua importncia relativa.
O texto reduzido a uma lista de termos e pesos.
Termo Fator do Termo
estrutura 0,0015
dado 0,0063
casa 0,000015
carro 0,00023
pessoa 0,045

Talvez toda a semntica do texto no seja apresentada, mas


os conceitos chaves so identificados.

Marcio Victorino 64
Minerao de Texto
Etapas:
Eliminar palavras comumente utilizadas, stopwords.
Substituir as palavras por seus radicais. Nesta etapa, os termos
telefonando, telefonado e telefona seriam mapeadas para
telefon. Nessa etapa so usados algoritmos de stemming.
Considerar sinnimos e frases (termos compostos). Palavras que
so sinnimas precisam ser combinadas de alguma maneira.
Calcular a relevncia dos termos restantes. O mtodo mais
comum calcular a frequncia com a qual as palavras
aparecem. Existem duas medidas:
frequncia do termo, ou fator tf: mede o nmero real de vezes que
a palavra aparece em um documento.
Frequncia inversa do documento, ou fator idf: indica o nmero de
vezes que a palavra aparece em todos os documentos de um
conjunto.
O fator tf alto eleva o peso, enquanto o fator idf alto diminui o
peso porque os termos que ocorrem com frequncia em todos os
documentos seriam palavras comuns para o setor e ,por isso, no
seriam consideradas importantes,

Marcio Victorino 65
Minerao de Texto
Componentes um sistema de text mining:
Um sistema para o manuseio de documentos
em vrios formatos (txt, pdf, etc),
provenientes de diferentes fontes (e-mail,
web, twitter, etc).
Componentes para processar esses
documentos e criar arquivos de dados que
possam, ento, ser explorados (resumidores,
classe gramatical das palavras, etc).
Ferramentas de data mining.

Marcio Victorino 66
CRISP-DM em Minerao de Texto
Entendimento do negcio
Pr-processamento de texto segundo a abordagem
estatstica (tradicional):
Parsing:
Tokenization.
Pontuao, caracteres especiais, preposies, artigos,
interjeies, etc (stopwords ou stop list).
Stemming (radicais das palavras).
Atribuio de Pesos (weigthing):
TF e IDF
Entendimento dos dados
Pr-processamento dos dados
Modelagem
Avaliao
Implantao
Marcio Victorino 67
CRISP-DM em Minerao de Texto

Marcio Victorino 68
CRISP-DM em Minerao de Texto

Marcio Victorino 69
Aprendizado de Mquina

Marcio Victorino 70
Aprendizado de Mquina
uma sub-rea da inteligncia artificial,
tambm conhecida como machine learning
ou aprendizado automtico.
Surgiu da ideia de criar programas que
aprendam um determinado comportamento
ou padro automaticamente a partir de
exemplos ou observaes.
Guarda alguma relao com o aprendizado
humano.
Seres humanos (e outros animais) so
capazes de generalizar a partir de exemplos.

Marcio Victorino 71
Aprendizado de Mquina x Minerao de Dados
A minerao de dados o processo de extrao
automtica de conhecimento a partir de grandes
bases de dados.
Algoritmos de aprendizado automtico podem ser
vistos como algoritmos que extraem um padro de
comportamento a partir de dados (exemplos).
Logo, podem ser utilizados como algoritmos de
minerao de dados.
Porm, algoritmos de aprendizado nem sempre
utilizam bases de dados.
Podem aprender diretamente a partir da interao
com o ambiente ou com um simulador.
Ambas as reas emprestam muitos mtodos da
rea de estatstica.
Marcio Victorino 72
Aprendizado de Mquina
Herbert Simon: Aprendizado qualquer
processo no qual um sistema melhora seu
desempenho atravs da experincia.
Qual a tarefa?
Classificao.
Resoluo de problemas / planejamento /
controle.

Marcio Victorino 73
Aprendizado de Mquina
Classificao: atribuir um objeto/evento a
uma categoria, pertencente a um conjunto
finito de categorias):
Diagnstico mdico.
Deteco de fraude em cartes de crdito.
Deteco de vrus em redes de computadores.
Filtragem de spam em e-mails.
Recomendao de produtos em e-commerce.
Investimentos financeiros.
Bioinformtica (sequncias de DNA).
Reconhecimento de voz.
Reconhecimento de caracteres.
Reconhecimento de imagens.
Marcio Victorino 74
Aprendizado de Mquina
Resoluo de problemas / planejamento /
controle: consiste em executar aes em
um ambiente para atingir um determinado
objetivo:
Resolver problemas de matemtica.
Jogar xadrez, damas ou gamo.
Dirigir um carro.
Pilotar um avio, helicptero ou foguete.
Controlar um elevador.
Controlar um personagem em um jogo.
Controlar um rob mvel.

Marcio Victorino 75
Aprendizado de Mquina
Usos:
Desenvolver sistemas que so muito
difceis/caros de construir manualmente porque
requerem conhecimentos detalhados de uma
determinada tarefa.
Desenvolver sistemas que possam se adaptar a
usurios individualmente.
Filtro de notcias ou e-mail personalizado.
Sistemas de educao personalizados.
Extrair conhecimento de grandes bases de dados
(minerao de dados).

Marcio Victorino 76
Aprendizado de Mquina
O aprendizado pode ser visto como o uso de
experincia direta ou indireta para aproximar
uma funo.
Aproximao de funes pode ser vista como
uma busca num espao de hipteses
(representaes de funes) por uma que
melhor se adapta ao conjunto de
treinamento.
Mtodos de aprendizado diferentes usam
espaos de hipteses diferentes (linguagens
de representao) e/ou usam tcnicas de
busca diferentes.
Marcio Victorino 77
Avaliao de Sistemas de Aprendizado
Experimental:
Conduzir experimentos controlados com validao
cruzada para comparar mtodos em uma variedade
de bases de dados.
Coletar dados sobre o seu desempenho, ex.: acurcia
de teste, tempo de treinamento, tempo de teste.
Analisar diferenas quanto a significncia estatstica.
Terica:
Analisar algoritmos matematicamente e provar
teoremas sobre sua:
Complexidade computacional.
Habilidade de se adaptar aos dados de
treinamento.
Nmero de exemplos de treinamento necessrios
para se aprender uma funo correta.
Marcio Victorino 78
Fim

Marcio Victorino 79