Você está na página 1de 44

KDD E MINERAO DE DADOS

Tarefas de KDD

Prof. Ronaldo R. Goldschmidt


ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt

TAREFAS DE KDD Associao Descoberta de Seqncias Classificao Clusterizao Deteco de Desvios Sumarizao Minerao de Textos

TAREFAS DE KDD Associao Descoberta de Seqncias Classificao Clusterizao Deteco de Desvios Sumarizao Minerao de Textos

TAREFAS DE KDD Regras de Associao Caracterizao Intuitiva: Consiste em encontrar conjuntos de itens que ocorram simultaneamente de forma frequente em um banco de dados.

TAREFAS DE KDD Regras de Associao Exemplo de Aplicao: Encontrar produtos que sejam frequentemente vendidos de forma conjunta.
N. Trans. 1 2 3 4 5 6 7 8 9 10 Leite n o sim n o sim n o n o n o n o n o n o Caf sim n o sim sim n o n o n o n o n o n o Cerveja n o sim n o n o sim n o n o n o n o n o P o sim sim sim sim n o n o sim n o n o n o Manteiga sim sim sim sim n o sim n o n o n o n o Arroz n o n o n o n o n o n o n o n o sim sim Feij o n o n o n o n o n o n o n o sim sim n o

TAREFAS DE KDD Regras de Associao Formato Basket:


N Transao 1 1 1 2 2 2 2 Item Caf Po Manteiga Leite Cerveja Po Manteiga

TAREFAS DE KDD Regras de Associao Algumas Definies: Def: Transao: Elemento de ligao existente em cada ocorrncia de itens no BD. Def: Regra de Associao: XY, onde X e Y so itemsets (conjuntos de itens) tais que XY=. Def: Regra de Associao Frequente: se |X Y|/|D|>=minsup. Def: Regra de Associao Vlida: se |X Y|/|X|>= minconf. Def: K-Itemset um itemset contendo exatamente k itens

TAREFAS DE KDD Regras de Associao Formalizao: Consiste em encontrar regras de associao frequentes e vlidas em um banco de dados, a partir da especificao dos parmetros de suporte e confiana mnimos. Exemplos de Regras de Associao: Leite Acar Po Manteiga Caf

TAREFAS DE KDD
ASSOCIAO EXEMPLOS DE ALGORITMOS TRADICIONAIS: APRIORI

DHP DIRECT HASHING AND PRUNING PARTITION

DIC DYNAMIC ITEMSET COUNTING

TAREFAS DE KDD
ASSOCIAO ALGORITMOS MAIS RECENTES [Zaki et al., 2002]: CD CANDIDATE DISTRIBUTION DD DATA DISTRIBUTION ECLAT, CLIQUE

MAX-ECLAT, MAX-CLIQUE

TAREFAS DE KDD Regras de Associao Estrutura Comum: Identificao dos conjuntos de itens frequentes: |X

Y| / |D| >= MinSup (Suporte Mnimo)

Maior custo computacional Identificao, dentre os conjuntos de itens frequentes, quais as regras vlidas: |X

Y| / |X| >= MinConf (Confiana Mnima )

TAREFAS DE KDD Regras de Associao Estrutura Comum: Baseia-se na propriedade de anti-monotonicidade do suporte: Um k-itemset somente pode ser frequente se todos os seus (k1)-subconjuntos forem frequentes

TAREFAS DE KDD Regras de Associao Exemplo: Considere o seguinte BD:


N. Trans. 1 2 3 4 5 6 7 8 9 10 Leite n o sim n o sim n o n o n o n o n o n o Caf sim n o sim sim n o n o n o n o n o n o Cerveja n o sim n o n o sim n o n o n o n o n o P o sim sim sim sim n o n o sim n o n o n o Manteiga sim sim sim sim n o sim n o n o n o n o Arroz n o n o n o n o n o n o n o n o sim sim Feij o n o n o n o n o n o n o n o sim sim n o

TAREFAS DE KDD Regras de Associao Exemplo: Algumas Regras Descobertas:


Regra: SE (caf) ENTO (po). Regra: SE (caf) ENTO (manteiga). Regra: SE (po) ENTO (manteiga). Regra: SE (manteiga) ENTO (po). Regra: SE (caf E po) ENTO (manteiga). Regra: SE (caf E manteiga) ENTO (po). Regra: SE (caf) ENTO (manteiga E po).

TAREFAS DE KDD Regras de Associao Como obt-las? Fase I: Definir os valores de suporte e confiana mnimos: MinSup = 0,3 MinConf = 0,8

TAREFAS DE KDD Regras de Associao Como obt-las? Fase II: Identificar os conjuntos de itens freqentes: 1 Iterao:
1 - Itemsets Leite Caf Cerveja Po Manteiga Arroz Feijo Suportes 0,2 0,3 0,2 0,5 0,5 0,2 0,2

TAREFAS DE KDD Regras de Associao Como obt-las? Fase II: Identificar os conjuntos de itens freqentes: 1 Iterao:
1 - Itemsets Leite Caf Cerveja Po Manteiga Arroz Feijo Suportes 0,2 0,3 0,2 0,5 0,5 0,2 0,2

TAREFAS DE KDD Regras de Associao Como obt-las? Fase II: Identificar os conjuntos de itens freqentes: 2 Iterao: Combinar os 1-itemsets identificados anteriormente

2 - Itemsets Caf , Po Caf , Manteiga Po , Manteiga

Suportes 0,3 0,3 0,4

TAREFAS DE KDD Regras de Associao Como obt-las? Fase II: Identificar os conjuntos de itens freqentes: 2 Iterao: Combinar os 1-itemsets identificados anteriormente

2 - Itemsets Caf , Po Caf , Manteiga Po , Manteiga

Suportes 0,3 0,3 0,4

TAREFAS DE KDD Regras de Associao Como obt-las? Fase II: Identificar os conjuntos de itens freqentes: 3 Iterao: Combinar os 2-itemsets identificados anteriormente
3 - Itemsets Caf , Po , Manteiga Suportes 0,3

10

TAREFAS DE KDD Regras de Associao Como obt-las? Fase II: Identificar os conjuntos de itens freqentes: 3 Iterao: Combinar os 2-itemsets identificados anteriormente
3 - Itemsets Caf , Po , Manteiga Suportes 0,3

TAREFAS DE KDD Regras de Associao Como obt-las? Fase II: Identificar os conjuntos de itens freqentes: Lista de todos os k-itemsets freqentes obtidos (K 2) - Caf e Po, - Caf e Manteiga, - Po e Manteiga, - Caf e Po e Manteiga

11

TAREFAS DE KDD Regras de Associao Como obt-las? Fase III: Identificao das Regras Vlidas: Conjunto de itens: {caf, po}. SE caf ENTO po. SE po ENTO caf. Conjunto de itens: {caf, manteiga}. SE caf ENTO manteiga. SE manteiga ENTO caf. Conjunto de itens: {manteiga, po}. SE manteiga ENTO po. SE po ENTO manteiga. Conf = 1,0. Conf = 0,6. Conf = 1,0. Conf = 0,6. Conf = 0,8. Conf = 0,8.

TAREFAS DE KDD Regras de Associao Como obt-las? Fase III: Identificao das Regras Vlidas: Conjunto de itens: {caf, manteiga, po}. SE caf, po ENTO manteiga. SE caf, manteiga ENTO po. SE manteiga, po ENTO caf. SE caf ENTO po, manteiga. SE po ENTO caf, manteiga. SE manteiga ENTO caf, po. Conf = 1,0. Conf = 1,0. Conf = 0,75. Conf = 1,0. Conf = 0,6. Conf = 0,6.

Finalmente, seleciona-se regras com Conf. maior ou igual ao valor mnimo especificado pelo usurio (MinConf = 0,8).

12

TAREFAS DE KDD Regras de Associao Regras Obtidas: SE caf ENTO po. SE caf ENTO manteiga. SE manteiga ENTO po. SE po ENTO manteiga. SE caf,po ENTO manteiga. SE caf, manteiga ENTO po. SE caf ENTO po, manteiga.

TAREFAS DE KDD
ASSOCIAO EXEMPLOS DE APLICAES MARKETING

PESQUISAS CIENTFICAS PADRES SIMULTNEOS CLASSIFICAO POR REGRAS DE ASSOCIAO

13

TAREFAS DE KDD Regras de Associao Generalizadas Caracterizao Intuitiva: A descoberta de associaes generalizadas uma extenso da tarefa de descoberta de associaes. Sua compreenso depende da percepo de que comum a existncia de hierarquia e abstrao entre conceitos. Exemplo: Cala e camisa so tipos de roupa. Tnis e sapato so especializaes do conceito calado. Algumas regras: camisa sapato roupa sapato camisa calado roupa calado

TAREFAS DE KDD Regras de Associao Generalizadas Estratgias de Busca: Independente do Nvel de Abstrao: Consiste em percorrer todos os nveis da rvore de conceitos, sem utilizar conhecimento prvio acerca dos conjuntos de itens freqentes para eliminar alternativas de busca. Esta estratgia demanda um maior volume de processamento.

14

TAREFAS DE KDD Regras de Associao Generalizadas Estratgias de Busca: Mscara de Filtragem de um Item: Um item do i-simo nvel hierrquico de conceitos analisado, se e somente se, o seu n filho do (i-1)-simo nvel for freqente. Nesta abordagem, uma associao especfica somente analisada a partir de uma associao mais geral, que seja freqente.

TAREFAS DE KDD Regras de Associao Generalizadas Estratgias de Busca: Mscara de Filtragem de K-Itemsets: Um K-Itemset do i-simo nvel hierrquico de conceitos analisado, se e somente se, seus ns filhos (K-Itemsets) do (i-1)simo nvel forem freqentes.

15

TAREFAS DE KDD Associao Descoberta de Seqncias Classificao Clusterizao Deteco de Desvios Sumarizao Minerao de Textos

TAREFAS DE KDD Descoberta de Seqncias Caracterizao Intuitiva: Extenso da temporal. Minerao de Associaes: aspecto

Regras de Associao: Padres intra-transao Seqncias: Padres inter-transao (mais complexa) Exemplos de Aplicao: Histrico de itens comprados por consumidores ao longo de um perodo Histrico de acessos a pginas de um site pelos usurios da web.

16

TAREFAS DE KDD Descoberta de Seqncias Formalizao: Consiste em encontrar seqncias frequentes em um banco de dados, a partir da especificao do parmetro de suporte mnimo.

Ex:

TAREFAS DE KDD Descoberta de Seqncias Definies Relevantes: Def: Sequncia: Lista ordenada de Itemsets. Caracterizada por objeto, rtulo temporal e eventos. Cada registro armazena ocorrncias de eventos sobre um objeto em um instante de tempo particular. Notao: <s1s2...sn>, onde sj um itemset. Exemplo: Consumidores objetos itens comprados eventos Def: O itemset sj tambm chamado de elemento da seqncia. Cada elemento de uma seqncia denotado por (x1, x2, ..., xm), onde xj um item ou evento.

17

TAREFAS DE KDD Descoberta de Seqncias Definies Relevantes: Def: Uma seqncia <a1a2...an> uma subseqncia (ou especializao) de outra sequncia <b1b2...bn> se existirem inteiros i1 <i2 < ... < in tais que a1 bi1, a2 bi2, ...e an bin. Exemplo: < (3) (4, 5) (8) > uma subseqncia de < (7) (3, 8) (9) (4, 5, 6) (8) >, pois (3) (3, 8), (4, 5) (4, 5, 6) e (8) (8).

No entanto, a sequncia < (3) (5) > no uma subseqncia de < (3, 5) > e vice versa.

TAREFAS DE KDD Descoberta de Seqncias Definies Relevantes: Def: O suporte (ou freqncia) de uma seqncia refere-se ao nmero total de objetos que contm . Def: Dado um limiar definido pelo usurio, denominado suporte mnimo, diz-se que uma seqncia frequente se esta ocorrer mais do que o suporte mnimo. Def: Uma k-seqncia uma seqncia com exatamente k elementos. Def: Uma seqncia maximal se no for subseqncia de nenhuma outra seqncia.

18

TAREFAS DE KDD Descoberta de Seqncias Algoritmos Especficos: GSP Generalized Sequential Patterns MSDD Multi Stream Dependency Detection SPADE Sequential Pattern Discovery using Equivalence Classes Baseiam-se na propriedade de anti-monotonicidade do suporte: Uma k-seqncia somente pode ser freqente se todas as suas (k-1)-subseqncias forem freqentes

TAREFAS DE KDD Descoberta de Seqncias


ALGORITMOS MAIS RECENTES [Zaki et al., 2002]:

NPSPM NON-PARTITIONED SEQUENTIAL PATTERN MINING D-MSDD DISTRIBUTED MSDD pSPADE PARALLEL SPADE

19

TAREFAS DE KDD Descoberta de Seqncias


EXEMPLOS DE APLICAES MARKETING

RE-ESTRUTURAO DE WEB SITES

TAREFAS DE KDD Seqncias Generalizadas Caracterizao Intuitiva: A descoberta de seqncias generalizadas uma extenso da tarefa de descoberta de seqncias. Utiliza a hierarquia e a abstrao entre conceitos eventualmente existentes em cada aplicao. Exemplo: Cala e camisa so tipos de roupa. Tnis e sapato so especializaes do conceito calado. Exs. seqncias generalizadas: <(roupa) (calado)> <(roupa) (sapato)> <(camisa) (sapato)> <(camisa, sapato)> <(roupa, calado)>

20

TAREFAS DE KDD Associao Descoberta de Seqncias Classificao Clusterizao Deteco de Desvios Sumarizao Minerao de Textos

TAREFAS DE KDD Classificao Formalizao: Caracterizao do Problema:


X1 X2 X3 . . . Xn Conj. de Dados Conj. de Classes

(?)
Y1 Y2 . . . Yk

21

TAREFAS DE KDD Classificao Formalizao: Objetivo: ^

Xi

Yj

TAREFAS DE KDD Classificao


EXEMPLOS DE HIPTESE

22

TAREFAS DE KDD Classificao Formalizao: Nos casos em que a imagem de f formada por rtulos de classes, a tarefa de inferncia indutiva denominada classificao e toda hiptese h chamada de classificador. A identificao da funo h consiste de um processo de busca no espao de hipteses H, pela funo que mais se aproxime da funo original f. Este processo denominado aprendizado (Russell e Norvig, 1995). Todo algoritmo que possa ser utilizado na execuo do processo de aprendizado chamado algoritmo de aprendizado.

TAREFAS DE KDD Classificao Formalizao: O conjunto de todas as hipteses que podem ser obtidas por um algoritmo de aprendizado L representado por HL. Cada hiptese pertencente ao HL representada por hL. Acurcia da hiptese h: qualidade ou preciso de h em mapear corretamente cada vetor de entradas x em f(x).

Acc(h) = 1 Err(h)

1 n Err (h) = || yi h(i ) || n i =1

23

TAREFAS DE KDD Classificao Formalizao: Conjunto de treinamento: (x, f(x)) utilizados na identificao da funo h. Conjunto de testes: (x, f(x)) utilizados para avaliar a acurcia de h. L uma funo L: T HL, onde T o espao de todos os conjuntos de treinamento possveis para L.

TAREFAS DE KDD Classificao Formalizao: Cada algoritmo possui um bias indutivo que direciona o processo de construo dos classificadores. Bias indutivo: o conjunto de fatores que coletivamente influenciam na seleo de hipteses [Utgoff, 1986]. O bias de um algoritmo L afeta o processo de aprendizado de duas formas: restringe o tamanho do espao de hipteses HL, e impe uma ordem de preferncia sobre as hipteses em HL. Teorema NFL (No Free Lunch Theorem) [Wolpert, 1996].

24

TAREFAS DE KDD Classificao


EXEMPLO DE HIPTESE

TAREFAS DE KDD
TAREFA: CLASSIFICAO UM EXEMPLO DE APLICAO
Sexo M M F F F M M F F M Pas Frana Inglaterra Frana Inglaterra Frana Alemanha Alemanha Alemanha Frana Frana Idade 25 21 23 34 30 21 20 18 34 55 Comprar Sim Sim Sim Sim No No No No No No

25

TAREFAS DE KDD
TAREFA: CLASSIFICAO UM EXEMPLO DE APLICAO

Algumas Regras: Se (Pas = Alemanha) Ento Comprar = No Se (Pas = Inglaterra) Ento Comprar = Sim Se (Pas = Frana e Idade 25) Ento Comprar = Sim Se (Pas = Frana e Idade > 25) Ento Comprar = No

TAREFAS DE KDD
TAREFA: CLASSIFICAO UM EXEMPLO DE APLICAO

Uma rvore de Deciso:

26

TAREFAS DE KDD
TAREFA: CLASSIFICAO EXEMPLOS DE TCNICAS TRADICIONAIS: REDES NEURAIS BACKPROPAGATION ID3, C4.5 RULE EVOLVER

RVORES DE DECISO

ALGORITMOS GENTICOS ESTATSTICA

CLASSIFICADORES BAYESIANOS K-NN

BASEADAS EM INSTNCIA

TAREFAS DE KDD
TAREFA: CLASSIFICAO TCNICA: MODELOS NEURO-FUZZY HIERRQUICOS [Contreras, 2002]

27

TAREFAS DE KDD
TAREFA: CLASSIFICAO TCNICA: ROUGH SETS [Cid, 2002]

TAREFAS DE KDD
TAREFA: CLASSIFICAO TCNICA: SVM SUPPORT VECTOR MACHINES [Haykin, 2002]

28

TAREFAS DE KDD
TAREFA: CLASSIFICAO TCNICA: COMITS DE CLASSIFICAO [Chan, 2001]

TAREFAS DE KDD
TAREFA: CLASSIFICAO EXEMPLOS DE APLICAES FINANAS E INVESTIMENTOS SEGUROS

RECONHECIMENTO DE IMAGEM RECONHECIMENTO DE VOZ ETC

29

TAREFAS DE KDD
TAREFA: CLASSIFICAO Observaes

Complementares

Uma hiptese pode ser muito especfica para o conjunto de treinamento utilizado. Caso este conjunto no seja suficientemente representativo, o classificador pode ter bom desempenho no conjunto de treinamento, mas no no conjunto de teste. Diz-se, neste caso, que o classificador ajustou-se em excesso ao conjunto de treinamento, ocorrendo um fenmeno denominado overfitting.

TAREFAS DE KDD
TAREFA: CLASSIFICAO Observaes

Complementares

Por outro lado, quando o classificador ajusta-se muito pouco ao conjunto de treinamento, diz-se que ocorre um underfitting. Este fenmeno costuma ocorrer em funo de parametrizaes inadequadas do algoritmo de aprendizado. Por exemplo, um nmero de neurnios insuficiente em uma rede neural, ou uma tolerncia de erro excessivamente alta.

30

TAREFAS DE KDD
TAREFA: CLASSIFICAO Observaes

Complementares

Matriz de Confuso de um Classificador Mostra, para cada classe, o nmero de classificaes corretas em relao ao nmero de classificaes indicadas pelo modelo.
Classes Verdadeira C1 Verdadeira C2 ... Verdadeira Ck Predita C1 M(C1, C1) M(C2, C1) ... M(Ck, C1) Predita C2 M(C1, C2) M(C2, C2) ... M(Ck, C2) ... ... ... ... Predita Ck M(C1, Ck) M(C2, Ck) ... M(Ck, Ck)

TAREFAS DE KDD
TAREFA: CLASSIFICAO Observaes

Complementares

Matriz de Confuso de um Classificador Mostra, para cada classe, o nmero de classificaes corretas em relao ao nmero de classificaes indicadas pelo modelo.
Classes Verdadeira C+ Predita C+ Verdadeiros Positivos Predita CFalsos Negativos

Verdadeira C-

Falsos Positivos

Verdadeiros Negativos

31

TAREFAS DE KDD
TAREFA: CLASSIFICAO Observaes

Complementares

A matriz de custos pode ser utilizada em determinados algoritmos de aprendizado para compensar a prevalncia. O custo, Cost(Ci, Cj), representa uma penalidade aplicada quando o classificador comete um erro ao rotular exemplos. Cost(Ci, Cj) = 0 quando i = j Cost(Ci, Cj) > 0 quando i j

1 n n Err (h) = M (Ci , C j ) * Cost (Ci , C j ) n i =1 j =1

TAREFAS DE KDD Associao Descoberta de Seqncias Classificao Clusterizao Deteco de Desvios Sumarizao Minerao de Textos

32

TAREFAS DE KDD Clusterizao Caracterizao Intuitiva: Separao dos registros em n clusters Maximizar/Minimizar similaridade intra/inter cluster

X X X X X

X X X X X X X

XX XX

TAREFAS DE KDD Clusterizao Definies Relevantes: Def: Cluster: Grupo de registros de um conjunto de dados que compartilham propriedades que os tornam similares entre si. Def: Clusterizao: Processo de particionamento de uma base de dados em conjuntos em que o objetivo maximizar a similaridade intra-cluster e minimizar a similaridade intercluster. Obs: No envolve rtulos pr-definidos: processo de induo no supervisionada.

33

TAREFAS DE KDD Clusterizao Formalizao: Sejam: n pontos de dados x1, x2, ..., xn tais que cada ponto pertena a um espao k dimensional Rk d: Rk x Rk R, uma distncia entre pontos de Rk O processo de Clusterizao consiste em encontrar mj pontos (centrides dos clusters), j=1,,r que minimizem a funo

1 n 2 (mind ( X i , m j )) j n i =1

TAREFAS DE KDD Clusterizao Tcnicas Tradicionais: Redes Neurais Algoritmos Genticos Estatstica

34

TAREFAS DE KDD Clusterizao Algoritmos Especficos: K-Means Fuzzy K-Means K-Modes K-Medoids K-Prototypes

TAREFAS DE KDD Clusterizao Estrutura Comum: Inicializao: Seleo de um conjunto com k centrides de clusters iniciais no espao de dados. Esta seleo pode ser aleatria ou de acordo com alguma heurstica.

Clculo da Distncia: Calcula a distncia euclideana de cada ponto ou padro ao centride de cada cluster. Atribui cada ponto ao cluster cuja distancia do ponto ao centride do cluster seja minima.

35

TAREFAS DE KDD Clusterizao Estrutura Comum: Reclculo dos Centrides: Recalcula o centride de cada cluster pela mdia dos pontos de dados atribudos ao respectivo cluster.

Condio de Convergncia: Repete os passos 2 e 3 at que o critrio de convergncia tenha sido atingido. Em geral, considera-se um valor de tolerncia do erro quadrado mdio global abaixo do qual a distribuio dos pontos de dados pelos clusters considerada satisfatria.

TAREFAS DE KDD Clusterizao Exemplo de Aplicao:


Despesa (R$ 100) 30

20

10

10

20

30

40

50

Renda (R$ 100)

02 Clusters com Centrides: (10,10) e (40,20)

36

TAREFAS DE KDD Clusterizao Exemplo de Aplicao: Sup. os casos: (50,10), (20,20), (10,30), (40,30) e (50,20)

Despesa (R$ 100) 30

20

10

10

20

30

40

50

Renda (R$ 100)

TAREFAS DE KDD
CLUSTERIZAO TCNICA: FUZZY K-MEANS

37

TAREFAS DE KDD
CLUSTERIZAO EXEMPLOS DE APLICAES MARKETING DIRETO

SEGMENTAO DE CLIENTES

MINERAO DE SUB-ESTRUTURAS EM IMAGENS

TAREFAS DE KDD Associao Descoberta de Seqncias Classificao Clusterizao Deteco de Desvios Sumarizao Minerao de Textos

38

TAREFAS DE KDD Deteco de Desvios - Caracterizao Intuitiva: Percepo de valores que vo se enquadram em: Medidas Anteriores Valores Normativos
Despesa (R$ 100) 100

20

10

JAN

FEV

MAR

ABR

Meses

TAREFAS DE KDD Associao Descoberta de Seqncias Classificao Clusterizao Deteco de Desvios Sumarizao Minerao de Textos

39

TAREFAS DE KDD
TAREFA: SUMARIZAO

Consiste em descrever as caractersticas de subconjuntos da base de dados. Ex: Distribuio dos Assinantes da Revista X por Regies.
N CO SE NE S

Ex.: Qual o perfil dos meninos de rua do Rio de Janeiro? Faixa Etria X, pais consomem drogas, possuem na faixa de Y irmos, etc...

TAREFAS DE KDD
TAREFA: SUMARIZAO EXEMPLOS DE ALGORITMOS TRADICIONAIS: MODELOS ESTATSTICOS VISUALIZAO CUBOS DE DADOS - VISUALIZAO

40

TAREFAS DE KDD
TAREFA: SUMARIZAO TCNICA: ALGORITMOS GENTICOS RULE EVOLVER [LOPES, 2001] Cromossoma Regra
cruzamento

Genes atributos do banco de dados

P1 P2 F1 F2

Receita Servio 1 Receita Servio 2 COD_ATIV = 13 1000<R$<2000 4000<R$<9000 Receita Servio 1 Receita Servio 2 COD_ATIV = 14 5000<R$<7000 7000<R$<8000

10<#_Filiais<50

Empregados>100

30<#_Filiais<60

Empregados>300

Receita Servio 1 Receita Servio 2 COD_ATIV = 14 1000<R$<2000 4000<R$<9000 Receita Servio 1 Receita Servio 2 COD_ATIV = 13 5000<R$<7000 7000<R$<8000

30<#_Filiais<60

Empregados>300

10<#_Filiais<50

Empregados>100

TAREFAS DE KDD
TAREFA: SUMARIZAO ALGORITMO: HAWB MINERAO DE DADOS AUTNOMA [Liv, 2002]

41

TAREFAS DE KDD Associao Descoberta de Seqncias Classificao Clusterizao Deteco de Desvios Sumarizao Minerao de Textos

TAREFAS DE KDD
MINERAO DE TEXTOS

Descobrir conhecimento em textos em Linguagem Natural Utiliza recursos de PLN - Processamento de Linguagem Natural Exemplos de Aplicaes: Recuperao de Informao Extrao de Dados Classificao de Documentos Resumo / Correo de Textos

42

TAREFAS DE KDD
MINERAO DE TEXTOS TCNICA: ASSOCIAO DE TERMOS

Ex.: Muitas aplicaes de KDD utilizam Data Warehouses. Aps PLN: Aplicaes, KDD, Data Warehouses Aps MD: KDD e Data Warehouses so termos freqentes: tm alguma relao entre si.

TAREFAS DE KDD
MINERAO DE TEXTOS TCNICA: HISTOGRAMA - CLUSTERIZAO DE DOCUMENTOS
TEXTO VETOR:

X X

X X X X X X X X

X X X

X X X X

43

TAREFAS DE KDD
MINERAO DE TEXTOS TCNICA: CLASSIFICAO DE DOCUMENTOS (K-NN)
TEXTO VETOR: CLASSE

X X

X X X X X X X X

X X X

X X X X

TAREFAS DE KDD Outras Tarefas Leitura Complementar: Regresso Previso de Sries Temporais Clusterizao Clusterizao Classificao Sumarizao

44

Você também pode gostar