Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Descoberta do Conhecimento
em Bases de Dados
Padres
Transformao
Pr-Processamento
Seleo
Bases
Dados
5
Fases do Processo de
Descoberta do Conhecimento
Identificao da tarefa - O que se deseja conhecer/extrair?
Seleo de dados - Dados e/ou atributos relacionados.
Limpeza, Pr-Processamento - Retirada de dados
ambguos, duplicados, etc.
Diferenciao
Regras que diferenciam os registros de um cluster em relao a outros
clusters
Classificao
Identificar a priori o cluster (grupo) ao qual pertence um registro (cliente) a
partir de seus atributos
Explicao
Regras que explicam/caracterizao um conjunto de registros pertencentes
a um cluster (classe)
7
Regras de Produo
Regras possuem:
antecedentes (condies) e
conseqentes (classe, grupo ou cluster):
9
Deteco de Fraude
ENTO FRAUDE 10
Avaliao de uma Regra
Acurcia:
mede grau de certeza (ou confiana) obtido ao
contrastar a regra com o conjunto de exemplos da
base que pertencem e no pertencem classe;
Ac Mx = 100%
Abrangncia:
mede o grau de cobertura da regra: percentual
de registros da classe que satisfazem a regra;
Ab Mx = 100% 11
Medidas de Desempenho
A avaliao de cada regra envolve a leitura de toda a base.
Numa base h:
C: Registros que satisfazem a regra;
P: Registros que pertencem classe;
C & P: nmero de registros que satisfazem a regra e so da classe P
C&P C&P
Ac
C &P C & P Ab
C &P C & P
12
Exemplo
BD contm 100 Registros
Registros esto segmentados em 2 Grupos:
80 regs. do G1 e 20 regs. do G2)
Procura-se regras para G1 (P pertence a G1)
Uma determinada regra encontrada, resulta em:
60 Registros satisfazem a regra e so do G1 C & P
20 Registros do G1 no satisfazem a regra C & P
12 Registros do G2 satisfazem a regra
C & P
60 60
Ac 0.833 Ab 0.75
60 12 60 20
13
Classificao por Algoritmos
Genticos
Conhece-se a segmentao de um BD em n
Grupos (clusters) ; deseja-se descobrir a(s)
regra(s) que melhor caracterizam cada
Grupo.
15
Cromossoma representa
uma Regra
Regras :=antecedentes + consequentes
Se COND1 ^ COND2 ^...ENTO CLASSE_A
Exemplo:
Se 200<salrio<3000 ^ sexo=M ENTO Bom-Pagador
17
Decodificao
Um cromossoma representa uma regra que
responde a uma pergunta:
Ex: O que caracteriza um estudante da PUC-Rio?
Atributos considerados:
A(1): Idade {15; 90}, A(2) Renda Familiar {200;8000}, A(3): Sexo{M=01; F=10}
Crossover
Sobre Reais: 1 ponto; 2 pontos; Uniforme;
Aritmtico
Sobre Binrios (Lgicos): OU, E
Mutao
Troca gene por um nmero aleatrio na faixa
do atributo escolhido na mutao
Sobre Binrios (Lgicos): NOT
21
Codificao de Atributos
Categricos
- Ex: Residncia: = {funcional, parente, alugada, prpria}
- Cada posio indica ausncia (0) ou presena (1) do
smbolo correspondente
Alelo Decodificao Tipo Res
1 0001 prpria
2 0010 alugada
3 0011 prpria ou alugada
15 1111 prpria ou alugada ou parente ou
funcional (dont care)
0 0000 No informada (Null) 22
Operadores Lgicos
E, OU, NOT
P1 0011 F1 0111 F1 = P1 OU P2
P2 0110 F2 0010 F2 = P1 E P2
23
Funo de Avaliao
Data Mining: regras com alta acurcia e abrangncia.
Acurcia (Ac) e Abrangncia (Ab), quando usadas
como funes de avaliao, podem prejudicar a
evoluo se regras aleatrias na primeira populao
apresentam Ac=Ab=0
preciso definir funes que forneam avaliaes
diferentes de 0 (zero) quando Ac=Ab=0
Existem vrias funes propostas, cujo o desempenho
varia com a aplicao (problema)
Ac e Ab podem recompensar avaliao quando
diferentes de zero
24
Funes de Avaliao
Nmero-Atributos FAcurcia
Distncia-tima FAbrangncia
Recompensa- Correlao-2-Grupos
Atributos Rule-Interest[PIAT91]
CBayesianos Chi-Square[RAD95]
Nmero-Registros
25
Exemplo Funo
Nmero-Atributos
Atributos
Registros 1 2 3 4 5 CLASSE F(Nm_Atrib)
1 a b x d r 1 3
2 s w c d e 2 -3
3 q b c d e 1 4
4 x f g h e 1 1
5 a b c d r 2 -4
6 a t c y e 1 3
7 p b v d y 2 -2
8 x h j k u 2 0
9 a b c d e 1 5
10 a b z d q 1 3
REGRA a b c d e 1 12 Avaliao
f(f( )=acerto%
)=acerto%
Cruzamento
Filhos
Mutao Reproduo
27
Otimizao da Acurcia da
Regra
Melhor Padro
30000
A c ur c ia
100%
25000
20000
50%
15000
10000
5000
0
13
21
29
41
49
17
25
33
37
45
1
5
9
Cromossomas x 2000
Evoluo 28