Projetoharpia PDF

Projeto HARPIA
Receita Federal, Unicamp, ITA

Jorge Jambeiro Filho
jorge.filho@jambeiro.com.br
Anlise de Risco e Inteligncia

Artificial AplicadaJacques Wainer
wainer@ic.unicamp.br
Anlise de Redes Bayesianas

com Estrutura Local e Reduo
de Cardinalidade em um caso
prtico
Receita
Federal, Unicamp
Um experimento com resultados
negativos
Sumrio

Problema alvo
Redes Bayesianas
Reduo de cardinalidade
Redes Bayesianas com estrutura local
Resultados experimentais
Receita Federal, Unicamp
Deteco de erros de classificao fiscal

Todas as mercadorias importadas em regime

normal so enquadradas em uma tabela onde
constam:
Alquotas de impostos
Exigncias sanitrias, administrativas e de
segurana
O enquadramento feito pelo importador
muito importante detectar os casos de
enquadramento incorreto, mas ...
... a SRF s verifica uma amostra
Deteco de erros de classificao fiscal

Se calcularmos a probabilidade de que cada

mercadoria sendo importada esteja incorretamente
classificada, podemos combin-las com os custos
adequados para tomada de deciso
Nosso objetivo calcular a probabilidade de erro
Dispomos de uma base de dados para treinamento
com 600 mil instncias por ano
Os atributos mais importantes tm alta cardinalidade:
Importador (IMP)
Classificao declarada (NCM)
Pais de origem (Pais)
Unidade de entrada (URF)
Padres crticos
Redes Bayesianas
CPT para o n D
D1
... DI ...
DN
A1, B1
C
...
AJ, BK
...
AN , BN
P(DI | AJ, AK)
CPT a partir de exemplos

P( x ji | jk ) =
NUM jki + jki

NUM jk + jk
NUM jki +
NUM jk + M
xji um valor possvel para o n xj

jk um conjunto de valores para os pais do n xj
NUMjk o nmero de exemplos de treinamento onde
ocorreu jk
NUMjki o nmero de exemplos de treinamento onde
ocorreu jk e xji
Os valores decorrem da distribuio de probabilidade
prvia
Atributos de Alta Cardinalidade com Interaes

Alguns padres envolvendo todos os atributos so
importantes. Por isto gostaramos de usar a estrutura abaixo:
Imp
NCM
Pais
URF
Erro
Porm a tabela relativa ao n Erro teria mais de 1012 linhas

e nossos resultados so melhores usando uma estrutura TAN:
Pais
Imp
Erro
URF
NCM
Formas de evitar CPTs grandes

Limitar o nmero de pais por n

Reduzir a cardinalidade dos atributos
Usar outra estrutura em lugar da CPT
Tabelas Default
rvores de deciso
Grafos de deciso
Reduo de cardinalidade usando

Agglomerative Information Bottleneck

Pr-processamento
Na reduo de cardinalidade de um atributo, X, gerase um novo atributo, Z, tal que |Z| < |X| que passa a
substituir X na formulao do problema
Um atributo, Y, serve como referncia
Inicialmente Z = X
Os dois valores de Z cuja aglomerao leva a menor
perda na informao mtua entre Z e Y so
aglomerados
O processo para quando um limite na perda de
informao mtua ou no nmero de valores de Z
atingido
Considera apenas um atributo de cada vez
Substituio de CPTs:
Estruturas locais aglomerativas
Mapeiam um conjunto de linhas da CPT para

uma nica linha em uma nova tabela
reduzida
Levam em conta todos os valores de uma
vez, portanto capturam interaes entre eles
Estimativa de Parmetros de uma ELA

Tudo feito como na CPT, com a diferena de
que os valores mapeados so usados
P( x ji | jk ) = P( x ji | ( jk )) =
NUM jri + jri

NUM jr + jr
NUM jri +
NUM jr + M
(ji) um conjunto para o qual ji mapeado

NUMjr o nmero de exemplos de treinamento onde
ocorreu algum ejk tal que ( ejk) = (ji)
Tabelas Default

Algumas linhas so mapeadas para linhas

exclusivas na nova tabela
Todas as demais linhas so mapeadas para a
mesma linha, que chamada de
Linha Default
Busca gulosa
MDL
Bayesian scoring metric
[Friedman and Goldszmidt, 1996]
rvores de deciso

Cada folha na rvore est associada a uma folha na nova

tabela
Cada n interno da rvore est associado a um n pai, X,
na BN
Cada aresta partindo de um n interno est associada a um
valor para X
Dado um conjunto de valores para os pais possvel
caminhar at uma folha e achar a linha correta na tabela
reduzida
Busca gulosa
MDL
[Friedman and Goldszmidt, 1996]
Aprendizado de rvores de Deciso

Parte-se de uma nica folha

Realiza-se splits completos (usando todos os
valores possveis para um n) enquanto for
possvel maximizando algum critrio
Poda-se a rvore maximizando o mesmo critrio
Critrios: MDL, Bayesian scoring metric
Grafos de deciso

Extenso da rvore de deciso

Merges de folhas so admitidos
Splits binrios tambm so admitidos
Busca gulosa
[Chickering, Heckerman and Meek, 1997]
Resultados experimentais
Recall
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
TAN CPT
DG BSM CBM
AIBN TAN
HC DT MDL
PRIOR
10
Selection rate
20
30
40
60
80
Resultados
RM
RM
20
EQM
ECM
R:1/4
R:1/2
1%
2%
5%
10%
20%
DG BSM CBJ
66.3
37.2
11.7
7.2
3.0
25.0
16.8
22.5
31.9
39.5
46.6
DG BSM CB
66.3
36.3
11.6
6.7
4.0
25.0
16.1
19.8
29.8
36.9
46.4
AIBN
81.0
44.2
12.0
5.1
4.0
12.0
11.7
17.3
31.4
45.6
64.4
TAN CPT
81.7
45.8
12.6
6.9
4.0
11.0
10.2
17.8
31.4
47.5
66.8
DG BSM C
69.7
31.7
10.9
4.6
6.0
24.0
8.1
11.5
23.6
32.0
46.1
DT MDL
62.0
21.4
10.9
4.5
13.0
34.0
6.6
8.8
14.1
21.2
34.6
DF MDL
64.4
20.2
10.9
4.6
13.0
34.0
3.6
6.1
10.8
20.3
34.6
DG BSM CJ
68.3
22.0
10.9
4.6
13.0
28.0
3.4
6.1
11.9
21.5
39.0
HC CPT
55.7
11.1
10.9
4.7
22.0
44.0
0.3
1.2
4.1
10.3
22.5
Prior
50.0
10.2
10.9
4.7
26.0
51.0
0.8
1.7
4.2
10.2
20.3
Anlise do resultados

Grafos de deciso com splits binrios habilitados conseguiram

capturar os padres mais crticos
Ganho no incio da curva
Demais padres no so discriminados uns dos outros
Forte perda aps 5%
Outras estruturas locais aglomerativas mostraram pouco poder
de discriminao
O MDL e o BSM no funcionaram adequadamente
Reduo de cardinalidade no ajudou a capturar padres
crticos
Nenhum ganho no desempenho geral com relao ao TAN com
CPTs tradicionais
Concluso

Os artigos originais mostram bons

argumentos tericos e so bem referenciados
na literatura
No encontramos publicaes de resultados
prticos
As mtricas no funcionaram bem no espao
ampliado pelas estruturas locais
No houve benefcio prtico

Projetoharpia PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Projetoharpia PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Projeto HARPIA

Receita Federal, Unicamp, ITA

Anlise de Risco e Inteligncia

Anlise de Redes Bayesianas

Receita Federal, Unicamp

Deteco de erros de classificao fiscal

Todas as mercadorias importadas em regime

Deteco de erros de classificao fiscal

Se calcularmos a probabilidade de que cada

P(DI | AJ, AK)

Receita Federal, Unicamp

CPT a partir de exemplos

NUM jki + jki

xji um valor possvel para o n xj

Atributos de Alta Cardinalidade com Interaes

Porm a tabela relativa ao n Erro teria mais de 1012 linhas

Receita Federal, Unicamp

Formas de evitar CPTs grandes

Limitar o nmero de pais por n

Receita Federal, Unicamp

Reduo de cardinalidade usando

Mapeiam um conjunto de linhas da CPT para

Receita Federal, Unicamp

Estimativa de Parmetros de uma ELA

NUM jri + jri

(ji) um conjunto para o qual ji mapeado

Receita Federal, Unicamp

Algumas linhas so mapeadas para linhas

Cada folha na rvore est associada a uma folha na nova

Aprendizado de rvores de Deciso

Parte-se de uma nica folha

Receita Federal, Unicamp

Extenso da rvore de deciso

Receita Federal, Unicamp

Receita Federal, Unicamp

Receita Federal, Unicamp

Grafos de deciso com splits binrios habilitados conseguiram

Receita Federal, Unicamp

Os artigos originais mostram bons

Receita Federal, Unicamp

Você também pode gostar