Você está na página 1de 19

Projeto HARPIA

Receita Federal, Unicamp, ITA


Jorge Jambeiro Filho
jorge.filho@jambeiro.com.br

Anlise de Risco e Inteligncia


Artificial AplicadaJacques Wainer

wainer@ic.unicamp.br

Anlise de Redes Bayesianas


com Estrutura Local e Reduo
de Cardinalidade em um caso
prtico
Receita
Federal, Unicamp
Um experimento com resultados
negativos

Sumrio







Problema alvo
Redes Bayesianas
Reduo de cardinalidade
Redes Bayesianas com estrutura local
Resultados experimentais

Receita Federal, Unicamp

Deteco de erros de classificao fiscal








Todas as mercadorias importadas em regime


normal so enquadradas em uma tabela onde
constam:
Alquotas de impostos
Exigncias sanitrias, administrativas e de
segurana
O enquadramento feito pelo importador
muito importante detectar os casos de
enquadramento incorreto, mas ...
... a SRF s verifica uma amostra
Receita Federal, Unicamp

Deteco de erros de classificao fiscal








Se calcularmos a probabilidade de que cada


mercadoria sendo importada esteja incorretamente
classificada, podemos combin-las com os custos
adequados para tomada de deciso
Nosso objetivo calcular a probabilidade de erro
Dispomos de uma base de dados para treinamento
com 600 mil instncias por ano
Os atributos mais importantes tm alta cardinalidade:
 Importador (IMP)
 Classificao declarada (NCM)
 Pais de origem (Pais)
 Unidade de entrada (URF)
Padres crticos
Receita Federal, Unicamp

Redes Bayesianas
CPT para o n D
D1

... DI ...

DN

A1, B1
C

...
AJ, BK
...
AN , BN

P(DI | AJ, AK)

Receita Federal, Unicamp

CPT a partir de exemplos


P( x ji | jk ) =

NUM jki + jki


NUM jk + jk

NUM jki +
NUM jk + M

xji um valor possvel para o n xj


jk um conjunto de valores para os pais do n xj
NUMjk o nmero de exemplos de treinamento onde
ocorreu jk
NUMjki o nmero de exemplos de treinamento onde
ocorreu jk e xji
Os valores decorrem da distribuio de probabilidade
Receita Federal, Unicamp
prvia

Atributos de Alta Cardinalidade com Interaes


Alguns padres envolvendo todos os atributos so
importantes. Por isto gostaramos de usar a estrutura abaixo:
Imp

NCM

Pais

URF

Erro

Porm a tabela relativa ao n Erro teria mais de 1012 linhas


e nossos resultados so melhores usando uma estrutura TAN:
Pais
Imp
Erro
URF

NCM

Receita Federal, Unicamp

Formas de evitar CPTs grandes






Limitar o nmero de pais por n


Reduzir a cardinalidade dos atributos
Usar outra estrutura em lugar da CPT
Tabelas Default
rvores de deciso
Grafos de deciso

Receita Federal, Unicamp

Reduo de cardinalidade usando


Agglomerative Information Bottleneck







Pr-processamento
Na reduo de cardinalidade de um atributo, X, gerase um novo atributo, Z, tal que |Z| < |X| que passa a
substituir X na formulao do problema
Um atributo, Y, serve como referncia
Inicialmente Z = X
Os dois valores de Z cuja aglomerao leva a menor
perda na informao mtua entre Z e Y so
aglomerados
O processo para quando um limite na perda de
informao mtua ou no nmero de valores de Z
atingido
Considera apenas um atributo de cada vez
Receita Federal, Unicamp

Substituio de CPTs:
Estruturas locais aglomerativas


Mapeiam um conjunto de linhas da CPT para


uma nica linha em uma nova tabela
reduzida
Levam em conta todos os valores de uma
vez, portanto capturam interaes entre eles

Receita Federal, Unicamp

Estimativa de Parmetros de uma ELA


Tudo feito como na CPT, com a diferena de
que os valores mapeados so usados
P( x ji | jk ) = P( x ji | ( jk )) =

NUM jri + jri


NUM jr + jr

NUM jri +
NUM jr + M

(ji) um conjunto para o qual ji mapeado


NUMjr o nmero de exemplos de treinamento onde
ocorreu algum ejk tal que ( ejk) = (ji)

Receita Federal, Unicamp

Tabelas Default



Algumas linhas so mapeadas para linhas


exclusivas na nova tabela
Todas as demais linhas so mapeadas para a
mesma linha, que chamada de
Linha Default
Busca gulosa
MDL
Bayesian scoring metric
[Friedman and Goldszmidt, 1996]
Receita Federal, Unicamp

rvores de deciso





Cada folha na rvore est associada a uma folha na nova


tabela
Cada n interno da rvore est associado a um n pai, X,
na BN
Cada aresta partindo de um n interno est associada a um
valor para X
Dado um conjunto de valores para os pais possvel
caminhar at uma folha e achar a linha correta na tabela
reduzida
Busca gulosa
 MDL
 Bayesian scoring metric
[Friedman and Goldszmidt, 1996]
Receita Federal, Unicamp

Aprendizado de rvores de Deciso








Parte-se de uma nica folha


Realiza-se splits completos (usando todos os
valores possveis para um n) enquanto for
possvel maximizando algum critrio
Poda-se a rvore maximizando o mesmo critrio
Critrios: MDL, Bayesian scoring metric

Receita Federal, Unicamp

Grafos de deciso





Extenso da rvore de deciso


Merges de folhas so admitidos
Splits binrios tambm so admitidos
Busca gulosa
Bayesian scoring metric
[Chickering, Heckerman and Meek, 1997]

Receita Federal, Unicamp

Resultados experimentais
Recall
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9

TAN CPT
DG BSM CBM
AIBN TAN
HC DT MDL
PRIOR

10
Selection rate

20

30

40

60

80

Receita Federal, Unicamp

Resultados
RM

RM
20

EQM

ECM

R:1/4

R:1/2

1%

2%

5%

10%

20%

DG BSM CBJ

66.3

37.2

11.7

7.2

3.0

25.0

16.8

22.5

31.9

39.5

46.6

DG BSM CB

66.3

36.3

11.6

6.7

4.0

25.0

16.1

19.8

29.8

36.9

46.4

AIBN

81.0

44.2

12.0

5.1

4.0

12.0

11.7

17.3

31.4

45.6

64.4

TAN CPT

81.7

45.8

12.6

6.9

4.0

11.0

10.2

17.8

31.4

47.5

66.8

DG BSM C

69.7

31.7

10.9

4.6

6.0

24.0

8.1

11.5

23.6

32.0

46.1

DT MDL

62.0

21.4

10.9

4.5

13.0

34.0

6.6

8.8

14.1

21.2

34.6

DF MDL

64.4

20.2

10.9

4.6

13.0

34.0

3.6

6.1

10.8

20.3

34.6

DG BSM CJ

68.3

22.0

10.9

4.6

13.0

28.0

3.4

6.1

11.9

21.5

39.0

HC CPT

55.7

11.1

10.9

4.7

22.0

44.0

0.3

1.2

4.1

10.3

22.5

Prior

50.0

10.2

10.9

4.7

26.0

51.0

0.8

1.7

4.2

10.2

20.3

Receita Federal, Unicamp

Anlise do resultados








Grafos de deciso com splits binrios habilitados conseguiram


capturar os padres mais crticos
 Ganho no incio da curva
Demais padres no so discriminados uns dos outros
 Forte perda aps 5%
Outras estruturas locais aglomerativas mostraram pouco poder
de discriminao
O MDL e o BSM no funcionaram adequadamente
Reduo de cardinalidade no ajudou a capturar padres
crticos
Nenhum ganho no desempenho geral com relao ao TAN com
CPTs tradicionais

Receita Federal, Unicamp

Concluso






Os artigos originais mostram bons


argumentos tericos e so bem referenciados
na literatura
No encontramos publicaes de resultados
prticos
As mtricas no funcionaram bem no espao
ampliado pelas estruturas locais
No houve benefcio prtico

Receita Federal, Unicamp

Você também pode gostar