Dissertação

Universidade Estadual do Ceará - UECE
Centro de Ciências Tecnológicas - CCT

Instituto Federal de Educação, Ciência e Tecnologia do Ceará - IFCE
Diretoria de Pesquisa e Pós-Graduação - DIPPG
Mestrado Integrado Profissional em Computação Aplicada – MPCOMP
HELDER DA SILVA ANDRADE
UM PROCESSO DE MINERAÇÃO DE DADOS APLICADO AO COMBATE À

SONEGAÇÃO FISCAL DO ICMS
Fortaleza – CE, Brasil
Dezembro de 2009
Universidade Estadual do Ceará - UECE
Centro de Ciências Tecnológicas - CCT
Instituto Federal de Educação, Ciência e Tecnologia do Ceará - IFCE
Diretoria de Pesquisa e Pós-Graduação - DIPPG
Mestrado Integrado Profissional em Computação Aplicada – MPCOMP
HELDER DA SILVA ANDRADE
UM PROCESSO DE MINERAÇÃO DE DADOS APLICADO AO COMBATE À

SONEGAÇÃO FISCAL DO ICMS
Dissertação apresentada ao corpo docente do Mestrado

Profissional em Computação na Universidade Estadual do
Ceará como pré-requisito para obtenção de título de
Mestre em Computação Aplicada na área de Sistemas de
Apoio à Decisão.
Orientador: Prof. Dr. Jerffeson Teixeira de Souza
Co-orientador: Prof. Dr. Gustavo Augusto Lima de Campos
Fortaleza – CE, Brasil
Dezembro de 2009
A553p Andrade, Helder da Silva
Um processo de mineração de dados aplicado ao
combate à sonegação fiscal do ICMS/ Helder da Silva
Andrade. Fortaleza, 2009.
158p. ; il.
Orientador: Prof. Dr. Jerffeson Teixeira de Souza.
Dissertação (Mestrado Profissional em Computação
Aplicada) – Universidade Estadual do Ceará, Centro de
Ciências e Tecnologia.
1. Mineração de Dados. 2. CRISP-DM. 3. Redes
Neurais Artificiais. 4. Sonegação. 5. ICMS. I. Universidade
Estadual do Ceará, Centro de Ciências e Tecnologia.
CDD:001.6
AGRADECIMENTOS
À minha esposa e filhos (Madeline, Lucas e Thiago) pela

compreensão e apoio durante o tempo que me dediquei ao
mestrado.
Ao Professor Dr. Jerffeson pela orientação, ensinamentos e

motivação nesta pesquisa.
Ao Professor Dr. Gustavo pela co-orientação e

ensinamentos durante o mestrado.
Aos professores do MPCOMP que nos incentivaram desde

o início e nos passaram os conhecimentos necessários à
conclusão do curso.
Aos colegas do MPCOMP pela convivência durante as aulas

e as idéias discutidas durante o curso.
À Secretaria da Fazenda do Estado do Ceará pelo apoio e o

acesso aos dados utilizados na pesquisa.
E, principalmente, à Deus, por tudo!

1
SUMÁRIO
SUMÁRIO ..................................................................................................................... 1
RESUMO ...................................................................................................................... 4
ABSTRACT .................................................................................................................... 5
CAPÍTULO 1.................................................................................................................. 6
INTRODUÇÃO........................................................................................................... 6
1.1. MOTIVAÇÃO E CONTEXTO DA PESQUISA ................................................. 6
1.2. O PROBLEMA DA SONEGAÇÃO DO ICMS .................................................. 7
1.3. OBJETIVO DA PESQUISA ......................................................................... 11
1.4. HIPÓTESES LEVANTADAS........................................................................ 11
1.5. OS DADOS UTILIZADOS NA PESQUISA .................................................... 12
1.6. CONCLUSÃO ........................................................................................... 17
CAPÍTULO 2................................................................................................................ 18
TRABALHOS RELACIONADOS AO TEMA .................................................................. 18
2.1. TRABALHOS BASEADOS EM REDES NEURAIS ARTIFICIAIS ....................... 18
2.2. TRABALHOS RELACIONADOS A IMPOSTOS ............................................. 19
2.3. CONCLUSÃO ........................................................................................... 20
CAPITULO 3................................................................................................................ 21
FUNDAMENTAÇÃO TEÓRICA .................................................................................. 21
3.1. INTELIGÊNCIA ARTIFICIAL ....................................................................... 21
3.2. DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS ....................... 21
3.3. MINERAÇÃO DE DADOS ......................................................................... 22
3.4. APRENDIZADO SUPERVISIONADO E NÃO SUPERVISIONADO .................. 22
3.5. REDES NEURAIS ARTIFICIAIS (RNAs) ....................................................... 24
3.6. CONCLUSÃO ........................................................................................... 43

2
CAPÍTULO 4................................................................................................................ 44
O PROCESSO PROPOSTO ........................................................................................ 44
4.1. UTILIZAÇÃO DO CRISP-DM ..................................................................... 44
4.2. EXTENSÃO DO CRISP-DM ....................................................................... 46
4.3. UTILIZAÇÃO DAS RNA’s NO PROCESSO PROPOSTO ................................ 51
4.4. CONCLUSÃO ........................................................................................... 52
CAPÍTULO 5................................................................................................................ 53
PREPARAÇÃO DE DADOS E APLICAÇÃO NO PROCESSO PROPOSTO ........................ 53
5.1. LIMPEZA E REDUÇÃO NOS DADOS ......................................................... 53
5.2. AGRUPAMENTOS E JUNÇÕES DOS DADOS ............................................. 54
5.3. AJUSTES NOS DADOS ............................................................................. 56
5.4. O CONJUNTO DE DADOS RESULTANTE ................................................... 59
5.5. CLUSTERIZAÇÃO COM REDES DE KOHONEN........................................... 61
5.6. SELEÇÃO DE ATRIBUTOS ........................................................................ 65
5.7. CLASSIFICAÇÃO COM REDES MLP........................................................... 67
5.8. CONCLUSÃO ........................................................................................... 75
CAPÍTULO 6................................................................................................................ 77
AVALIAÇÃO E UTILIZAÇÃO DO PROCESSO .............................................................. 77
6.1. COMPARAÇÃO COM O MODELO SEM A CLUSTERIZAÇÃO DE KOHONEN 77
6.2. COMPARAÇÃO COM UM ALGORITMO DE ÁRVORES DE DECISÃO .......... 78
6.3. UTILIZANDO VALIDAÇÃO CRUZADA........................................................ 82
6.4. UTILIZAÇÃO OU DISTRIBUIÇÃO .............................................................. 83
6.5. CONCLUSÃO ........................................................................................... 85
CAPÍTULO 7................................................................................................................ 86
3
CONCLUSÃO E TRABALHOS FUTUROS .................................................................... 86
7.1. CONCLUSÕES ......................................................................................... 86
7.2. TRABALHOS FUTUROS ............................................................................ 88
APÊNDICE 1 ............................................................................................................... 90
METODOLOGIA E FERRAMENTAS UTILIZADAS ....................................................... 90
1. CRISP-DM ....................................................................................................... 90
2. IDEA® - Interactive Data Extration and Analisys.............................................. 93
3. CLEMENTINE® ................................................................................................ 97
APÊNDICE 2 ............................................................................................................. 128
TABELAS............................................................................................................... 128
Tabela A.2.1: Agrupamento de atividades econômicas .................................... 128
Tabela A.2.2: Agrupamento de CFOP (Código Fiscal de Operação e Prestação) 130
Tabela A.2.3: Relação de atributos do conjunto inicial de dados ...................... 145
REFERÊNCIAS BIBLIOGRÁFICAS ................................................................................ 156

4
RESUMO
O objetivo deste trabalho é propor um processo de mineração de dados aplicado ao
problema da sonegação do ICMS – Imposto sobre operações relativas à Circulação de
Mercadorias e sobre prestações de Serviços de transporte interestadual e
intermunicipal e de comunicação. O processo proposto consiste em uma extensão do
CRISP-DM (CRoss Industry Standard Process for Data Mining) através da utilização de
algoritmos de Redes Neurais Artificiais – RNA’s. A proposta divide a fase de
Modelagem do CRISP-DM em três subfases bem determinadas: Clusterização,
Seleção de Atributos e Classificação. Dois dos modelos clássicos de RNA’s foram
utilizados dentro do processo proposto. Uma RNA do tipo mapa auto-organizável
com algoritmo de Kohonen foi utilizada na fase de Clusterização para agrupamento
dos dados aproveitando as suas próprias características. Outra RNA do tipo
Perceptron Multicamadas (MLP) com algoritmo de retro propagação de erros foi
utilizada na fase de Classificação. Entre essas fases, uma outra foi inserida para
Seleção de Atributos, a qual utiliza o algoritmo C5.0, objetivando descartar dados não
significativos para a classificação, otimizar o tempo de treinamento e dar mais
qualidade ao processo. Para validar o processo foi utilizada uma base de dados típica
de uma administração tributária estadual e, ao final, para validá-lo, os resultados
foram avaliados e comparados com resultados de outros modelos.
Palavras chaves: Mineração de Dados, CRISP-DM, Redes Neurais Artificiais,

Sonegação, ICMS.
5
ABSTRACT
The objective of this work is to propose a datamining process applied to the problem
of evasion in ICMS – Tax relative operations to the Circulation of Goods and on
services of transport and communication. The proposed process is an extension of
the CRISP-DM ("CRoss Industry Standard Process of Data Mining") using Artificial
Neural Networks (ANN’s) algorithms. The proposal divides the Modelling phase of
CRISP-DM in three subfases: Clustering, Feacture Selection and Classification. Two of
the classic models of RNA's were used inside of proposed process. A self-organized
map with Kohonen’s algorithm was used in the clustering phase for grouping data
conform their own characteristics. A multilayer perceptron (MLP) with
backpropagation algorithm was used in the classification phase. Between these two
phases, another phase was included for Feacture Selection using the C5.0 algorithm,
to discarding not significant data, optimize the training time and give more quality to
the process. To validate the process, a typical database of a tax administration was
used and, at the end of the work, to validate it, the results were appraised, compared
with results of other models.
Keywords: Datamining, CRISP-DM, Artificial Neural Networks, Evasion, ICMS.

6
CAPÍTULO 1
INTRODUÇÃO
1.1. MOTIVAÇÃO E CONTEXTO DA PESQUISA
Mineração de dados, atualmente, é um processo extremamente importante

para todas as organizações que têm grandes bases de dados, pois, a partir destes
dados é possível extrair conhecimento, o qual pode ser utilizado para garantir maior
mercado, menores custos e, por que não dizer, a própria sobrevivência da
organização. De que adianta armazenar grandes volumes de dados e não utilizá-los?
Organizações governamentais não fogem desse contexto, onde a

informatização crescente, com custos cada vez menores, possibilita a utilização de
diversas técnicas e ferramentas de mineração de dados. Há tempos abriu-se a
possibilidade do governo também fazer uso de modelos sistematizados para auxiliar
em seus processos de planejamento e tomada de decisão.
As administrações fazendárias são um bom exemplo. Atualmente as

Secretarias de Fazenda dos Estados do Brasil recebem, mensalmente, um grande
volume de dados sobre as operações das empresas inscritas em seus cadastros, além
de informações de outras fontes, que ficam armazenadas seus bancos de dados. Faz-
se necessário aproveitar o desenvolvimento tecnológico e, mais precisamente, as
técnicas de mineração de dados para extrair conhecimento da grande massa de
dados que estas organizações possuem.
A motivação da presente pesquisa reside na necessidade das administrações

fazendárias estarem munidas de ferramental tecnológico para melhorar a tomada de
decisões e fazer frente à sonegação de impostos e o consequente desequilíbrio entre
as suas arrecadações tributárias e os recursos necessários para investimentos na
sociedade.
7
No Brasil, um dos grandes problemas na gestão dos impostos é a sonegação. O

correto pagamento dos impostos por parte dos contribuintes1 garante ao Estado
manter os investimentos necessários para a sociedade. Abstendo-se de outros
fatores, sem os impostos, o Estado não pode garantir saúde, educação, saneamento,
transporte, infra-estrutura, entre outros serviços essenciais à população.
Diversas administrações fazendárias estão partindo para montar Data

Warehouses (armazéns de dados) ou investindo em sistemas especialistas para
auxiliar nas tomadas de decisões. Entre as decisões de uma administração tributária,
uma das mais importantes é, sem dúvida, saber quem fiscalizar ou quem precisa de
um maior controle fiscal.
Trabalhamos nesta pesquisa com dados da Secretaria de Fazenda do Estado do

Ceará (SEFAZ-CE). A SEFAZ-CE é uma organização que possui uma grande massa de
dados, a qual necessita ser minerada a fim de se extrair o conhecimento necessário
para melhorar o controle fiscal e combater o problema da sonegação fiscal,
principalmente no que diz respeito ao ICMS – Imposto sobre operações relativas à
Circulação de Mercadorias e sobre prestações de Serviços de transporte interestadual
e intermunicipal e de comunicação, imposto mais importante entre as suas receitas.
1.2. O PROBLEMA DA SONEGAÇÃO DO ICMS
Os impostos têm importantes funções dentro do contexto da construção e

manutenção do Estado e seus reflexos são relevantes na qualidade de vida de seus
habitantes. Atualmente, o principal imposto de competência dos Estados no Brasil é o
ICMS. Este imposto representa em média 95% da arrecadação de todos os impostos
estaduais. Logo, as Administrações Fazendárias Estaduais não podem perder receitas
1
Corresponde a todas as pessoas, físicas ou jurídicas, que pagam os tributos, seja na aquisição de produtos ou
serviços ou em outros fatos tributados. Esse conceito parte do pressuposto que o verdadeiro contribuinte no
caso do ICMS é o consumidor final de produtos ou serviços, que, no final das contas, é aquele que realmente
paga o imposto exigido, embutidos nos preços. Assim sendo, os estabelecimentos seriam apenas os
recolhedores do ICMS para os cofres públicos.
8
por conta da sonegação fiscal desse importante imposto. Neste sentido, este trabalho
tem sua relevância dentro de uma conjuntura governamental e social. Ele se reveste
numa contribuição para fortalecer a capacidade do Estado de manter bons níveis de
arrecadação e, consequentemente, os investimentos para a comunidade.
A seguir serão discutidos alguns tópicos fundamentais para o entendimento do

problema dentro do contexto da administração tributária estadual.
1.2.1. O ICMS
O ICMS é um imposto não cumulativo. Isso significa que o cálculo do valor a
ser recolhido pelos estabelecimentos2, recolhedores do imposto, deve ser calculado
como uma conta corrente em que os débitos são o imposto devido nas vendas e os
créditos são o imposto recolhido nas operações anteriores [VIANA NETO – 1995]. Por
exemplo, admitindo-se que a alíquota3 do ICMS seja 17,00 %, uma empresa adquire
mercadoria no valor de R$ 100,00 com R$ 17,00 de ICMS já embutido no valor da
compra. Se a empresa vender a mercadoria por R$ 150,00, terá que embutir R$ 25,50
de ICMS. O ICMS a recolher é a diferença entre o valor do imposto incluso na venda
(débito) e o valor incluso na compra (crédito), ou seja, R$ 8,50 (R$ 25,50 – R$ 17,00).
Esse cálculo deve ser processado por meio de uma apuração periódica com a
diferença entre o somatório de todos os débitos e o somatório de todos os créditos
[RIBEIRO NETO – 2006].
O ICMS é um imposto lançado pelo próprio sujeito passivo4 que tem a

obrigação de apurar o que é devido, com base na legislação vigente, e de informar
todos os elementos do cálculo para a administração tributária.
2
Unidades da pessoa jurídica que procede à venda de produtos ou serviços tributados e recolhe ICMS. Todos
eles devem ter organização administrativa e estar inscritos no CGF – Cadastro Geral da Fazenda.
3
É o percentual utilizado para o cálculo do imposto e aplicado sobre o valor da operação.
4
É a pessoa, física ou jurídica, encarregada de recolher os impostos, ou seja, de repassá-los para os cofres
públicos.
9
De forma simplificada podemos fazer uma classificação geral dos

estabelecimentos (sujeitos passivos) inscritos no Cadastro Geral da Fazenda,
considerando as atividades econômicas tributadas pelo ICMS:
1. Indústria: abrange as atividades de transformação de insumos em produtos

acabados. As empresas enquadradas nessas atividades aproveitam créditos
referentes à aquisição dos insumos utilizados diretamente na produção;
2. Comércio: abrange as atividades de compra e revenda de produtos. Os

créditos utilizados na apuração do ICMS provêm somente da aquisição dos
produtos revendidos. É preciso ressaltar que, para efeito de legislação
tributária do ICMS, o fornecimento de energia elétrica é considerado uma
atividade comercial, ou seja, energia elétrica é considerada mercadoria;
3. Serviços: abrange as atividades de prestação de serviços tributados pelo ICMS,

que são os de comunicação, inclusive telecomunicação, e de transporte,
excetuando-se o transporte intramunicipal. Os créditos para apuração do ICMS
somente são aproveitados nas aquisições de produtos utilizados diretamente
na prestação dos serviços.
Respeitando-se algumas regras constitucionais, a legislação do ICMS é de

competência de cada Estado. Tal legislação estabelece uma série de obrigações aos
seus sujeitos passivos. Diz-se que a obrigação de recolher o imposto aos cofres
públicos é a obrigação tributária principal e todas as outras são obrigações tributárias
acessórias.
1.2.2. Sonegação, Fraude e Conluio

Sonegação é todo ato que, conscientemente ou inconscientemente, de forma
legal ou ilegal, leva ao não pagamento ou pagamento a menor do imposto devido. Ela
pode ser praticada na forma de elisão ou evasão fiscal. Ocorre elisão quando o ato é
praticado dentro da lei, observando suas lacunas ou fazendo planejamento fiscal,
resultando em não recolhimento do imposto. Já a evasão se caracteriza pelo claro
10
atentado à lei, ou seja, utilizando-se meios ilícitos para evitar o pagamento do

imposto [PELLIZZANI – 1990]. Normalmente, é possível colher provas de evasão fiscal,
e penalizar os seus praticantes. Em se tratando de elisão, as ações do fisco se limitam
a ajustar a lei para não deixar possibilidades para essa prática.
No que diz respeito ao não cumprimento das normas tributárias, é importante

distinguir duas práticas que frequentemente aparecem nas verificações fiscais. Uma
dessas práticas é a “fraude”, que pode ser definida, em termos tributários, como toda
ação ou omissão, praticada com ardil, astúcia, malícia ou má-fé, que impede ou
modifica a ocorrência do fato gerador5, visando reduzir ou não pagar do imposto
devido. A segunda prática é o “conluio” que pode ser entendido como um ajuste
entre duas ou mais pessoas visando à sonegação.
Seja qual for a forma de sonegação, voluntária ou involuntária, quando ela é

comprovada tem como consequência a aplicação de punições pelas administrações
tributárias. As penalidades vão desde multas pecuniárias, passando por restrições até
a limitação de alguns direitos e vantagens [ANDRADE FILHO – 2005].
Diminuir ao máximo a sonegação fiscal é uma busca constante das

administrações fazendárias, pois esta redução traz diversos benefícios para a
sociedade, como, por exemplo:
• Mais recursos para os investimentos do Estado em educação, saúde,

transporte, entre outros;
• O pagamento dos impostos devidos por todos possibilita o fim da

concorrência desleal. Não é justo que as empresas se beneficiem por não
pagar seus impostos em detrimento daquelas que os pagam em dia, pois
isso causa um desequilíbrio de mercado;
• Com o equilíbrio no pagamento dos impostos é possível proceder a uma
5
É o fato (operação ou prestação) no qual incide o imposto, ou seja, no qual é obrigatório lançar um percentual
relativo ao ICMS.
11
reforma tributária, tão desejada por todos no Brasil, onde todos poderão
pagar menos impostos sem que o governo perca arrecadação.
1.3. OBJETIVO DA PESQUISA
O CRISP-DM (“CRoss Industry Standard Process for Data Mining”) é um processo

para mineração de dados extremamente flexível. As Redes Neurais Artificiais têm a
capacidade de modelar problemas não-lineares e cujo tratamento não pode ser feito
com técnicas estatísticas convencionais. Considerando essas propriedades e a visão
do problema da sonegação do ICMS, estabeleceu-se o objetivo do trabalho da
seguinte forma:
1.3.1. Objetivo Geral

Propor um processo de mineração de dados, tomando por base o CRISP-DM e
as Redes Neurais Artificiais, utilizando dados típicos de uma administração
fazendária, buscando prever a sonegação ou não do ICMS, contribuindo para
melhorar o controle fiscal.
1.3.2. Objetivos Específicos

• Preparar os dados de uma Secretaria da Fazenda para o processo de
mineração de dados;
• Especializar a fase de modelagem do CRISP-DM a partir da utilização de

Redes Neurais Artificiais para treinamento dos dados pré-processados;
• Analisar e avaliar o desempenho do processo proposto através de uma

aplicação voltada para o problema da sonegação fiscal.
1.4. HIPÓTESES LEVANTADAS
Apresentam-se como hipóteses para resolver a questão principal da pesquisa:

12
1. Pode-se estabelecer um processo de mineração de dados, baseado na

metodologia estabelecida pelo CRIPS-DM e em RNAs, que seja adequado ao
problema da sonegação do ICMS.
2. O problema da sonegação de impostos, mais precisamente do ICMS, pode ser

modelado e analisado com Redes Neurais Artificiais;
3. É possível construir RNA’s para classificar as empresas que recolhem ICMS

entre as que apresentam um maior ou menor risco de sonegação;
1.5. OS DADOS UTILIZADOS NA PESQUISA
Uma administração fazendária estadual, em geral, armazena um grande

volume de dados. A maior parte desses dados refere ao ICMS e aos sujeitos obrigados
a recolhê-lo, desde o cadastro geral de estabelecimentos inscritos até as operações
declaradas por estes a cada mês. Os dados utilizados neste trabalho são relativos à
administração fazendária da Secretaria da Fazenda do Estado do Ceará e respeitaram
todo o sigilo fiscal exigido legalmente.
1.5.1. Tabelas de Dados

Os dados foram extraídos de um SGBDR (Sistema Gerenciador de Banco de
Dados Relacional) Oracle e disponibilizados em formato texto, distribuídos nas
tabelas descritas a seguir:
• Cadastro – Relação de estabelecimentos inscritos no cadastro geral da fazenda

estadual (CGF), classificados por CNAE6, órgão local7 ou regime de
recolhimento8. Nesta tabela foram retirados os campos que identificam os
6
É o Código Nacional de Atividade Econômica: Codificação estabelecida pela CONCLA – Comissão Nacional de
Classificação que representa as atividades econômicas exercidas pelos contribuintes.
7
Representa a região fiscal, ou seja, as unidades de circunscrição regional no Estado do Ceará onde se
localizam os estabelecimentos.
8
É o regime estabelecido pela administração fazendária para o estabelecimento inscrito em seu cadastro no
que diz respeito à forma de recolhimento do ICMS. Em geral, nos Estados do Brasil, os regimes comuns padrões
13
estabelecimentos, tais como nome, CNPJ, endereço e outros, ou seja, somente

foram utilizados atributos necessários à pesquisa, que são:
o Seqüencial do cadastro – Número seqüencial que identifica o

estabelecimento cadastrado;
o Código do Município – Código do IBGE (Instituto Brasileiro de Geografia

e Estatística) para o município onde se localiza o estabelecimento
inscrito no cadastro;
o Início da atividade – Data de início da atividade do estabelecimento

inscrito;
o CNAE primário – Primeiro Código Nacional de Atividade Econômica do

estabelecimento;
o CNAE Secundário – Segundo Código Nacional de Atividade Econômica

do estabelecimento;
o Situação – Código que identifica a situação dos estabelecimentos

diferenciando aqueles que estão ativos, baixados, cassados ou excluídos
do cadastro;
o Regime de recolhimento – Código que identifica o regime de

recolhimento do ICMS do estabelecimento podendo ser Normal,
Empresa de Pequeno Porte (EPP) ou Micro-empresa (ME).
• Arrecadação – dados mensais provenientes da arrecadação do ICMS por

estabelecimentos cadastrados, detalhado com os seguintes atributos:
o Seqüencial do cadastro – Número seqüencial que identifica o

estabelecimento cadastrado;
o Código de receita – código que identifica o tipo de receita recolhida pelo
são os de Empresa Normal, Empresa de Pequeno Porte e Micro Empresa. Os estabelecimentos são classificados
nos regimes em função do seu porte, ou seja, do volume de faturamento.
14
estabelecimento;
o Mês de movimento – Mês do recolhimento da receita;
o Ano de movimento – Ano de recolhimento da receita;
o Mês de referência – Mês a que se refere o recolhimento, tendo em vista

que existem recolhimentos extemporâneos;
o Ano de referência – Ano a que se refere o recolhimento, tendo em vista

que existem recolhimentos extemporâneos;
o Valor principal – Valor líquido do imposto recolhido;
o Valor total – Valor total recolhido incluindo o valor do imposto, multas e

juros;
o Data – Data do recolhimento.
• Dados da DIEF9 – Dados relativos às operações e/ou prestações dos

estabelecimentos inscritos no CGF e declarados na DIEF. Estavam dispostos em
detalhes da seguinte forma:
o Entradas – Valor das compras, transferências, devoluções de vendas e

outros recebimentos mensais de produtos ou serviços, classificados por
CFOP10 e origem (internas, interestaduais e do exterior), detalhado
com:
• CFOP – Código Fiscal de Operação e Prestação;
• Valor contábil – Valor bruto;
• Base de cálculo – Valor da base cálculo para crédito de
9
É a Declaração mensal de Informações Econômico-Fiscais. Declaração do próprio estabelecimento com todas
as suas operações e prestações além do cálculo do ICMS devido, com base nos documentos e livros fiscais,
apresentada mensalmente ao fisco estadual em meio eletrônico.
10
É o Código Fiscal de Operação e Prestação. Ele representa os tipos de operações ou prestações efetuadas
com mercadorias ou serviços pelos estabelecimentos.
15
ICMS pelas entradas;
• Isentas11 – Valor das operações de entrada, isentas de

ICMS em função da legislação;
• Outras12 – Valor de outras operações de entrada não

tributadas pelo ICMS.
o Saídas – Valor das vendas, transferências, devoluções de compras e

outras saídas mensais de produtos ou serviços, classificadas por CFOP e
destino (internas, interestaduais e do exterior), detalhado com:
• CFOP – Código Fiscal de Operação e Prestação;
• Valor contábil – Valor bruto;
• Base de cálculo – Valor da base cálculo para débito de

ICMS pelas saídas;
• Isentas – Valor das operações de saída, isentas de ICMS

em função da legislação;
• Outras – Valor de outras operações de saída não

tributadas pelo ICMS.
o Créditos e Débitos – valores dos créditos e débitos utilizados no cálculo

do saldo de ICMS de cada mês.
o Inventários – valores dos estoques dos estabelecimentos ao final de

cada exercício fiscal.
11
São operações tributadas, mas que e lei determina que não sejam passíveis de cobrança de imposto. Pode
ser por tempo determinado ou indeterminado. Existem isenções não condicionadas, que a legislação dá direito
sem impor condições, e, também, isenções condicionadas, em que a legislação determina uma ou mais
condições para que se tenha direito à isenção.
12
Entre essas operações se enquadram as imunes, que são aquelas que a própria Constituição Federal impõe
imunidade a determinados tributos. Existem, ainda, as que são tributadas por outros impostos que não seja o
ICMS.
16
• Fiscalização – dados referentes às ações de fiscalização com a quantidade e

valor dos autos de infração13 expedidos e a situação destes, detalhados de
seguinte forma:
o Ações fiscais14 – Relação de todas as verificações fiscais sofridas pelos

estabelecimentos, sejam elas auditorias completas ou simples
diligências específicas, incluindo as solicitações que as originaram;
o Autos de infração – Relação de todos os autos de infração com os

valores lançados relativos às irregularidades constatadas nas ações
fiscais, multas aplicadas e a situação relativa ao pagamento ou
julgamento desses processos.
• CFOP – dados com codificação e descrição dos tipos de operações ou

prestações efetuadas pelos estabelecimentos com mercadorias ou serviços.
• CNAE – dados com codificação e descrição das atividades econômicas dos

estabelecimentos.
• Valores TEF – Valores das transferências eletrônicas de fundos procedidas

pelos estabelecimentos, informados pelas administradoras de cartão de
crédito.
• Valores Postos Fiscais – Valores das entradas e saídas dos estabelecimentos

inscritos no Estado do Ceará, registradas nos postos fiscais da Secretaria da
Fazenda.
13
Instrumentos utilizados para lançar de oficio os valores devidos pelos contribuintes, decorrentes de infrações
cometidas.
14
Diligências e auditorias sofridas por um estabelecimento, podendo ser para uma simples averiguação de um
documento fiscal até uma verificação completa das suas operações e escrita fiscal.
17
1.6. CONCLUSÃO
Neste capítulo introdutório tecemos considerações sobre a motivação e os

objetivos deste trabalho. Evidenciamos o entendimento do problema da sonegação
do ICMS e os dados utilizados para cumprir seus objetivos. Nos capítulos seguintes
discorreremos sobre trabalhos relacionados e fundamentação teórica. Um capítulo
exclusivo será dedicado à discussão do processo proposto neste trabalho e em
seguida detalharemos a sua aplicação com dados de uma administração fazendária. A
metodologia do CRISP-DM e suas fases são detalhadas no Apêndice 1.
18
CAPÍTULO 2
TRABALHOS RELACIONADOS AO TEMA
Alguns trabalhos relacionados à detecção de fraudes fiscais, previsão de

arrecadação ou aplicações de RNAs na área governamental merecem destaque. A
seguir discutiremos estes trabalhos, os quais classificamos da seguinte forma:
• Trabalhos baseados em redes neurais artificiais;
• Trabalhos relacionados a impostos.
2.1. TRABALHOS BASEADOS EM REDES NEURAIS ARTIFICIAIS
Na linha de utilização de Redes Neurais Artificiais para resolver problemas na

área governamental encontramos poucos trabalhos no Brasil. Em [LIMA – 2005] na
tese intitulada Crime Organizado e Lavagem de Dinheiro: Uma Aplicação das Teorias
dos Jogos e de Redes Neurais Artificiais, o autor propõe modelar o problema do crime
organizado e lavagem de dinheiro, com uma mistura da teoria dos jogos e redes
neurais artificiais com a finalidade de reconhecer padrões internacionalmente
conhecidos. A pesquisa aborda o problema sob as duas técnicas e, segundo o autor, a
capacidade de reconhecer padrões é o ponto de ligação entre essas duas técnicas de
mineração de dados. O ponto comum entre este trabalho e a presente pesquisa
reside na aplicação das RNA’s a um problema de controle governamental.
Em [SISNANDO – 2006] o autor apresentou um artigo intitulado Previsão e

Avaliação de Desempenho dos Contribuintes do ICMS do Estado do Ceará Utilizando
Redes Neurais Artificiais. Este trabalho procurou investigar a habilidade de Redes
Neurais Artificiais em realizar previsões do desempenho dos contribuintes do ICMS
do Estado do Ceará. Foi utilizado apenas treinamento de redes Multilayer Perceptron
(MLP). O alvo era identificar padrões de comportamento das empresas.
Diferentemente da abordagem do presente trabalho, os resultados obtidos foram
19
confrontados com resultados gerados por um modelo estatístico utilizado à época

pela própria Secretaria da Fazenda do Estado do Ceará.
2.2. TRABALHOS RELACIONADOS A IMPOSTOS
Aqui citaremos trabalhos que utilizaram outras técnicas de mineração de

dados para problemas da área tributária. Em [BRAZ – 2001] a tese intitulada Um
Modelo para Gerenciamento, Avaliação e Planejamento da Arrecadação de Impostos
Estaduais propõe um modelo de gerenciamento, avaliação e planejamento da
arrecadação de impostos, visando combater a sonegação fiscal e aumentar a receita
estadual sem elevação da carga tributária. Neste trabalho o foco principal é a
montagem de um datawarehouse, como um estudo de caso em uma Secretaria de
Fazenda. Não foi utilizada uma técnica conhecida de mineração de dados.
Em [CORVALÃO – 2002] a dissertação cujo título é Previsão da Arrecadação do

Imposto sobre Circulação de Mercadorias e Serviços em Santa Catarina: Aplicação da
Abordagem Geral para Específico em Modelos Dinâmicos tem como objetivo
principal, verificar a possibilidade de melhorar as previsões mensais do ICMS
arrecadado, o processo de tomada de decisão e o planejamento orçamentário do
Estado de Santa Catarina. Esse trabalho se baseou em modelos de regressão
dinâmica onde foram selecionadas e analisadas diversas séries de dados. Segundo o
autor, os resultados indicaram que o modelo proposto era adequado para o
problema.
Em [GOMES JÚNIOR] a dissertação intitulada Descoberta de Conhecimento Em

Múltiplas Perspectivas: Aplicação em Bases de Dados do ICMS descreve uma
metodologia de exploração de bases de dados do ICMS da Secretaria da Fazenda do
Estado do Ceará. Esta proposta gira em torno da estruturação das informações
contidas nos bancos de dados e a descoberta de conhecimento, utilizando um
algoritmo de formação de conceitos. Este trabalho foi focado na preparação dos
dados a serem submetidos ao algoritmo FORMVIEW, visualizados em diferentes
20
perspectivas, gerando hierarquias de conceitos e descobrindo relacionamentos entre

as hierarquias.
Nos artigos em [BONCHI et al - 2003] e [YU, QIN e JIA - 2006] os autores

utilizaram árvores de decisão. O primeiro, intitulado Using Data Mining Techniques in
Fiscal Fraud Detection, é um trabalho direcionado a fraudes fiscais e propõe um
modelo de descoberta de conhecimento em base de dados. O segundo, intitulado
Data Mining Application Issues in Fraudulent Tax Declaration Detection, também é
direcionado a fraudes fiscais e descreve etapas de um processo de mineração de
dados. Esses artigos se baseiam em uma técnica de mineração diferente das RNAs,
mas propõem resolver problema semelhante ao do presente trabalho.
2.3. CONCLUSÃO
Sem dúvida os trabalhos comentados neste capítulo guardam relação com a

presente pesquisa. No entanto devemos ressaltar os seguintes pontos:
1. Nesta dissertação descrevemos e propomos um processo de mineração de

dados voltado para o combate à sonegação fiscal do ICMS. Este processo
tem como base uma metodologia mundialmente conhecida (CRISP-DM)
que é adaptada para o problema a ser resolvido;
2. As Redes Neurais Artificiais foram escolhidas para serem aplicadas dentro

do processo proposto. Além disso, são aplicados dois algoritmos diferentes;
3. Em função da diferente forma de modelagem, consequentemente os dados

utilizados foram trabalhados de forma também diferente, tendo em vista
que, após o processamento, eles perpassam por dois algoritmos de RNA’s,
sofrendo um ajuste (seleção de atributos) entre eles, até chegar ao final do
processo de mineração;
21
CAPITULO 3
FUNDAMENTAÇÃO TEÓRICA
Neste capítulo abordaremos conceitos ligados à mineração de dados e às

Redes Neurais Artificiais. Serão discutidos os fundamentos teóricos necessários para
o desenvolvimento dos capítulos seguintes.
3.1. INTELIGÊNCIA ARTIFICIAL
A inteligência artificial (IA) é uma área da ciência da computação que visa

obter métodos, técnicas ou mesmo dispositivos computacionais que simulem a
capacidade humana de raciocinar, tomar decisões e resolver problemas, ou seja, ter
inteligência [CIRIACO – 2009].
Nos anos 50, as pesquisas em inteligência artificial se dividiram em duas

abordagens: A abordagem simbólica e a abordagem conexionista. A primeira, como o
próprio nome diz, parte de uma representação simbólica do conhecimento, onde
este é representado por símbolos e suas combinações, como uma linguagem natural.
A segunda, parte da estrutura do cérebro para simular inteligência, estando ligada à
neurocomputação.
3.2. DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS
Quando se tem grandes volumes de dados muitas relações e padrões úteis

podem ser descobertas a partir deles. Descoberta de Conhecimento em Bases de
Dados (Knowledge Discovery in Databases – KDD) é um conjunto de processos que
visam a descoberta de padrões válidos e potencialmente úteis em banco de dados.
Envolve várias etapas. Entre os seus processos, o mais importante é a mineração de
dados.
22
3.3. MINERAÇÃO DE DADOS
Obviamente, não é fácil descobrir conhecimento em bases de dados de forma

manual. Nesse ponto, a junção dos computadores, técnicas de inteligência artificial,
métodos estatísticos e o conhecimento de especialistas é a fórmula mais eficiente
para solucionar muitos problemas.
Minerar dados consiste em utilizar técnicas automáticas de estatística e de

inteligência artificial para explorar grandes massas de dados à procura de relações ou
padrões úteis para as organizações [CARVALHO – 2005].
Apesar dos avanços tecnológicos, é preciso ter em mente que a mineração de

dados é um processo interativo entre homem e máquina que tem três características
fundamentais na resolução de problemas:
• Grande quantidade de dados;
• Especialistas no negócio cujos dados serão minerados;
• Algoritmo para descoberta de padrões.
3.4. APRENDIZADO SUPERVISIONADO E NÃO SUPERVISIONADO
A inteligência Artificial tem uma área específica para pesquisa de regras ou

conceitos embutidos em conjuntos de dados que é conhecida como Aprendizado de
Máquina.
As redes neurais artificiais, por exemplo, contêm algoritmos de aprendizado

de máquina. Nelas o aprendizado ocorre em uma fase de treinamento onde um
conjunto de dados é passado para a rede objetivando a extração de conceitos e
informações, além do ajuste de seus parâmetros [BRAGA, CARVALHO e LUDEMIR –
2000].
O aprendizado pode ser classificado pela presença ou ausência de supervisão

explícita do mundo exterior. A supervisão significa que em certos intervalos de tempo
23
um “professor” assinala erros e acertos. Portanto, sob esses dois paradigmas, nós
temos o aprendizado supervisionado e o não supervisionado.
3.4.1. Aprendizado Supervisionado

Neste tipo de aprendizado um conjunto de dados de entrada é passado para
um algoritmo juntamente com um conjunto de saídas desejáveis. O algoritmo deve
aprender com as saídas desejáveis de forma que possa dar resposta para um novo
conjunto de dados sem os resultados.
No caso das RNAs é utilizado um conjunto de entradas e saídas, em que, para

cada padrão de entrada, é especificado um padrão de saída desejado (resposta
desejada). O aprendizado ocorre no momento em que a saída gerada pela rede, a
partir dos cálculos efetuados com o padrão de entrada e determinados parâmetros
de ligação entre as unidades da rede, for diferente da saída desejada. Um algoritmo
de treinamento, seguindo alguns critérios, ajusta os pesos da rede de forma a reduzir
essa diferença, chamada de erro. Essa dinâmica é repetida para todo um conjunto de
dados (entradas e saídas) de treinamento várias vezes, até que a taxa de erro atinja
uma faixa considerada satisfatória.
3.4.2. Aprendizado Não Supervisionado

É também conhecido como aprendizado auto-supervisionado. Neste tipo de
aprendizado ocorre a classificação de padrões similares sem utilizar conjuntos de
entradas e saídas. Isto é, na fase de aprendizagem do algoritmo utilizado são usados
apenas valores de entrada. As entradas são processadas fazendo-se uma auto-
organização de modo a classificá-las mediante algum critério de semelhança.
Existem RNAs que utilizam aprendizado não supervisionado para fazer

agrupamento de dados com comportamento semelhante. Elas são chamadas de
mapas auto-organizáveis.
24
3.5. REDES NEURAIS ARTIFICIAIS (RNAs)
Uma rede neural artificial é um modelo computacional inspirado na forma de

funcionamento do sistema nervoso biológico, mais precisamente dos neurônios que
o compõem. As RNAs são sistemas paralelamente distribuídos compostos por
elementos que procuram simular os neurônios propensos a armazenar conhecimento
em uma fase de treinamento deixando-o disponível para uso em casos não treinados.
As RNAs foram propostas para solucionar problemas complexos em que

programas convencionais de computadores não são muito eficientes. Elas estão
sendo utilizadas em problemas práticos de reconhecimento de imagens e sons,
classificação e previsão (bolsa de valores, mercado financeiro, séries temporais, etc.).
A capacidade de aprender e generalizar informações através de exemplos é a
principal característica das RNAs [BRAGA, CARVALHO e LUDEMIR – 2000].
3.5.1. Histórico das Redes Neurais

O primeiro modelo de RNA foi desenvolvido por Warren McCulloch e Walter
Pitts, em 1943. O trabalho de McCulloch e Pitts se concentrou muito mais em
descrever um modelo artificial de neurônio e apresentar suas capacidades
computacionais. Não havia, ainda, a preocupação de implementar técnicas de
aprendizado [BRAGA, CARVALHO e LUDEMIR – 2000].
Em 1949, Donald Hebb propôs uma teoria para explicar o aprendizado em

neurônios biológicos baseada no reforço das ligações sinápticas entre os neurônios
excitados. O trabalho de Donald Hebb ficou conhecido com a regra de Hebb, que foi
interpretada do ponto de vista matemático, e é utilizada em vários algoritmos de
aprendizado. Mais tarde, Widrow e Hoff sugeriram uma regra de aprendizado,
conhecida como regra de Widrow-Hoff, ou regra delta, que é ainda hoje bastante
utilizada [BRAGA, CARVALHO e LUDEMIR – 2000].
Em 1958, Frank Rosenblatt projetou um novo modelo, o perceptron. Ele

demonstrou que, se as RNAs com os neurônios desenvolvidos por Pitts e McCulloch
25
fossem acrescidas de sinapses, elas poderiam ser treinadas para classificar certos
tipos de padrões [BRAGA, CARVALHO e LUDEMIR – 2000]. Além da topologia,
estrutura de ligação dos neurônios, Rosemblatt propôs um algoritmo de treinamento
da rede.
Nos anos 70, os estudos sobre as RNAs ficaram “adormecidos” devido à

repercussão do trabalho de Minsky e Papert, o qual dizia que o perceptron era
limitado a resolver problemas linearmente separáveis. Sem divulgação, alguns
pesquisadores continuaram trabalhando na área.
Em 1982, John Hopfield faz ressurgir o interesse pelas RNAs, quando, ao

publicar o artigo Neural Networks and Physical Systems with Emergent Collective
Computational Abilities, mostrou que as idéias de Minsky e Papert eram a relação
entre redes recorrentes auto-associativas e sistemas físicos, o que também abriu
espaço para a utilização de teorias correntes da física para estudar tais modelos. John
Hopfield mostrou que a visão de Misnky e Papert sobre o perceptron era bastante
pessimista. Ficou constatado que as RNAs são capazes de resolver problemas não-
lineares, ou “difíceis de aprender”. Então, a partir de meados da década de 80, houve
nova explosão de interesse pelas RNAs na comunidade internacional [HAYKIN - 2001].
3.5.2. O Neurônio Biológico

As RNAs se baseiam na neurotransmissão ocorrida no sistema nervoso. Trata-
se de uma analogia entre os neurônios e os sistemas computacionais, cujo objetivo
maior é buscar conhecimento utilizando algoritmos de aprendizagem.
Os neurônios são as células que compõem o sistema nervoso. São mais

complexas do que outras células do organismo, pois sua estrutura e funcionalidade
são diferenciadas. Se compararmos com um sistema computacional, os neurônios são
como vários processadores que executam operações simples e que operam em
conjunto transmitindo impulsos uns aos outros.
26
O cérebro humano possui cerca de 10 bilhões de neurônios o que dá uma

capacidade de processamento e aprendizado muito grande ao sistema nervoso. Entre
os vários tipos de neurônios existentes no corpo humano, muitos ainda não são
totalmente conhecidos.
A unidade básica de nosso cérebro, o neurônio, apresenta uma região onde

informações são processadas (corpo da célula), algumas entradas (os dendritos) e
uma saída (o axônio). Impulsos elétricos são recebidos nos dendritos, que, por sua
vez, são as portas de entrada das informações. As entradas são processadas, ou seja,
somadas de acordo com algum modelo, e o resultado deste processamento é um
sinal de ativação ou não ativação que é passado no axônio.
Figura 3-1: Neurônio biológico.
Os neurônios são conectados entre si em uma região chamada de sinapse, isto

é, a sinapse é o ponto de contato entre o axônio de um neurônio e o dentrito de
outro [BRAGA, CARVALHO e LUDEMIR – 2000]. Um neurônio é capaz de criar até
10.000 sinapses, ou seja, até 10.000 conexões com neurônios adjacentes. As
terminações nervosas nem sempre se relacionam com células neuronais, podendo,
27
inclusive, relacionar-se com outros tipos, por exemplo, células musculares ou

secretoras.
3.5.3. O Neurônio Artificial

Warren S. McCulloch, fisiologista e conhecedor das ondas de potencial de
membrana do neurônio biológico, é a primeira referência para a teoria das RNAs. Ele
interpretou o funcionamento do neurônio como sendo um circuito binário. O
neurônio de McCulloch e Pitts é um modelo com i unidades de entradas e um
terminal de saída. As entradas do neurônio seriam combinadas por uma soma
ponderada considerando pesos para cada uma de suas ligações sinápticas,
produzindo uma entrada líquida, que serve como argumento para uma função de
ativação que ativa ou não a saída do neurônio.
O psicólogo Donald Hebb propôs a base de aprendizado nas redes neurais

quando explicou o que ocorre, a nível celular, durante o processo de aprendizagem
no cérebro. A lei de aprendizagem de Hebb dizia que se um neurônio A é
repetidamente estimulado por outro neurônio B, ao mesmo tempo em que ele está
ativo, ele ficará mais sensível aos estímulos de B, e a conexão sináptica de B para A
será mais eficiente. Deste modo, B achará mais fácil estimular A para produzir uma
saída.
O modelo de neurônio no qual se baseiam as redes neurais possui uma

estrutura idêntica. A Figura 3-2 mostra a representação de um neurônio artificial,
identificando quatro elementos básicos de sua arquitetura:
• Um conjunto de entradas representadas pelas sinapses, cada uma

caracterizada por um peso ou força própria (wij);
• Uma função de soma para somar os sinais de entrada (Ʃ ), ponderado pelas

respectivas sinapses do neurônio, constituindo um combinado linear;
• Uma função de ativação (Fa) para restringir o intervalo permissível de
amplitude do sinal de saída do neurônio a um valor finito. É uma função de
28
ordem interna, cuja atribuição é fazer acontecer um nível de ativação

dentro do próprio neurônio, ou seja, é uma decisão tomada pelo neurônio
sobre o que fazer com o valor resultante do somatório das entradas
ponderadas [TAFNER, XEREZ e RODRIGUES FILHO – 1995];
• Uma função de transferência (T) que envia para fora do neurônio o valor
passado pela função de ativação. Pode ter muitas formas e métodos,
podendo ser simples ou complexa. É também é conhecida como limiar
lógico [TAFNER, XEREZ e RODRIGUES FILHO – 1995].
Entradas Função Soma
Função de Ativação
x1
w1j Saída
w2j ∑|Fa|T
x2 yj
.
. .
. .
. wij
Função de Transferência
xi
Figura 3-2: Neurônio artificial com as funções soma, ativação e transferência.
Para simplificar, na maioria dos modelos, a função soma está dentro da função
de ativação, ou seja, esta última é que faz a soma das entradas ponderadas pelos
pesos sinápticos. No presente trabalho utilizaremos essa abordagem e o neurônio
artificial ficará conforme a figura 3-3.
Entradas Função Soma
Função de Ativação
x1
w1j Saída
w2j Fa | T
x2 yj
.
. .
. .
. wij
Função de Transferência
xi
Figura 3-3: Neurônio artificial com as funções ativação e transferência.
29
A função de ativação pode ser representada pela equação 3.1.
Fa = ∑i=1...n wijxi (3.1)
Onde:
wij Peso sináptico da entrada i com o neurônio j, que na figura 3-3 é apenas
um. A equação 3.1 será utilizada também para cálculo da função de ativação quando
tivermos mais de um neurônio;
xi Valor da entrada i.
É comum se utilizar funções de transferência com características ríspidas ou

sigmas. As funções de transferência mais utilizadas estão representadas na figura 3-4:
Degrau y Rampa y
1 1
x 1
x
-1
x < 0, y = 0
x < 0, y = -1 0 <= x <= 1, y = x
x > 0, y = 1 (a) X > 0, y = 1 (b)
Sigmóide y
1
y = 1/(1+e-x)
(c)
Figura 3-4: Funções transferência mais utilizadas.
As funções degrau e rampa (figuras 3-4a e 3-4b) possuem decisões ríspidas

para os valores extremos. Se for ultrapassado certo limite a função retorna 1 ou -1,
no caso da função degrau, e 0 ou 1, no caso da função rampa. A transição para os
valores extremos é abrupta. Já a função sigmóide (figura 3-4c) retorna os valores
30
limites quando há grandes valores positivos ou negativos passados para ela. Nessa
última função a transição para os extremos é suave.
Uma RNA é uma coleção de neurônios, dispostos em uma arquitetura

específica, com a finalidade de generalizar as informações que são fornecidas pelos
canais de entrada [TAFNER, XEREZ e RODRIGUES FILHO – 1995].
É importante compreender que, atualmente, as RNAs estão mais distantes das

redes neurais biológicos e freqüentemente as semelhanças são reduzidas. As RNAs
são comumente referenciadas como aproximadoras de funções. Existem modelos de
RNAs que substituem algumas técnicas estatísticas conhecidas mantendo a mesma
eficiência.
É comum se utilizar técnicas estatísticas e de inteligência artificial, em

conjunto, para construir modelos de sistemas para solucionar problemas complexos.
Alguns problemas exigem a integração das Redes Neurais Artificiais com outros
algoritmos [LUDWIG JR. e COSTA – 2007].
3.5.4. Principais Modelos de RNAs
O neurônio de McCulloch e Pitts

O primeiro modelo de neurônio foi elaborado em 1943, por Warren
McCulloch, um médico, filósofo, matemático e poeta, juntamente com Walter Pitts,
um estatístico [KOVÁCS – 2006]. Este modelo é referenciado na literatura como
neurônio de McCulloch e consiste em um sistema binário e muito simples. O
neurônio de McCulloch tinha sua saída calculada pela soma ponderada das entradas
com fatores chamados de ganhos.
Entrada excitatória
Axônio (saída)
Entrada inibitória
Figura 3-5: Neurônio de McCulloch.

31
O Perceptron
Frank Rosenblatt, nos anos 50, criou uma rede de múltiplos neurônios
chamada de perceptron [KOVÁCS – 2006]. O perceptron proposto por Rosenblatt tem
uma arquitetura simples, composta por uma camada de unidades de entrada que
recebem os sinais externos e por um conjunto de neurônios que processam as
funções para resultar na saída da rede, não tendo camadas intermediárias. Em função
da sua simplicidade, este modelo só pode ser aplicado em problemas de decisão
simples.
Rosenblatt propôs um método de treinamento da rede perceptron, baseado

no princípio de aprendizado do biólogo Donald Hebb, elaborado em 1949. A rede
recebe exemplos de treinamento e procede ao ajuste dos pesos dos neurônios para
que as saídas da rede sejam iguais as saídas dos exemplos. Em suma, o aprendizado
do perceptron é supervisionado.
Camada de Entrada Camada de Saída
W11
x1 Fa|T
y1
W21
.
.
x2 .
Wi1
.
.
.
xi
Figura 3-6: Perceptron com uma camada de entrada e uma de saída.
Os valores wi1 são os pesos das conexões sinápticas entre as unidades da

camada de entrada, identificados por i. A camada de saída pode ter vários neurônios,
identificados, por exemplo, por j. Desta forma, os pesos seriam identificados por wij e
a função de ativação para cada neurônio da camada de saída será a mesma
especificada na expressão 3.1.
32
Apesar de ter uma camada de entrada e uma de saída, o perceptron é

referenciado como tendo uma única camada, pois as unidades de entrada são
responsáveis apenas por distribuir o sinal recebido, ou seja, os dados de entrada,
para aos neurônios da camada de saída que fazem o processamento [TAFNER, XEREZ,
e RODRIGUES FILHO – 1995].
Também nos anos 50, B. Widrow desenvolveu o ADALINE (Adaptive Linear

Element), que era um modelo de neurônio linear, e deixou uma contribuição
importante para as redes neurais artificiais ao inventar um princípio de treinamento
chamado de regra Delta. Como o próprio nome deixa transparecer, o ADALINE é um
neurônio linear cuja saída é uma combinação linear das entradas [KOVÁCS – 2006].
O perceptron de uma camada tem um algoritmo de aprendizagem que se

baseia na regra Delta para o ajuste dos pesos sinápticos, que pode ser representada
pela seguinte expressão:
wij(t+1) = wij(t) + η * εj(t) * xi (3.2)
Sendo:
i índice do sinal de entrada;
j índice do neurônio na camada de saída;
t iteração;
wij(t+1) valor do peso ajustado (para nova iteração);
wij(t) valor do peso anterior;
η taxa de aprendizado;
εj(t) valor do erro para o neurônio j, conforme a expressão 3.3;
xi valor do sinal de entrada.
O valor do sinal de entrada consiste nos valores de atributos, convertidos ou

não, passados para a rede proceder ao treinamento e, após as ponderações e ajustes,
determinar os valores de saídas (yj(t)). Além dos atributos de entrada, pelo menos um
33
atributo alvo deve existir para estabelecer as saídas desejadas, caracterizando, assim,
o aprendizado supervisionado.
Uma iteração é uma época de treinamento começando pela passagem de

todos os dados para as unidades de entrada até as saídas da rede. A taxa de
aprendizado é utilizada para estabelecer a velocidade do ajuste dos pesos e seu valor
deve estar entre 0 e 1.
O erro (εj(t)) é calculado em cada iteração, ou passagem de dados pela rede,

tomando-se a saída desejada menos a saída calculada no respectivo neurônio de
saída, após os cálculos procedidos pela rede [LUDWIG JR. e COSTA – 2007].
εj(t) = dj(t) – yj(t) (3.3)
Sendo:
dj(t) saída desejada para o neurônio j;
yj(t) saída calculada para o neurônio j.
O erro dos neurônios de saída em cada iteração t é dado pela seguinte

expressão.
∑j=1...n |ε j(t)|
ε(t) = (3.4)
n
Sendo:
n número de neurônios da camada de saída.
j índice do neurônio
Pode-se utilizar também o erro médio para determinar o encerramento da

fase de treinamento. Este é calculado para todo o conjunto de treinamento, ou seja,
para todas as iterações passadas para a rede, conforme a expressão 3.5.
∑t=1...m |ε(t)|
εmédio = (3.5)
m
34
Sendo:
m número de iterações.
É comum acrescentar uma entrada a mais que corresponde a um limiar,

também chamado de bias, que, normalmente, recebe um valor constante e tem seu
peso ajustado, ou seja, faz as vezes de um neurônio mas não recebe um valor de
entrada originário da base de dados de treinamento. O seu objetivo é melhorar a
capacidade de aproximação da rede.
b1 W01
W11
x1 Fa|T
W21
.
.
x2 .
Wi1
.
.
.
xi
Figura 3-7: Perceptron com o bias (b1) de entrada.
O algoritmo do perceptron pode ser resumido da seguinte forma:
1. Inicializam-se os pesos das conexões aleatoriamente;
2. Passa-se um exemplo do conjunto de dados de treinamento para as

unidades de entrada;
3. Calcula-se a entrada líquida com o somatório conforme a expressão 3.1

(função de ativação);
4. Calcula-se a saída, utilizando-se a função de transferência escolhida

(por exemplo, a função degrau);
5. Calcula-se o erro conforme a expressão 3.3;

35
6. Faz-se um teste com base em um critério de parada. O critério pode ser

um valor de erro satisfatório ou um número máximo de ciclos de
treinamento, que significa a quantidade de vezes em que o conjunto de
dados inteiro passa pela rede;
7. Caso o critério de parada não seja satisfeito, faz-se o ajuste dos pesos
conforme a expressão 3.2 e repetem-se todos os passos a partir do 2º.
O perceptron somente resolve problemas linearmente separáveis, ou seja,

aqueles cuja solução pode ser representada utilizando uma reta ou hiperplano como
fronteira de decisão. Com os problemas não linearmente separáveis isso não é
possível.
O Perceptron Multicamadas
Quando John Hopfield, em 1982, apresentou as redes multicamadas ou MLP
(Multilayer Perceptron) o interesse pelas RNAs ressurgiu. O modelo é constituído de
neurônios interconectados em duas ou mais camadas e cujo aprendizado também
está nos pesos sinápticos, com a diferença óbvia de que existem mais pesos a serem
ajustados do que no perceptron de uma só camada. A grande contribuição de
Hopfield foi mesmo o algoritmo de aprendizagem back-propagation utilizado no
treinamento das redes MLP. O back-propagation é um algoritmo de retropropagação
de erros e foi apresentado pela primeira vez por Paul Werbos em 1974 no paper
Beyond regression: News tools for prediction and analysis in the behavioral sciences.
Basicamente o algoritmo faz com que os erros calculados sejam propagados de volta,
da camada de saída para a camada de entrada, passando pelas camadas
intermediárias (ocultas) e fazendo o ajuste dos pesos recursivamente [VALENÇA –
2005].
36
Camada de entrada Camada oculta Camada de saída
x1 Fa|T Fa|T y1
x2 Fa|T Fa|T y2
. . .
. . .
. . .
xi Fa|T Fa|T yj
Figura 3-8: Perceptron com uma camada de entrada, uma oculta e uma de saída.
Com o algoritmo back-propagation o treinamento ocorre em duas fases

[BRAGA, CARVALHO e LUDEMIR – 2000]. A primeira é a fase da definição das saídas
da rede e ocorre para frente (propagação), onde cada neurônio aciona as suas
funções de ativação e de transferência repassando os sinais até chegar à saída
calculada. A segunda fase utiliza a saída calculada e a saída desejada para calcular o
erro a fazer os ajustes dos pesos de todos os neurônios no sentido inverso, ou seja,
para trás.
O erro de um neurônio de saída j na iteração t é definido conforme a

expressão 3.3, demonstrada acima. No caso do perceptron multicamadas o índice j
indica a camada do neurônio.
O algoritmo back-propagation também utiliza a regra delta, só que de forma

generalizada, resultando na equação a seguir, que, no MLP, é o erro instantâneo da
rede para os neurônios de saída na iteração t:
1
ε(t) = ∑j=1...n ε2j(t) (3.6)
2
n número de neurônios da camada de saída j.
j índice do neurônio
37
E o erro médio para o conjunto de treinamento, que pode ser usado para
determinar o encerramento desta fase, contando todas as iterações, é dado por:
1
εmédio = ∑t=1...m ε(t) (3.7)
m
Sendo:
m número de iterações.
O algoritmo, após a primeira iteração, volta fazendo o ajuste dos pesos,

incluindo o limiar (bias), ficando a rede mais ajustada. O processo é repetido para
todas as iterações. O processo de ajuste dos pesos não é simples e é utilizada uma
derivada parcial chamada gradiente local (δj), calculada em uma camada da rede e
utilizada para ajuste da camada anterior, dada pela seguinte expressão 3.8.
δj = – εj(t) Tj (Faj(t)) (3.8)
Onde:
Tj Função de transferência do neurônio j;
Faj(t) Função de ativação do neurônio j na iteração t.
Após o cálculo do gradiente e possível fazer o ajuste dos pesos (e do bias) dos
neurônios da ultima camada, que, pela aplicação da regra delta, se dá conforme a
expressão 3.9.
Δwij = – ηδj(t) yi(t) (3.9)
Sendo que η é a taxa de aprendizado.
O processo segue com o cálculo do gradiente local da penúltima camada e do

ajuste dos pesos desta. Assim vai até chegar à camada de entrada (retro-
propagação). Depois uma nova iteração e feita e um novo processo de ajustes de
pesos e assim sucessivamente ate que se chegue a um critério de parada que pode
38
ser o numero máximo de iterações ou um valor limite para o erro médio [LUDWIG JR.
e COSTA – 2007].
O algoritmo de uma rede MLP com back-propagation pode ser resumido da

seguinte forma:
1. Inicializam-se os pesos das conexões aleatoriamente;

3. Realiza-se a propagação dos valores das entradas líquidas das camadas

escondidas até a camada de saída;
4. Calcula-se o erro conforme a expressão 3.7;
5. Faz-se um teste com base em um critério de parada. O critério pode ser

um valor de erro satisfatório ou um número máximo de ciclos de
treinamento;
6. Caso o critério de parada não seja satisfeito, faz-se a retro-propagação

com o ajuste dos pesos conforme a expressão 3.9 e repetem-se todos
os passos a partir do 2º.
As RNAs multicamadas são mais complexas, mas, em compensação, são mais

flexíveis, pois é possível configurá-las em função do número de camadas escondidas e
do número de neurônios em cada camada. Assim elas podem ser construídas para
implementar funções linearmente ou não linearmente separáveis.
A rede de Kohonen
Teuvo Kohonen apresentou um modelo de rede neural do tipo não
supervisionada que usa unidades de entrada para receber sinais e neurônios em uma
camada de saída, que se organizam competindo entre si para classificar as entradas
recebidas. Este tipo de rede é conhecido como mapa auto-organizável ou SOM (Self-
Organized Map) e seu aprendizado é não supervisionado, pois não há a passagem de
39
resultados esperados no conjunto de treinamento. A saída da rede é determinada

pela competição entre os seus neurônios.
O modelo de Kohonen tem a propriedade de modificar a si próprio. Os

neurônios, também chamados de neurônios pós-sinápticos, ficam dispostos em uma
camada de classificação que pode ser unidimensional ou bidimensional. Assim, alguns
neurônios da camada de classificação se ajustam em função da entrada e os
neurônios vizinhos aos ajustados respondem similarmente. Os neurônios da camada
de classificação competem entre si para serem os vencedores a cada modificação
[TAFNER, XEREZ, e RODRIGUES FILHO – 1995]. Após a fase de treinamento da rede
esta pode ser testada para medir a sua capacidade de agrupamento.
Figura 3-9: Representação de uma RNA de Kohonen.
Na figura 3-9, temos os seguintes elementos:
xi Unidades de entrada;
i Quantidade de unidades de entrada;
yj Neurônios da camada de saída;
j Quantidade de neurônios da camada de saída;

40
wij Peso sináptico da conexão da entrada i com o neurônio j.
Uma iteração do algoritmo da rede de Kohonen é composta basicamente por

três processos. Existe inicialmente um processo de aprendizagem por competição,
que é o fundamento do algoritmo. Depois, se dá um processo de cooperação entre o
neurônio vencedor de cada iteração na rede com os neurônios vizinhos. Isso significa
que o neurônio vencedor é um centro de uma vizinhança topológica, interagindo com
os neurônios vizinhos, de forma que a interação decresce com o aumento da
distância entre eles. Por fim, há um processo de adaptação onde ocorre o ajuste dos
pesos sinápticos.
Para passar pelas etapas acima citadas, é claro que o algoritmo da rede de
Kohonen deve começar com a definição dos pesos sinápticos entre as unidades de
entrada e os neurônios de rede, preferencialmente com valores pequenos. Ao passar
a primeira iteração para a rede, os neurônios devem competir entre si e um deles
deve ser o vencedor. Para escolha do vencedor utiliza-se uma métrica para medir a
distância entre o vetor dos dados de entrada e os neurônios da rede. O vencedor é
aquele que apresenta a menor distância entre as entradas e o seu vetor de pesos
[LUDWIG JR. e COSTA – 2007]. Neste trabalho consideraremos a distância euclidiana
que, em geral, é a mais utilizada.
Conforme a Figura 3-9, poderíamos representar os vetores de uma rede de

Kohonen, considerando cada iteração, da seguinte forma:
x = [ x1, x2, x3, ..., xi]t (3.10)
w = [wi1, wi2, wi3, ..., wij]t (3.11)
A distância euclidiana entre w e x, na iteração t, é dada por:
dxw(t) = ∑1...j (xi(t) – wij(t))2 (3.12)
Sendo:
i índice da unidade de entrada;

41
j índice do neurônio;
xi(t) sinal de entrada na unidade i na iteração t;
wij(t) valor do peso entre a unidade de entrada i e o neurônio j na iteração t.
Na etapa competitiva, é encontrada a distância euclidiana dos neurônios e é

possível definir um vencedor.
Passa-se para a etapa cooperativa, onde ocorre o processo de interação entre

o neurônio vencedor e seus vizinhos. Para isso utiliza-se o parâmetro de vizinhança
topológica hjk, que indica o grau de interação entre o neurônio j e seu vizinho k.
ljk2
(– 2σ2 ) (3.13)
hjk = e
Sendo:
ljk2 distância lateral entre os neurônios j e k;
σ largura efetiva da vizinhança topológica.
Na fase adaptativa, o ajuste dos pesos sinápticos é calculado pela equação:
Δwij = η(t) hjk(t) (xi – wij) (3.14)
Sendo:
wij peso entre a unidade de entrada i e neurônio j;
η(t) taxa de aprendizagem.
A vizinhança efetiva e a taxa de aprendizagem decrescem com o tempo, ou

seja com o número de iterações. Em geral utiliza-se uma função exponencial para
esse cálculo. Para reduzir a vizinhança efetiva pode ser utilizada a expressão 3.15.
Para a taxa de aprendizagem pode ser utilizada a expressão 3.16.
t
τ (3.15)
σ(t) = σ0 e
42
t
τ (3.16)
η(t) = η0 e
Sendo:
σ0 valor inicial da vizinhança efetiva;
η0 valor inicial da taxa de aprendizagem;
t número da iteração;
τ constante de tempo.
O algoritmo de Kohonen pode ser resumido da seguinte forma:
1. Inicializam-se os pesos das conexões aleatoriamente e atribui-se o valor

da vizinhança efetiva da rede;

3. Calcula-se a resposta dos neurônios da camada de saída com base na

expressão 3.12. O neurônio que apresentar menor distância é o
vencedor (competição);
4. Calcula-se a vizinhança topológica com base na expressão 3.13

(cooperação);
5. Faz-se o ajuste dos pesos do neurônio vencedor e de todos os outros

dentro da sua vizinhança;
6. Calcula-se um novo valor para a vizinhança efetiva e para a taxa de

aprendizagem com base nas expressões 3.15 e 3.16;
7. Faz-se um teste com base em um critério de parada que pode ser uma
distância euclidiana aceitável;
8. Caso o critério de parada não seja satisfeito repetem-se todos os passos

a partir do 2º.
43
3.6. CONCLUSÃO
O embasamento teórico dos tópicos acima permite uma compreensão inicial

do que será utilizado no desenvolvimento do processo proposto neste trabalho.
Daqui em diante discorreremos sobre a proposta propriamente dita e sobre as fases
principais do processo desenhado, tendo em mente que as fases de entendimento do
problema e dos dados foram discorridas no capítulo 1.
44
CAPÍTULO 4
O PROCESSO PROPOSTO
Como foi citado no capítulo 1, o objetivo desse trabalho é propor um processo

de mineração de dados baseado no CRISP-DM e nos algoritmos de Redes Neurais
Artificiais, que seja adequado ao problema da sonegação do ICMS. Essa escolha deve-
se, por um lado, pela lógica e sensatez daquele processo e, por outro, pela utilização
de algoritmos capazes de tratar problemas onde não há uma regularidade ou
linearidade nos padrões a serem minerados. Neste capítulo iremos descrever essa
proposta.
4.1. UTILIZAÇÃO DO CRISP-DM
Uma vez que o presente trabalho envolve mineração de dados, a metodologia

do CRISP-DM foi escolhida para perpassar por todo o processo de pesquisa, pois se
trata de um padrão de processo para mineração de dados mundialmente utilizado.
Este processo é dividido em fases bem definidas visando organizar e facilitar

todo o trabalho de mineração de dados. Conforme a figura 4-1, as fases do CRISP-DM
são as seguintes:
1. Entendimento do problema
Esta fase é dedicada à compreensão do problema e seu contexto, incluindo a

identificação de necessidades e definição de objetivos. No presente trabalho esta
fase foi descrita no capítulo 1, onde discutimos o problema da sonegação do ICMS.
2. Entendimento dos dados
Esta fase compreende a compreensão, escolha, a integração e exploração dos

dados, identificando-se informação relevante e familiarizando-se com o conteúdo dos
atributos a serem utilizados no processo. Os dados utilizados neste trabalho foram
apresentados e discutidos, também, no capítulo 1.
45
3. Preparação dos dados
Esta fase é dedicada ao pré-processamento dos dados, incluindo tarefas de

redução, transformação e tudo que for necessário para obter o conjunto de dados a
ser utilizado na análise. O capítulo 5 deste trabalho é reservado para discutir os
procedimentos utilizados na preparação dos dados.
4. Modelagem
Esta é a fase onde são aplicados os algoritmos, as técnicas de aprendizagem e

predição mais adequadas ao problema. É nesta fase que se estabelece o modelo de
solução do problema.
5. Avaliação
Nesta fase os resultados são validados, comparados e interpretados,

permitindo verificar se o modelo proposto conseguiu alcançar os objetivos. Esta fase
será discutida no capítulo 7.
6. Utilização ou distribuição
Esta fase compreende o desenvolvimento final e a disponibilização da solução

proposta e avaliada. Alguns detalhes sobre esta fase serão discutidos no capítulo 7,
considerando que este é um trabalho acadêmico e não irá gerar um sistema pronto e
acabado para o mercado ou uma determinada organização. Isso será sugerido para
trabalhos futuros.
O CRISP-DM é um processo extremamente fácil de entender e com uma

flexibilidade extraordinária, permitindo voltar de uma fase mais avançada para uma
fase anterior, caso seja necessário corrigir ou ajustar o processo. O apêndice 1
contém um maior detalhamento das fases do CRISP-DM de acordo com a
especificação do consórcio responsável pelo processo.
46
Entendimento
dos Dados
Entendimento Preparação
do Negócio dos Dados
DADOS
Modelagem
Utilização
Avaliação
Figura 4-1: Fases do CRISP-DM.
4.2. EXTENSÃO DO CRISP-DM
Neste trabalho foi realizada uma extensão em uma das fases do CRISP-DM
sem alterar, contudo, a sua filosofia básica. A extensão foi proposta na forma de uma
especialização para o problema da sonegação do ICMS, mais precisamente na fase de
modelagem onde fazemos uma explosão desta em três subfases:
1. Clusterização;
2. Seleção de atributos;
3. Classificação.
47
Ressaltamos que os experimentos foram feitos de forma modular, com o

processamento das subfases propostas, uma por vez, na sequência disposta na figura
4-2. Os detalhes dos experimentos feitos estão dispostos no capítulo 5.
Entendimento
dos Dados
Preparação
dos Dados
Entendimento
do Negócio
Clusterização
(RNA)
DADOS
Seleção de
Atributos
Utilização
Classificação
(RNA)
Avaliação
Figura 4-2: Gráfico demonstrativo do processo proposto.
Nessa adaptação da modelagem, os dados, após a fase de processamento,

fluem pelas três subfases citadas. A proposta é que, antes de chegar à fase de
classificação, esses dados passem por dois ajustes importantes e necessários para
finalizar o processo de mineração. Daí vem a necessidade de utilizar mais de um
algoritmo na solução.
O primeiro ajuste foi feito após a clusterização. Esta fase recebe como entrada
um conjunto de dados com um atributo alvo o qual armazena informação sobre a
sonegação ou não do ICMS de uma empresa (SONEGA = S ou N). Conforme a figura 4-
3, a saída desta fase são as coordenadas dos clusters gerados que substituirão o
48
atributo alvo inicial. O atributo SONEGA será substituído por dois outros, processados
pela própria rede de Kohonen escolhida para esta etapa, contemplando não só
informação sobre a sonegação de ICMS mais, também, informações sobre os
agrupamentos gerados. Com essa fase o atributo alvo ganha mais qualidade na
informação para passar para a fase seguinte.
Saída:
Dados iniciais RNA Kohonen
(Clusterização) Coordenadas (X,Y)
1 atributo alvo dos clusters
SONEGA = S/N
Figura 4-3: Fase de clusterização.
O segundo ajuste ocorreu na fase seguinte onde uma seleção de atributos

descarta dados não significativos para a análise, visando dar o máximo de
performance e acurácia para a fase de classificação. Conforme a figura 4-4, a entrada
desta fase é o conjunto de dados resultante da clusterização. Depois de processada a
seleção de atributos, a saída é a relação dos atributos selecionados conforme o
algoritmo e os parâmetros escolhidos. Um fato importante a ser observado é que
uma seleção de atributos, normalmente, ocorre como parte do pré-processamento
de dados. No entanto, neste trabalho, ela vem após a fase de clusterização. Essa
escolha se deve porque a clusterização está no meio do processo para substituir o
atributo alvo original por outro com mais qualidade baseado nos dados originais.
Assim a seleção foi feita utilizando os atributos novos gerados após a clusterização.
Saída:
Dados Algoritmo de Atributos selecionados
clusterizados Seleção de com base nos
2 atributos alvo – Atributos atributos alvo –
Coordenadas (X,Y) Coordenadas (X,Y)
Figura 4-4: Fase de seleção de atributos.
A figura 4-5 ilustra a fase de classificação que recebe como entrada um

conjunto menor com os atributos considerados relevantes. A saída desta fase é uma
49
RNA com seus pesos ajustados, pronta para proceder à classificação final das
empresas dentro dos agrupamentos gerados na fase de clusterização.
Dados
selecionados
2 atributos alvo:
Coordenadas (X,Y)
ε(erro)
Saídas desejadas
–
Saídas calculadas
RNA MLP
Pesos ajustados
(Classificação)
Figura 4-5: Fase de classificação.
Um ponto importante a ser esclarecido é a forma de operacionalização do

processo proposto. Existem três formas possíveis de operar o processo proposto.
Pode-se fazer a classificação de um novo conjunto de dados sem processar a RNA de
Kohonen para gerar novos clusters, apenas filtrando os atributos selecionados na
construção e treinamento do modelo, conforme a figura 4-6.
Dados
processados RNA projetada
MLP
Filtro dos
atributos
selecionados
Figura 4-6: 1ª forma de operacionalização do processo.
Também é possível fazer nova clusterização, depois filtrar os atributos

selecionados e proceder a classificação do novo conjunto de dados, conforme a figura
4-7. Nessas duas primeiras alternativas não seria necessário rodar o algoritmo de
50
seleção de atributos novamente, já que os atributos relevantes estariam definidos no

momento da construção e treinamento.
RNA Kohonen
Dados
projetada RNA projetada
processados
MLP
Filtro dos
atributos
selecionados
A terceira possibilidade é fazer todo o processo completamente para um novo

conjunto de dados, com nova clusterização, nova seleção de atributos e a
classificação, conforme a figura 4-8. No capítulo 6 discutiremos quando utilizar as
opções de operacionalização do processo, considerando o problema da sonegação do
ICMS.
RNA Kohonen Seleção de

Dados
projetada atributos RNA projetada
processados
MLP
Filtro dos
atributos
selecionados
A figura 4-9 mostra um diagrama completo de utilização do processo,

considerando as três formas de operacionalização e as suas fases especializadas. No
capítulo 6, ao discutirmos a utilização do processo como uma das fases da
metodologia estabelecida pelo CRISP-DM, reforçaremos essas três formas.
51
3
RNA Kohonen Seleção de
Dados
projetada atributos RNA projetada
processados
MLP
2
1 Filtro dos
atributos
selecionados
Figura 4-9: as três formas de operacionalização do processo.
4.3. UTILIZAÇÃO DAS RNA’s NO PROCESSO PROPOSTO
Dois dos modelos clássicos de RNA’s foram utilizados dentro do processo

proposto para o problema da sonegação de ICMS. Com uma ferramenta que explora
os algoritmos das RNAs e uma base de dados de uma administração fazendária
estadual, pré-processada e modelada para servir de treinamento, foram feitos os
experimentos e as medições necessárias para determinar as melhores estruturas das
redes para o caso em questão.
Uma RNA do tipo mapa auto-organizável com algoritmo de Kohonen foi

utilizado na fase de clusterização para agrupamento dos dados conforme as próprias
características destes. O objetivo da clusterização é agrupar o conjunto inicial de
dados em clusters e gerar um novo atributo alvo refletindo o agrupamento. Para o
problema da sonegação do ICMS, isso permite a uma administração fazendária
decidir não só quem fiscalizar, mas quem e onde serão os primeiros. Imaginemos que
uma administração fiscal possa decidir, entre as empresas com indicação de
sonegação, fiscalizar as empresas maiores (com valores das operações mais elevados)
ou menores (com valores das operações mais baixos), da capital ou do interior do
Estado.
Outra RNA do tipo perceptron multicamadas (MLP) com algoritmo de retro

propagação de erros foi utilizado na fase de classificação. Esta utilizou o agrupamento
feito pela rede de Kohonen para generalizar e aprender a classificar os
52
estabelecimentos. A separação entre aqueles que sonegam e os que não sonegam

ICMS tomou como atributo alvo as coordenadas dos clusters gerados pela rede de
Kohonen, que acrescentou um refinamento ao processo.
4.4. CONCLUSÃO
Nos capítulos anteriores, mas precisamente no capítulo 1, contextualizamos o

problema e o entendimento dos dados, que são os objetivos da primeira e segunda
fase do processo. A seguir, no capítulo 5, teceremos detalhes sobre a sua aplicação
na preparação de um conjunto de dados de uma administração fazendária, bem
como na modelagem com as três fases especializadas do processo proposto.
53
CAPÍTULO 5
PREPARAÇÃO DE DADOS E APLICAÇÃO NO PROCESSO PROPOSTO
Este capítulo descreve a preparação e a aplicação de um conjunto de dados da

Secretaria da Fazenda do Ceará (SEFAZ-CE) no processo. Esse fato nos garante uma
dimensão real do potencial da proposta deste trabalho no problema em questão.
Veremos como ficou a adaptação do processo de modelagem original do CRISP-DM,
que foi explodido nas fases de clusterização, seleção de atributos e classificação,
conforme a sequência da abordagem descrita no capítulo 4.
Toda a preparação dos dados objetivou a construção de um conjunto que

fosse adequado para servir de entrada para uma rede neural. Ao final dessa fase, foi
gerado um vetor de dados com todos os atributos passíveis de utilização pelos
algoritmos de RNA’s escolhidos. Tendo em vista o grande número de atributos
envolvidos e as diversas opções de configurações de RNA’s, ajustes menores foram
feitos na medida em que os experimentos eram executados a fim de refinar as fases
de treinamento e testes das RNA’s.
Para cumprir as fases especializadas na modelagem do processo de mineração,

foram aplicadas as técnicas eleitas para a solução do problema. As Redes Neurais
Artificiais foram escolhidas tendo em vista a sua aplicabilidade em problemas onde se
exige bom senso, reconhecimento de padrões e diagnóstico, cujas soluções não são
linearmente desenhadas. No caso da sonegação de tributos pode-se verificar que
todos esses elementos estão presentes.
5.1. LIMPEZA E REDUÇÃO NOS DADOS
Havia um grande volume de dados a ser trabalhado. Foi necessário que estes
passassem por processos de restrição de volume. No caso da presente pesquisa foi
necessário descartar registros com dados anormais e que causariam distorções em
qualquer análise.
54
A primeira tarefa de restrição de volume foi a retirada dos dados referente aos
estabelecimentos classificados com regime de recolhimento de Micro-Empresas (ME)
ou Empresas de Pequeno Porte (EPP), cuja arrecadação de ICMS não é representativa
para os Estados. Em geral, esses estabelecimentos recolhem o ICMS com base em um
percentual, aplicado sobre o valor de seu faturamento, menor do que o das empresas
de regime de recolhimento Normal.
Portanto, foram trabalhados somente os dados dos estabelecimentos cujo

regime de recolhimento é classificado como Normal pela SEFAZ-CE e que respondem
por mais de 80% da arrecadação de ICMS do Estado. Foi escolhido o exercício fiscal
de 2005, uma vez que todas as tabelas originais continham dados completos deste
ano.
Inicialmente, todos os atributos relevantes dos sistemas Cadastro,

Arrecadação, DIEF, Postos Fiscais, Cartão de Crédito e Fiscalização foram
considerados para a formação do vetor de entrada nas RNA’s projetadas. Em algumas
tabelas originais, atributos não relevantes para a análise foram desconsiderados, até
mesmo por questões de sigilo fiscal, como, por exemplo, o nome dos
estabelecimentos, o número das ordens de fiscalização, a identificação de fiscais, o
código de documentos de arrecadação, entre outros.
Após essa redução inicial, foi necessário considerar aqueles estabelecimentos

que tinham à época pelo menos um mês de atividade, a fim de não contaminar os
dados dos estabelecimentos com pelo menos um período de apuração do ICMS
completo. O resultado do processo de redução e limpeza dos dados foi um conjunto
com 9.140 registros.
5.2. AGRUPAMENTOS E JUNÇÕES DOS DADOS
Para facilitar a utilização dos dados nas fases de treinamento, teste e

validação, o pré-processamento dos dados, objetivou a geração de vetor de dados
55
em um arquivo em formato texto. Este arquivo foi submetido às RNA’s projetadas

durante as fases de clusterização e classificação. Para isso, foram realizadas junções
entre as várias tabelas descritas no capitulo 1 além de outros procedimentos de
ajuste de dados. Por exemplo, os valores da DIEF dos estabelecimentos foram
separados conforme o CFOP totalizando os dados de Valor Contábil das operações
(VL), Base de Cálculo do ICMS (BC), operações Isentas de ICMS (IS) e Outras
operações não sujeitas ao ICMS (OU). Depois foram agrupados por estabelecimento e
exercício fiscal, no caso, de 2005.
A esses dados foram juntados os dados de arrecadação, dos postos fiscais, das
operações de cartão de crédito e de fiscalização. Para isso foram necessárias
operações de relacionamento entre tabelas, na maioria das vezes utilizando o campo
de identificação dos estabelecimentos (sequencial) como campo chave. As junções
entre as tabelas visam à geração de um arquivo único com todos os atributos
escolhidos, a qual é ilustrada na tabela 5-1.
Sequencial VC1100 VC1200 ... VC5100 VC5200 ... BC1100 BC1200 ...
Estabelec.
1 x.xxx,xx x.xxx,xx ... x.xxx,xx x.xxx,xx ... x.xxx,xx x.xxx,xx ...
... ... ... ... ... ... ... ... ... ...
Tabela 5-1: Exemplo do agrupamento dos valores da DIEF por exercício fiscal.
O arquivo único gerado foi o vetor de dados de entrada da RNA de Kohonen

para clusterização. Ele contém na última coluna o atributo alvo gerado a partir da
base de dados de Fiscalizações sofridas pelos estabelecimentos. Ele representa quais
estabelecimentos sofreram denúncias com solicitações para algum tipo de ação de
fiscalização, quais foram capturados em “malha fina” e quais foram autuados por
descumprir obrigações tributárias, ou seja, cometeram alguma irregularidade fiscal
no período analisado. A base de dados de Fiscalizações contém duas tabelas (Ações
Fiscais e Autos de Infração).
Da tabela de Ações Fiscais foi levantada a relação de estabelecimentos que

sofreram alguma ação fiscal referente ao exercício fiscal analisado. Da tabela de
56
Autos de Infração foram identificados os estabelecimentos que, nas ações fiscais

sofridas, incorreram em algum tipo de irregularidade fiscal, ou seja, sonegação do
ICMS. Ressalte-se que foram consideradas como sonegação de ICMS as infrações
relativas às obrigações tributárias em que o estabelecimento deixa de recolher ou
reduz o recolhimento do imposto devido por qualquer motivo.
O atributo alvo, batizado de “SONEGA”, é do tipo categórico15 e preenchido

com S ou N, de acordo com os dados das fiscalizações. Os estabelecimentos
sonegadores com infrações constatadas foram representados pela letra “S”. Os
estabelecimentos cujos dados das fiscalizações não revelaram infrações foram
classificados com a letra “N”. Existem infrações relativas a obrigações acessórias que
não influenciam no recolhimento do imposto, mas beneficiam a empresa de alguma
forma. Estas infrações foram incluídas como sonegação do imposto para que o
conjunto de dados fosse o mais fiel possível. A tabela 5-2 contém os números das
empresas sonegadoras e não sonegadoras referentes ao período analisado.
SONEGA DESCRIÇÃO QTDE %

ESTABELECIMENTOS
N Não sonegou ICMS no período analisado 6.006 65,71
S Sonegou ICMS no período analisado 3.134 34,29
Total de estabelecimentos analisados 9.140 100,00
Tabela 5-2: Quantidade de registros gerados no vetor inicial de dados.
5.3. AJUSTES NOS DADOS
Alguns ajustes e formatação nos dados (atributos) foram feitos, sem mudar os
seus significados, conforme veremos a seguir.
5.3.1. Ajuste dos CNAE’s

Foi aplicado um ajuste para redução dos CNAE’s para códigos de grupos e
seção, conforme tabela publicada pela Receita Federal do Brasil. Os CNAE’s são
15
Atributos categóricos são qualitativos e representam características não quantificáveis, armazenam
categorias e podem ser nominais ou ordinais.
57
códigos de sete dígitos, montados em uma hierarquia de atividades e divididas em

seções e grupos conforme intervalos formados com os dois primeiros.
Na tabela 5-3 temos o exemplo do CNAE 1111901 que é de “Fabricação de

aguardente de cana-de-açúcar” e pertence ao subgrupo 11119, “Fabricação de
aguardentes e outras bebidas destiladas”, que pertence ao subgrupo 111,
“Fabricação de bebidas alcoólicas”, que pertence, por sua vez, ao grupo 11,
“Fabricação de bebidas”, que pertence à seção C.
Seção Grupo Subgrupo Subgrupo CNAE Descrição

C
11 FABRICAÇÃO DE BEBIDAS
11.1 Fabricação de bebidas alcoólicas
11.11-9 Fabricação de aguardentes e outras bebidas destiladas
1111-9/01 Fabricação de aguardente de cana-de-açúcar
1111-9/02 Fabricação de outras aguardentes e bebidas destiladas
Tabela 5-3: Exemplo de classificação de CNAE’s.
O Grupo do CNAE foi utilizado na conversão, ou seja, todos os CNAE’s foram

convertidos para código de Grupo, restando um conjunto conforme ilustrado no
exemplo da tabela 5-4. A relação completa está no apêndice 2.
Grupo Descrição
... ...
08 EXTRAÇÃO DE MINERAIS NÃO-METÁLICOS
09 ATIVIDADES DE APOIO À EXTRAÇÃO DE MINERAIS
10 FABRICAÇÃO DE PRODUTOS ALIMENTÍCIOS
12 FABRICAÇÃO DE PRODUTOS DO FUMO
13 FABRICAÇÃO DE PRODUTOS TÊXTEIS
14 CONFECÇÃO DE ARTIGOS DO VESTUÁRIO E ACESSÓRIOS
... ...
Tabela 5-4: Exemplo da tabela de grupos de CNAE.
5.3.2. Ajuste dos CFOP’s

Outro ajuste aplicado foi a redução dos CFOP’s (Código Fiscal de Operação e
Prestação) para códigos de grupos, tendo em vista a grande quantidade de códigos
existentes o que levaria a um vetor de dados muito grande para entrada nas RNA’s
projetadas. Muitos CFOP’s são agrupados por similaridade das operações.
58
O CFOP foi utilizado para formação das colunas do vetor de dados para as
RNA’s. Existem mais de 520 CFOP’s. Portanto, a redução para grupos de códigos
similares permitiu uma redução no número de atributos desse vetor. A tabela 5-5
mostra alguns exemplos, sendo que a relação completa está no apêndice 2.
GRUPO CFOP Descrição do Código

de CFOP
1100 1.101 Compra para industrialização
1.102 Compra para comercialização
1.111 Compra para industrialização de mercadoria recebida anteriormente em consignação
industrial
... ... ...
1200 1.201 Devolução de venda de produção do estabelecimento
1.202 Devolução de venda de mercadoria adquirida ou recebida de terceiros
1.203 Devolução de venda de produção do estabelecimento, destinada à Zona Franca de
Manaus ou Áreas de Livre Comércio
... ... ...
Tabela 5-5: Exemplo da tabela de grupos de CFOP.
5.3.3. Normalização numérica

Chamamos aqui de normalização alguns ajustes nos dados para viabilizar a
entrada de dados e o treinamento eficaz pela RNA’s. Um dos ajustes feitos diz
respeito à grande variação na escala dos campos numéricos, mais especificamente
aqueles que abrangem intervalos esparsos de dados. Por exemplo, relativamente ao
conjunto de dados que foi trabalhado na presente pesquisa, o campo com dados
sobre o valor contábil das saídas tributadas pode ir de zero a milhões. Já o campo do
número de meses de atividade de uma empresa ficará apenas em centenas.
Para compensar este efeito é feita uma codificação nos campos numéricos.
Todos são transformados para uma mesma escala com valores entre 0 e 1, com base
na fórmula abaixo:
xi – xmin
xi' = (5.1)
xmax – xmin
Sendo:
59
xi' é o valor do campo no registro i após o re-escalonamento, cujo valor

original é xi;
Xmim é o valor mínimo;
xmax é o valor máximo deste campo para todo o conjunto de registros.
5.4. O CONJUNTO DE DADOS RESULTANTE
Todo o processamento acima resultou num conjunto de dados inicial,

elaborado com todos os atributos prontos para perfazer o treinamento e
clusterização da RNA de Kohonen. Este conjunto inicial contém 464 atributos,
incluindo o atributo alvo original, preenchido nos moldes da tabela 5-1, demonstrada
no início deste capítulo.
Esse vetor inicial de dados tem grande parte dos atributos definidos em função
dos CFOP’s. Além disso, para cada grupo de CFOP, os dados foram especificados pelo
tipo de valores das operações. Por exemplo, o CFOP do grupo 1100, gerou atributos
com o Valor Contábil (VC1100), a Base de Cálculo do ICMS normal (BC1100), o ICMS
normal (IC1100), as operações Isentas de ICMS (IS1100), as Outras operações não
tributadas (OU1100), a Base de Cálculo da Substituição Tributária (BCST1100) e o
ICMS da Substituição Tributária (ICST1100). Isso é extremamente importante, pois
garante maior detalhamento e precisão nos valores das operações das empresas.
Atributos Descrição dos atributos

CFOP 1100
VC1100 Valor contábil referente aos CFOP's do grupo 1100
BC1100 Base de cálculo referente aos CFOP's do grupo 1100
IC1100 Icms referente aos CFOP's do grupo 1100
IS1100 Isentas referente aos CFOP's do grupo 1100
OU1100 Outras referente aos CFOP's do grupo 1100
BCST1100 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 1100
ICST1100 ICMS Subst. Tributária referente aos CFOP's do grupo 1100
Tabela 5-6: Atributos gerados para o CFOP do grupo 1100.
Os gráficos das figuras 5-1 e 5-2 representam distribuições dos dados das
empresas sonegadoras (SONEGA=S) e não sonegadoras (SONEGA=N) na capital e no
60
interior, respectivamente. No eixo X dos gráficos estão representados os códigos da

atividade econômica (CNAE) e no eixo Y, os valores das entradas e saídas de
mercadorias nas empresas.
Figura 5-1: Distribuição das empresas localizadas no capital
Figura 5-2: Distribuição das empresas localizadas no interior

61
5.5. CLUSTERIZAÇÃO COM REDES DE KOHONEN
Os primeiros experimentos foram realizados com o vetor inicial de dados para

modelar a melhor configuração de uma rede de Kohonen visando o agrupamento dos
dados, dividindo-os em clusters. Esse agrupamento permitiu acrescentar mais
qualidade ao atributo alvo. Ou seja, além de apontarmos se uma determinada
empresa sonegou ICMS, poderemos apontar se ela está no agrupamento daquelas
que têm maiores ou menores valores das operações de vendas de mercadorias, das
operações registradas nos postos fiscais, das operações com cartão de crédito, ou,
ainda, se ela está no agrupamento localizado na capital ou no interior do Estado.
Não houve divisão do conjunto de dados inicial para o processamento nesta

etapa, tendo em vista a necessidade de termos todos os estabelecimentos listados no
vetor de dados agrupado por completo com os mesmos parâmetros e considerando
as características do conjunto total. Como foi citado na seção 5.4 deste capítulo, este
conjunto inicial foi montado com 464 atributos.
A tabela 5-7 apresenta um esboço com alguns atributos finais. No apêndice 2

relacionamos todos os atributos desse conjunto.
SEQ_CONT LOCAL ATIV_ ... VLR_PRI ... VC1100 ... BC1100 ... SONEGA
MESES
1 C 250 ... 456.430,00 ... 1.995.400,00 ... 856.450,00 ... N
2 C 56 ... 9.281,12 ... 67.342,11 ... 67.342,11 ... S
3 I 20 ... 55.700,00 ... 260.000,00 ... 200.000,00 ... N
... ... ... ... ... ... ... ... ... ... ...
Tabela 5-7: Esboço do vetor inicial de dados com alguns atributos.
Alguns critérios foram pré-estabelecidos para escolha do tamanho da camada

de saída da rede de Kohonen:
1. Gerar clusters que tivessem características bem distinguíveis no que diz

respeito ao atributo SONEGA, ou seja, clusters que tenham somente
empresas que sonegaram ou não sonegaram ICMS.
62
2. Gerar uma quantidade de clusters não muito grande (em torno de 10)
para facilitar a análise de um especialista.
Para o agrupamento do vetor inicial de dados várias arquiteturas foram

testadas. Com as redes de Kohonen, na medida em que aumentamos o tamanho da
camada de saída, o número de clusters gerados também aumentou. Procurou-se
variar o tamanho da vizinhança efetiva inicial, para balancear a quantidade de
clusters criados. A Tabela 5-8 mostra um comparativo com algumas das arquiteturas
testadas.
Unidades Camada de Saída Vizinhança No. Clusters

Entrada Neurônios Comprim(X) Altura(Y) efetiva inicial Gerados
464 12 4 3 2 4
464 20 5 4 3 8
464 50 10 5 2 35
464 50 10 5 3 30
464 50 10 5 5 36
Tabela 5-8: Resumo de clusters gerados e alguns atributos importantes.
A arquitetura escolhida para a rede de Kohonen foi a seguinte:
• Unidades de entrada: 464
• Camada de saída: 20 (bidimensional)
o Comprimento (X): 5
o Altura (Y): 4
• Vizinhança efetiva inicial: 2
• Quantidade de clusters gerados: 11
A figura 5-3 nos dá uma visão das entradas e saída da fase de clusterização.
464 atributos RNA Kohonen Saída:

incluindo 5x4 11 clusters
SONEGA = S/N
Figura 5-3: Fase de clusterização detalhada.

63
Um resumo com as medidas dos clusters e os valores de alguns dos principais

atributos está demonstrado na tabela 5-9. Em função do grande número de atributos,
esse resumo mostra somente os mais importantes, o local do estabelecimento, o
número de meses em atividade, o valor arrecadado, o valor das entradas e das saídas
nos postos fiscais e o valor das operações com cartão de crédito.
Cluster Qtde. ALGUNS DOS PRINCIPAIS ATRIBUTOS

X Y Registros SONEGA LOCAL ATIV VLR PRI POSTOS POSTOS SAIDAS VLR TEF
MESES ARRECADA ENTRADAS
4 3 1.716 S C 129 127.036 5.356.642 809.638 93.814
4 2 333 S C 174 3.208.140 90.187.093 79.515.420 50.219
4 1 3 S I 141 605.625 581.370.660 1.259.926.074 0
4 0 1.075 S I 126 65.522 4.437.886 3.222.240 11.649
3 2 7 S C 25 0 2 0 0
2 2 951 N C 123 95.873 2.986.355 3.855.953 1.117
2 0 1.432 N I 143 18.391 1.155.938 105.072 3.854
1 2 462 N C 99 996.673 10.486.242 1.521.011 34.478
1 0 163 N I 98 25.877 5.554.628 576.534 602
0 2 1.988 N C 115 221.170 2.622.841 661.933 45.564
0 0 1.010 N I 129 26.765 929.004 1.330.615 0
Totais 9.140
Tabela 5-9: Resumo dos clusters gerados e alguns atributos importantes.
Para os atributos numéricos a tabela 5-9 apresenta os valores médios para

cada grupo. Alguns atributos categóricos também tiveram importância na separação
dos clusters. Por exemplo, o local do estabelecimento é um atributo relevante,
considerando que ele colabora na tomada de decisão, uma vez que as empresas com
maior potencial de arrecadação se localizam na capital do Estado ou próximas a esta.
Como pode ser observado, os clusters são representados por coordenadas de

dois eixos X e Y que representam a camada de saída bidimensional. Cada coordenada
passou a ser um atributo acrescentado ao vetor de dados inicial para servirem de
saída para o treinamento das redes MLP.
A figura 5-4 demonstra o resultado da clusterização com as informações sobre

os clusters gerados pela rede de Kohonen e os mesmos atributos acima relacionados,
de uma forma gráfica. Na parte de cima são mostrados, em pequenos gráficos de
pizza, os números de ocorrências em cada cluster. Cada cluster é demonstrado pelo
seu centro em relação aos atributos. Para isso são utilizadas as barras verticais.
64
Para os atributos numéricos, os valores médios estão representados nas

próprias barras verticais, como, por exemplo, os atributos POSTOS_ENTRADA e
VLR_PRI, que representam o valor das operações de entradas registrados nos postos
fiscais e valor principal recolhido de ICMS, respectivamente. Para os atributos
categóricos, a proporção de cada valor distinto é demonstrada por barras de cor
diferente. Um exemplo desse tipo de atributo é o LOCAL, onde temos uma cor para
indicar C (Capital) e outra para I (Interior).
Figura 5-4: Representação gráfica dos clusters.
Nesse modelo a clusterização faz um refinamento no atributo alvo do conjunto

de treinamento. Além de indicar se os estabelecimentos relacionados no conjunto de
dados inicial sonegam ou não ICMS, esse processo agrega informações importantes
para a tomada de decisão sobre quem merece um controle fiscal maior. As empresas
com características semelhantes foram agrupadas em um mesmo cluster,
considerando, além do próprio fato de terem sonegado ou não ICMS, informações
como o local onde se encontram estes estabelecimentos (capital ou interior), o
65
volume arrecadação, das aquisições registradas nos postos fiscais, das vendas com
cartão de crédito, entre outras que estavam nos atributos do vetor inicial de dados.
Voltando à tabela 5.9, podemos citar o exemplo dos clusters (4,2) e (4,3) que
agrupam estabelecimentos caracterizados como sonegadores localizados na capital.
No entanto, no cluster (4,2) os estabelecimentos têm maior porte, basta ver pelo
valor principal de arrecadação (R$ 3.208.140,00). Já no cluster (4,3) o valor principal
de arrecadação (R$ 127.036,00) é bem menor. Esse fato merece atenção especial,
pois as empresas do cluster (4,2) devem ser fiscalizadas em primeiro lugar devido ao
potencial de recuperação de ICMS sonegado.
5.6. SELEÇÃO DE ATRIBUTOS
Antes de aplicar o segundo vetor de dados, gerado a partir da rede de

kohonen, para treinamento das Redes MLP, fez-se necessário proceder a uma seleção
de atributos. Considerando a grande quantidade de atributos esse procedimento
objetivou otimizar o processamento, retirando atributos não significativos para que
não fossem processados na fase seguinte.
Nesta fase pode-se utilizar qualquer método de seleção de atributos. A

ferramenta utilizada nos experimentos deste trabalho contém funções para esse fim.
Com o Clementine® foi feito inicialmente a retirada de atributos, conforme os
seguintes critérios:
• Atributos que têm mais que 70% de valores ausentes;

• Atributos categóricos que têm uma única categoria para mais que 70 %
de casos;
• Atributos categóricos que têm categorias diferentes para 95 % ou mais
dos casos.
• Atributos numéricos que têm um coeficiente de variação menor que
0,1;
66
• Atributos numéricos que têm desvio padrão menor que 0.
Figura 5-5: Tela de configuração dos critérios de retirada de atributos.
Depois, é feito um ranking dos atributos restantes, com uma medida baseada
na combinação de dois métodos, um para avaliar atributos categóricos ou outro para
atributos contínuos. Para os atributos contínuos o método de avaliação é o da
ANOVA (Análise de Variância) e para os atributos categóricos é o método do Qui-
quadrado. O item 3 do Apêndice 1 contém e especificação dos métodos utilizados
pelo Clementine® aplicados nessa fase.
Figura 5-6: Tela de configuração dos critérios de ranking dos atributos.

67
Os atributos são divididos em três classes (Importante, Marginal e Não

importante), conforme as configurações mostradas na figura 5-6, e são estabelecidos
os valores de corte para cada classe. A seleção foi configurada para os atributos das
classes Importante e Marginal. Após a seleção, o conjunto de dados ficou com 382
atributos, sendo desconsiderados os outros atributos não importantes para
determinar o atributo alvo, conforme representado na figura 5-7.
465 atributos Saída:

Algoritmo de
incluindo os novos 382 atributos
Seleção de
atributos alvo – Atributos selecionados
coordenadas (X,Y)
Figura 5-7: Fase de seleção de atributos detalhada.
5.7. CLASSIFICAÇÃO COM REDES MLP
A fase de treinamento das RNA’s Multilayer Perceptron utilizou um novo

conjunto de dados gerado com os atributos selecionados na fase de seleção de
atributos e com os novos atributos alvo advindos da fase de clusterização. Os
atributos considerados na camada de saída foram as coordenadas X, Y geradas como
resultado da aplicação do conjunto inicial de dados à rede de Kohonen, ou seja, a
classificação foi procedida visando prever a quais clusters pertencem as empresas
presentes no conjunto de dados.
5.7.1. Divisão do conjunto de dados

Feitas a clusterização e seleção de atributos, o conjunto de dados foi separado
em dois subconjuntos, antes do processamento das redes MLP:
1. Conjunto de treinamento – utilizado para treinar os modelos de RNA’s

projetados;
2. Conjunto de teste/validação – utilizado testar e validar as RNA’s treinadas,

com seus pesos sinápticos definidos.
68
SUBCONJUNTO QTDE REGISTROS

Treinamento 4.546
Teste 4.594
Tabela 5-10: Divisão do conjunto de dados.
Optou-se neste trabalho pela divisão dos dados em treinamento e teste,

conforme mostrado na figura 5-8, embora em muitos experimentos exista um
terceiro subconjunto para validação em separado dos modelos escolhidos. O
conjunto de teste foi utilizado tanto nos testes como também na validação dos
modelos escolhidos. Ele é utilizado para determinar o desempenho da rede com
dados que não foram apresentados anteriormente [LUDWIG JR.,COSTA – 2007].
Figura 5-8: Configurações da divisão dos dados pelo Clementine®.
5.7.2. Treinamento
Foi necessário planejar algumas arquiteturas iniciais para treinar, testar as
suas qualidades e verificar a validade dos primeiros resultados. Foram projetadas
redes com uma e com duas camadas escondidas. Todas as redes treinadas tinham os
neurônios na camada de saída representando a combinação dos valores possíveis das
coordenadas X e Y dos atributos alvo.
69
Identificação da rede com melhor desempenho

Inicialmente foram treinadas as redes com uma só camada escondida,
variando de 02 (dois) a 300 (trezentos) neurônios. Como podemos ver nas figuras 5-9
e 5-10, o método de treino utilizado no Clementine® foi o Múltiplo (Multiple), uma
vez que, com ele, é possível criar várias redes de diferentes topologias e treiná-las em
processos paralelos, selecionando, ao final, o modelo com menor erro, ou seja, com a
maior acurácia.
Figura 5-9: Opções de topologias do método Múltiplo com 2 a 50 neurônios em uma camada.
Depois, foram treinadas as redes com duas camadas escondidas. A primeira

camada variando de 02 (dois) a 300 (trezentos) neurônios e a segunda camada, de 02
(dois) a 100 (cem).
Quando se tem um intervalo de muitas redes, o treino em paralelo para a

seleção da melhor exige mais tempo de processamento. Na segunda rodada de treino
com duas camadas foi necessário rodar a aplicação por horas, utilizando o critério de
parada padrão da ferramenta.
70
Por padrão o Clementine® para de treinar uma rede neural quando esta atinge
o seu estado otimizado no treinamento. Quando se estabelece um intervalo muito
grande de neurônios nas camadas intermediárias, como foi o caso da presente
pesquisa, que na primeira rodada de treinos utilizou uma camada intermediária
variando de 2 a 300 neurônios, é necessário consumir bastante tempo nessa etapa.
Foi necessário, então, quebrar o treino em etapas menores para que o sistema
não ficasse rodando por dias sem parar. Portanto, adotamos uma divisão nos
intervalos da quantidade de neurônios, sempre na primeira camada escondida,
conforme a tabela 5-11.
o o
Rodada de N Neurônios Camada N Neurônios
treinos 1 Camada 2
1 2 a 50 -
2 51 a 100 -
3 101 a 150 -
4 151 a 200 -
5 201 a 250 -
6 251 a 300 -
7 2 a 50 2 a 100
8 51 a 100 2 a 100
9 101 a 150 2 a 100
10 151 a 200 2 a 100
11 201 a 250 2 a 100
12 251 a 300 2 a 100
Tabela 5-11: Divisão dos intervalos da quantidade de neurônios.
Observando a tabela 5-11, podemos observar que a partir da sétima rodada foi
introduzida uma segunda camada escondida. A partir daí os tempos de treinamento
aumentaram bastante, de forma que foi necessário um período maior de
computação para cada rodada.
Após testar todas as configurações desenhadas a rede neural que obteve

melhor desempenho apresentou uma arquitetura com duas camadas ocultas. A
primeira camada com 18 (dezoito) neurônios e a segunda com 10 (dez) neurônios.
71
Figura 5-10: Configuração do método Múltiplo com 2 a 50 neurônios na primeira camada e 2 a 100
neurônios na segunda camada.
Treinamento da rede com melhor desempenho

Após a escolha da rede com o melhor desempenho, passamos para a etapa de
treinamento definitivo somente desta. Nesta fase, utilizamos a própria acurácia como
critério de parada do treinamento. Foi estabelecida uma acurácia mínima de 90% e,
com insistência nos treinos, conseguimos, ainda, um percentual maior de acertos.
Ressalte-se que a acurácia é calculada com base no conjunto de dados de

treino e depende do tipo do atributo alvo. Para uma arquitetura com múltiplos
atributos alvos a acurácia total é a média da acurácias individuais dos atributos. No
caso em questão, conforme a figura 5-11, os atributos alvo utilizados (coordenadas X,
Y) foram considerados como categóricos e a acurácia é o percentual de registros para
os quais a predição da rede neural é igual ao valor observado.
72
Figura 5-11: Configuração dos atributos alvo ($KX-Kohonen e $KY-Kohonen) e seus valores possíveis.
Após todo o processamento chegamos às configurações finais da rede
escolhida:
• Unidades de entrada: 382 (após a seleção de atributos);
• 2 Camadas escondidas: 18 neurônios na primeira e 10 na segunda;
• 9 neurônios na camada de saída;
• Acurácia: 92,488%;
• Taxa de aprendizagem inicial (Eta): 0,3;
• Taxa de aprendizagem alta (High Eta): 0,1;
• Taxa de aprendizagem baixa (Low Eta): 0,01;
• Decréscimo da taxa de aprendizagem (Eta Decay): 30;
• Constante de momento (Alpha): 0,9.

73
A constante de momento (Alpha) é usada na atualização dos pesos sinápticos

durante o treino, mantendo essa atualização em uma direção constante. Ela
amortece o impacto que a taxa de aprendizagem tem sobre a atualização dos pesos
[LUDWIG JR., COSTA – 2007]. Quando essa constante é alta a rede diminui a
tendência da atualização dos pesos mudarem de direção em função das variações nos
dados e de uma possível alta taxa de aprendizagem.
Figura 5-12: Configuração da rede de melhor desempenho com 44 neurônios na primeira camada e
38 neurônios na segunda camada.
A taxa de aprendizagem controla o quanto os pesos são ajustados. Ela muda
durante o processo de aprendizagem, ou seja, ela vai decrescendo conforme uma
valor de decréscimo (Eta decay) expresso em número de ciclos. O treinamento inicia
com um valor inicial de taxa de aprendizagem (Inicial Eta) que decresce até um valor
mais baixo especificado (Low Eta). Ao chegar ao valor mínimo ela é reiniciada com
um valor mais alto (High Eta), decrescendo novamente até o valor mais baixo
novamente. Este ciclo se repete até o final do treinamento.
74
Figura 5-13: Sumário da RNA do tipo MLP de melhor desempenho.
Com os dados da SEFAZ-CE utilizados e após as fases de clusterização e seleção

de atributos o processo de classificação pode ser resumidamente representado pela
figura 5-14.
384 atributos
incluindo os 382
selecionados e os
novos atributos alvo
– coordenadas (X,Y)
ε(erro)
Saídas desejadas
–
Saídas calculadas
RNA MLP
382 entradas Saída:
2 camadas Cluster
Coordenadas X,Y
Figura 5-14: Fase de classificação detalhada.

75
5.7.3. Classificação com o conjunto de teste/validação

O conjunto de teste foi utilizado em seguida para validar o processo de
classificação com redes MLP e aferir o desempenho com dados que não foram
apresentados à rede cuja arquitetura foi escolhida como a melhor para o conjunto de
dados de treinamento.
O percentual de acerto total no conjunto de testes foi de 81,76%. Isso significa

recuperar os créditos sonegados em 81,76% das ações fiscais executadas sobre os
estabelecimentos indicados como sonegadores. Dentro da realidade brasileira, é um
percentual de acerto considerado ótimo, tendo em vista as várias tentativas de
fiscalização que se faz sem resultados efetivos na recuperação de créditos tributários.
Um resumo da classificação com o conjunto de teste é mostrado na tabela 5-12.
Sonega Acertou Errou Total

N 2.597 392 2.989
S 1.159 446 1.605
Total 3.756 838 4.594
Percentual 81,76% 18,24%
Tabela 5-12: Resumo da classificação com o conjunto de teste.
5.8. CONCLUSÃO
O grande número de atributos para o arquivo inicial se deve à forma como os

dados foram processados. Isso é ideal para o problema da sonegação do ICMS, pois
os dados são formatados representando informações em detalhes para uma melhor
análise.
A classificação com a rede de Kohonen dividiu os dados em clusters

(agrupamentos), gerando atributos que identificavam tais agrupamentos e que foram
acrescentados ao conjunto inicial de dados criando um segundo e mais
representativo conjunto. Foram fundamentais também para o desenho do processo
proposto as fases seguintes, não só porque elas foram adaptadas e formaram a
modelagem propriamente dita, mas porque, considerando a sequência estabelecida,
76
elas apresentaram resultados adequados aos dados submetidos, que são

característicos de uma administração fazendária estadual.
Obviamente, como está previsto na metodologia original do CRISP-DM, o

processo adotado tem flexibilidade suficiente para retornar de qualquer uma das três
fases adaptadas para a fase de processamento dos dados, o que ocorreu em alguns
momentos das experimentações, tendo em vista a necessidade de fazer ajustes no
vetor inicial de dados para um melhor desempenho do modelo.
No capítulo seguinte veremos as formas utilizadas para validação do processo,

focando na comparação com outras alternativas. Além disso, discutiremos mais sobre
a sua utilização, complementando o que foi sugerido no capítulo 4.
77
CAPÍTULO 6
AVALIAÇÃO E UTILIZAÇÃO DO PROCESSO
Neste capítulo discorreremos sobre os processos utilizados para avaliar e

validar o modelo proposto. Foram aplicados três processos de avaliação:
• Comparação com o modelo sem a clusterização;
• Comparação com um algoritmo de árvores de decisão;
• Validação cruzada.
6.1. COMPARAÇÃO COM O MODELO SEM A CLUSTERIZAÇÃO DE KOHONEN
Um primeiro ponto a considerar na avaliação do resultado do modelo

proposto é compará-lo com resultado do treinamento das redes MLP sem a
clusterização anterior com redes de Kohonen. Isso foi feito na presente pesquisa,
para verificação do melhor desempenho do sistema com só um tipo de rede neural
(MLP) e comparação com o sistema formado pelos dois tipos de redes neurais
(Kohonen e MLP).
O melhor desempenho conseguido com o mesmo vetor de dados inicial em

redes MLP foi de uma arquitetura com duas camadas ocultas. A primeira camada com
16 (dezesseis) neurônios e a segunda com 6 (seis) neurônios, conforme a figura 6-1. A
acurácia máxima dessa rede foi de 86,34%, o que nos dá confiança na abordagem
com as duas redes em sequência. A seguir temos as configurações da rede escolhida:
• Unidades de entrada: 382 (já retirados os atributos sem importância);
• Acurácia: 86,34%
• Taxa de aprendizagem inicial (Eta): 0,3;
• Taxa de aprendizagem alta (High Eta): 0,1;
• Taxa de aprendizagem baixa (Low Eta): 0,01;
• Decréscimo da taxa de aprendizagem (Eta Decay): 30;

78
• Constante de momento (Alpha): 0,9.
Figura 6-1: Sumário da RNA de melhor desempenho sem a clusterização de Kohonen.
A tabela 6-1 contém um resumo da classificação com o conjunto de teste

utilizando a rede MLP treinada sem a fase de clusterização proposta neste trabalho.

N 2.579 410 2.989
S 1.121 484 1.605
Total 3.700 894 4.594
Tabela 6-1: Previsão com o conjunto de teste da rede MLP sem a clusterização.
6.2. COMPARAÇÃO COM UM ALGORITMO DE ÁRVORES DE DECISÃO
A mineração de dados propriamente dita do modelo proposto é baseada em

redes neurais artificiais. Aqui foi feita uma comparação dos seus resultados com os
resultados obtidos com outro algoritmo. Para essa avaliação, foi utilizado um
algoritmo de árvores de decisão.
Árvores de decisão é um método muito utilizado para inferência em

mineração de dados. Os algoritmos de árvores de decisão são métodos que
trabalham recursivamente para aproximar funções de valores discretos, nos quais o
79
aprendizado é representado por uma árvore cujos ramos são um conjunto de

se/então. Entre seus algoritmos os mais conhecidos são o ID3 e o C4.5 [MITCHELL –
1997].
Neste trabalho foi utilizado o algoritmo C5.0 já que é um recurso presente no

aplicativo Clementine®. Esse algoritmo é uma evolução do C4.5, que, por sua vez, é
uma evolução do ID3. Atualmente o C5.0 é licenciado para a empresa RuleQuest
Research Ltd. O algoritmo funciona por divisão do conjunto dados de treino pelo
atributo que em cada conjunto de dados permitem o máximo ganho de informação
(information gain). Cada subconjunto gerado pelo fracionamento anterior é em
seguida dividido com base nos mesmos critérios, num processo recursivo, até que
não seja possível mais fracionamento. Por último os últimos ramos da árvore são
analisados, e aqueles que não contribuem significativamente para o ganho de
informação são removidos, ou seja, são “podados”. A decisão quando ao atributo
alvo surge nas folhas da árvore de decisão, com o respectivo nível de confiança
calculado com base no número de casos que verificaram o valor escolhido para o
atributo alvo nesse ramo terminal da árvore.
O algoritmo C5.0 pode manipular atributos categóricos bem como numéricos,

permitindo grande flexibilidade e adaptabilidade a variados problemas de Data
Mining. Contudo, o atributo alvo deve ser de natureza discreta.
O vetor de dados utilizado foi o mesmo conjunto utilizado na classificação com

as redes MLP com a diferença apenas no atributo alvo. Este teve que ser o atributo
discreto “SONEGA”, pois após a clusterização as redes MLP utilizaram dois atributos
alvos, que eram as coordenadas X, Y dos agrupamentos de Kohonen. O algoritmo de
árvores de decisão escolhido não pode utilizar mais de um atributo alvo, o que
justifica a reversão para o atributo alvo original do vetor de dados.
80
Figura 6-2: Configuração do modelo de árvores de decisão.
O conjunto de dados também foi dividido em dois subconjuntos. Um para

treinamento e outro para testes. A tabela 6-2 mostra um resumo da classificação
feita com o conjunto de teste pela árvore de decisão gerada.

N 2.546 443 2.989
S 1.124 481 1.605
Total 3.670 924 4.594
Tabela 6-2: Previsão com o conjunto de teste utilizando o algoritmo C5.0.
Tendo em vista o grande número de atributos no vetor de dados de entrada,

e, consequentemente, de ramificações, a representação gráfica total da árvore
gerada fica quase que inviável. A figura 6-3 mostra uma representação da regras
geradas até o quarto nível da árvore.
81
Figura 6-3: representação das regras geradas até o nível 4.
Percebeu-se que, com o mesmo conjunto de dados, as RNAs obtiveram um

melhor resultado no conjunto de teste do que o algoritmo de árvores de decisão
utilizado para avaliação.
82
6.3. UTILIZANDO VALIDAÇÃO CRUZADA
O conjunto de testes é muito útil para medir o desempenho de um modelo de

classificador, pois é uma medição que fornece uma avaliação imparcial da
generalização e dos erros. Existem vários métodos utilizados para avaliação de um
modelo de classificador. Entre eles temos a Validação Cruzada [TAN, STEINBACH e
KUMAR – 2009].
A validação cruzada é uma forma de treinar e testar um modelo, onde o

conjunto de dados é dividido em k amostras. k – 1 amostras são utilizadas para
treinamento e a amostra restante é utilizada para teste/validação do modelo. Esse
processo é feito k vezes, de modo que cada uma das k amostras seja utilizada uma
vez para teste e validação. Este é o conceito chamado de folds (grupos). A acurácia
final do processo é a média das acurácias verificadas nas k rodadas de treino/teste.
Embora a técnica de validação cruzada seja um processo computacionalmente

custoso, ela foi utilizada neste trabalho para validação do modelo. Para isso o
conjunto de dados utilizado na fase de classificação com redes MLP foi dividido
aleatoriamente em dez amostras, sendo procedidas dez iterações e, em cada uma
delas, nove décimos (9/10) foi utilizado para treino e um décimo (1/10) para teste.
Considerando o conjunto de dados processado, em cada iteração 8.226 registros
foram utilizados para treino e 914 para teste.
Treino Teste
Amostra Qtde Acurácia Qtde Acertos
Amostra 1 8226 90,512 914 83,04%
Amostra 2 8226 87,935 914 80,53%
Amostra 3 8226 90,445 914 80,53%
Amostra 4 8226 89,515 914 80,63%
Amostra 5 8226 88,439 914 80,63%
Amostra 6 8226 89,406 914 80,53%
Amostra 7 8226 86,518 914 80,20%
Amostra 8 8226 88,828 914 81,51%
Amostra 9 8226 90,032 914 83,26%
Amostra 10 8226 89,096 914 76,15%
Médias 89,073 80,70%
Tabela 6-3: Média do desempenho da validação cruzada com dez amostras.
83
Ao final foi calculada a média dos resultados das iterações com as amostras
treinamento e teste e foi obtido o resultado demonstrado na tabela 6-3.
A Validação Cruzada mostra um desempenho geral um pouco mais baixo do

que o desempenho da classificação das redes MLP do modelo proposto, conforme
mostrado na tabela 6-3. A complexidade do problema da sonegação fiscal contribui
para isso. No entanto, as médias ficaram bem próximas do classificador MLP utilizado
dentro do processo proposto neste trabalho.
6.4. UTILIZAÇÃO OU DISTRIBUIÇÃO
Conforme o CRISP-DM, esta fase tem como objetivo o desenvolvimento final e

a disponibilização de um sistema com o processo proposto. A presente dissertação se
trata de um trabalho acadêmico cujo objetivo é propor um modelo para mineração
de dados para o problema da sonegação do ICMS. Não objetivamos neste momento
desenvolver algum aplicativo ou uma solução para integrar a outros sistemas
corporativos. Obviamente isso poderá ser feito em trabalhos futuros em uma
organização que possa aproveitar os experimentos e o conhecimento adquirido no
presente trabalho.
No entanto, ressaltaremos um ponto importante para a utilização do processo

proposto. No capítulo 4, conforme a figura 4-6, propomos três formas possíveis de
utilizar o processo:
1. Fazer a classificação de novos dados sem processar a RNA de Kohonen para

gerar novos clusters e sem fazer a seleção de atributos. Nesta primeira
forma, as fases de clusterização e seleção de atributos devem ser utilizadas
na primeira vez em que os dados forem processados e treinados. Depois,
basta fazer a classificação de um novo conjunto de dados utilizando os
clusters gerados e os atributos selecionados.
84
Por exemplo, Este trabalho utilizou dados de uma administração fazendária

do exercício fiscal de 2005. Caso tivéssemos os dados do exercício de 2006,
poderíamos fazer diretamente a classificação utilizando os clusters e os
atributos das fases anteriores;
2. Fazer nova clusterização e depois a classificação, sem fazer a seleção de

atributos, para um novo conjunto de dados. Desta forma, seriam gerados
novos clusters e a classificação utilizaria os atributos já selecionados no
primeiro treinamento e filtrados no novo conjunto, consumindo,
obviamente, mais tempo de processamento;
3. Fazer nova clusterização, nova seleção de atributos e depois a classificação

do novo conjunto dados. Desta forma, o processo se repetiria totalmente
com novos clusters gerados e um novo filtro de atributos selecionados.
Assim, o tempo de processamento seria maior ainda.
Quando utilizar a primeira ou a segunda opção?
Quando os novos dados não apresentarem mudanças significativas em relação

aos dados processados nas últimas clusterização e seleção de atributos efetuadas é
preferível utilizar a primeira forma. Quando os novos dados apresentarem mudanças
significativas, será melhor utilizar a segunda ou a terceira forma. Para problema da
sonegação do ICMS, mudanças significativas são acarretadas nas seguintes situações:
1. Alterações profundas na legislação tributária, como, por exemplo, uma

reforma tributária, uma redução de carga tributária e alíquotas ou
concessão de isenções a determinados setores econômicos;
2. Inflação acumulada alta, que ocorre em períodos com altos índices anuais
ou quando o acumulado em alguns anos está elevado a ponto de elevar os
valores dos atributos em muitas atividades econômicas;
3. Crises econômicas e financeiras que tendem a fechar algumas empresas e

abrir outras, alterando ou redimensionando o mercado.
85
6.5. CONCLUSÃO
Podemos considerar como promissor o processo proposto neste trabalho. A

aplicação da extensão do CRISP-DM, da forma exposta, ao problema da sonegação do
ICMS, utilizando dados típicos de uma Secretaria de Fazenda Estadual, rende bons
resultados e pode ser implementada por qualquer administração fazendária.
86
CAPÍTULO 7
CONCLUSÃO E TRABALHOS FUTUROS
O ICMS é um tributo de competência estadual que se apresenta atualmente

como o de maior complexidade dentre os tributos existentes no Brasil. A legislação
desse tributo é frequentemente alterada a atualizada com novos procedimentos
tributários. Essa complexidade favorece em muito ao sonegador que se aproveita
dela para burlar o fisco e se beneficiar com recursos que deveriam ser repassados ao
Estado para investir e suprir as necessidades da comunidade.
Este capítulo se presta a fazer as conclusões finais do presente trabalho e

consolidar questões como a sua contribuição e o que pode ser feito em termos de
trabalhos futuros.
7.1. CONCLUSÕES
A contribuição da presente pesquisa, ao projetar um modelo, baseado em

Redes Neurais Artificiais, aplicado ao combate da sonegação do ICMS pode ser
descrita da seguinte forma:
1. Representa um instrumento moderno de controle fiscal e, consequentemente,

de aumento de arrecadação estadual;
2. Representa uma ferramenta flexível diante da complexidade da legislação

tributária do ICMS, uma vez que as Redes Neurais Artificiais podem ser
treinadas e re-treinadas, a qualquer tempo, aprendendo novas tendências ou
padrões de sonegação;
3. Representa uma contribuição à sociedade, pois a sonegação fiscal,

principalmente do ICMS, tem como conseqüência direta a concorrência desleal
que é um mal que soterra os bons empreendedores que pagam seus tributos
corretamente.
87
Um dos pontos importantes da presente pesquisa foi a disponibilidade dos

dados provenientes da Secretaria da Fazenda do Estado do Ceará. Fator este que
apresentou, inicialmente, certa dificuldade no seu tratamento, pois foi verificado que
alguns dados estavam incompletos. Foi necessário fazer um segundo levantamento
de dados mais consistentes, corretos e com o mínimo de ruído ou sujeira.
Sem dúvida o trabalho de entendimento e tratamento dos dados foi de suma

importância para viabilizar a construção do modelo proposto. Devemos ressaltar a
importância das ferramentas (softwares) utilizadas. Na fase de tratamento dos dados
o diferencial ficou por conta do IDEA® (Interactive Data Extraction and Analisis) que
nos possibilitou a geração do vetor final de dados. Nas fases de modelagem e
avaliação o aplicativo Clementine® foi fundamental para a finalização do processo
proposto.
Como em qualquer pesquisa, conhecimentos já adquiridos são ampliados e

conhecimentos novos são absorvidos. A consolidação dos conceitos em redes neurais
e seus algoritmos, a prática no uso do aplicativo Clementine® são exemplos desses
fatos.
As hipóteses iniciais foram confirmadas considerando os resultados

satisfatórios do treinamento e testes do processo com as Redes Neurais Artificiais
projetadas. Senão vejamos:
1. Pode-se estabelecer um modelo de mineração de dados, baseado na

metodologia estabelecida pelo CRISP-DM e em RNA’s, que seja adequado ao
problema da sonegação do ICMS?
Obviamente, com um bom vetor de dados de entrada e a definição correta dos

atributos de saída, tanto é possível classificá-las com Redes Neurais Artificiais,
como, também, acrescentar mais qualidade na classificação, como foi feito
com o agrupamento processado com as redes de Kohonen no modelo
proposto. Não esquecendo que o desempenho equipara-se ou é, ainda,
88
melhor do que de outras técnicas, como foi verificado na avaliação procedida

no capítulo 6.
2. O problema da sonegação de tributos, mais precisamente do ICMS, pode ser

modelado e analisado com Redes Neurais Artificiais?
Sem dúvida. As redes neurais artificiais são bem aplicadas a problemas de

solução não linear como é a descoberta de padrões de sonegação fiscal. Além
do mais, diante das muitas arquiteturas disponíveis para testes, temos muitas
opções para modelá-las.
3. É possível construir RNA’s para classificar as empresas que recolhem ICMS

entre as que apresentam um maior ou menor risco de sonegação?
Conforme foi demonstrado neste trabalho, os dados dos estabelecimentos

inscritos por uma administração fazendária, relativamente às suas operações,
arrecadação e fiscalização podem constituir as entradas e saídas de uma Rede
Neural Artificial para previsão de sonegação. A partir daí, com os experimentos
corretos, é possível desenhar RNA’s para classificação desses
estabelecimentos.
7.2. TRABALHOS FUTUROS
Baseados nas experimentações efetuadas para chegar ao processo proposto,

podemos ancorar nossas sugestões para trabalhos futuros em dois pontos:
1. Aprimoramento das fases com RNA’s com a utilização de outros tipos e

algoritmos. As primeiras candidatas são as Redes Neurais de Função de
Base Radial - RBF (Radial Basis function). Como o próprio nome reflete,
estas redes fazem uso de funções de base radiais para ativação dos
neurônios em uma camada intermediária, visando transformar o conjunto
de entrada em um conjunto de saída linearmente separável [BRAGA,
CARVALHO e LUDEMIR – 2000].
89
2. Construção de um sistema computacional utilizando um banco de dados

relacional (SGBDR), com técnicas de datawarehousing, e uma linguagem de
programação adequada para que o modelo proposto seja automatizado ao
máximo e utilizado em uma administração fazendária.
Como é de se esperar, a segunda sugestão lavaria à contribuição efetiva do

processo de mineração de dados baseado no CRISP-DM e em redes neurais artificiais
no controle fiscal da sonegação do ICMS.
90
APÊNDICE 1
METODOLOGIA E FERRAMENTAS UTILIZADAS
A presente pesquisa está toda baseada na metodologia estabelecida pelo

CRISP-DM, que significa “CRoss Industry Standard Process for Data Mining”, e é uma
das principais e mais utilizadas metodologias de mineração de dados em todo o
mundo. Ela nasceu de um consórcio formado pelas empresas Daimler Chrysler, SPSS
(Statistical Package for the Social Sciences) Inc. e a NCR (National Cash Register)
Company.
A ferramenta selecionada para a condução dos experimentos, testes e

construção dos modelos de Redes Neurais Artificiais para a solução do problema
proposto foi o Clementine®, produzida pela SPSS Inc. Em primeiro lugar, porque trata-
se de um aplicativo que proporciona um ambiente completo de mineração de dados
para o usuário. Depois, por conter os modelos de Redes Neurais a serem utilizados na
pesquisa e permitir a configuração destes de acordo com as necessidades e
demandas que o problema requer.
Para o pré-processamento dos dados foi utilizada outra ferramenta que

possibilita de forma bastante iterativa a importação ou extração, bem como a
manipulação e preparação dos dados para o processo de mineração. Trata-se do
IDEA® – Iteractive Data Extration and Analisis, produzida pela CaseWare IDEA Inc.
1. CRISP-DM
O CRISP-DM consiste em um conjunto de fases a serem aplicadas em projetos

de Descoberta de Conhecimento em Banco de Dados, mais conhecido como KDD
(Knowledge Discovery in Database), independente da solução ou ferramenta aplicada
e da área de negócio envolvida, ou seja, não é proprietário. O padrão pode ser
encontrado em www.crisp-dm.org.
O processo é dividido em seis fases conforme o que se segue.

91
1. ENTENDIMENTO DO PROBLEMA:
É compreender o problema e seu contexto, incluindo a identificação de

necessidades e definição de objetivos. Esta fase gera conhecimento de domínio que
será utilizado durante todo o processo e o analista deve recorrer aos especialistas no
negócio para uma boa análise não deixando faltar nenhum dos fatores relevantes
para a solução do problema, sob pena de ter que retornar a esta fase quando, mais à
frente, for identificada alguma incoerência.
2. ENTENDIMENTO DOS DADOS:
Compreende a escolha, a integração, exploração e compreensão dos dados,

identificando informação relevante e familiarização com o conteúdo e utilidade. É
importante conhecer as fontes e a forma de extração. Nesta fase também é
importante identificar os atributos para a análise, principalmente os atributos de
saída que serão o resultado das previsões ou predições efetuadas.
3. PREPARAÇÃO DOS DADOS:
Compreende o pré-processamento dos dados, incluindo tarefas de redução,

transformação, integração e limpeza, ou seja, tudo que for necessário para obter o
conjunto final de dados. Nesta fase, as tecnologias de integração em armazéns de
dados (data warehouse) são muito úteis.
4. MODELAGEM:
É a fase de estimação ou aprendizagem de modelos onde são selecionados e

aplicados os algoritmos e as técnicas de aprendizagem mais adequadas ao problema.
Essa é uma das principais fases da metodologia, senão a principal, pois é nela que se
estabelece o modelo de solução do problema, testando e validando as técnicas
utilizadas, não esquecendo as medidas mais importantes para garantir a qualidade do
modelo proposto, tais como, taxas de erro, taxas de aprendizagem, limite de
iterações em etapas de treinamento, entre outras.
5. AVALIAÇÃO:
92
Aqui os resultados são validados, comparados, interpretados e confrontados

com conhecimento de domínio, permitindo verificar se o modelo proposto conseguiu
alcançar os objetivos. Nesta fase ocorre a decisão de o processo segue para a fase de
desenvolvimento e implementação final ou se deverão ser efetuadas correções em
fases anteriores.
6. UTILIZAÇÃO OU DISTRIBUIÇÃO:
Compreende o desenvolvimento final, a disponibilização e a divulgação do

modelo já testado e avaliado. Dependendo do problema e da solução encontrada,
pode se revestir na elaboração de um relatório final, a implementação do modelo em
uma ferramenta de já pronta ou o desenvolvimento de uma aplicação integrada ao
sistema de informação do negócio em questão. Em qualquer dos casos, pretende
fazer chegar o conhecimento aos usuários tomadores de decisão.
Como se pode observar pelo gráfico do processo, o CRISP-DM, apesar de ter

fases bem definidas, não é linear, apresentando ciclos e retornos, o que o torna mais
flexível e coerente com as tarefas de modelagem e extração de conhecimento. O
CRISP-DM, por si só, não garante resultados. É um processo com uma metodologia
disciplinada que, se seguida de forma correta, aumenta em muito a possibilidade de
atingir os objetivos propostos.
Há que se observar que na presente pesquisa, por se tratar de um trabalho

acadêmico, a última fase do CRISP-DM será representada pela formulação das
conclusões finais, tendo em vista não termos que desenvolver aplicações para
integrar a outros sistemas corporativos. Claro que isso poderá ser feito em trabalhos
futuros em uma organização que possa aproveitar os experimentos e o
conhecimento adquirido no presente trabalho.
93
2. IDEA® - Interactive Data Extration and Analisys
O IDEA® é um aplicativo que possibilita fazer análise de dados de arquivos

provenientes de várias fontes de dados, incluindo plataformas que vão dos
Computadores Pessoais (PC) aos Computadores de Grande Porte (Mainframes).
O programa é utilizado em auditoria de sistemas com ótimo desempenho no

tratamento de arquivos com grandes volumes de dados, proporcionando a
organização dos dados escolhidos para análise. Tal fato nos permitiu utilizá-lo no
entendimento e na preparação dos dados para a fase de treinamento dos modelos de
Redes Neurais escolhidos.
Figura A1-2: Tela principal do IDEA®
Entre os recursos do IDEA® os principais são:
• Recursos de importação ou vinculação de dados:
Converte para um formato interno ou cria uma vinculação de vários tipos de

arquivos de várias fontes de dados, oferecendo um Assistente de Importação
94
semelhante aos assistentes utilizados em outros programas mais populares,

para ajudar na leitura de arquivos.
No caso de arquivos complexos de registros de comprimento variável ou vários

tipos de registros, o IDEA® tem um módulo complementar chamado RDE
(Editor de Definições de Registro), que é usado para criar, modificar layout’s
ou definições de registros, salvando essas definições para serem utilizadas
pelo Assistente de Importação.
O aplicativo também permite importação de relatórios impressos em arquivos,

facilitando a importação de arquivos em formato de relatórios padronizados
ou não.
• Recursos de manipulação e análise de dados:
Campos Virtuais – acréscimo de campos adicionais (virtuais), modificáveis ou

não, utilizados para cálculos, comentários, marcação de registros ou correção
e conversão de dados;
Estatísticas de campo – geração de estatísticas para os campos tipos

numéricos e datas. Para cada campo numérico, são fornecidos estatísticas
como valores líquido, máximo, mínimo e médio, desvio padrão, valores
negativos e positivos e número de registros zerados, entre outras informações.
Para campos data, as estatísticas fornecem informações como datas mais
recente e mais antiga e análises diárias e mensais do número de transações;
Extração – semelhante às funções de seleção de registros, serve para

identificar os elementos que satisfazem a uma determinada condição. Os
critérios de extração são passados por meio de um Editor de Equações e todos
os registros satisfazendo ao critério indicado são exportados para um novo
arquivo. É possível efetuar extrações múltiplas em um mesmo arquivo, ao
mesmo tempo e utilizando diferentes critérios;
95
Funções – são usadas para efetuar cálculos complexos e testes de exceção. O

IDEA® tem muitas funções que podem ser usadas para cálculo, manipulação e
conversão de dados;
Acréscimo de arquivos – usada para anexar ou encadear “verticalmente” dois

ou mais arquivos gerando outro arquivo maior. Por exemplo, é possível
anexar 12 arquivos mensais de compras para produzir um arquivo de todas as
operações de um ano. Para isso os arquivos devem ter os mesmos campos;
Junção de arquivos – usada para reunir “horizontalmente” campos de dois

arquivos identificando dados correspondentes ou relacionados entre estes. Só
é possível fazer uma correspondência entre dois arquivos se eles tiverem pelos
menos um campo comum, chamado “chave”;
Comparação de arquivos – usada para identificar as diferenças num campo

numérico de dois arquivos tendo uma chave comum;
Chaves duplicadas – identifica chaves ou campos com valores duplicados num

arquivo;
Quebra de seqüência – É possível procurar num arquivo quebras de

seqüências numéricas, cronológicas ou alfanuméricas usando uma máscara
definida pelo usuário. No caso de quebras de seqüências cronológicas, é
possível ignorar os fins de semana ou feriados definidos pelo usuário;
Índices – É possível criar índices nos campos dos arquivos para melhorar o
desempenho durante pesquisas, sumarizações, extrações ou outras funções;
Estratificação – pode ser numérica, de caracteres ou datas e é utilizada para

totalizar o número de registros e seus valores dentro de intervalos
determinados pelo usuário;
Sumarização – usada para acumular os valores dos campos numéricos por

chave única, ou seja, por um ou mais campos formando uma chave;
96
Classificação cronológica – usada para classificar cronologicamente um arquivo

em função de uma data indicada até um máximo de seis intervalos definidos
pelo usuário. A função de classificação cronológica cria um relatório de análise
cronológica e dois arquivos opcionais, um com a classificação cronológica
detalhada e outro com o sumário por chave;
Tabela dinâmica (Pivot) – permite ao usuário efetuar uma análise

multidimensional de várias variáveis de arquivos de dados. Quando uma
tabela dinâmica é criada no IDEA®, o usuário tem a possibilidade de arrastar e
transferir os campos de dados desejados à posição na tabela dinâmica criada
onde ele quer que a informação apareça, definindo como os dados são
organizados e combinados;
Amostragem – oferece quatro métodos de retirar uma amostragem dos dados,

bem como a possibilidade de calcular os tamanhos da amostra segundo
parâmetros passados pelo usuário. Oferece também uma opção de
planejamento e avaliação por atributos que pode ser usada para calcular
tamanhos de amostra, níveis de confiança, limites de probabilidade de erro e
número de erros na amostragem;
Histórico de operações – guarda todas as operações efetuadas sobre um

arquivo de dados, apresentadas sob a forma de uma lista evolutiva de fácil
utilização;
• Recursos de automação de tarefas:
IDEAScript – linguagem de programação baseada em objetos compatível com

Visual Basic for Applications. Os IDEAScripts, também chamados macros,
podem ser gravados como uma série de etapas em seqüência, copiando
elementos do histórico ou digitando código diretamente numa janela de
programação.
97
3. CLEMENTINE®
Clementine® é uma ferramenta da SPSS Inc., feita para proporcionar um

ambiente de mineração de dados para que os usuários possam ter varias técnicas em
um mesmo ambiente e auxiliar no processo de tomada de decisões, identificando
oportunidades de negócios, tendências, riscos, fraudes, entre outros padrões úteis
em organizações publicas ou privadas.
Clementine® tem uma interface gráfica que propicia ao usuário aplicar seu
conhecimento do negocio para construir modelos de mineração de dados. Varias
técnicas são disponibilizadas, tais como predição, classificação, segmentação,
associação e outros algoritmos.
Como uma ferramenta de mineração de dados que combina avançadas

tecnologia de modelagem com facilidade de uso, o Clementine® ajuda a descobrir e
predizer padrões interessantes e valiosos dentro de conjuntos de dados. Você pode
usar o Clementine® para atividades de apoio a decisão, como:
• Criar perfis de clientes, consumidores ou empresas;
• Detectar e predizer fraudes em organizações;
• Predizer tendências futuras de vendas e crescimento de uma empresa;
• Criar perfis para analise de risco de crédito;
• Realizar classificação e segmentação e outros.
No presente trabalho utilizaremos as técnicas e modelos de Redes Neurais

Artificiais presentes no Clementine® para classificar dados e descobrir padrões de
sonegação de tributos em uma base de dados de uma administração tributária, que
se assemelha à detecção de fraudes em organizações.
Em cada etapa no processo de mineração de dados, a interface do

Clementine® possibilita ao usuário aplicar seu conhecimento especialista de negócios
98
para modelar soluções, com predição, classificação, segmentação e/ou descoberta de

regras de associação, de forma precisa e interativa.
Trabalhar com Clementine® é trabalhar com dados. Segundo o próprio manual

de usuário, de forma resumida, o trabalho com Clementine® envolve três fases.
Primeiro, a leitura dos dados pela ferramenta. Depois fazer uma série de
manipulações com os dados. Finalmente, enviar os dados de resultado a um destino.
Esta seqüência de operações é chamada de stream (Fluxo) de dados, pois os

dados fluem, registro a registro, da origem, passando por cada uma das
manipulações modeladas e, finalmente, para o destino final, como um modelo de
produção de dados. Todo o trabalho com o Clementine® envolve criação e
manipulação de Fluxos de dados.
Para compor fluxos de dados é necessário incluir nodes (Nós), que

representam cada operação e ser executada com os dados. Por exemplo, existem Nós
para origem do dados, que estabelecem a ligação com um arquivo ou uma base de
dados; existem Nós para criar modelos de mineração de dados, como os Nós de
regressão linear, árvore de decisão, entre outros.
Para as Redes Neurais Artificiais o Clementine® oferece os Nós de Redes

Neurais e de Kohonen, que modelam, respectivamente, redes MLP (multilayer
perceptron) e redes auto-organizáveis. Sem restrições aos tipos de dados nas bases
de dados esses Nós recebem um ou mais campos de entrada e um ou mais campos
de saída para efetuar o seu treinamento. Além dos parâmetros e configurações
comuns às Redes Neurais Artificiais o Clementine® fornece uma série de recursos
Para incrementar a mineração de dados tais como análise sensitiva, poda, validação e
redes dinâmicas.
Interface do Clementine®
Todos os recursos de mineração de dados do Clementine® estão integrados em
uma interface de visual, que aceita, inclusive, programação. Cada operação a ser
99
executada é representada por um node (Nó), e esses Nós são ligados formando um
stream (Fluxo).
Figura A1-3: Interface do Clementine® com um stream aberto.
A Interface do Clementine é dividida basicamente nas seguintes áreas:
• Área do Stream: É a área maior da janela de Clementine®, onde o usuário

constrói e manipula Fluxos de dados. Você pode trabalhar com vários
Fluxos, ou seja, ele permite multitarefa.
• Paletas. As paletas estão situadas na parte de baixo da janela do

Clementine®. Cada paleta contém um grupo de Nós de operações
relacionadas disponíveis para serem acrescentadas ao Fluxo de dados.
• Gerenciadores. Do lado superior direito da janela do Clementine® ficam

três gerenciadores, dispostos nas abas Streams (Fluxos), Outputs (Saídas) e
100
Models (Modelos). Essa área é utilizada para gerenciar os tipos

correspondentes de objetos. A aba Streams é utilizada para abrir,
renomear, salvar e apagar os Fluxos criados em uma sessão. Na aba
Outputs aparecem os tipos de saídas de um Fluxo de dados (gráficos,
tabelas, etc.), sendo possível salvar qualquer saída diretamente desta aba.
Na aba de Models ficam os resultados das técnicas de aprendizagem de
máquina que rodam no Clementine®. Estes modelos podem ser abertos
diretamente da aba Models ou acrescentados ao Fluxo de dados para
serem lá visualizados.
• Projetos. A janela de Projetos fica na parte de baixo à direita da janela do

Clementine® e oferece um modo útil de organizar suas tarefas de
mineração de dados.
• Barra de status. Fica localizado embaixo das paletas e mostra informações

sobre o que a aplicação está fazendo no momento bem como indicações de
quando o usuário deve dar um feedback (retorno) à ferramenta.
Construindo Streams
Como vimos acima, o Clementine® utiliza uma metodologia em que os dados
passam por um Fluxo de Nós, chamado de stream (Fluxo). Os Nós representam
operações a serem executadas com os dados, enquanto as ligações entre eles
indicam a direção do Fluxo de dados. O usuário deve começar com um Nó para ler os
dados, depois fazer estes passarem por outros Nós em série, que farão a
manipulação, para, ao final, enviar o resultado a um destino, que pode ser um
arquivo texto, tabelas em um banco de dados ou um arquivo do tipo SPSS, que é um
formato de dados do próprio Clementine®.
Com a interface do Clementine® o usuário pode modelar a mineração de seus

dados visualmente, montando o seu próprio Fluxo de dados. Em um nível mais
básico, um Fluxo de dados usa, no mínimo, os passos seguintes, para ter o resultado
satisfatório:
101
1. Adicionar os Nós na janela do Fluxo;
2. Conectar os Nós para formar o Fluxo;
3. Fazer as especificações que os Nós requerem;
4. Executar o Fluxo para verificar o resultado.
Fluxos são como scripts que podem ser salvos em um arquivo cuja extensão é
“.STR” e podem ser abertos, alterados e executados novamente, mesmo com
arquivos de dados diferentes.
Trabalhando com Nodes (Nós)

A paleta na parte de baixo da janela do Clementine® contém todos os possíveis
nodos usados na construção dos Fluxos. Cada aba contém uma coleção de Nós
relacionados em função do tipo de operação que executam. Estes devem ser usados
para cada fase do Fluxo da dados.
As abas disponíveis são as seguintes:
• Favorites (Favoritos): contém os Nós mais usados pelos usuários;
• Source (Fontes): contém os Nós que você pode usar para importar dados
em diversos formatos, desde arquivos texto até bancos de dados com
conexão ODBC;
• Record Ops (Operações com Registros): contém os Nós usados para fazer
manipulação ou alterações nos dados;
• Field Ops (Operações com campos): contém os Nós utilizados para

manipulação de dados no nível dos campos ou atributos, ou seja, para criar
campos calculados, filtros de dados ou mesmo fazer transposição de
colunas para linhas;
• Graphs (Gráficos): contém os Nós que você pode usar para representar os
dados em forma de gráficos;
102
• Modeling (Modelagem): contém os Nós principais para a modelagem de

soluções de mineração de dados. São as técnicas de inteligência artificial,
aprendizagem de máquina e estatística;
• Output (Saída): contém os Nós utilizados para obter informações dos dados
em qualquer parte de um stream, bem como Nós usados para exportar ou
dar saída aos dados.
Há três maneiras de acrescentar Nós a um Fluxo:
1. Duplo clique no ícone do Nó na paleta – ao usar este método o Nó será

automaticamente conectado a outro Nó do Fluxo atual, dependendo de
qual Nó do Fluxo está selecionado;
2. Clicar e arrastar (drag-and-drop) um Nó da paleta para a tela de Fluxo –

dessa maneira o Nó não será conectado a outro no Fluxo e isso deverá ser
feito pelo próprio usuário;
3. Clicar no ícone do Nó na paleta e na tela de Fluxo – dessa maneira,

também, o Nó não será conectado automaticamente.
Uma vez na tela do Fluxo, o Nó pode ser configurado. Basta clicar duas vezes
no Nó, dentro do Fluxo, para exibir sua caixa de diálogo. As opções disponíveis
dependem do tipo de Nó.
Para remover um Nó do Fluxo de dados, clique no Nó e pressione Delete no

teclado, ou, ainda, clique no Nó com o botão direito do mouse e selecione Delete
entre as opções do menu de contexto.
Nós acrescentados à janela do Fluxo não formam um Fluxo de dados até que
eles sejam conectados. Conexões entre os Nós indicam a direção em que os dados
vão percorrer. Há quatro formas de conectar Nós:
1. Clicando duas vezes na paleta de nós – É o modo mais simples para formar
um Fluxo, pois automaticamente conecta o Nó ao Nó selecionado na tela
de Fluxo. Apesar de ser simples, esse método merece atenção, pois alguns
103
Nós, mesmo selecionados no Fluxo, não aceitam conexão para outro, então
um Nó anterior é que será conectado ao novo Nó;
2. Usando o botão do meio do mouse – Na janela do Fluxo, você pode clicar

com o botão do meio do mouse em um Nó e arrastar para outro Nó. Se seu
mouse não tiver um botão do meio, você pode simular isto pressionando a
tecla Alt enquanto arrasta com botão normal do mouse de um Nó para
outro;
3. Usando o menu de contexto – Na janela do Fluxo, clique com o botão

direito do mouse e escolha no menu de contexto a opção connect
(conectar). Um ícone de conexão aparecerá no Nó de origem e no ponteiro
do mouse. Escolha e clique sobre o Nó de destino para conectar os dois;
4. Usando a tecla F2 – O mesmo efeito do menu de contexto pode ser obtido

usando a tecla F2 do teclado. Após escolher e selecionar o Nó de origem
pressione F2 e o ícone de conexão aparecerá. Depois escolha e clique sobre
o Nó de destino para conectar os dois;
Ao conectar Nós, há algumas diretrizes para seguir. Você receberá uma

mensagem de erro se você tenta fazer quaisquer dos tipos seguintes de conexões:
• Conexão para a um Nó de fonte de dados;
• Conexão de um Nó terminal;
• Conexão para um Nó que ultrapasse seu número de máximo de conexões

de entrada;
• Conexão entre dois nodos já conectados;
• Conexão de retorno de dados para um Nó do qual estes já saíram

(Circularidade).
Um recurso interessante é a possibilidade de salvar um Nó individualmente

para poder reutilizá-lo no mesmo ou em outro Fluxo. Para isso clique com o botão
104
direito do mouse no Nó selecionado e escolha Save Node (Salvar Nó) no menu de

contexto. Os Nós são salvos em arquivos com a extensão “.NOD”.
Trabalhando com Streams (Fluxos)

Uma vez você conectou Nós de fonte de dados, Nós de processos e Nós
terminais na janela de Fluxo, este estará criado. Tudo isso pode ser salvo em um
arquivo de Fluxo, cuja extensão é “.STR”. É possível configurar várias opções para
Fluxos, tais como otimização, configurações de data e hora, parâmetros e anotações.
Com o Clementine®, o usuário pode abrir e modificar mais de um fluxo de

dados de uma vez. Do lado direito da janela ficam os gerenciadores que ajudam a
navegar nos fluxos abertos.
Figura A1-4: Gerenciadores no Clementine®.
Na aba Streams o usuário poderá clicar com o botão direito do mouse, para acesso às
seguintes funções:
• Mostrar qualquer Fluxo aberto;
• Salvar Fluxos;
• Adicionar um Fluxo a um projeto;

105
• Acessar as propriedades de um Fluxo;
• Fechar Fluxos;
• Iniciar um novo Fluxo;
• Abrir Fluxos;
No menu File (Arquivo) também teremos as opções acima citadas.
Uma vez que você tenha especificado e conectado os Nós, configurado as

propriedades de um Fluxo, você pode executá-lo para que os dados sejam
processados. As formas de executar um Fluxo são:
• Selecionar Execute (Executar) do menu Tools (Ferramentas);
• Clicar no botão executar na barra de ferramentas;
• Clicar no botão direito do mouse em um Nó terminal e escolher Execute

(Executar) no menu de contexto;
• Clicar no botão direito do mouse em um Nó e escolher Execute From Here

(Executar Daqui) no menu de contexto (essa opção executará o Fluxo a
partir do Nó selecionado).
Para parar a execução de um Fluxo, você pode escolher a opção Stop execution
(Para a execução) no menu Tools (Ferramentas) ou, ainda, clicar no botão de parada
de cor vermelha na barra de ferramentas.
Arquivos gerados pelo Clementine®

Durante o trabalho de mineração de dados com o Clementine® o usuário pode
gerar alguns tipos de arquivos, além dos Streams e dos Nodes. Estes podem ser
carregados novamente pela ferramenta para serem reutilizados. Vejamos uma lista
completa de tipos de arquivos que podem ser gerados:
• Streams (.str) – arquivos de Fluxo;
• Nodes (.nod) – arquivos de Nós;

106
• States (.cst) – arquivos que guardam toda a diagramação (leiaute) de um

Fluxo;
• Models (.gm) – arquivos gerados a partir de um Fluxo e que servirão de

modelos para outros fluxos;
• Paleta de Models (.gen) – arquivos que gravam a configuração da aba de

modelos localizada na janela dos gerenciadores;
• Output (.cou) – arquivo utlizados para gravar somente Nós de saídas com
os resultados de um processo;
• Projects (.cpj) – arquivos gerados com um conjunto de Fluxos e outros

objetos compondo um projeto de mineração de dados inteiro.
Redes Neurais no Clementine®

Para treinar uma Rede Neural Artificial no Clementine® é preciso utilizar o Nó
Neural Net (rede neural), que modela um MLP (multilayer perceptron). Este se
encontra na paleta Modeling (Modelagem) na parte de baixo da janela da aplicação.
Figura A1-5: Localização do Nó Neural Net no Clementine®.
Não existem restrições para tipos de campos nas bases de dados

(treinamento, teste ou validação). Um Nó de Rede Neural espera por um ou mais
campos de entrada e um ou mais campos de saída. No Clementine® os campos são
tipificados quanto a sua direção no Fluxo. Se forem de entrada a direção será In e se
forem de saída, Out.
107
Para evitar problemas comuns de Redes Neurais Artificiais o Clementine®

fornece uma série de recursos tais como análise sensitiva, poda, validação e redes
dinâmicas.
Opções do Nó Rede Neural

Para editar um Nó de Rede Neural, após incluí-lo no Fluxo, basta proceder a
um duplo clique no seu ícone.
Figura A1-6: Tela de opões do nó de redes neurais.
Existem cinco abas para configuração dos parâmetros da rede.
Na aba Fields (Campos) temos:
• Use type node settings (Usar configurações de Nós de tipo) – Esta opção é
padrão e permite que o Nó de Rede Neural utilize dados provenientes de
Nós de tipos de dados (normalmente Nós de origem de dados);
108
• Use custom settings (Usar configurações personalisadas) – Esta opção

permite que sejam especificadas as informações dos campos a serem
utilizados. Após escolher esta opção outras serão habilitadas:
o Target (Alvo) – Utilizado para selecionar campos alvo, ou seja, campos

de saída da rede. É algo similar a especificar a direção de saída dos
campos em um Nó de origem de dados.
o Inputs (Entradas) – Utilizado para selecionar campos de entrada da

rede. É algo similar a especificar a direção de entrada dos campos em
um Nó de origem de dados.
o Partition (Partição) – Utilizado para especificar um campo usado para

particionar os dados em conjuntos de treinamento, teste e validação.
Com poucas exceções todos os Nós de modelagem utilizam dados

provenientes de Nós de tipos de dados (normalmente Nós de origem de dados).
Quando isso não acontece, o usuário terá que especificar as exceções.
Na aba Model (Modelo) temos:
• Model name (Nome do modelo) – Especifica o nome do modelo que será

gerado quando o Nó for executado. Pode ser automático (Auto) ou
personalizado (Custom). Os modelos são resultado de seu trabalho de
mineração de dados. Quando você executa com sucesso um Nó de
modelagem (paleta Modeling), como o de Rede Neural, um modelo é
gerado na aba Models dos gerenciadores. Eles contêm informações sobre a
modelagem, podem ser acrescentados na janela do Fluxo e são utilizados
para gerar predições e facilitar a mineração.
• Use partitioned data (Usar dados particionados) – Divide os dados em

subconjuntos para treinamento, teste e validação baseado no campo de
particionamento. Se nenhum campo de particionamento for especificado
esta opção será ignorada.
109
• Method (Método) – Especifica o método de treinamento para construir a

Rede Neural, entre os seguintes:
o Quick (Rápido) – Usa regras de ? e as características dos dados para

escolher a topologia da rede;
o Dynamic (Dinâmico) – Cria uma topologia inicial e vai modificando-a

com o progresso do treinamento da Rede Neural;
o Multiple (Múltiplo) – Cria várias Redes de diferentes topologias. Estas

são treinadas em um processo paralelo e, ao final, o modelo com menor
erro é escolhido como modelo definitivo;
o Prune (Poda) – Começa com uma grande Rede Neural e vai removendo
as unidades mais fracas nas camadas de entradas e escondidas durante
o processo de treinamento;
o RBFN - Radial Basis Function Network (Redes de Funções de Base Radial)

– Usa uma tecnologia similar ao algoritmo de clusterização K-means
para particionar os dados baseada nos valores do campo alvo;
Nota: Funções de base radial (RBFs) são aquelas que apresentam

simetria radial , ou seja, dependem basicamente da distância (r) entre o
centro da função e um ponto genérico (x), podendo escrever-se
genericamente na forma φ(r) = x − xj.
o Exhaustive prune (Poda exaustiva) – Semelhante ao método de poda, no

entanto escolhe parâmetros de treinamento para garantir uma melhor
pesquisa no espaço de modelos possíveis.
• Prevent overtraining – Esta opção divide os dados aleatoriamente em

conjuntos de treinamento e de teste. A rede é treinada com o conjunto de
treinamento e a sua precisão é calculada com o conjunto de teste.
Especifique a proporção dos dados ser usado para treinamento na caixa de
texto Sample % (Amostra) e o resto dos dados será usado para validação.
110
• Set random seed (semente aleatória) – Se nenhuma semente aleatória for

fixada, a seqüência de valores aleatórios usada para inicializar os pesos de
rede será diferente toda vez que o Nó for executado. Isto pode fazer com
que o Nó crie modelos diferentes para cada execução, mesmo que as
configurações Nó e os valores dos dados sejam exatamente os mesmos.
Selecionando esta opção, você pode fixar uma semente aleatória com um
valor específico de forma que o modelo resultante é possa se reproduzido
com exatidão.
• Stop on (Parar em) – Você pode selecionar um dos critérios de para abaixo:
o Default (Padrão): Com esta opção a rede o treinamento para quando ela
tiver alcançado seu estado de treinamento ótimo. Se esta configuração
for usada com o método de treinamento Múltiplo, as redes que não
fizerem um bom treinamento serão descartadas;
o Accuracy (%) (Precisão): Com esta opção, o treinamento termina

quando a precisão especificada é atingida. Isto nunca pode acontecer,
mas você pode interromper treinamento a qualquer ponto e pode
economizar a rede com a melhor precisão alcançada tão longe;
o Cycles (Ciclos): Com esta opção, o treinamento para após o número

especificado de ciclos. Um ciclo significa uma passagem de dados pela
rede;
o Time (mins) (Tempo): Com esta opção o treinamento termina após um

tempo especificado (em minutos). Note que treinamento pode ir um
pouco além do tempo especificado para completar o último ciclo.
o Optimize (Otimizar) – Aqui as opções selecionadas podem melhorar ou

não o desempenho durante a construção do modelo, baseado em
necessidades específicas:
111
o Speed (Velocidade): faz com que o algoritmo nunca use o disco para
melhorar desempenho.
o Memory (Memória): faz com que o algoritmo use o disco quando

necessário sacrificando a velocidade. Esta é a opção padrão.
Na aba Options (Opções) temos:
• Continue training existing model (continuar treino com o modelo existente)

– Por padrão, cada vez que o usuário executa um Nó de Rede Neural, uma
nova rede é criada. Se esta opção for selecionada o treinamento continua
com a última rede produzida com sucesso pelo Nó, exceto quando o
método RBFN for selecionado na aba Model.
• Use binary set encoding (Usar codificação binária) – Se esta opção for
selecionada, o Clementine® usará um esquema de codificação para os
campos. Para conjuntos de campos com um grande número de valores de
entrada é uma boa opção, mas, certamente, a rede deverá ser mais
complexa, ou seja, com mais neurônios ou mesmo camadas escondidas.
• Show feedback graph (Mostra retorno gráfico) – Opção usada para ver um
gráfico mostrando a precisão da rede pelo tempo de aprendizagem. Se
você selecionar a opção seguinte (gerar um arquivo de log) você verá um
segundo gráfico mostrando o conjunto de treinamento e as métricas do
teste.
• Model selection (Seleção do modelo) – Aqui você pode selecionar se o Nó

retornará para a melhor ou para a última rede gerada, quando o processo
for interrompido.
• Sensitivity analysis (análise sensitiva) – Marque essa opção se você quiser

uma análise sensitiva dos campos de entrada da rede quando esta for
treinada. Serão fornecidas informações sobre quais campos são mais
importantes na predição do campos de saída.
112
• Generate log file (Gerar um arquivo de log) – Se esta opção for selecionada,
informações sobre o processo de treinamento serão gravadas em um
arquivo de log. Você pod especificar o nome e o local do arquivo de log.
Na aba Expert (Especialista) as opções dependem do método escolhido na aba

Models. É necessário ter conhecimento dos aspectos mais intrínsecos de Redes
Neurais Artificiais para que o usuário possa fazer uma sintonia fina.
Antes é necessário vermos alguns parâmetros relacionados à taxa de

aprendizagem, comuns a todas as opções de métodos, e estarão disponíveis na aba
Expert, quando for selecionada a opção Mode (Modo) Expert:
• Alpha: É o termo de momento usado para atualizar os pesos durante o

treinamento. Ele tende a manter a alteração dos pesos em uma direção
consistente. Você deve especificar um valor entre 0 e 1.
• Eta: É a taxa de aprendizagem que controla como os pesos são ajustados

em cada atualização. Ela muda com o processo de treinamento, exceto
para o método RBFN, quando ela permanece constante. Durante o
treinamento a Eta começa com um valor inicial, depois cai para um Eta
baixo, então é reiniciado com um Eta alto e depois decresce para um Eta
baixo novamente. Isso se repete até o final do treinamento, conforme a
figura 28.
Figura A1-7: Mudança da taxa de aprendizagem durante os ciclos de treinamento.

113
Vejamos agora as opções para cada método.
1. Quick Method (Método Rápido):
• Hidden layers (Camadas escondidas) – Especifica o número de camadas

escondidas.
• Layer 1, 2, 3 (Camada 1, 2, 3) – Para cada camada especifica o número de

neurônios.
• Persistence (Persistência) – Especifica o número de ciclos para os quais a

rede continuará a treinar se nenhuma melhora for observada. Esta opção
pode ser usada para escapar dos mínimos locais se for especificado um
número alto de ciclos. O preço que se paga é um aumento no tempo de
processamento.
2. Dynamic Method (Método Dinâmico):
Não existem opções avançadas para este método.
3. Multiple Method (Método Múltiplo):
• Topologies (Topologia) – Especifica a topologia de Rede a ser treinada. Esta

é dada pelo número de neurônios em cada camada escondida separado
por vírgulas. Podem ser especificadas de uma a três camadas escondidas.
Por exemplo, uma Rede com três camadas escondidas de dez, doze e
quinze neurônios cada, deve ser especificada como “10, 12, 15”. É possível
especificar um intervalo de números de neurônios com dois números
separados por espaços. Por exemplo a especificação “10 16” determina
uma camada com os neurônios variando de 10 a 16 neurônios. Se for
acrescentado um terceiro número na especificação este será usado como
incremento. Por exemplo, “10 16 2” determina que os neurônios da
camada variam de 10 a 16 com incremento de 2, ou seja, de dois em dois.
Caso seja especificado mais de uma camada estas serão separadas por
vírgula. Por exemplo, “10 14, 10 16 2”, determina duas camadas, sendo a
114
primeira com neurônios variando de 10 a 14 e a segunda, de 10 a 16, com

incremento de 2. Finalmente, você pode especificar múltiplas topologias,
separadas por ponto-e-vírgula.
• Discard non-pyramids (Discartar não-pirâmides) – Pirâmides são Redes em

que cada camada tem um número de neurônios menor ou igual ao da
camada imediatamente anterior. Este tipo de Rede geralmente treina
melhor do que as Redes não-pirâmides.
• Persistence (Persistência) – Da mesma forma do método rápido, especifica

o número de ciclos para os quais a rede continuará a treinar se nenhuma
melhora for observada.
4. Prune Method
• Hidden layers (Camadas escondidas) – Especifica o número de camadas

escondidas para a Rede inicial, antes da realização da poda. Mais camadas
escondidas contribuem para aprendizagem de padrões mais complexos.
• Layer 1, 2, 3 (Camada 1, 2, 3) – Para cada camada especificar o número de

neurônios. Recomenda-se que as camadas iniciais sejam um pouco
maiores.
• Hidden rate (Taxa escondida) – Especifica o número de neurônios de

camadas escondidas para serem removidos (podados) em uma poda
simples.
• Hidden persistence (Persistência escondida) – Especifica o número de

operações de poda de neurônios de camadas escondidas se nenhuma
melhora for observada.
• Input rate (Taxa de entrada) – Especifica o número de unidades de entrada

a ser removida em uma poda simples.
115
• Input persistence (Persistência de entrada) – Especifica o número de

operações de poda de unidades de entrada se nenhuma melhora for
observada.
• Persistence (Persistência) – Especifica o número de ciclos para os quais a

Rede será treinada antes de tentar podar se nenhuma melhora for
observada.
• Overall persistence (Persistência total) – Especifica o número de vezes que

a Rede passa pela poda das unidades de entrada ou escondidas se
nenhuma melhora for observada. Opção aplicada quando estiver usando o
modelo de parada padrão.
5. RBFN Method
• RBF clusters (RBF ou Agrupamentos) – Especifica o número de RBF (Radial

Basis Functions) ou agrupamentos (clusters) a serem utilizados,
dependendo do tamanho da camada escondida.
• Persistence (Persistência) – Especifica o número de ciclos que a Rede terá

que executar se nenhuma melhora for observada.
• Eta (Taxa de aprendizagem) e Compute Eta automatically (Computar Eta

automaticamente) – Para RBFNs a taxa de aprendizagem permanece
constante. Por padrão a taxa de aprendizagem é calculada
automaticamente, baseada nos dois primeiros ciclos. Para especificar um
valor para a taxa de aprendizagem desmarque a opção Compute Eta
automatically e digite o valor desejado.
• Alpha (Momento) – É o termo de momento usado para atualizar os pesos

durante o treinamento.
• RBF overlapping (Sobreposição RBF) – Os neurônios escondidos em uma

RBFN representam funções de base radial que definem agrupamentos ou
regiões de dados. Este parâmetro permite ao usuário controlar quantos
116
agrupamentos ou regiões serão sobrepostos. Deve ser especificado um

valor real positivo.
6. Exhaustive Prune Method
Não existem opções avançadas para este método.
Modelos de Redes Neurais Gerados

Um modelo de Rede Neural Gerado, contem informações capturadas pelo seu
treinamento, bem como informações sobre suas características, tais como
arquitetura e precisão.
Lembremos que os modelos são resultado da execução com sucesso de um Nó

de modelagem (paleta Modeling), como o de Rede Neural. Os modelos são gerados
na aba Models dos gerenciadores. Eles podem ser acrescentados (e na maioria das
vezes o são) na janela do Fluxo e são utilizados para gerar predições.
Quando você executa um Fluxo (Stream) contendo um modelo de Rede Neural

gerado, um novo campo é adicionado para cada campo de saída dos dados originais
de treinamento. O novo campo contém a predição da Rede para o campo de saída. O
nome do novo campo de predição é o nome do campo de saída adicionado de $N- no
início.
As informações para o Nó de modelo de Rede Neural gerado estão distribuídas

basicamente em duas abas e são detalhadas a seguir.
117
Figura A1-8: Opções de configuração do Nó de Rede Neural gerado.
• Sumary (Sumário) – mostra informações sobre a precisão, a arquitetura ou

topologia ou a importância dos campos, se você tiver determinado a
análise sensitiva.
• Settings (Configurações) – especifica como SQL é gerado para aproveitar

mineração de dados em bancos de dados. Só é aplicado quando se usa
dados de um banco de dados.
Redes de Kohonen no Clementine®

As redes de Kohonen têm um Nó em separado para sua configuração e
treinamento que também se encontra na paleta Modeling (Modelagem) na parte de
baixo da janela da aplicação.
118
Figura A1-9: Opções do Nó de Rede de Kohonen
Opções do Nó Rede Kohonem

Existem cinco abas para configuração dos parâmetros da rede.
Na aba Fields (Campos) temos:
• Use type node settings (Usar configurações de Nós de tipo) – Esta opção é
padrão e, como no Nó de Rede Neural, permite que o Nó de Rede Neural
utilize dados provenientes de Nós de tipos de dados;
• Use custom settings (Usar configurações personalisadas) – Esta opção

permite que sejam especificadas as informações dos campos a serem
utilizados e ao ser escolhida ela habilita as seguintes:
o Inputs (Entradas) – Utilizado para selecionar campos de entrada da

rede.
o Partition (Partição) – Utilizado para especificar um campo usado para

particionar os dados em conjuntos de treinamento, teste e validação.

119
• Model name (Nome do modelo) – Especifica o nome do modelo que será

gerado quando o Nó for executado. Pode ser automático (Auto) ou
personalizado (Custom).
• Use partitioned data (Usar dados particionados) – Divide os dados em

subconjuntos para treinamento, teste e validação baseado no campo de
particionamento. Se nenhum campo de particionamento for especificado
esta opção será ignorada.
• Continue training existing model (continuar treino com o modelo existente)

– Por padrão, cada vez que o usuário executa um Nó de Rede de Kohonem,
uma nova rede é criada. Se esta opção for selecionada o treinamento
continua com a última rede produzida com sucesso pelo Nó.
• Show feedback graph (Mostra retorno gráfico) – Opção usada para ver uma
representação gráfica durante o treinamento. A força dos neurônios é
representada por cores. O Vermelho representa uma unidade vencedora
em muitos registros e o branco representa uma unidade que vence em
poucos ou nenhum registro.
• Stop on (Parar em) – Você pode selecionar um dos critérios de para abaixo:
o Default (Padrão): Com esta opção a rede o treinamento para quando ela
tiver alcançado seu estado de treinamento ótimo baseado em
parâmetros internos;
o Time (mins) (Tempo): Com esta opção o treinamento termina após um

tempo especificado (em minutos).
• Set random seed (semente aleatória) – Se nenhuma semente aleatória for

fixada, a seqüência de valores aleatórios usada para inicializar os pesos de
rede será diferente toda vez que o Nó for executado. Isto pode fazer com
que o Nó crie modelos diferentes para cada execução, mesmo que as
configurações Nó e os valores dos dados sejam exatamente os mesmos.
120
Selecionando esta opção, você pode fixar uma semente aleatória com um
valor específico de forma que o modelo resultante é possa se reproduzido
com exatidão.
• Optimize (Otimizar) – Aqui as opções selecionadas podem melhorar ou não

o desempenho durante a construção do modelo, baseado em necessidades
específicas:
o Speed (Velocidade): faz com que o algoritmo nunca use o disco para
melhorar desempenho.
o Memory (Memória): faz com que o algoritmo use o disco quando

necessário sacrificando a velocidade. Esta é a opção padrão.
• Width and Length (Largura e Comprimento) – Especifica o tamanho da rede

ou do mapa bidimencional com o número de unidades de saída ao longo de
cada dimensão.
• Learning rate decay (Declínio da taxa de aprendizagem) – Seleciona a

forma de diminuição da taxa de aprendizagem, entre linear ou exponencial.
Lembrando que essa taxa diminui com o passar do tempo de treinamento
para que e Rede possa codificar muitas características dos dados e focar
nos detalhes de melhor nível.
• Phase 1 and Phase 2 (Fase 1 e Fase 2) – O treinamento da Rede de Kohonen

é dividido em duas fases. A primeira fase é uma fase de estimativa rude
usada para capturar padrões grosseiros dos dados. A segunda fase é uma
fase de refinamento usada para ajustes do mapa e modelando as
características melhores dos dados. Para cada fase há três parâmetros:
o Neighborhood (Vizinhança) – Especifica o tamanho inicial da vizinhança,

ou seja, o número de unidades próximas que terão seus pesos
atualizados juntamente com o neurônio vencedor;
121
o Inicial Eta (Taxa de aprendizagem inicial) – Especifica a taxa de

aprendizagem inicial. Durante a fase 1 a taxa de aprendizagem decresce
para a taxa da fase 2 e, nesta, decresce para zero, portanto, na primeira
fase ela deve ser maior do que na segunda fase.
o Cycles (Ciclos) – Especifica o número de ciclos para cada fase, ou seja, o

número de passagens de dados por fase.
Modelos de Redes de Kohonen Gerados
Figura A1-10: Tela do modelo gerado para e rede de Kohonen.
Assim como no Nó de modelo Rede Neural gerado após a sua execução, o Nó

modelo de Rede de Kohonen contém todas as informações capturadas pelo
treinamento da Rede, bem como informações sobre a sua arquitetura.
Quando o usuário executa um fluxo com um modelo gerado de Kohonen o Nó

adiciona dois novos campos contendo as coordenadas X e Y da unidade de Kohonen
no mapa de saída que respondeu mais fortemente ao registro passado, ou seja, do
122
neurônio vencedor. Os nomes dos campos são gerados com os prefixos $KX e $KY
mais o nome do modelo.
As informações para o Nó de modelo de Kohonen estão dispostas nas

seguintes abas:
• Model (Modelo) – Mostra informações sobre os agrupamentos, também

chamados de clusters, definidos pelo modelo.
• Viewer (Visualizador) – utilizado para dar uma melhor visão do modelo

gerado. Trata-se de uma representação gráfica dos agrupamentos, campos
e os níveis de importância.
• Sumary (Sumário) – mostra informações sobre a precisão, arquitetura ou

topologia.
Seleção de Atributos no Clementine®

A seleção de atributos no Clementine® consiste em três passos:
Retirando atributos
Este passo remove atributos que não provêem informação útil para predição.
As variáveis seguintes são retirados:
• Atributos que têm valores todo ausentes;

• Atributos que têm todos os valores constantes;
• Atributos que representam identificadores (ID).
Os casos seguintes são afastados:
• Casos que têm valores ausentes;
• Casos que têm valores ausentes em todos seus preditores.
Os atributos com as condições seguintes podem ser retirados baseados em
configurações de usuário:
• Atributos que têm mais que um percentual (%) de valores ausentes;
123
• Atributos categóricos que têm uma única categoria para mais que um
percentual (%) de casos;
• Atributos categóricos que têm categorias diferentes para um percentual
(%) dos casos.
• Atributos contínuos que têm um coeficiente de variação maior que um
determinado valor.
• Atributos contínuos que têm desvio padrão maior que um determinado
valor;
Figura A1-11: Tela de configuração dos critérios de remoção de atributos.
Fazendo ranking dos atributos

Este passo considera de um atributo de cada vez e vê se esse atributo
influencia na predição do atributo alvo. Os atributos são enfileirados de acordo com
um critério especificado pelo usuário. Os critérios disponíveis dependem do tipo do
atributo alvo e do atributo preditor.
124
Figura A1-12: Tela de configuração dos critérios de ranking dos atributos.
Um valor de importância para cada atributo é calculado como 1 - p, onde p é o

valor de um teste de associação estatístico calculado entre o atributo preditor e
atributo alvo. Os testes utilizados neste trabalho foram feito considerando um
atributo alvo categórico e são especificados seguir.
Se todos os atributos preditores forem categóricos
Valor P baseado no Qui-quadrado de Pearson:
O Qui-quadrado de Pearson é um teste de independência entre uma variável X
e uma variável Y que envolve a diferença entre as freqüências observadas e
esperadas. A frequência dos valores esperados abaixo da hipótese nula de
independência é calculada por:
(A1.1)
Abaixo da hipótese nula, O Chi-quadrado de Pearson converge
assintoticamente a uma distribuição Qui-quadrada χ2 com graus de liberdade:
d = (I - 1) (J - 1) (A1.2)
O valor P baseado no Qui-quadrado de Pearson X2 é calculado por valor P =
Prob (χ2 > X2) onde:
125
(A1.3)
Os atributos preditores são classificados da seguinte forma:
1. Ordenados pelo valor P na ordem crescente;
2. Se acontecerem empates, os atributos são ordenados através do Qui-
quadrado em ordem decrescente;
3. Se ainda acontecerem empates, os atributos são ordenados por grau de
liberdade d em ordem crescente;
4. Se ainda acontecerem empates, os atributos são ordenados pela ordem do
arquivo de dados.
As formulas acima usam a notações abaixo:
X = Atributo preditor com I categorias.
Y = Atributo alvo com J categorias.
N = Número total de casos.
Nij = Número de casos com X = i and Y = j.
Ni. = Número de casos com X = i.
N.j = Número de casos com Y = j.
Se todos os atributos preditores forem contínuos
Se todos os atributos preditores forem contínuos são usados valores P
baseados na estatística F. A idéia é executar um teste F de ANOVA (Análise de
Variância) de fator único para cada atributo contínuo. Isto testa se todas as classes
diferentes de Y têm a mesma média de X.
Valor P baseado em estatísticas F:
O valor P é calculado por valor P = Prob {F (J - 1, N - J) > F}, onde:
(A1.4)
126
F (J - 1, N - J) é uma variável aleatória que segue uma distribuição F com graus

de liberdade J - 1 e N - J. Se o denominador para um atributo é zero o valor P é 0 para
ele.
Os atributos são classificados da seguinte forma:
1. Ordenados pelo valor P em ordem crescente;
2. Se acontecerem empates, os atributos são ordenados F em ordem
decrescente;
3. Se acontecerem empates, os atributos são ordenados por N em ordem
decrescente;
4. Se acontecerem empates, os atributos são ordenados pela ordem do
arquivo de dados.
As formulas acima usam a notações abaixo:
Nj = Número de casos com Y = j.
xj = Média da amostra do atributo X para classe designada Y = j.
s2j = Variância da amostra do atributo X para classe designada Y = j.
x = Média principal do atributo X.
Atributos de tipos misturados
Se alguns atributos preditores são contínuos e alguns são categóricos, o
critério para preditores contínuos é o valor P baseado em estatísticas F, enquanto o
critério para atributos categóricos é o valor P baseado no Qui-quadrado de Pearson.
Estes valores são compatíveis e podem ser usados para classificar os atributos
misturados.
Os atributos são classificados da seguinte forma:
1. Ordenados pelo valor P em ordem crescente;
2. Se acontecerem empates, os atributos são ordenados pelas regras de
empate entre os categóricos e os contínuos separadamente, então os
grupos são ordenados a seguir pela ordem do arquivo de dados dos
primeiros deles.
127
Selecionando os atributos
Se o comprimento da lista de atributos a serem selecionados não for
especificado pelo usuário, o comprimento da lista é especificado pela fórmula
seguinte. L0 é o número total de atributos em análise. O comprimento da lista L pode
ser determinado por:
(A1.5)
Onde [x] é o inteiro mais próximo de x. A mesa seguinte ilustra o comprimento

L da lista para valor diferente do número total de profetas L0.
Figura A1-13: Tela do modelo gerado pela seleção de atributos.

128
APÊNDICE 2
TABELAS
Tabela A.2.1: Agrupamento de atividades econômicas
Grupo Descrição
01 AGRICULTURA, PECUÁRIA E SERVIÇOS RELACIONADOS
02 PRODUÇÃO FLORESTAL
03 PESCA E AQÜICULTURA
05 EXTRAÇÃO DE CARVÃO MINERAL
06 EXTRAÇÃO DE PETRÓLEO E GÁS NATURAL
07 EXTRAÇÃO DE MINERAIS METÁLICOS
08 EXTRAÇÃO DE MINERAIS NÃO-METÁLICOS
09 ATIVIDADES DE APOIO À EXTRAÇÃO DE MINERAIS
10 FABRICAÇÃO DE PRODUTOS ALIMENTÍCIOS
12 FABRICAÇÃO DE PRODUTOS DO FUMO
13 FABRICAÇÃO DE PRODUTOS TÊXTEIS
14 CONFECÇÃO DE ARTIGOS DO VESTUÁRIO E ACESSÓRIOS
PREPARAÇÃO DE COUROS E FABRICAÇÃO DE ARTEFATOS DE COURO, ARTIGOS PARA VIAGEM E
15
CALÇADOS
16 FABRICAÇÃO DE PRODUTOS DE MADEIRA
17 FABRICAÇÃO DE CELULOSE, PAPEL E PRODUTOS DE PAPEL
18 IMPRESSÃO E REPRODUÇÃO DE GRAVAÇÕES
19 FABRICAÇÃO DE COQUE, DE PRODUTOS DERIVADOS DO PETRÓLEO E DE BIOCOMBUSTÍVEIS
20 FABRICAÇÃO DE PRODUTOS QUÍMICOS
21 FABRICAÇÃO DE PRODUTOS FARMOQUÍMICOS E FARMACÊUTICOS
22 FABRICAÇÃO DE PRODUTOS DE BORRACHA E DE MATERIAL PLÁSTICO
23 FABRICAÇÃO DE PRODUTOS DE MINERAIS NÃO-METÁLICOS
24 METALURGIA
25 FABRICAÇÃO DE PRODUTOS DE METAL, EXCETO MÁQUINAS E EQUIPAMENTOS
26 FABRICAÇÃO DE EQUIPAMENTOS DE INFORMÁTICA, PRODUTOS ELETRÔNICOS E ÓPTICOS
27 FABRICAÇÃO DE MÁQUINAS, APARELHOS E MATERIAIS ELÉTRICOS
28 FABRICAÇÃO DE MÁQUINAS E EQUIPAMENTOS
29 FABRICAÇÃO DE VEÍCULOS AUTOMOTORES, REBOQUES E CARROCERIAS
30 FABRICAÇÃO DE OUTROS EQUIPAMENTOS DE TRANSPORTE, EXCETO VEÍCULOS AUTOMOTORES
31 FABRICAÇÃO DE MÓVEIS
32 FABRICAÇÃO DE PRODUTOS DIVERSOS
33 MANUTENÇÃO, REPARAÇÃO E INSTALAÇÃO DE MÁQUINAS E EQUIPAMENTOS
35 ELETRICIDADE, GÁS E OUTRAS UTILIDADES
36 CAPTAÇÃO, TRATAMENTO E DISTRIBUIÇÃO DE ÁGUA
37 ESGOTO E ATIVIDADES RELACIONADAS
38 COLETA, TRATAMENTO E DISPOSIÇÃO DE RESÍDUOS; RECUPERAÇÃO DE MATERIAIS
39 DESCONTAMINAÇÃO E OUTROS SERVIÇOS DE GESTÃO DE RESÍDUOS
41 CONSTRUÇÃO DE EDIFÍCIOS
42 OBRAS DE INFRA-ESTRUTURA
43 SERVIÇOS ESPECIALIZADOS PARA CONSTRUÇÃO
45 COMÉRCIO E REPARAÇÃO DE VEÍCULOS AUTOMOTORES E MOTOCICLETAS
46 COMÉRCIO POR ATACADO, EXCETO VEÍCULOS AUTOMOTORES E MOTOCICLETAS
129
47 COMÉRCIO VAREJISTA
49 TRANSPORTE TERRESTRE
50 TRANSPORTE AQUAVIÁRIO
51 TRANSPORTE AÉREO
52 ARMAZENAMENTO E ATIVIDADES AUXILIARES DOS TRANSPORTES
53 CORREIO E OUTRAS ATIVIDADES DE ENTREGA
55 ALOJAMENTO
56 ALIMENTAÇÃO
58 EDIÇÃO E EDIÇÃO INTEGRADA À IMPRESSÃO
ATIVIDADES CINEMATOGRÁFICAS, PRODUÇÃO DE VÍDEOS E DE PROGRAMAS DE TELEVISÃO;
59
GRAVAÇÃO DE SOM E EDIÇÃO DE MÚSICA
60 ATIVIDADES DE RÁDIO E DE TELEVISÃO
61 TELECOMUNICAÇÕES
62 ATIVIDADES DOS SERVIÇOS DE TECNOLOGIA DA INFORMAÇÃO
63 ATIVIDADES DE PRESTAÇÃO DE SERVIÇOS DE INFORMAÇÃO
64 ATIVIDADES DE SERVIÇOS FINANCEIROS
65 SEGUROS, RESSEGUROS, PREVIDÊNCIA COMPLEMENTAR E PLANOS DE SAÚDE
ATIVIDADES AUXILIARES DOS SERVIÇOS FINANCEIROS, SEGUROS, PREVIDÊNCIA COMPLEMENTAR E
66
PLANOS DE SAÚDE
68 ATIVIDADES IMOBILIÁRIAS
69 ATIVIDADES JURÍDICAS, DE CONTABILIDADE E DE AUDITORIA
70 ATIVIDADES DE SEDES DE EMPRESAS E DE CONSULTORIA EM GESTÃO EMPRESARIAL
71 SERVIÇOS DE ARQUITETURA E ENGENHARIA; TESTES E ANÁLISES TÉCNICAS
72 PESQUISA E DESENVOLVIMENTO CIENTÍFICO
73 PUBLICIDADE E PESQUISA DE MERCADO
74 OUTRAS ATIVIDADES PROFISSIONAIS, CIENTÍFICAS E TÉCNICAS
75 ATIVIDADES VETERINÁRIAS
77 ALUGUÉIS NÃO-IMOBILIÁRIOS E GESTÃO DE ATIVOS INTANGÍVEIS NÃO-FINANCEIROS
78 SELEÇÃO, AGENCIAMENTO E LOCAÇÃO DE MÃO-DE-OBRA
79 AGÊNCIAS DE VIAGENS, OPERADORES TURÍSTICOS E SERVIÇOS DE RESERVAS
80 ATIVIDADES DE VIGILÂNCIA, SEGURANÇA E INVESTIGAÇÃO
81 SERVIÇOS PARA EDIFÍCIOS E ATIVIDADES PAISAGÍSTICAS
SERVIÇOS DE ESCRITÓRIO, DE APOIO ADMINISTRATIVO E OUTROS SERVIÇOS PRESTADOS ÀS
82
EMPRESAS
84 ADMINISTRAÇÃO PÚBLICA, DEFESA E SEGURIDADE SOCIAL
85 EDUCAÇÃO
86 ATIVIDADES DE ATENÇÃO À SAÚDE HUMANA
ATIVIDADES DE ATENÇÃO À SAÚDE HUMANA INTEGRADAS COM ASSISTÊNCIA SOCIAL, PRESTADAS
87
EM RESIDÊNCIAS COLETIVAS E PARTICULARES
88 SERVIÇOS DE ASSISTÊNCIA SOCIAL SEM ALOJAMENTO
90 ATIVIDADES ARTÍSTICAS, CRIATIVAS E DE ESPETÁCULOS
91 ATIVIDADES LIGADAS AO PATRIMÔNIO CULTURAL E AMBIENTAL
92 ATIVIDADES DE EXPLORAÇÃO DE JOGOS DE AZAR E APOSTAS
93 ATIVIDADES ESPORTIVAS E DE RECREAÇÃO E LAZER
94 ATIVIDADES DE ORGANIZAÇÕES ASSOCIATIVAS
REPARAÇÃO E MANUTENÇÃO DE EQUIPAMENTOS DE INFORMÁTICA E COMUNICAÇÃO E DE OBJETOS
95
PESSOAIS E DOMÉSTICOS
96 OUTRAS ATIVIDADES DE SERVIÇOS PESSOAIS
97 SERVIÇOS DOMÉSTICOS
99 ORGANISMOS INTERNACIONAIS E OUTRAS INSTITUIÇÕES EXTRATERRITORIAIS
130
Tabela A.2.2: Agrupamento de CFOP (Código Fiscal de Operação e Prestação)
GRUPO CFOP DESCRIÇÃO DA OPERAÇÃO

1.100 1.101 Compra para industrialização
1.100 1.102 Compra para comercialização
1.100 1.111 Compra para industrialização de mercadoria recebida anteriormente em consignação
industrial
1.100 1.113 Compra para comercialização de mercadoria recebida anteriormente em consignação
mercantil
1.100 1.116 Compra para industrialização originada de encomenda para recebimento futuro
1.100 1.117 Compra para comercialização originada de encomenda para recebimento futuro
1.100 1.118 Compra de mercadoria para comercialização pelo adquirente originário, entregue
pelo vendedor remetente ao destinatário, em venda à ordem
1.100 1.120 Compra para industrialização, em venda à ordem, já recebida do vendedor remetente
1.100 1.121 Compra para comercialização, em venda à ordem, já recebida do vendedor remetente
1.100 1.122 Compra para industrialização em que a mercadoria foi remetida pelo fornecedor ao
industrializador sem transitar pelo estabelecimento adquirente
1.100 1.124 Industrialização efetuada por outra empresa
1.100 1.125 Industrialização efetuada por outra empresa quando a mercadoria remetida para
utilização no processo de industrialização não transitou pelo estabelecimento
adquirente da mercadoria
1.100 1.126 Compra para utilização na prestação de serviço
1.150 1.151 Transferência para industrialização
1.150 1.152 Transferência para comercialização
1.150 1.153 Transferência de energia elétrica para distribuição
1.150 1.154 Transferência para utilização na prestação de serviço
1.200 1.201 Devolução de venda de produção do estabelecimento
1.200 1.202 Devolução de venda de mercadoria adquirida ou recebida de terceiros
1.200 1.203 Devolução de venda de produção do estabelecimento, destinada à Zona Franca de
1.200 1.204 Devolução de venda de mercadoria adquirida ou recebida de terceiros, destinada à
Zona Franca de Manaus ou Áreas de Livre Comércio
1.200 1.205 Anulação de valor relativo à prestação de serviço de comunicação
1.200 1.206 Anulação de valor relativo à prestação de serviço de transporte
1.200 1.207 Anulação de valor relativo à venda de energia elétrica
1.200 1.208 Devolução de produção do estabelecimento, remetida em transferência
1.200 1.209 Devolução de mercadoria adquirida ou recebida de terceiros, remetida em
transferência
1.250 1.251 Compra de energia elétrica para distribuição ou comercialização
1.250 1.252 Compra de energia elétrica por estabelecimento industrial
1.250 1.253 Compra de energia elétrica por estabelecimento comercial
1.250 1.254 Compra de energia elétrica por estabelecimento prestador de serviço de transporte
1.250 1.255 Compra de energia elétrica por estabelecimento prestador de serviço de comunicação
1.250 1.256 Compra de energia elétrica por estabelecimento de produtor rural
1.250 1.257 Compra de energia elétrica para consumo por demanda contratada
1.300 1.301 Aquisição de serviço de comunicação para execução de serviço da mesma natureza
1.300 1.302 Aquisição de serviço de comunicação por estabelecimento industrial
1.300 1.303 Aquisição de serviço de comunicação por estabelecimento comercial
1.300 1.304 Aquisição de serviço de comunicação por estabelecimento de prestador de serviço de
transporte
1.300 1.305 Aquisição de serviço de comunicação por estabelecimento de geradora ou de
131
distribuidora de energia elétrica

1.300 1.306 Aquisição de serviço de comunicação por estabelecimento de produtor rural
1.350 1.351 Aquisição de serviço de transporte para execução de serviço da mesma natureza
1.350 1.352 Aquisição de serviço de transporte por estabelecimento industrial
1.350 1.353 Aquisição de serviço de transporte por estabelecimento comercial
1.350 1.354 Aquisição de serviço de transporte por estabelecimento de prestador de serviço de
comunicação
1.350 1.355 Aquisição de serviço de transporte por estabelecimento de geradora ou de
1.350 1.356 Aquisição de serviço de transporte por estabelecimento de produtor rural
1.400 1.401 Compra para industrialização em operação com mercadoria sujeita ao regime de
substituição tributária
1.400 1.403 Compra para comercialização em operação com mercadoria sujeita ao regime de
1.400 1.406 Compra de bem para o ativo imobilizado cuja mercadoria está sujeita ao regime de
1.400 1.407 Compra de mercadoria para uso ou consumo cuja mercadoria está sujeita ao regime
de substituição tributária
1.400 1408 Transferência para industrialização em operação com mercadoria sujeita ao regime de
1.400 1409 Transferência para comercialização em operação com mercadoria sujeita ao regime
1.400 1.410 Devolução de venda de produção do estabelecimento em operação com produto
sujeito ao regime de substituição tributária
1.400 1.411 Devolução de venda de mercadoria adquirida ou recebida de terceiros em operação
com mercadoria sujeita ao regime de substituição tributária
1.400 1.414 Retorno de produção do estabelecimento, remetida para venda fora do
estabelecimento em operação com produto sujeito ao regime de substituição
tributária
1.400 1.415 Retorno de mercadoria adquirida ou recebida de terceiros, remetida para venda fora
do estabelecimento em operação com mercadoria sujeita ao regime de substituição
tributária
1.450 1.451 Retorno de animal do estabelecimento produtor
1.450 1.452 Retorno de insumo não utilizado na produção
1.500 1.501 Entrada de mercadoria recebida com fim específico de exportação
1.500 1.503 Entrada decorrente de devolução de produto remetido com fim específico de
exportação, de produção do estabelecimento
1.500 1.504 Entrada decorrente de devolução de mercadoria remetida com fim específico de
exportação, adquirida ou recebida de terceiros
1.550 1.551 Compra de bem para o ativo imobilizado
1.550 1.552 Transferência de bem do ativo imobilizado
1.550 1.553 Devolução de venda de bem do ativo imobilizado
1.550 1.554 Retorno de bem do ativo imobilizado remetido para uso fora do estabelecimento
1.550 1.555 Entrada de bem do ativo imobilizado de terceiro, remetido para uso no
estabelecimento
1.550 1.556 Compra de material para uso ou consumo
1.550 1.557 Transferência de material para uso ou consumo
1.600 1.601 Recebimento, por transferência, de crédito de ICMS
1.600 1.602 Recebimento, por transferência, de saldo credor de ICMS de outro estabelecimento
da mesma empresa, para compensação de saldo devedor de ICMS
1.600 1.603 Ressarcimento de ICMS retido por substituição tributária
1.600 1.604 Lançamento do crédito relativo à compra de bem para o ativo imobilizado
1.600 1.605 Recebimento, por transferência, de saldo devedor de ICMS de outro estabelecimento
132
da mesma empresa.
1.650 1.651 Compra de combustível ou lubrificante para industrialização subseqüente
1.650 1.652 Compra de combustível ou lubrificante para comercialização
1.650 1.653 Compra de combustível ou lubrificante por consumidor ou usuário final
1.650 1.658 Transferência de combustível e lubrificante para industrialização
1.650 1.659 Transferência de combustível e lubrificante para comercialização
1.650 1.660 Devolução de venda de combustível ou lubrificante destinado à industrialização
subseqüente
1.650 1.661 Devolução de venda de combustível ou lubrificante destinado à comercialização
1.650 1.662 Devolução de venda de combustível ou lubrificante destinado a consumidor ou
usuário final
1.650 1.663 Entrada de combustível ou lubrificante para armazenagem
1.650 1.664 Retorno de combustível ou lubrificante remetido para armazenagem
1.900 1.901 Entrada para industrialização por encomenda
1.900 1.902 Retorno de mercadoria remetida para industrialização por encomenda
1.900 1.903 Entrada de mercadoria remetida para industrialização e não aplicada no referido
processo
1.900 1.904 Retorno de remessa para venda fora do estabelecimento
1.900 1.905 Entrada de mercadoria recebida para depósito em depósito fechado ou armazém
geral
1.900 1.906 Retorno de mercadoria remetida para depósito fechado ou armazém geral
1.900 1.907 Retorno simbólico de mercadoria remetida para depósito fechado ou armazém geral
1.900 1.908 Entrada de bem por conta de contrato de comodato
1.900 1.909 Retorno de bem remetido por conta de contrato de comodato
1.900 1.910 Entrada de bonificação, doação ou brinde
1.900 1.911 Entrada de amostra grátis
1.900 1.912 Entrada de mercadoria ou bem recebido para demonstração
1.900 1.913 Retorno de mercadoria ou bem remetido para demonstração
1.900 1.914 Retorno de mercadoria ou bem remetido para exposição ou feira
1.900 1.915 Entrada de mercadoria ou bem recebido para conserto ou reparo
1.900 1.916 Retorno de mercadoria ou bem remetido para conserto ou reparo
1.900 1.917 Entrada de mercadoria recebida em consignação mercantil ou industrial
1.900 1.918 Devolução de mercadoria remetida em consignação mercantil ou industrial
1.900 1.919 Devolução simbólica de mercadoria vendida ou utilizada em processo industrial,
remetida anteriormente em consignação mercantil ou industrial
1.900 1.920 Entrada de vasilhame ou sacaria
1.900 1.921 Retorno de vasilhame ou sacaria
1.900 1.922 Lançamento efetuado a título de simples faturamento decorrente de compra para
recebimento futuro
1.900 1.923 Entrada de mercadoria recebida do vendedor remetente, em venda à ordem
1.900 1.924 Entrada para industrialização por conta e ordem do adquirente da mercadoria,
quando esta não transitar pelo estabelecimento do adquirente
1.900 1.925 Retorno de mercadoria remetida para industrialização por conta e ordem do
adquirente da mercadoria, quando esta não transitar pelo estabelecimento do
adquirente
1.900 1.926 Lançamento efetuado a título de reclassificação de mercadoria decorrente de
formação de kit ou de sua desagregação
1.900 1.931 Lançamento efetuado pelo tomador do serviço de transporte quando a
responsabilidade de retenção do imposto for atribuída ao remetente ou alienante da
mercadoria, pelo serviço de transporte realizado por transportador autônomo ou por
transportador não inscrito na unidade da Federação onde iniciado o serviço.
1.900 1.932 Aquisição de serviço de transporte iniciado em unidade da Federação diversa daquela
133
onde inscrito o prestador.

1.900 1.933 Aquisição de serviço tributado pelo ISSQN
1.900 1.949 Outra entrada de mercadoria ou prestação de serviço não especificada
2.100 2.111 Compra para industrialização de mercadoria recebida anteriormente em consignação
industrial
2.100 2.113 Compra para comercialização, de mercadoria recebida anteriormente em consignação
mercantil
2.100 2.116 Compra para industrialização originada de encomenda para recebimento futuro
2.100 2.117 Compra para comercialização originada de encomenda para recebimento futuro
2.100 2.118 Compra de mercadoria para comercialização pelo adquirente originário, entregue
pelo vendedor remetente ao destinatário, em venda à ordem
2.100 2.120 Compra para industrialização, em venda à ordem, já recebida do vendedor remetente
2.100 2.121 Compra para comercialização, em venda à ordem, já recebida do vendedor remetente
2.100 2.122 Compra para industrialização em que a mercadoria foi remetida pelo fornecedor ao
industrializador sem transitar pelo estabelecimento adquirente
2.100 2.124 Industrialização efetuada por outra empresa
2.100 2.125 Industrialização efetuada por outra empresa quando a mercadoria remetida para
utilização no processo de industrialização não transitou pelo estabelecimento
2.150 2.151 Transferência para industrialização
2.150 2.152 Transferência para comercialização
2.150 2.153 Transferência de energia elétrica para distribuição
2.150 2.154 Transferência para utilização na prestação de serviço
2.200 2.203 Devolução de venda de produção do estabelecimento, destinada à Zona Franca de
2.200 2.204 Devolução de venda de mercadoria adquirida ou recebida de terceiros, destinada à
Zona Franca de Manaus ou Áreas de Livre Comércio
2.200 2.208 Devolução de produção do estabelecimento, remetida em transferência
2.200 2.209 Devolução de mercadoria adquirida ou recebida de terceiros, remetida em
transferência
2.250 2.252 Compra de energia elétrica por estabelecimento industrial
2.250 2.253 Compra de energia elétrica por estabelecimento comercial
2.250 2.254 Compra de energia elétrica por estabelecimento prestador de serviço de transporte
2.250 2.255 Compra de energia elétrica por estabelecimento prestador de serviço de comunicação
2.250 2.256 Compra de energia elétrica por estabelecimento de produtor rural
2.250 2.257 Compra de energia elétrica para consumo por demanda contratada
2.300 2.302 Aquisição de serviço de comunicação por estabelecimento industrial
2.300 2.303 Aquisição de serviço de comunicação por estabelecimento comercial
2.300 2.304 Aquisição de serviço de comunicação por estabelecimento de prestador de serviço de
transporte
2.300 2.305 Aquisição de serviço de comunicação por estabelecimento de geradora ou de
134

2.300 2.306 Aquisição de serviço de comunicação por estabelecimento de produtor rural
comunicação
2.400 2.401 Compra para industrialização em operação com mercadoria sujeita ao regime de
2.400 2.403 Compra para comercialização em operação com mercadoria sujeita ao regime de
2.400 2.406 Compra de bem para o ativo imobilizado cuja mercadoria está sujeita ao regime de
2.400 2.407 Compra de mercadoria para uso ou consumo cuja mercadoria está sujeita ao regime
2.400 2.408 Transferência para industrialização em operação com mercadoria sujeita ao regime de
2.400 2.409 Transferência para comercialização em operação com mercadoria sujeita ao regime
2.400 2.410 Devolução de venda de produção do estabelecimento em operação com produto
sujeito ao regime de substituição tributária
2.400 2.411 Devolução de venda de mercadoria adquirida ou recebida de terceiros em operação
com mercadoria sujeita ao regime de substituição tributária
2.400 2.414 Retorno de produção do estabelecimento, remetida para venda fora do
estabelecimento em operação com produto sujeito ao regime de substituição
tributária
2.400 2.415 Retorno de mercadoria adquirida ou recebida de terceiros, remetida para venda fora
do estabelecimento em operação com mercadoria sujeita ao regime de substituição
tributária
2.500 2.501 Entrada de mercadoria recebida com fim específico de exportação
2.500 2.503 Entrada decorrente de devolução de produto remetido com fim específico de
exportação, de produção do estabelecimento
2.500 2.504 Entrada decorrente de devolução de mercadoria remetida com fim específico de
exportação, adquirida ou recebida de terceiros
2.550 2.554 Retorno de bem do ativo imobilizado remetido para uso fora do estabelecimento
2.550 2.555 Entrada de bem do ativo imobilizado de terceiro, remetido para uso no
estabelecimento
2.550 2.557 Transferência de material para uso ou consumo
2.650 2.658 Transferência de combustível e lubrificante para industrialização
2.650 2.659 Transferência de combustível e lubrificante para comercialização
2.650 2.660 Devolução de venda de combustível ou lubrificante destinado à industrialização
subseqüente
135
2.650 2.661 Devolução de venda de combustível ou lubrificante destinado à comercialização

2.650 2.662 Devolução de venda de combustível ou lubrificante destinado a consumidor ou
usuário final
2.650 2.663 Entrada de combustível ou lubrificante para armazenagem
2.650 2.664 Retorno de combustível ou lubrificante remetido para armazenagem
2.900 2.901 Entrada para industrialização por encomenda
2.900 2.902 Retorno de mercadoria remetida para industrialização por encomenda
2.900 2.903 Entrada de mercadoria remetida para industrialização e não aplicada no referido
processo
2.900 2.904 Retorno de remessa para venda fora do estabelecimento
2.900 2.905 Entrada de mercadoria recebida para depósito em depósito fechado ou armazém
geral
2.900 2.906 Retorno de mercadoria remetida para depósito fechado ou armazém geral
2.900 2.907 Retorno simbólico de mercadoria remetida para depósito fechado ou armazém geral
2.900 2.908 Entrada de bem por conta de contrato de comodato
2.900 2.909 Retorno de bem remetido por conta de contrato de comodato
2.900 2.910 Entrada de bonificação, doação ou brinde
2.900 2.911 Entrada de amostra grátis
2.900 2.912 Entrada de mercadoria ou bem recebido para demonstração
2.900 2.913 Retorno de mercadoria ou bem remetido para demonstração
2.900 2.914 Retorno de mercadoria ou bem remetido para exposição ou feira
2.900 2.915 Entrada de mercadoria ou bem recebido para conserto ou reparo
2.900 2.916 Retorno de mercadoria ou bem remetido para conserto ou reparo
2.900 2.917 Entrada de mercadoria recebida em consignação mercantil ou industrial
2.900 2.918 Devolução de mercadoria remetida em consignação mercantil ou industrial
remetida anteriormente em consignação mercantil ou industrial
2.900 2.920 Entrada de vasilhame ou sacaria
2.900 2.921 Retorno de vasilhame ou sacaria
2.900 2.922 Lançamento efetuado a título de simples faturamento decorrente de compra para
recebimento futuro
2.900 2.923 Entrada de mercadoria recebida do vendedor remetente, em venda à ordem
2.900 2.924 Entrada para industrialização por conta e ordem do adquirente da mercadoria,
2.900 2.925 Retorno de mercadoria remetida para industrialização por conta e ordem do
adquirente da mercadoria, quando esta não transitar pelo estabelecimento do
adquirente
2.900 2.931 Lançamento efetuado pelo tomador do serviço de transporte quando a
responsabilidade de retenção do imposto for atribuída ao remetente ou alienante da
mercadoria, pelo serviço de transporte realizado por transportador autônomo ou por
transportador não inscrito na unidade da Federação onde iniciado o serviço.
2.900 2.932 Aquisição de serviço de transporte iniciado em unidade da Federação diversa daquela
onde inscrito o prestador.
2.900 2.933 Aquisição de serviço tributado pelo ISSQN
2.900 2.949 Outra entrada de mercadoria ou prestação de serviço não especificado
3.100 3.127 Compra para industrialização sob o regime de “drawback”
136

3.200 3.211 Devolução de venda de produção do estabelecimento sob o regime de “drawback”
comunicação
3.500 3.503 Devolução de mercadoria exportada que tenha sido recebida com fim específico de
exportação
3.900 3.930 Lançamento efetuado a título de entrada de bem sob amparo de regime especial
aduaneiro de admissão temporária
3.900 3.949 Outra entrada de mercadoria ou prestação de serviço não especificado
5.100 5.101 Venda de produção do estabelecimento
5.100 5.102 Venda de mercadoria adquirida ou recebida de terceiros
5.100 5.103 Venda de produção do estabelecimento, efetuada fora do estabelecimento
5.100 5.104 Venda de mercadoria adquirida ou recebida de terceiros, efetuada fora do
estabelecimento
5.100 5.105 Venda de produção do estabelecimento que não deva por ele transitar
5.100 5.106 Venda de mercadoria adquirida ou recebida de terceiros, que não deva por ele
transitar
5.100 5.109 Venda de produção do estabelecimento, destinada à Zona Franca de Manaus ou Áreas
de Livre Comércio
5.100 5.110 Venda de mercadoria adquirida ou recebida de terceiros, destinada à Zona Franca de
5.100 5.111 Venda de produção do estabelecimento remetida anteriormente em consignação
industrial
5.100 5.112 Venda de mercadoria adquirida ou recebida de terceiros remetida anteriormente em
consignação industrial
mercantil
consignação mercantil
5.100 5.115 Venda de mercadoria adquirida ou recebida de terceiros, recebida anteriormente em
5.100 5.116 Venda de produção do estabelecimento originada de encomenda para entrega futura
5.100 5.117 Venda de mercadoria adquirida ou recebida de terceiros, originada de encomenda
para entrega futura
5.100 5.118 Venda de produção do estabelecimento entregue ao destinatário por conta e ordem
do adquirente originário, em venda à ordem
137
5.100 5.119 Venda de mercadoria adquirida ou recebida de terceiros entregue ao destinatário por
conta e ordem do adquirente originário, em venda à ordem
5.100 5.120 Venda de mercadoria adquirida ou recebida de terceiros entregue ao destinatário
pelo vendedor remetente, em venda à ordem
5.100 5.122 Venda de produção do estabelecimento remetida para industrialização, por conta e
ordem do adquirente, sem transitar pelo estabelecimento do adquirente
5.100 5.123 Venda de mercadoria adquirida ou recebida de terceiros remetida para
industrialização, por conta e ordem do adquirente, sem transitar pelo
estabelecimento do adquirente
5.100 5.124 Industrialização efetuada para outra empresa
5.100 5.125 Industrialização efetuada para outra empresa quando a mercadoria recebida para
utilização no processo de industrialização não transitar pelo estabelecimento
5.150 5.151 Transferência de produção do estabelecimento
5.150 5.152 Transferência de mercadoria adquirida ou recebida de terceiros
5.150 5.153 Transferência de energia elétrica
5.150 5.155 Transferência de produção do estabelecimento, que não deva por ele transitar
5.150 5.156 Transferência de mercadoria adquirida ou recebida de terceiros, que não deva por ele
transitar
5.200 5.201 Devolução de compra para industrialização
5.200 5.202 Devolução de compra para comercialização
5.200 5.205 Anulação de valor relativo a aquisição de serviço de comunicação
5.200 5.206 Anulação de valor relativo a aquisição de serviço de transporte
5.200 5.207 Anulação de valor relativo à compra de energia elétrica
5.200 5.208 Devolução de mercadoria recebida em transferência para industrialização
5.200 5.209 Devolução de mercadoria recebida em transferência para comercialização
5.200 5.210 Devolução de compra para utilização na prestação de serviço
5.200 5.243 ?
5.250 5.251 Venda de energia elétrica para distribuição ou comercialização
5.250 5.252 Venda de energia elétrica para estabelecimento industrial
5.250 5.253 Venda de energia elétrica para estabelecimento comercial
5.250 5.254 Venda de energia elétrica para estabelecimento prestador de serviço de transporte
5.250 5.255 Venda de energia elétrica para estabelecimento prestador de serviço de comunicação
5.250 5.256 Venda de energia elétrica para estabelecimento de produtor rural
5.250 5.257 Venda de energia elétrica para consumo por demanda contratada
5.250 5.258 Venda de energia elétrica a não-contribuinte
5.300 5.301 Prestação de serviço de comunicação para execução de serviço da mesma natureza
5.300 5.302 Prestação de serviço de comunicação a estabelecimento industrial
5.300 5.303 Prestação de serviço de comunicação a estabelecimento comercial
5.300 5.304 Prestação de serviço de comunicação a estabelecimento de prestador de serviço de
transporte
5.300 5.305 Prestação de serviço de comunicação a estabelecimento de geradora ou de
5.300 5.306 Prestação de serviço de comunicação a estabelecimento de produtor rural
5.300 5.307 Prestação de serviço de comunicação a não-contribuinte
5.350 5.351 Prestação de serviço de transporte para execução de serviço da mesma natureza
5.350 5.352 Prestação de serviço de transporte a estabelecimento industrial
5.350 5.353 Prestação de serviço de transporte a estabelecimento comercial
5.350 5.354 Prestação de serviço de transporte a estabelecimento de prestador de serviço de
comunicação
5.350 5.355 Prestação de serviço de transporte a estabelecimento de geradora ou de distribuidora
138
de energia elétrica
5.350 5.356 Prestação de serviço de transporte a estabelecimento de produtor rural
5.350 5.357 Prestação de serviço de transporte a não-contribuinte
5.350 5.359 Prestação de serviço de transporte a contribuinte ou a não contribuinte quando a
mercadoria transportada está dispensada de emissão de nota fiscal.
5.400 5.401 Venda de produção do estabelecimento em operação com produto sujeito ao regime
de substituição tributária, na condição de contribuinte substituto
5.400 5.402 Venda de produção do estabelecimento de produto sujeito ao regime de substituição
tributária, em operação entre contribuintes substitutos do mesmo produto
5.400 5.403 Venda de mercadoria adquirida ou recebida de terceiros em operação com
mercadoria sujeita ao regime de substituição tributária, na condição de contribuinte
substituto
substituído
5.400 5.408 Transferência de produção do estabelecimento em operação com produto sujeito ao
regime de substituição tributária
5.400 5.409 Transferência de mercadoria adquirida ou recebida de terceiros em operação com
mercadoria sujeita ao regime de substituição tributária
5.400 5.410 Devolução de compra para industrialização em operação com mercadoria sujeita ao
5.400 5.411 Devolução de compra para comercialização em operação com mercadoria sujeita ao
5.400 5.412 Devolução de bem do ativo imobilizado, em operação com mercadoria sujeita ao
5.400 5.413 Devolução de mercadoria destinada ao uso ou consumo, em operação com
5.400 5.414 Remessa de produção do estabelecimento para venda fora do estabelecimento em
operação com produto sujeito ao regime de substituição tributária
5.400 5.415 Remessa de mercadoria adquirida ou recebida de terceiros para venda fora do
estabelecimento, em operação com mercadoria sujeita ao regime de substituição
tributária
5.450 5.451 Remessa de animal e de insumo para estabelecimento produtor
5.500 5.501 Remessa de produção do estabelecimento, com fim específico de exportação
5.500 5.502 Remessa de mercadoria adquirida ou recebida de terceiros, com fim específico de
exportação
5.500 5.503 Devolução de mercadoria recebida com fim específico de exportação
5.550 5.551 Venda de bem do ativo imobilizado
5.550 5.553 Devolução de compra de bem para o ativo imobilizado
5.550 5.554 Remessa de bem do ativo imobilizado para uso fora do estabelecimento
5.550 5.555 Devolução de bem do ativo imobilizado de terceiro, recebido para uso no
estabelecimento
5.550 5.556 Devolução de compra de material de uso ou consumo
5.550 5.557 Transferência de material de uso ou consumo
5.600 5.601 Transferência de crédito de ICMS acumulado
5.600 5.602 Transferência de saldo credor de ICMS para outro estabelecimento da mesma
empresa, destinado à compensação de saldo devedor de ICMS
5.600 5.605 Transferência de saldo devedor de ICMS de outro estabelecimento da mesma
empresa.
5.600 5.606 Utilização de saldo credor de ICMS para extinção por compensação de débitos fiscais.
5.650 5.651 Venda de combustível ou lubrificante de produção do estabelecimento destinado à
139
industrialização subseqüente
comercialização
5.650 5.653 Venda de combustível ou lubrificante de produção do estabelecimento destinado a
consumidor ou usuário final
5.650 5.654 Venda de combustível ou lubrificante adquirido ou recebido de terceiros destinado à
comercialização
5.650 5.656 Venda de combustível ou lubrificante adquirido ou recebido de terceiros destinado a
5.650 5.657 Remessa de combustível ou lubrificante adquirido ou recebido de terceiros para
venda fora do estabelecimento
5.650 5.658 Transferência de combustível ou lubrificante de produção do estabelecimento
5.650 5.659 Transferência de combustível ou lubrificante adquirido ou recebido de terceiro
5.650 5.660 Devolução de compra de combustível ou lubrificante adquirido para industrialização
subseqüente
5.650 5.661 Devolução de compra de combustível ou lubrificante adquirido para comercialização
5.650 5.662 Devolução de compra de combustível ou lubrificante adquirido por consumidor ou
usuário final
5.650 5.663 Remessa para armazenagem de combustível ou lubrificante
5.650 5.664 Retorno de combustível ou lubrificante recebido para armazenagem
5.650 5.665 Retorno simbólico de combustível ou lubrificante recebido para armazenagem
5.650 5.666 Remessa por conta e ordem de terceiros de combustível ou lubrificante recebido para
armazenagem
5.900 5.901 Remessa para industrialização por encomenda
5.900 5.902 Retorno de mercadoria utilizada na industrialização por encomenda
5.900 5.903 Retorno de mercadoria recebida para industrialização e não aplicada no referido
processo
5.900 5.904 Remessa para venda fora do estabelecimento
5.900 5.905 Remessa para depósito fechado ou armazém geral
5.900 5.906 Retorno de mercadoria depositada em depósito fechado ou armazém geral
5.900 5.907 Retorno simbólico de mercadoria depositada em depósito fechado ou armazém geral
5.900 5.908 Remessa de bem por conta de contrato de comodato
5.900 5.909 Retorno de bem recebido por conta de contrato de comodato
5.900 5.910 Remessa em bonificação, doação ou brinde
5.900 5.911 Remessa de amostra grátis
5.900 5.912 Remessa de mercadoria ou bem para demonstração
5.900 5.913 Retorno de mercadoria ou bem recebido para demonstração
5.900 5.914 Remessa de mercadoria ou bem para exposição ou feira
5.900 5.915 Remessa de mercadoria ou bem para conserto ou reparo
5.900 5.916 Retorno de mercadoria ou bem recebido para conserto ou reparo
5.900 5.917 Remessa de mercadoria em consignação mercantil ou industrial
5.900 5.918 Devolução de mercadoria recebida em consignação mercantil ou industrial
recebida anteriormente em consignação mercantil ou industrial
5.900 5.920 Remessa de vasilhame ou sacaria
5.900 5.921 Devolução de vasilhame ou sacaria
5.900 5.922 Lançamento efetuado a título de simples faturamento decorrente de venda para
entrega futura
5.900 5.923 Remessa de mercadoria por conta e ordem de terceiros, em venda à ordem
5.900 5.924 Remessa para industrialização por conta e ordem do adquirente da mercadoria,
140

5.900 5.925 Retorno de mercadoria recebida para industrialização por conta e ordem do
adquirente da mercadoria, quando aquela não transitar pelo estabelecimento do
adquirente
5.900 5.926 Lançamento efetuado a título de reclassificação de mercadoria decorrente de
formação de kit ou de sua desagregação
5.900 5.927 Lançamento efetuado a título de baixa de estoque decorrente de perda, roubo ou
deterioração
5.900 5.928 Lançamento efetuado a título de baixa de estoque decorrente do encerramento da
atividade da empresa
5.900 5.929 Lançamento efetuado em decorrência de emissão de documento fiscal relativo a
operação ou prestação também registrada em equipamento Emissor de Cupom Fiscal
- ECF
5.900 5.931 Lançamento efetuado em decorrência da responsabilidade de retenção do imposto
por substituição tributária, atribuída ao remetente ou alienante da mercadoria, pelo
serviço de transporte realizado por transportador autônomo ou por transportador
não inscrito na unidade da Federação onde iniciado o serviço
5.900 5.932 Prestação de serviço de transporte iniciada em unidade da Federação diversa daquela
onde inscrito o prestador
5.900 5.933 Prestação de serviço tributado pelo ISSQN
5.900 5.949 Outra saída de mercadoria ou prestação de serviço não especificado
6.100 6.103 Venda de produção do estabelecimento, efetuada fora do estabelecimento
6.100 6.104 Venda de mercadoria adquirida ou recebida de terceiros, efetuada fora do
estabelecimento
6.100 6.105 Venda de produção do estabelecimento que não deva por ele transitar
transitar
6.100 6.107 Venda de produção do estabelecimento, destinada a não-contribuinte
6.100 6.108 Venda de mercadoria adquirida ou recebida de terceiros, destinada a não-
contribuinte
6.100 6.109 Venda de produção do estabelecimento, destinada à Zona Franca de Manaus ou Áreas
de Livre Comércio
6.100 6.110 Venda de mercadoria adquirida ou recebida de terceiros, destinada à Zona Franca de
industrial
consignação industrial
mercantil
6.100 6.115 Venda de mercadoria adquirida ou recebida de terceiros, recebida anteriormente em
6.100 6.116 Venda de produção do estabelecimento originada de encomenda para entrega futura
6.100 6.117 Venda de mercadoria adquirida ou recebida de terceiros, originada de encomenda
para entrega futura
6.100 6.118 Venda de produção do estabelecimento entregue ao destinatário por conta e ordem
do adquirente originário, em venda à ordem
6.100 6.119 Venda de mercadoria adquirida ou recebida de terceiros entregue ao destinatário por
conta e ordem do adquirente originário, em venda à ordem
6.100 6.120 Venda de mercadoria adquirida ou recebida de terceiros entregue ao destinatário
141
pelo vendedor remetente, em venda à ordem

6.100 6.122 Venda de produção do estabelecimento remetida para industrialização, por conta e
ordem do adquirente, sem transitar pelo estabelecimento do adquirente
6.100 6.123 Venda de mercadoria adquirida ou recebida de terceiros remetida para
industrialização, por conta e ordem do adquirente, sem transitar pelo
estabelecimento do adquirente
6.100 6.124 Industrialização efetuada para outra empresa
6.100 6.125 Industrialização efetuada para outra empresa quando a mercadoria recebida para
utilização no processo de industrialização não transitar pelo estabelecimento
6.150 6.151 Transferência de produção do estabelecimento
6.150 6.152 Transferência de mercadoria adquirida ou recebida de terceiros
6.150 6.153 Transferência de energia elétrica
6.150 6.155 Transferência de produção do estabelecimento, que não deva por ele transitar
6.150 6.156 Transferência de mercadoria adquirida ou recebida de terceiros, que não deva por ele
transitar
6.200 6.205 Anulação de valor relativo a aquisição de serviço de comunicação
6.200 6.208 Devolução de mercadoria recebida em transferência para industrialização
6.200 6.209 Devolução de mercadoria recebida em transferência para comercialização
6.250 6.251 Venda de energia elétrica para distribuição ou comercialização
6.250 6.252 Venda de energia elétrica para estabelecimento industrial
6.250 6.253 Venda de energia elétrica para estabelecimento comercial
6.250 6.254 Venda de energia elétrica para estabelecimento prestador de serviço de transporte
6.250 6.255 Venda de energia elétrica para estabelecimento prestador de serviço de comunicação
6.250 6.256 Venda de energia elétrica para estabelecimento de produtor rural
6.250 6.257 Venda de energia elétrica para consumo por demanda contratada
6.250 6.258 Venda de energia elétrica a não-contribuinte
6.300 6.302 Prestação de serviço de comunicação a estabelecimento industrial
6.300 6.303 Prestação de serviço de comunicação a estabelecimento comercial
6.300 6.304 Prestação de serviço de comunicação a estabelecimento de prestador de serviço de
transporte
6.300 6.305 Prestação de serviço de comunicação a estabelecimento de geradora ou de
6.300 6.306 Prestação de serviço de comunicação a estabelecimento de produtor rural
6.300 6.307 Prestação de serviço de comunicação a não-contribuinte
6.350 6.351 Prestação de serviço de transporte para execução de serviço da mesma natureza
6.350 6.352 Prestação de serviço de transporte a estabelecimento industrial
6.350 6.353 Prestação de serviço de transporte a estabelecimento comercial
6.350 6.354 Prestação de serviço de transporte a estabelecimento de prestador de serviço de
comunicação
6.350 6.355 Prestação de serviço de transporte a estabelecimento de geradora ou de distribuidora
de energia elétrica
6.350 6.356 Prestação de serviço de transporte a estabelecimento de produtor rural
6.350 6.357 Prestação de serviço de transporte a não-contribuinte
6.350 6.359 Prestação de serviço de transporte a contribuinte ou a não contribuinte quando a
142
mercadoria transportada está dispensada de emissão de nota fiscal.

6.400 6.401 Venda de produção do estabelecimento em operação com produto sujeito ao regime
de substituição tributária, na condição de contribuinte substituto
6.400 6.402 Venda de produção do estabelecimento de produto sujeito ao regime de substituição
tributária, em operação entre contribuintes substitutos do mesmo produto
substituto
6.400 6.404 Venda de mercadoria sujeita ao regime de substituição tributária, cujo imposto já
tenha sido retido anteriormente
6.400 6.408 Transferência de produção do estabelecimento em operação com produto sujeito ao
6.400 6.409 Transferência de mercadoria adquirida ou recebida de terceiros em operação com
6.400 6410 Devolução de compra para industrialização em operação com mercadoria sujeita ao
6.400 6.411 Devolução de compra para comercialização em operação com mercadoria sujeita ao
6.400 6.412 Devolução de bem do ativo imobilizado, em operação com mercadoria sujeita ao
6.400 6.413 Devolução de mercadoria destinada ao uso ou consumo, em operação com
6.400 6.414 Remessa de produção do estabelecimento para venda fora do estabelecimento em
operação com produto sujeito ao regime de substituição tributária
6.400 6.415 Remessa de mercadoria adquirida ou recebida de terceiros para venda fora do
estabelecimento, em operação com mercadoria sujeita ao regime de substituição
tributária
6.500 6.501 Remessa de produção do estabelecimento, com fim específico de exportação
6.500 6.502 Remessa de mercadoria adquirida ou recebida de terceiros, com fim específico de
exportação
6.500 6.503 Devolução de mercadoria recebida com fim específico de exportação
6.550 6.554 Remessa de bem do ativo imobilizado para uso fora do estabelecimento
6.550 6.555 Devolução de bem do ativo imobilizado de terceiro, recebido para uso no
estabelecimento
6.550 6.557 Transferência de material de uso ou consumo
comercialização
6.650 6.653 Venda de combustível ou lubrificante de produção do estabelecimento destinado a
comercialização
6.650 6.656 Venda de combustível ou lubrificante adquirido ou recebido de terceiros destinado a
6.650 6.657 Remessa de combustível ou lubrificante adquirido ou recebido de terceiros para
venda fora do estabelecimento
143
6.650 6.658 Transferência de combustível ou lubrificante de produção do estabelecimento

6.650 6.659 Transferência de combustível ou lubrificante adquirido ou recebido de terceiro
6.650 6.660 Devolução de compra de combustível ou lubrificante adquirido para industrialização
subseqüente
6.650 6.661 Devolução de compra de combustível ou lubrificante adquirido para comercialização
6.650 6.662 Devolução de compra de combustível ou lubrificante adquirido por consumidor ou
usuário final
6.650 6.663 Remessa para armazenagem de combustível ou lubrificante
6.650 6.664 Retorno de combustível ou lubrificante recebido para armazenagem
6.650 6.665 Retorno simbólico de combustível ou lubrificante recebido para armazenagem
6.650 6.666 Remessa por conta e ordem de terceiros de combustível ou lubrificante recebido para
armazenagem
6.900 6.901 Remessa para industrialização por encomenda
6.900 6.902 Retorno de mercadoria utilizada na industrialização por encomenda
6.900 6.903 Retorno de mercadoria recebida para industrialização e não aplicada no referido
processo
6.900 6.904 Remessa para venda fora do estabelecimento
6.900 6.905 Remessa para depósito fechado ou armazém geral
6.900 6.906 Retorno de mercadoria depositada em depósito fechado ou armazém geral
6.900 6.907 Retorno simbólico de mercadoria depositada em depósito fechado ou armazém geral
6.900 6.908 Remessa de bem por conta de contrato de comodato
6.900 6.909 Retorno de bem recebido por conta de contrato de comodato
6.900 6.910 Remessa em bonificação, doação ou brinde
6.900 6.911 Remessa de amostra grátis
6.900 6.912 Remessa de mercadoria ou bem para demonstração
6.900 6.913 Retorno de mercadoria ou bem recebido para demonstração
6.900 6.914 Remessa de mercadoria ou bem para exposição ou feira
6.900 6.915 Remessa de mercadoria ou bem para conserto ou reparo
6.900 6.916 Retorno de mercadoria ou bem recebido para conserto ou reparo
6.900 6.917 Remessa de mercadoria em consignação mercantil ou industrial
6.900 6.918 Devolução de mercadoria recebida em consignação mercantil ou industrial
recebida anteriormente em consignação mercantil ou industrial
6.900 6.920 Remessa de vasilhame ou sacaria
6.900 6.921 Devolução de vasilhame ou sacaria
6.900 6.922 Lançamento efetuado a título de simples faturamento decorrente de venda para
entrega futura
6.900 6.923 Remessa de mercadoria por conta e ordem de terceiros, em venda à ordem
6.900 6.924 Remessa para industrialização por conta e ordem do adquirente da mercadoria,
6.900 6.925 Retorno de mercadoria recebida para industrialização por conta e ordem do
adquirente da mercadoria, quando aquela não transitar pelo estabelecimento do
adquirente
6.900 6.929 Lançamento efetuado em decorrência de emissão de documento fiscal relativo a
operação ou prestação também registrada em equipamento Emissor de Cupom Fiscal
- ECF
6.900 6.931 Lançamento efetuado em decorrência da responsabilidade de retenção do imposto
por substituição tributária, atribuída ao remetente ou alienante da mercadoria, pelo
serviço de transporte realizado por transportador autônomo ou por transportador
não inscrito na unidade da Federação onde iniciado o serviço
6.900 6.932 Prestação de serviço de transporte iniciada em unidade da Federação diversa daquela
onde inscrito o prestador
144
6.900 6.933 Prestação de serviço tributado pelo ISSQN

7.100 7.105 Venda de produção do estabelecimento, que não deva por ele transitar
transitar
7.100 7.127 Venda de produção do estabelecimento sob o regime de “drawback”
7.200 7.205 Anulação de valor relativo à aquisição de serviço de comunicação
7.200 7.211 Devolução de compras para industrialização sob o regime de “drawback”
7.250 7.251 Venda de energia elétrica para o exterior
7.350 7.358 Prestação de serviço de transporte
7.500 7.501 Exportação de mercadorias recebidas com fim específico de exportação
7.650 7.651 Venda de combustível ou lubrificante de produção do estabelecimento
7.650 7.654 Venda de combustível ou lubrificante adquirido ou recebido de terceiros
7.900 7.930 Lançamento efetuado a título de devolução de bem cuja entrada tenha ocorrido sob
amparo de regime especial aduaneiro de admissão temporária
145
Tabela A.2.3: Relação de atributos do conjunto inicial de dados
ATRIBUTO DESCRIÇÃO
SEQ_CONT Sequencial de idenficação do estabelecimento inscrito na Secretaria da Fazenda
LOCAL Identificação de onde o estabelecimento está localizado (Capital ou Interior)
ATIV_MESES Quantidade de meses de atividade do estabelecimento
SEQ_CNAE Sequencial de identificação da atividade econômica do estabelecimento
CLASSE_CNAE Classe do Código de Atividade Econômica do estabelecimento
VLR_PRI Valor principal de ICMS recolhido pelo estabelecimento
VLR_TOT Valor total recolhido pelo estabelecimento incluindo o ICMS mais multas e juros
POSTOS_ENTRADA Valor das entradas registradas nos postos fiscais nas divisas do Estado
POSTOS_SAIDA Valor das saídas registradas nos postos fiscais nas divisas do Estado
VLR_TEF Valor de vendas com cartão de crédito do estabelecimento
146

BC1100 Base de Cálculo referente aos CFOP's do grupo 1100
147

148

IC1100 ICMS referente aos CFOP's do grupo 1100
149

IS1100 Operações Isentas referentes aos CFOP's do grupo 1100
150

151

OU1100 Outras operações referentes aos CFOP's do grupo 1100
152

153
154
155

SONEGA Indicativo de sonegação do estabelecimento
156
REFERÊNCIAS BIBLIOGRÁFICAS
ANDRADE FILHO, Edmar O.. Auditoria de Impostos e Contribuições. São Paulo:

Editora Atlas, 2005, 181 pg.
BONCHI, F. et al. Using Data Mining Techniques in Fiscal Fraud Detection. Pisa, Itália,
1999, Disponível em: http://citeseerx.ist.psu.edu/viewdoc /summary?doi
=10.1.1.42.1403. Acesso em: 20/10/2008.
BRAGA, Antônio de Pádua; CARVALHO, André Carlos P.C.L.F.; LUDEMIR, Teresa

Bernarda. Redes Neurais Artificiais – Teoria e Aplicações, Rio de Janeiro: LTC
Editora, 2000, 262 pg.
BRAZ, Eugênio R.C. Um Modelo para Gerenciamento, Avaliação e Planejamento da

Arrecadação de Tributos Estaduais. 2001. 156 p. Tese (Doutorado em
Engenharia de Produção) – Universidade Federal de Santa Catarina, Santa
Catarina.
CARVALHO, Luis Alfredo Vidal. Datamining – A Mineração de Dados no Marketing,

Medicina, Economia, Engenharia e Administração. Rio de Janeiro: Editora
Ciência Moderna, 2005, 225 pg.
CIRIACO, Douglas. O que é Inteligência Artificial? Baixaki, Artigos, dicas e tutoriais.

Disponível em: http://www.baixaki.com.br/info/1039-o-que-e-inteligencia-
artificial-.htm. Acesso em 05 de janeiro de 2009.
CORVALÃO, Eder D. Previsão da Arrecadação do Imposto sobre Circulação de

Mercadorias e Serviços em Santa Catarina: Aplicação da Abordagem Geral
para Específico em Modelos Dinâmicos. 2002. 64 p. Dissertação (Mestrado em
Engenharia da Produção) – Universidade Federal de Santa Catarina, Santa
Catarina.
CRISP 1.0. Process and User Guide. Disponível em http://www.crisp-

dm.org/CRISPWP-0800.pdf. Acesso em 01 de dezembro de 2008.
157
GOMES JÚNIOR, José A. S. Descoberta de Conhecimento Em Múltiplas Perspectivas:

Aplicação em Bases de Dados do ICMS. 2002. 79 p. Dissertação (Mestrado em
Informática Aplicada) – Universidade de Fortaleza, Fortaleza.
HAYKIN, Simon S.. Redes Neurais: Princípios e Prática. 2ª Edição. Porto Alegre:
Bookman. (Tradução de Paulo Martins Engel), 2001, 823 pg.
KASABOV, Nikola K.. Foundations of Neural Networks, Fuzzy Systems, and

Knowledge Engineering. Massachusetts: A Bradford Book - The MIT Press,
1998, 550 pg.
KOHONEN, Teuvo. Self-Organizing Maps, 3a Edição. – Berlin, Heidelberg, New York,

Barcelona, Hong Kong, London, Milan, Paris, Singapore, Tokyo. Springer, 2001,
501 pg.
KOVÁCS, Zsolt L.. Redes Neurais Artificiais – Fundamentos e Aplicações, 4ª Edição.

São Paulo: Editora Livraria de Física, 2006, 174 pg.
LIMA, Samuel P. Crime Organizado e Lavagem de Dinheiro: Uma Aplicação das

Teorias dos Jogos e de Redes Neurais para Reconhecimento Descrição de
Padrões. 2005. 206 p. Tese (Doutorado em Engenharia da Produção) –
Universidade Federal de Santa Catarina, Santa Catarina.
LUDWIG JR., Oswaldo; COSTA, Eduard Montgomery M.. Redes Neurais: Fundamentos
e Aplicações com Programas em C. Rio de Janeiro: Editora Ciência Moderna,
2007, 125 pg.
MANN, Prem S.. Introdução à Estatística. Rio de Janeiro: Livros Técnicos e Científicos
– LTC, 2006, 758 pg.
MITCHELL, Tom M. Machine Learning. Nova York: McGraw-Hill, 1997, 432 pg.
PELLIZZARI, Deoni. A Grande Farsa da Tributação e da Sonegação. Petrópolis: Editora

Vozes, 1990, 132 pg.
158
RAO, Valluru B. C++ Neural Networks and Fuzzy Logic. MTBooks, IDG Books
Worldwide, Inc., 1995, 454 pg.
RIBEIRO NETO, José. Direito Tributário e Legislação Tributária do Estado do Ceará.

Fortaleza: Editora R. Esteves Tipogresso Ltda, 2006, 1072 pg.
SISNANDO, Sérgio R. A. Previsão e Avaliação do Desempenho dos Contribuintes do

ICMS do Estado do Ceará Utilizando as Redes Neurais Artificiais, Revista
Econômica do Nordeste, Fortaleza, v. 37, n. 1, 2006.
TAFNER, Malcon A.; XEREZ, Marcos de; RODRIGUES FILHO Ilson W.. Redes Neurais
Artificiais – Introdução e Princípios de Neurocomputação. Santa Catarina:
Editora Eco e Editora da FURB, 1995. 199 pg.
TAN, Pang-Ning; STEINBACH, Michael; KUMAR, Vipin. Introdução ao Data Mining

Mineração de Dados. Rio de Janeiro: Editora Ciência Moderna, 2009, 900 pg.
VALENÇA, Mêuser. Aplicando Redes Neurais – Um Guia Completo. Pernambuco:

Editora Livro Rápido – Elógica, 2005, 264 pg.
YU, Fan; QIN, Zheng; JIA, Xiao-Ling. Data Mining Application Issues in Fraudulent Tax
Declaration Detection. Machine Learning and Cybernetics, 2003 International
Conference on Volume 4. China. 02 a 05 de Nov. 2003. Páginas 2202 a 2206.

Dissertação

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Dissertação

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Estadual do Ceará - UECE

Centro de Ciências Tecnológicas - CCT

Mestrado Integrado Profissional em Computação Aplicada – MPCOMP

HELDER DA SILVA ANDRADE

UM PROCESSO DE MINERAÇÃO DE DADOS APLICADO AO COMBATE À

Fortaleza – CE, Brasil

Mestrado Integrado Profissional em Computação Aplicada – MPCOMP

HELDER DA SILVA ANDRADE

UM PROCESSO DE MINERAÇÃO DE DADOS APLICADO AO COMBATE À

Dissertação apresentada ao corpo docente do Mestrado

Orientador: Prof. Dr. Jerffeson Teixeira de Souza

Co-orientador: Prof. Dr. Gustavo Augusto Lima de Campos

Fortaleza – CE, Brasil

À minha esposa e filhos (Madeline, Lucas e Thiago) pela

Ao Professor Dr. Jerffeson pela orientação, ensinamentos e

Ao Professor Dr. Gustavo pela co-orientação e

Aos professores do MPCOMP que nos incentivaram desde

Aos colegas do MPCOMP pela convivência durante as aulas

À Secretaria da Fazenda do Estado do Ceará pelo apoio e o

E, principalmente, à Deus, por tudo!

1.1. MOTIVAÇÃO E CONTEXTO DA PESQUISA ................................................. 6

1.2. O PROBLEMA DA SONEGAÇÃO DO ICMS .................................................. 7

1.3. OBJETIVO DA PESQUISA ......................................................................... 11

1.4. HIPÓTESES LEVANTADAS........................................................................ 11

1.5. OS DADOS UTILIZADOS NA PESQUISA .................................................... 12

1.6. CONCLUSÃO ........................................................................................... 17

TRABALHOS RELACIONADOS AO TEMA .................................................................. 18

2.1. TRABALHOS BASEADOS EM REDES NEURAIS ARTIFICIAIS ....................... 18

2.2. TRABALHOS RELACIONADOS A IMPOSTOS ............................................. 19

2.3. CONCLUSÃO ........................................................................................... 20

FUNDAMENTAÇÃO TEÓRICA .................................................................................. 21

3.1. INTELIGÊNCIA ARTIFICIAL ....................................................................... 21

3.2. DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS ....................... 21

3.3. MINERAÇÃO DE DADOS ......................................................................... 22

3.4. APRENDIZADO SUPERVISIONADO E NÃO SUPERVISIONADO .................. 22

3.5. REDES NEURAIS ARTIFICIAIS (RNAs) ....................................................... 24

3.6. CONCLUSÃO ........................................................................................... 43

O PROCESSO PROPOSTO ........................................................................................ 44

4.1. UTILIZAÇÃO DO CRISP-DM ..................................................................... 44

4.2. EXTENSÃO DO CRISP-DM ....................................................................... 46

4.3. UTILIZAÇÃO DAS RNA’s NO PROCESSO PROPOSTO ................................ 51

4.4. CONCLUSÃO ........................................................................................... 52

PREPARAÇÃO DE DADOS E APLICAÇÃO NO PROCESSO PROPOSTO ........................ 53

5.1. LIMPEZA E REDUÇÃO NOS DADOS ......................................................... 53

5.2. AGRUPAMENTOS E JUNÇÕES DOS DADOS ............................................. 54

5.3. AJUSTES NOS DADOS ............................................................................. 56

5.4. O CONJUNTO DE DADOS RESULTANTE ................................................... 59

5.5. CLUSTERIZAÇÃO COM REDES DE KOHONEN........................................... 61

5.6. SELEÇÃO DE ATRIBUTOS ........................................................................ 65

5.7. CLASSIFICAÇÃO COM REDES MLP........................................................... 67

5.8. CONCLUSÃO ........................................................................................... 75

AVALIAÇÃO E UTILIZAÇÃO DO PROCESSO .............................................................. 77

6.1. COMPARAÇÃO COM O MODELO SEM A CLUSTERIZAÇÃO DE KOHONEN 77

6.2. COMPARAÇÃO COM UM ALGORITMO DE ÁRVORES DE DECISÃO .......... 78

6.3. UTILIZANDO VALIDAÇÃO CRUZADA........................................................ 82

6.4. UTILIZAÇÃO OU DISTRIBUIÇÃO .............................................................. 83

6.5. CONCLUSÃO ........................................................................................... 85

CONCLUSÃO E TRABALHOS FUTUROS .................................................................... 86

7.1. CONCLUSÕES ......................................................................................... 86

7.2. TRABALHOS FUTUROS ............................................................................ 88

METODOLOGIA E FERRAMENTAS UTILIZADAS ....................................................... 90

2. IDEA® - Interactive Data Extration and Analisys.............................................. 93

APÊNDICE 2 ............................................................................................................. 128