Escolar Documentos
Profissional Documentos
Cultura Documentos
Dezembro de 2009
Universidade Estadual do Ceará - UECE
Centro de Ciências Tecnológicas - CCT
Instituto Federal de Educação, Ciência e Tecnologia do Ceará - IFCE
Diretoria de Pesquisa e Pós-Graduação - DIPPG
Dezembro de 2009
A553p Andrade, Helder da Silva
Um processo de mineração de dados aplicado ao
combate à sonegação fiscal do ICMS/ Helder da Silva
Andrade. Fortaleza, 2009.
158p. ; il.
Orientador: Prof. Dr. Jerffeson Teixeira de Souza.
Dissertação (Mestrado Profissional em Computação
Aplicada) – Universidade Estadual do Ceará, Centro de
Ciências e Tecnologia.
1. Mineração de Dados. 2. CRISP-DM. 3. Redes
Neurais Artificiais. 4. Sonegação. 5. ICMS. I. Universidade
Estadual do Ceará, Centro de Ciências e Tecnologia.
CDD:001.6
AGRADECIMENTOS
SUMÁRIO
SUMÁRIO ..................................................................................................................... 1
RESUMO ...................................................................................................................... 4
ABSTRACT .................................................................................................................... 5
CAPÍTULO 1.................................................................................................................. 6
INTRODUÇÃO........................................................................................................... 6
CAPÍTULO 2................................................................................................................ 18
CAPITULO 3................................................................................................................ 21
CAPÍTULO 4................................................................................................................ 44
CAPÍTULO 5................................................................................................................ 53
CAPÍTULO 6................................................................................................................ 77
CAPÍTULO 7................................................................................................................ 86
3
APÊNDICE 1 ............................................................................................................... 90
1. CRISP-DM ....................................................................................................... 90
3. CLEMENTINE® ................................................................................................ 97
TABELAS............................................................................................................... 128
RESUMO
O objetivo deste trabalho é propor um processo de mineração de dados aplicado ao
problema da sonegação do ICMS – Imposto sobre operações relativas à Circulação de
Mercadorias e sobre prestações de Serviços de transporte interestadual e
intermunicipal e de comunicação. O processo proposto consiste em uma extensão do
CRISP-DM (CRoss Industry Standard Process for Data Mining) através da utilização de
algoritmos de Redes Neurais Artificiais – RNA’s. A proposta divide a fase de
Modelagem do CRISP-DM em três subfases bem determinadas: Clusterização,
Seleção de Atributos e Classificação. Dois dos modelos clássicos de RNA’s foram
utilizados dentro do processo proposto. Uma RNA do tipo mapa auto-organizável
com algoritmo de Kohonen foi utilizada na fase de Clusterização para agrupamento
dos dados aproveitando as suas próprias características. Outra RNA do tipo
Perceptron Multicamadas (MLP) com algoritmo de retro propagação de erros foi
utilizada na fase de Classificação. Entre essas fases, uma outra foi inserida para
Seleção de Atributos, a qual utiliza o algoritmo C5.0, objetivando descartar dados não
significativos para a classificação, otimizar o tempo de treinamento e dar mais
qualidade ao processo. Para validar o processo foi utilizada uma base de dados típica
de uma administração tributária estadual e, ao final, para validá-lo, os resultados
foram avaliados e comparados com resultados de outros modelos.
ABSTRACT
The objective of this work is to propose a datamining process applied to the problem
of evasion in ICMS – Tax relative operations to the Circulation of Goods and on
services of transport and communication. The proposed process is an extension of
the CRISP-DM ("CRoss Industry Standard Process of Data Mining") using Artificial
Neural Networks (ANN’s) algorithms. The proposal divides the Modelling phase of
CRISP-DM in three subfases: Clustering, Feacture Selection and Classification. Two of
the classic models of RNA's were used inside of proposed process. A self-organized
map with Kohonen’s algorithm was used in the clustering phase for grouping data
conform their own characteristics. A multilayer perceptron (MLP) with
backpropagation algorithm was used in the classification phase. Between these two
phases, another phase was included for Feacture Selection using the C5.0 algorithm,
to discarding not significant data, optimize the training time and give more quality to
the process. To validate the process, a typical database of a tax administration was
used and, at the end of the work, to validate it, the results were appraised, compared
with results of other models.
CAPÍTULO 1
INTRODUÇÃO
1
Corresponde a todas as pessoas, físicas ou jurídicas, que pagam os tributos, seja na aquisição de produtos ou
serviços ou em outros fatos tributados. Esse conceito parte do pressuposto que o verdadeiro contribuinte no
caso do ICMS é o consumidor final de produtos ou serviços, que, no final das contas, é aquele que realmente
paga o imposto exigido, embutidos nos preços. Assim sendo, os estabelecimentos seriam apenas os
recolhedores do ICMS para os cofres públicos.
8
por conta da sonegação fiscal desse importante imposto. Neste sentido, este trabalho
tem sua relevância dentro de uma conjuntura governamental e social. Ele se reveste
numa contribuição para fortalecer a capacidade do Estado de manter bons níveis de
arrecadação e, consequentemente, os investimentos para a comunidade.
1.2.1. O ICMS
O ICMS é um imposto não cumulativo. Isso significa que o cálculo do valor a
ser recolhido pelos estabelecimentos2, recolhedores do imposto, deve ser calculado
como uma conta corrente em que os débitos são o imposto devido nas vendas e os
créditos são o imposto recolhido nas operações anteriores [VIANA NETO – 1995]. Por
exemplo, admitindo-se que a alíquota3 do ICMS seja 17,00 %, uma empresa adquire
mercadoria no valor de R$ 100,00 com R$ 17,00 de ICMS já embutido no valor da
compra. Se a empresa vender a mercadoria por R$ 150,00, terá que embutir R$ 25,50
de ICMS. O ICMS a recolher é a diferença entre o valor do imposto incluso na venda
(débito) e o valor incluso na compra (crédito), ou seja, R$ 8,50 (R$ 25,50 – R$ 17,00).
Esse cálculo deve ser processado por meio de uma apuração periódica com a
diferença entre o somatório de todos os débitos e o somatório de todos os créditos
[RIBEIRO NETO – 2006].
2
Unidades da pessoa jurídica que procede à venda de produtos ou serviços tributados e recolhe ICMS. Todos
eles devem ter organização administrativa e estar inscritos no CGF – Cadastro Geral da Fazenda.
3
É o percentual utilizado para o cálculo do imposto e aplicado sobre o valor da operação.
4
É a pessoa, física ou jurídica, encarregada de recolher os impostos, ou seja, de repassá-los para os cofres
públicos.
9
5
É o fato (operação ou prestação) no qual incide o imposto, ou seja, no qual é obrigatório lançar um percentual
relativo ao ICMS.
11
reforma tributária, tão desejada por todos no Brasil, onde todos poderão
pagar menos impostos sem que o governo perca arrecadação.
6
É o Código Nacional de Atividade Econômica: Codificação estabelecida pela CONCLA – Comissão Nacional de
Classificação que representa as atividades econômicas exercidas pelos contribuintes.
7
Representa a região fiscal, ou seja, as unidades de circunscrição regional no Estado do Ceará onde se
localizam os estabelecimentos.
8
É o regime estabelecido pela administração fazendária para o estabelecimento inscrito em seu cadastro no
que diz respeito à forma de recolhimento do ICMS. Em geral, nos Estados do Brasil, os regimes comuns padrões
13
são os de Empresa Normal, Empresa de Pequeno Porte e Micro Empresa. Os estabelecimentos são classificados
nos regimes em função do seu porte, ou seja, do volume de faturamento.
14
estabelecimento;
9
É a Declaração mensal de Informações Econômico-Fiscais. Declaração do próprio estabelecimento com todas
as suas operações e prestações além do cálculo do ICMS devido, com base nos documentos e livros fiscais,
apresentada mensalmente ao fisco estadual em meio eletrônico.
10
É o Código Fiscal de Operação e Prestação. Ele representa os tipos de operações ou prestações efetuadas
com mercadorias ou serviços pelos estabelecimentos.
15
11
São operações tributadas, mas que e lei determina que não sejam passíveis de cobrança de imposto. Pode
ser por tempo determinado ou indeterminado. Existem isenções não condicionadas, que a legislação dá direito
sem impor condições, e, também, isenções condicionadas, em que a legislação determina uma ou mais
condições para que se tenha direito à isenção.
12
Entre essas operações se enquadram as imunes, que são aquelas que a própria Constituição Federal impõe
imunidade a determinados tributos. Existem, ainda, as que são tributadas por outros impostos que não seja o
ICMS.
16
13
Instrumentos utilizados para lançar de oficio os valores devidos pelos contribuintes, decorrentes de infrações
cometidas.
14
Diligências e auditorias sofridas por um estabelecimento, podendo ser para uma simples averiguação de um
documento fiscal até uma verificação completa das suas operações e escrita fiscal.
17
1.6. CONCLUSÃO
CAPÍTULO 2
2.3. CONCLUSÃO
CAPITULO 3
FUNDAMENTAÇÃO TEÓRICA
um “professor” assinala erros e acertos. Portanto, sob esses dois paradigmas, nós
temos o aprendizado supervisionado e o não supervisionado.
fossem acrescidas de sinapses, elas poderiam ser treinadas para classificar certos
tipos de padrões [BRAGA, CARVALHO e LUDEMIR – 2000]. Além da topologia,
estrutura de ligação dos neurônios, Rosemblatt propôs um algoritmo de treinamento
da rede.
Função de Ativação
x1
w1j Saída
w2j ∑|Fa|T
x2 yj
.
. .
. .
. wij
Função de Transferência
xi
Para simplificar, na maioria dos modelos, a função soma está dentro da função
de ativação, ou seja, esta última é que faz a soma das entradas ponderadas pelos
pesos sinápticos. No presente trabalho utilizaremos essa abordagem e o neurônio
artificial ficará conforme a figura 3-3.
Função de Ativação
x1
w1j Saída
w2j Fa | T
x2 yj
.
. .
. .
. wij
Função de Transferência
xi
Figura 3-3: Neurônio artificial com as funções ativação e transferência.
29
Onde:
wij Peso sináptico da entrada i com o neurônio j, que na figura 3-3 é apenas
um. A equação 3.1 será utilizada também para cálculo da função de ativação quando
tivermos mais de um neurônio;
xi Valor da entrada i.
Degrau y Rampa y
1 1
x 1
x
-1
x < 0, y = 0
x < 0, y = -1 0 <= x <= 1, y = x
x > 0, y = 1 (a) X > 0, y = 1 (b)
Sigmóide y
1
y = 1/(1+e-x)
(c)
limites quando há grandes valores positivos ou negativos passados para ela. Nessa
última função a transição para os extremos é suave.
Entrada excitatória
Axônio (saída)
Entrada inibitória
O Perceptron
Frank Rosenblatt, nos anos 50, criou uma rede de múltiplos neurônios
chamada de perceptron [KOVÁCS – 2006]. O perceptron proposto por Rosenblatt tem
uma arquitetura simples, composta por uma camada de unidades de entrada que
recebem os sinais externos e por um conjunto de neurônios que processam as
funções para resultar na saída da rede, não tendo camadas intermediárias. Em função
da sua simplicidade, este modelo só pode ser aplicado em problemas de decisão
simples.
W11
x1 Fa|T
y1
W21
.
.
x2 .
Wi1
.
.
.
xi
Sendo:
t iteração;
η taxa de aprendizado;
atributo alvo deve existir para estabelecer as saídas desejadas, caracterizando, assim,
o aprendizado supervisionado.
Sendo:
∑j=1...n |ε j(t)|
ε(t) = (3.4)
n
Sendo:
j índice do neurônio
∑t=1...m |ε(t)|
εmédio = (3.5)
m
34
Sendo:
m número de iterações.
b1 W01
W11
x1 Fa|T
W21
.
.
x2 .
Wi1
.
.
.
xi
7. Caso o critério de parada não seja satisfeito, faz-se o ajuste dos pesos
conforme a expressão 3.2 e repetem-se todos os passos a partir do 2º.
O Perceptron Multicamadas
Quando John Hopfield, em 1982, apresentou as redes multicamadas ou MLP
(Multilayer Perceptron) o interesse pelas RNAs ressurgiu. O modelo é constituído de
neurônios interconectados em duas ou mais camadas e cujo aprendizado também
está nos pesos sinápticos, com a diferença óbvia de que existem mais pesos a serem
ajustados do que no perceptron de uma só camada. A grande contribuição de
Hopfield foi mesmo o algoritmo de aprendizagem back-propagation utilizado no
treinamento das redes MLP. O back-propagation é um algoritmo de retropropagação
de erros e foi apresentado pela primeira vez por Paul Werbos em 1974 no paper
Beyond regression: News tools for prediction and analysis in the behavioral sciences.
Basicamente o algoritmo faz com que os erros calculados sejam propagados de volta,
da camada de saída para a camada de entrada, passando pelas camadas
intermediárias (ocultas) e fazendo o ajuste dos pesos recursivamente [VALENÇA –
2005].
36
x1 Fa|T Fa|T y1
x2 Fa|T Fa|T y2
. . .
. . .
. . .
xi Fa|T Fa|T yj
Figura 3-8: Perceptron com uma camada de entrada, uma oculta e uma de saída.
1
ε(t) = ∑j=1...n ε2j(t) (3.6)
2
j índice do neurônio
37
E o erro médio para o conjunto de treinamento, que pode ser usado para
determinar o encerramento desta fase, contando todas as iterações, é dado por:
1
εmédio = ∑t=1...m ε(t) (3.7)
m
Sendo:
m número de iterações.
Onde:
Após o cálculo do gradiente e possível fazer o ajuste dos pesos (e do bias) dos
neurônios da ultima camada, que, pela aplicação da regra delta, se dá conforme a
expressão 3.9.
ser o numero máximo de iterações ou um valor limite para o erro médio [LUDWIG JR.
e COSTA – 2007].
A rede de Kohonen
Teuvo Kohonen apresentou um modelo de rede neural do tipo não
supervisionada que usa unidades de entrada para receber sinais e neurônios em uma
camada de saída, que se organizam competindo entre si para classificar as entradas
recebidas. Este tipo de rede é conhecido como mapa auto-organizável ou SOM (Self-
Organized Map) e seu aprendizado é não supervisionado, pois não há a passagem de
39
xi Unidades de entrada;
Para passar pelas etapas acima citadas, é claro que o algoritmo da rede de
Kohonen deve começar com a definição dos pesos sinápticos entre as unidades de
entrada e os neurônios de rede, preferencialmente com valores pequenos. Ao passar
a primeira iteração para a rede, os neurônios devem competir entre si e um deles
deve ser o vencedor. Para escolha do vencedor utiliza-se uma métrica para medir a
distância entre o vetor dos dados de entrada e os neurônios da rede. O vencedor é
aquele que apresenta a menor distância entre as entradas e o seu vetor de pesos
[LUDWIG JR. e COSTA – 2007]. Neste trabalho consideraremos a distância euclidiana
que, em geral, é a mais utilizada.
Sendo:
j índice do neurônio;
ljk2
(– 2σ2 ) (3.13)
hjk = e
Sendo:
Sendo:
t
τ (3.15)
σ(t) = σ0 e
42
t
τ (3.16)
η(t) = η0 e
Sendo:
t número da iteração;
τ constante de tempo.
7. Faz-se um teste com base em um critério de parada que pode ser uma
distância euclidiana aceitável;
3.6. CONCLUSÃO
CAPÍTULO 4
O PROCESSO PROPOSTO
1. Entendimento do problema
4. Modelagem
5. Avaliação
6. Utilização ou distribuição
Entendimento
dos Dados
Entendimento Preparação
do Negócio dos Dados
DADOS
Modelagem
Utilização
Avaliação
Neste trabalho foi realizada uma extensão em uma das fases do CRISP-DM
sem alterar, contudo, a sua filosofia básica. A extensão foi proposta na forma de uma
especialização para o problema da sonegação do ICMS, mais precisamente na fase de
modelagem onde fazemos uma explosão desta em três subfases:
1. Clusterização;
2. Seleção de atributos;
3. Classificação.
47
Entendimento
dos Dados
Preparação
dos Dados
Entendimento
do Negócio
Clusterização
(RNA)
DADOS
Seleção de
Atributos
Utilização
Classificação
(RNA)
Avaliação
O primeiro ajuste foi feito após a clusterização. Esta fase recebe como entrada
um conjunto de dados com um atributo alvo o qual armazena informação sobre a
sonegação ou não do ICMS de uma empresa (SONEGA = S ou N). Conforme a figura 4-
3, a saída desta fase são as coordenadas dos clusters gerados que substituirão o
48
atributo alvo inicial. O atributo SONEGA será substituído por dois outros, processados
pela própria rede de Kohonen escolhida para esta etapa, contemplando não só
informação sobre a sonegação de ICMS mais, também, informações sobre os
agrupamentos gerados. Com essa fase o atributo alvo ganha mais qualidade na
informação para passar para a fase seguinte.
Saída:
Dados iniciais RNA Kohonen
(Clusterização) Coordenadas (X,Y)
1 atributo alvo dos clusters
SONEGA = S/N
Saída:
Dados Algoritmo de Atributos selecionados
clusterizados Seleção de com base nos
2 atributos alvo – Atributos atributos alvo –
Coordenadas (X,Y) Coordenadas (X,Y)
RNA com seus pesos ajustados, pronta para proceder à classificação final das
empresas dentro dos agrupamentos gerados na fase de clusterização.
Dados
selecionados
2 atributos alvo:
Coordenadas (X,Y)
ε(erro)
Saídas desejadas
–
Saídas calculadas
RNA MLP
Pesos ajustados
(Classificação)
Dados
processados RNA projetada
MLP
Filtro dos
atributos
selecionados
RNA Kohonen
Dados
projetada RNA projetada
processados
MLP
Filtro dos
atributos
selecionados
Filtro dos
atributos
selecionados
3
RNA Kohonen Seleção de
Dados
projetada atributos RNA projetada
processados
MLP
2
1 Filtro dos
atributos
selecionados
4.4. CONCLUSÃO
CAPÍTULO 5
Havia um grande volume de dados a ser trabalhado. Foi necessário que estes
passassem por processos de restrição de volume. No caso da presente pesquisa foi
necessário descartar registros com dados anormais e que causariam distorções em
qualquer análise.
54
A primeira tarefa de restrição de volume foi a retirada dos dados referente aos
estabelecimentos classificados com regime de recolhimento de Micro-Empresas (ME)
ou Empresas de Pequeno Porte (EPP), cuja arrecadação de ICMS não é representativa
para os Estados. Em geral, esses estabelecimentos recolhem o ICMS com base em um
percentual, aplicado sobre o valor de seu faturamento, menor do que o das empresas
de regime de recolhimento Normal.
A esses dados foram juntados os dados de arrecadação, dos postos fiscais, das
operações de cartão de crédito e de fiscalização. Para isso foram necessárias
operações de relacionamento entre tabelas, na maioria das vezes utilizando o campo
de identificação dos estabelecimentos (sequencial) como campo chave. As junções
entre as tabelas visam à geração de um arquivo único com todos os atributos
escolhidos, a qual é ilustrada na tabela 5-1.
Sequencial VC1100 VC1200 ... VC5100 VC5200 ... BC1100 BC1200 ...
Estabelec.
1 x.xxx,xx x.xxx,xx ... x.xxx,xx x.xxx,xx ... x.xxx,xx x.xxx,xx ...
2 x.xxx,xx x.xxx,xx ... x.xxx,xx x.xxx,xx ... x.xxx,xx x.xxx,xx ...
3 x.xxx,xx x.xxx,xx ... x.xxx,xx x.xxx,xx ... x.xxx,xx x.xxx,xx ...
... ... ... ... ... ... ... ... ... ...
Tabela 5-1: Exemplo do agrupamento dos valores da DIEF por exercício fiscal.
Alguns ajustes e formatação nos dados (atributos) foram feitos, sem mudar os
seus significados, conforme veremos a seguir.
15
Atributos categóricos são qualitativos e representam características não quantificáveis, armazenam
categorias e podem ser nominais ou ordinais.
57
Grupo Descrição
... ...
08 EXTRAÇÃO DE MINERAIS NÃO-METÁLICOS
09 ATIVIDADES DE APOIO À EXTRAÇÃO DE MINERAIS
10 FABRICAÇÃO DE PRODUTOS ALIMENTÍCIOS
11 FABRICAÇÃO DE BEBIDAS
12 FABRICAÇÃO DE PRODUTOS DO FUMO
13 FABRICAÇÃO DE PRODUTOS TÊXTEIS
14 CONFECÇÃO DE ARTIGOS DO VESTUÁRIO E ACESSÓRIOS
... ...
Tabela 5-4: Exemplo da tabela de grupos de CNAE.
O CFOP foi utilizado para formação das colunas do vetor de dados para as
RNA’s. Existem mais de 520 CFOP’s. Portanto, a redução para grupos de códigos
similares permitiu uma redução no número de atributos desse vetor. A tabela 5-5
mostra alguns exemplos, sendo que a relação completa está no apêndice 2.
Para compensar este efeito é feita uma codificação nos campos numéricos.
Todos são transformados para uma mesma escala com valores entre 0 e 1, com base
na fórmula abaixo:
xi – xmin
xi' = (5.1)
xmax – xmin
Sendo:
59
Esse vetor inicial de dados tem grande parte dos atributos definidos em função
dos CFOP’s. Além disso, para cada grupo de CFOP, os dados foram especificados pelo
tipo de valores das operações. Por exemplo, o CFOP do grupo 1100, gerou atributos
com o Valor Contábil (VC1100), a Base de Cálculo do ICMS normal (BC1100), o ICMS
normal (IC1100), as operações Isentas de ICMS (IS1100), as Outras operações não
tributadas (OU1100), a Base de Cálculo da Substituição Tributária (BCST1100) e o
ICMS da Substituição Tributária (ICST1100). Isso é extremamente importante, pois
garante maior detalhamento e precisão nos valores das operações das empresas.
Os gráficos das figuras 5-1 e 5-2 representam distribuições dos dados das
empresas sonegadoras (SONEGA=S) e não sonegadoras (SONEGA=N) na capital e no
60
SEQ_CONT LOCAL ATIV_ ... VLR_PRI ... VC1100 ... BC1100 ... SONEGA
MESES
1 C 250 ... 456.430,00 ... 1.995.400,00 ... 856.450,00 ... N
2 C 56 ... 9.281,12 ... 67.342,11 ... 67.342,11 ... S
3 I 20 ... 55.700,00 ... 260.000,00 ... 200.000,00 ... N
... ... ... ... ... ... ... ... ... ... ...
Tabela 5-7: Esboço do vetor inicial de dados com alguns atributos.
2. Gerar uma quantidade de clusters não muito grande (em torno de 10)
para facilitar a análise de um especialista.
o Comprimento (X): 5
o Altura (Y): 4
A figura 5-3 nos dá uma visão das entradas e saída da fase de clusterização.
volume arrecadação, das aquisições registradas nos postos fiscais, das vendas com
cartão de crédito, entre outras que estavam nos atributos do vetor inicial de dados.
Voltando à tabela 5.9, podemos citar o exemplo dos clusters (4,2) e (4,3) que
agrupam estabelecimentos caracterizados como sonegadores localizados na capital.
No entanto, no cluster (4,2) os estabelecimentos têm maior porte, basta ver pelo
valor principal de arrecadação (R$ 3.208.140,00). Já no cluster (4,3) o valor principal
de arrecadação (R$ 127.036,00) é bem menor. Esse fato merece atenção especial,
pois as empresas do cluster (4,2) devem ser fiscalizadas em primeiro lugar devido ao
potencial de recuperação de ICMS sonegado.
Depois, é feito um ranking dos atributos restantes, com uma medida baseada
na combinação de dois métodos, um para avaliar atributos categóricos ou outro para
atributos contínuos. Para os atributos contínuos o método de avaliação é o da
ANOVA (Análise de Variância) e para os atributos categóricos é o método do Qui-
quadrado. O item 3 do Apêndice 1 contém e especificação dos métodos utilizados
pelo Clementine® aplicados nessa fase.
5.7.2. Treinamento
Foi necessário planejar algumas arquiteturas iniciais para treinar, testar as
suas qualidades e verificar a validade dos primeiros resultados. Foram projetadas
redes com uma e com duas camadas escondidas. Todas as redes treinadas tinham os
neurônios na camada de saída representando a combinação dos valores possíveis das
coordenadas X e Y dos atributos alvo.
69
Figura 5-9: Opções de topologias do método Múltiplo com 2 a 50 neurônios em uma camada.
Por padrão o Clementine® para de treinar uma rede neural quando esta atinge
o seu estado otimizado no treinamento. Quando se estabelece um intervalo muito
grande de neurônios nas camadas intermediárias, como foi o caso da presente
pesquisa, que na primeira rodada de treinos utilizou uma camada intermediária
variando de 2 a 300 neurônios, é necessário consumir bastante tempo nessa etapa.
Foi necessário, então, quebrar o treino em etapas menores para que o sistema
não ficasse rodando por dias sem parar. Portanto, adotamos uma divisão nos
intervalos da quantidade de neurônios, sempre na primeira camada escondida,
conforme a tabela 5-11.
o o
Rodada de N Neurônios Camada N Neurônios
treinos 1 Camada 2
1 2 a 50 -
2 51 a 100 -
3 101 a 150 -
4 151 a 200 -
5 201 a 250 -
6 251 a 300 -
7 2 a 50 2 a 100
8 51 a 100 2 a 100
9 101 a 150 2 a 100
10 151 a 200 2 a 100
11 201 a 250 2 a 100
12 251 a 300 2 a 100
Tabela 5-11: Divisão dos intervalos da quantidade de neurônios.
Observando a tabela 5-11, podemos observar que a partir da sétima rodada foi
introduzida uma segunda camada escondida. A partir daí os tempos de treinamento
aumentaram bastante, de forma que foi necessário um período maior de
computação para cada rodada.
Figura 5-10: Configuração do método Múltiplo com 2 a 50 neurônios na primeira camada e 2 a 100
neurônios na segunda camada.
Figura 5-11: Configuração dos atributos alvo ($KX-Kohonen e $KY-Kohonen) e seus valores possíveis.
Após todo o processamento chegamos às configurações finais da rede
escolhida:
• Acurácia: 92,488%;
Figura 5-12: Configuração da rede de melhor desempenho com 44 neurônios na primeira camada e
38 neurônios na segunda camada.
A taxa de aprendizagem controla o quanto os pesos são ajustados. Ela muda
durante o processo de aprendizagem, ou seja, ela vai decrescendo conforme uma
valor de decréscimo (Eta decay) expresso em número de ciclos. O treinamento inicia
com um valor inicial de taxa de aprendizagem (Inicial Eta) que decresce até um valor
mais baixo especificado (Low Eta). Ao chegar ao valor mínimo ela é reiniciada com
um valor mais alto (High Eta), decrescendo novamente até o valor mais baixo
novamente. Este ciclo se repete até o final do treinamento.
74
384 atributos
incluindo os 382
selecionados e os
novos atributos alvo
– coordenadas (X,Y)
ε(erro)
Saídas desejadas
–
Saídas calculadas
RNA MLP
382 entradas Saída:
2 camadas Cluster
Coordenadas X,Y
5.8. CONCLUSÃO
CAPÍTULO 6
• Validação cruzada.
• Acurácia: 86,34%
Treino Teste
Amostra Qtde Acurácia Qtde Acertos
Amostra 1 8226 90,512 914 83,04%
Amostra 2 8226 87,935 914 80,53%
Amostra 3 8226 90,445 914 80,53%
Amostra 4 8226 89,515 914 80,63%
Amostra 5 8226 88,439 914 80,63%
Amostra 6 8226 89,406 914 80,53%
Amostra 7 8226 86,518 914 80,20%
Amostra 8 8226 88,828 914 81,51%
Amostra 9 8226 90,032 914 83,26%
Amostra 10 8226 89,096 914 76,15%
Médias 89,073 80,70%
Tabela 6-3: Média do desempenho da validação cruzada com dez amostras.
83
Ao final foi calculada a média dos resultados das iterações com as amostras
treinamento e teste e foi obtido o resultado demonstrado na tabela 6-3.
2. Inflação acumulada alta, que ocorre em períodos com altos índices anuais
ou quando o acumulado em alguns anos está elevado a ponto de elevar os
valores dos atributos em muitas atividades econômicas;
6.5. CONCLUSÃO
CAPÍTULO 7
7.1. CONCLUSÕES
APÊNDICE 1
1. CRISP-DM
1. ENTENDIMENTO DO PROBLEMA:
4. MODELAGEM:
5. AVALIAÇÃO:
92
6. UTILIZAÇÃO OU DISTRIBUIÇÃO:
Índices – É possível criar índices nos campos dos arquivos para melhorar o
desempenho durante pesquisas, sumarizações, extrações ou outras funções;
3. CLEMENTINE®
Clementine® tem uma interface gráfica que propicia ao usuário aplicar seu
conhecimento do negocio para construir modelos de mineração de dados. Varias
técnicas são disponibilizadas, tais como predição, classificação, segmentação,
associação e outros algoritmos.
Interface do Clementine®
Todos os recursos de mineração de dados do Clementine® estão integrados em
uma interface de visual, que aceita, inclusive, programação. Cada operação a ser
99
executada é representada por um node (Nó), e esses Nós são ligados formando um
stream (Fluxo).
Construindo Streams
Como vimos acima, o Clementine® utiliza uma metodologia em que os dados
passam por um Fluxo de Nós, chamado de stream (Fluxo). Os Nós representam
operações a serem executadas com os dados, enquanto as ligações entre eles
indicam a direção do Fluxo de dados. O usuário deve começar com um Nó para ler os
dados, depois fazer estes passarem por outros Nós em série, que farão a
manipulação, para, ao final, enviar o resultado a um destino, que pode ser um
arquivo texto, tabelas em um banco de dados ou um arquivo do tipo SPSS, que é um
formato de dados do próprio Clementine®.
Fluxos são como scripts que podem ser salvos em um arquivo cuja extensão é
“.STR” e podem ser abertos, alterados e executados novamente, mesmo com
arquivos de dados diferentes.
• Source (Fontes): contém os Nós que você pode usar para importar dados
em diversos formatos, desde arquivos texto até bancos de dados com
conexão ODBC;
• Record Ops (Operações com Registros): contém os Nós usados para fazer
manipulação ou alterações nos dados;
• Graphs (Gráficos): contém os Nós que você pode usar para representar os
dados em forma de gráficos;
102
• Output (Saída): contém os Nós utilizados para obter informações dos dados
em qualquer parte de um stream, bem como Nós usados para exportar ou
dar saída aos dados.
Uma vez na tela do Fluxo, o Nó pode ser configurado. Basta clicar duas vezes
no Nó, dentro do Fluxo, para exibir sua caixa de diálogo. As opções disponíveis
dependem do tipo de Nó.
Nós acrescentados à janela do Fluxo não formam um Fluxo de dados até que
eles sejam conectados. Conexões entre os Nós indicam a direção em que os dados
vão percorrer. Há quatro formas de conectar Nós:
1. Clicando duas vezes na paleta de nós – É o modo mais simples para formar
um Fluxo, pois automaticamente conecta o Nó ao Nó selecionado na tela
de Fluxo. Apesar de ser simples, esse método merece atenção, pois alguns
103
Nós, mesmo selecionados no Fluxo, não aceitam conexão para outro, então
um Nó anterior é que será conectado ao novo Nó;
• Conexão de um Nó terminal;
Na aba Streams o usuário poderá clicar com o botão direito do mouse, para acesso às
seguintes funções:
• Salvar Fluxos;
• Fechar Fluxos;
• Abrir Fluxos;
Para parar a execução de um Fluxo, você pode escolher a opção Stop execution
(Para a execução) no menu Tools (Ferramentas) ou, ainda, clicar no botão de parada
de cor vermelha na barra de ferramentas.
• Output (.cou) – arquivo utlizados para gravar somente Nós de saídas com
os resultados de um processo;
• Use type node settings (Usar configurações de Nós de tipo) – Esta opção é
padrão e permite que o Nó de Rede Neural utilize dados provenientes de
Nós de tipos de dados (normalmente Nós de origem de dados);
108
o Prune (Poda) – Começa com uma grande Rede Neural e vai removendo
as unidades mais fracas nas camadas de entradas e escondidas durante
o processo de treinamento;
• Stop on (Parar em) – Você pode selecionar um dos critérios de para abaixo:
o Default (Padrão): Com esta opção a rede o treinamento para quando ela
tiver alcançado seu estado de treinamento ótimo. Se esta configuração
for usada com o método de treinamento Múltiplo, as redes que não
fizerem um bom treinamento serão descartadas;
o Speed (Velocidade): faz com que o algoritmo nunca use o disco para
melhorar desempenho.
• Use binary set encoding (Usar codificação binária) – Se esta opção for
selecionada, o Clementine® usará um esquema de codificação para os
campos. Para conjuntos de campos com um grande número de valores de
entrada é uma boa opção, mas, certamente, a rede deverá ser mais
complexa, ou seja, com mais neurônios ou mesmo camadas escondidas.
• Show feedback graph (Mostra retorno gráfico) – Opção usada para ver um
gráfico mostrando a precisão da rede pelo tempo de aprendizagem. Se
você selecionar a opção seguinte (gerar um arquivo de log) você verá um
segundo gráfico mostrando o conjunto de treinamento e as métricas do
teste.
• Generate log file (Gerar um arquivo de log) – Se esta opção for selecionada,
informações sobre o processo de treinamento serão gravadas em um
arquivo de log. Você pod especificar o nome e o local do arquivo de log.
4. Prune Method
5. RBFN Method
• Use type node settings (Usar configurações de Nós de tipo) – Esta opção é
padrão e, como no Nó de Rede Neural, permite que o Nó de Rede Neural
utilize dados provenientes de Nós de tipos de dados;
• Show feedback graph (Mostra retorno gráfico) – Opção usada para ver uma
representação gráfica durante o treinamento. A força dos neurônios é
representada por cores. O Vermelho representa uma unidade vencedora
em muitos registros e o branco representa uma unidade que vence em
poucos ou nenhum registro.
• Stop on (Parar em) – Você pode selecionar um dos critérios de para abaixo:
o Default (Padrão): Com esta opção a rede o treinamento para quando ela
tiver alcançado seu estado de treinamento ótimo baseado em
parâmetros internos;
Selecionando esta opção, você pode fixar uma semente aleatória com um
valor específico de forma que o modelo resultante é possa se reproduzido
com exatidão.
o Speed (Velocidade): faz com que o algoritmo nunca use o disco para
melhorar desempenho.
neurônio vencedor. Os nomes dos campos são gerados com os prefixos $KX e $KY
mais o nome do modelo.
Retirando atributos
Este passo remove atributos que não provêem informação útil para predição.
• Atributos categóricos que têm uma única categoria para mais que um
percentual (%) de casos;
• Atributos categóricos que têm categorias diferentes para um percentual
(%) dos casos.
• Atributos contínuos que têm um coeficiente de variação maior que um
determinado valor.
• Atributos contínuos que têm desvio padrão maior que um determinado
valor;
(A1.1)
Abaixo da hipótese nula, O Chi-quadrado de Pearson converge
assintoticamente a uma distribuição Qui-quadrada χ2 com graus de liberdade:
d = (I - 1) (J - 1) (A1.2)
O valor P baseado no Qui-quadrado de Pearson X2 é calculado por valor P =
Prob (χ2 > X2) onde:
125
(A1.3)
Os atributos preditores são classificados da seguinte forma:
1. Ordenados pelo valor P na ordem crescente;
2. Se acontecerem empates, os atributos são ordenados através do Qui-
quadrado em ordem decrescente;
3. Se ainda acontecerem empates, os atributos são ordenados por grau de
liberdade d em ordem crescente;
4. Se ainda acontecerem empates, os atributos são ordenados pela ordem do
arquivo de dados.
As formulas acima usam a notações abaixo:
X = Atributo preditor com I categorias.
Y = Atributo alvo com J categorias.
N = Número total de casos.
Nij = Número de casos com X = i and Y = j.
Ni. = Número de casos com X = i.
N.j = Número de casos com Y = j.
Se todos os atributos preditores forem contínuos
Se todos os atributos preditores forem contínuos são usados valores P
baseados na estatística F. A idéia é executar um teste F de ANOVA (Análise de
Variância) de fator único para cada atributo contínuo. Isto testa se todas as classes
diferentes de Y têm a mesma média de X.
Valor P baseado em estatísticas F:
O valor P é calculado por valor P = Prob {F (J - 1, N - J) > F}, onde:
(A1.4)
126
Selecionando os atributos
Se o comprimento da lista de atributos a serem selecionados não for
especificado pelo usuário, o comprimento da lista é especificado pela fórmula
seguinte. L0 é o número total de atributos em análise. O comprimento da lista L pode
ser determinado por:
(A1.5)
APÊNDICE 2
TABELAS
Grupo Descrição
01 AGRICULTURA, PECUÁRIA E SERVIÇOS RELACIONADOS
02 PRODUÇÃO FLORESTAL
03 PESCA E AQÜICULTURA
05 EXTRAÇÃO DE CARVÃO MINERAL
06 EXTRAÇÃO DE PETRÓLEO E GÁS NATURAL
07 EXTRAÇÃO DE MINERAIS METÁLICOS
08 EXTRAÇÃO DE MINERAIS NÃO-METÁLICOS
09 ATIVIDADES DE APOIO À EXTRAÇÃO DE MINERAIS
10 FABRICAÇÃO DE PRODUTOS ALIMENTÍCIOS
11 FABRICAÇÃO DE BEBIDAS
12 FABRICAÇÃO DE PRODUTOS DO FUMO
13 FABRICAÇÃO DE PRODUTOS TÊXTEIS
14 CONFECÇÃO DE ARTIGOS DO VESTUÁRIO E ACESSÓRIOS
PREPARAÇÃO DE COUROS E FABRICAÇÃO DE ARTEFATOS DE COURO, ARTIGOS PARA VIAGEM E
15
CALÇADOS
16 FABRICAÇÃO DE PRODUTOS DE MADEIRA
17 FABRICAÇÃO DE CELULOSE, PAPEL E PRODUTOS DE PAPEL
18 IMPRESSÃO E REPRODUÇÃO DE GRAVAÇÕES
19 FABRICAÇÃO DE COQUE, DE PRODUTOS DERIVADOS DO PETRÓLEO E DE BIOCOMBUSTÍVEIS
20 FABRICAÇÃO DE PRODUTOS QUÍMICOS
21 FABRICAÇÃO DE PRODUTOS FARMOQUÍMICOS E FARMACÊUTICOS
22 FABRICAÇÃO DE PRODUTOS DE BORRACHA E DE MATERIAL PLÁSTICO
23 FABRICAÇÃO DE PRODUTOS DE MINERAIS NÃO-METÁLICOS
24 METALURGIA
25 FABRICAÇÃO DE PRODUTOS DE METAL, EXCETO MÁQUINAS E EQUIPAMENTOS
26 FABRICAÇÃO DE EQUIPAMENTOS DE INFORMÁTICA, PRODUTOS ELETRÔNICOS E ÓPTICOS
27 FABRICAÇÃO DE MÁQUINAS, APARELHOS E MATERIAIS ELÉTRICOS
28 FABRICAÇÃO DE MÁQUINAS E EQUIPAMENTOS
29 FABRICAÇÃO DE VEÍCULOS AUTOMOTORES, REBOQUES E CARROCERIAS
30 FABRICAÇÃO DE OUTROS EQUIPAMENTOS DE TRANSPORTE, EXCETO VEÍCULOS AUTOMOTORES
31 FABRICAÇÃO DE MÓVEIS
32 FABRICAÇÃO DE PRODUTOS DIVERSOS
33 MANUTENÇÃO, REPARAÇÃO E INSTALAÇÃO DE MÁQUINAS E EQUIPAMENTOS
35 ELETRICIDADE, GÁS E OUTRAS UTILIDADES
36 CAPTAÇÃO, TRATAMENTO E DISTRIBUIÇÃO DE ÁGUA
37 ESGOTO E ATIVIDADES RELACIONADAS
38 COLETA, TRATAMENTO E DISPOSIÇÃO DE RESÍDUOS; RECUPERAÇÃO DE MATERIAIS
39 DESCONTAMINAÇÃO E OUTROS SERVIÇOS DE GESTÃO DE RESÍDUOS
41 CONSTRUÇÃO DE EDIFÍCIOS
42 OBRAS DE INFRA-ESTRUTURA
43 SERVIÇOS ESPECIALIZADOS PARA CONSTRUÇÃO
45 COMÉRCIO E REPARAÇÃO DE VEÍCULOS AUTOMOTORES E MOTOCICLETAS
46 COMÉRCIO POR ATACADO, EXCETO VEÍCULOS AUTOMOTORES E MOTOCICLETAS
129
47 COMÉRCIO VAREJISTA
49 TRANSPORTE TERRESTRE
50 TRANSPORTE AQUAVIÁRIO
51 TRANSPORTE AÉREO
52 ARMAZENAMENTO E ATIVIDADES AUXILIARES DOS TRANSPORTES
53 CORREIO E OUTRAS ATIVIDADES DE ENTREGA
55 ALOJAMENTO
56 ALIMENTAÇÃO
58 EDIÇÃO E EDIÇÃO INTEGRADA À IMPRESSÃO
ATIVIDADES CINEMATOGRÁFICAS, PRODUÇÃO DE VÍDEOS E DE PROGRAMAS DE TELEVISÃO;
59
GRAVAÇÃO DE SOM E EDIÇÃO DE MÚSICA
60 ATIVIDADES DE RÁDIO E DE TELEVISÃO
61 TELECOMUNICAÇÕES
62 ATIVIDADES DOS SERVIÇOS DE TECNOLOGIA DA INFORMAÇÃO
63 ATIVIDADES DE PRESTAÇÃO DE SERVIÇOS DE INFORMAÇÃO
64 ATIVIDADES DE SERVIÇOS FINANCEIROS
65 SEGUROS, RESSEGUROS, PREVIDÊNCIA COMPLEMENTAR E PLANOS DE SAÚDE
ATIVIDADES AUXILIARES DOS SERVIÇOS FINANCEIROS, SEGUROS, PREVIDÊNCIA COMPLEMENTAR E
66
PLANOS DE SAÚDE
68 ATIVIDADES IMOBILIÁRIAS
69 ATIVIDADES JURÍDICAS, DE CONTABILIDADE E DE AUDITORIA
70 ATIVIDADES DE SEDES DE EMPRESAS E DE CONSULTORIA EM GESTÃO EMPRESARIAL
71 SERVIÇOS DE ARQUITETURA E ENGENHARIA; TESTES E ANÁLISES TÉCNICAS
72 PESQUISA E DESENVOLVIMENTO CIENTÍFICO
73 PUBLICIDADE E PESQUISA DE MERCADO
74 OUTRAS ATIVIDADES PROFISSIONAIS, CIENTÍFICAS E TÉCNICAS
75 ATIVIDADES VETERINÁRIAS
77 ALUGUÉIS NÃO-IMOBILIÁRIOS E GESTÃO DE ATIVOS INTANGÍVEIS NÃO-FINANCEIROS
78 SELEÇÃO, AGENCIAMENTO E LOCAÇÃO DE MÃO-DE-OBRA
79 AGÊNCIAS DE VIAGENS, OPERADORES TURÍSTICOS E SERVIÇOS DE RESERVAS
80 ATIVIDADES DE VIGILÂNCIA, SEGURANÇA E INVESTIGAÇÃO
81 SERVIÇOS PARA EDIFÍCIOS E ATIVIDADES PAISAGÍSTICAS
SERVIÇOS DE ESCRITÓRIO, DE APOIO ADMINISTRATIVO E OUTROS SERVIÇOS PRESTADOS ÀS
82
EMPRESAS
84 ADMINISTRAÇÃO PÚBLICA, DEFESA E SEGURIDADE SOCIAL
85 EDUCAÇÃO
86 ATIVIDADES DE ATENÇÃO À SAÚDE HUMANA
ATIVIDADES DE ATENÇÃO À SAÚDE HUMANA INTEGRADAS COM ASSISTÊNCIA SOCIAL, PRESTADAS
87
EM RESIDÊNCIAS COLETIVAS E PARTICULARES
88 SERVIÇOS DE ASSISTÊNCIA SOCIAL SEM ALOJAMENTO
90 ATIVIDADES ARTÍSTICAS, CRIATIVAS E DE ESPETÁCULOS
91 ATIVIDADES LIGADAS AO PATRIMÔNIO CULTURAL E AMBIENTAL
92 ATIVIDADES DE EXPLORAÇÃO DE JOGOS DE AZAR E APOSTAS
93 ATIVIDADES ESPORTIVAS E DE RECREAÇÃO E LAZER
94 ATIVIDADES DE ORGANIZAÇÕES ASSOCIATIVAS
REPARAÇÃO E MANUTENÇÃO DE EQUIPAMENTOS DE INFORMÁTICA E COMUNICAÇÃO E DE OBJETOS
95
PESSOAIS E DOMÉSTICOS
96 OUTRAS ATIVIDADES DE SERVIÇOS PESSOAIS
97 SERVIÇOS DOMÉSTICOS
99 ORGANISMOS INTERNACIONAIS E OUTRAS INSTITUIÇÕES EXTRATERRITORIAIS
130
da mesma empresa.
1.650 1.651 Compra de combustível ou lubrificante para industrialização subseqüente
1.650 1.652 Compra de combustível ou lubrificante para comercialização
1.650 1.653 Compra de combustível ou lubrificante por consumidor ou usuário final
1.650 1.658 Transferência de combustível e lubrificante para industrialização
1.650 1.659 Transferência de combustível e lubrificante para comercialização
1.650 1.660 Devolução de venda de combustível ou lubrificante destinado à industrialização
subseqüente
1.650 1.661 Devolução de venda de combustível ou lubrificante destinado à comercialização
1.650 1.662 Devolução de venda de combustível ou lubrificante destinado a consumidor ou
usuário final
1.650 1.663 Entrada de combustível ou lubrificante para armazenagem
1.650 1.664 Retorno de combustível ou lubrificante remetido para armazenagem
1.900 1.901 Entrada para industrialização por encomenda
1.900 1.902 Retorno de mercadoria remetida para industrialização por encomenda
1.900 1.903 Entrada de mercadoria remetida para industrialização e não aplicada no referido
processo
1.900 1.904 Retorno de remessa para venda fora do estabelecimento
1.900 1.905 Entrada de mercadoria recebida para depósito em depósito fechado ou armazém
geral
1.900 1.906 Retorno de mercadoria remetida para depósito fechado ou armazém geral
1.900 1.907 Retorno simbólico de mercadoria remetida para depósito fechado ou armazém geral
1.900 1.908 Entrada de bem por conta de contrato de comodato
1.900 1.909 Retorno de bem remetido por conta de contrato de comodato
1.900 1.910 Entrada de bonificação, doação ou brinde
1.900 1.911 Entrada de amostra grátis
1.900 1.912 Entrada de mercadoria ou bem recebido para demonstração
1.900 1.913 Retorno de mercadoria ou bem remetido para demonstração
1.900 1.914 Retorno de mercadoria ou bem remetido para exposição ou feira
1.900 1.915 Entrada de mercadoria ou bem recebido para conserto ou reparo
1.900 1.916 Retorno de mercadoria ou bem remetido para conserto ou reparo
1.900 1.917 Entrada de mercadoria recebida em consignação mercantil ou industrial
1.900 1.918 Devolução de mercadoria remetida em consignação mercantil ou industrial
1.900 1.919 Devolução simbólica de mercadoria vendida ou utilizada em processo industrial,
remetida anteriormente em consignação mercantil ou industrial
1.900 1.920 Entrada de vasilhame ou sacaria
1.900 1.921 Retorno de vasilhame ou sacaria
1.900 1.922 Lançamento efetuado a título de simples faturamento decorrente de compra para
recebimento futuro
1.900 1.923 Entrada de mercadoria recebida do vendedor remetente, em venda à ordem
1.900 1.924 Entrada para industrialização por conta e ordem do adquirente da mercadoria,
quando esta não transitar pelo estabelecimento do adquirente
1.900 1.925 Retorno de mercadoria remetida para industrialização por conta e ordem do
adquirente da mercadoria, quando esta não transitar pelo estabelecimento do
adquirente
1.900 1.926 Lançamento efetuado a título de reclassificação de mercadoria decorrente de
formação de kit ou de sua desagregação
1.900 1.931 Lançamento efetuado pelo tomador do serviço de transporte quando a
responsabilidade de retenção do imposto for atribuída ao remetente ou alienante da
mercadoria, pelo serviço de transporte realizado por transportador autônomo ou por
transportador não inscrito na unidade da Federação onde iniciado o serviço.
1.900 1.932 Aquisição de serviço de transporte iniciado em unidade da Federação diversa daquela
133
5.100 5.119 Venda de mercadoria adquirida ou recebida de terceiros entregue ao destinatário por
conta e ordem do adquirente originário, em venda à ordem
5.100 5.120 Venda de mercadoria adquirida ou recebida de terceiros entregue ao destinatário
pelo vendedor remetente, em venda à ordem
5.100 5.122 Venda de produção do estabelecimento remetida para industrialização, por conta e
ordem do adquirente, sem transitar pelo estabelecimento do adquirente
5.100 5.123 Venda de mercadoria adquirida ou recebida de terceiros remetida para
industrialização, por conta e ordem do adquirente, sem transitar pelo
estabelecimento do adquirente
5.100 5.124 Industrialização efetuada para outra empresa
5.100 5.125 Industrialização efetuada para outra empresa quando a mercadoria recebida para
utilização no processo de industrialização não transitar pelo estabelecimento
adquirente da mercadoria
5.150 5.151 Transferência de produção do estabelecimento
5.150 5.152 Transferência de mercadoria adquirida ou recebida de terceiros
5.150 5.153 Transferência de energia elétrica
5.150 5.155 Transferência de produção do estabelecimento, que não deva por ele transitar
5.150 5.156 Transferência de mercadoria adquirida ou recebida de terceiros, que não deva por ele
transitar
5.200 5.201 Devolução de compra para industrialização
5.200 5.202 Devolução de compra para comercialização
5.200 5.205 Anulação de valor relativo a aquisição de serviço de comunicação
5.200 5.206 Anulação de valor relativo a aquisição de serviço de transporte
5.200 5.207 Anulação de valor relativo à compra de energia elétrica
5.200 5.208 Devolução de mercadoria recebida em transferência para industrialização
5.200 5.209 Devolução de mercadoria recebida em transferência para comercialização
5.200 5.210 Devolução de compra para utilização na prestação de serviço
5.200 5.243 ?
5.250 5.251 Venda de energia elétrica para distribuição ou comercialização
5.250 5.252 Venda de energia elétrica para estabelecimento industrial
5.250 5.253 Venda de energia elétrica para estabelecimento comercial
5.250 5.254 Venda de energia elétrica para estabelecimento prestador de serviço de transporte
5.250 5.255 Venda de energia elétrica para estabelecimento prestador de serviço de comunicação
5.250 5.256 Venda de energia elétrica para estabelecimento de produtor rural
5.250 5.257 Venda de energia elétrica para consumo por demanda contratada
5.250 5.258 Venda de energia elétrica a não-contribuinte
5.300 5.301 Prestação de serviço de comunicação para execução de serviço da mesma natureza
5.300 5.302 Prestação de serviço de comunicação a estabelecimento industrial
5.300 5.303 Prestação de serviço de comunicação a estabelecimento comercial
5.300 5.304 Prestação de serviço de comunicação a estabelecimento de prestador de serviço de
transporte
5.300 5.305 Prestação de serviço de comunicação a estabelecimento de geradora ou de
distribuidora de energia elétrica
5.300 5.306 Prestação de serviço de comunicação a estabelecimento de produtor rural
5.300 5.307 Prestação de serviço de comunicação a não-contribuinte
5.350 5.351 Prestação de serviço de transporte para execução de serviço da mesma natureza
5.350 5.352 Prestação de serviço de transporte a estabelecimento industrial
5.350 5.353 Prestação de serviço de transporte a estabelecimento comercial
5.350 5.354 Prestação de serviço de transporte a estabelecimento de prestador de serviço de
comunicação
5.350 5.355 Prestação de serviço de transporte a estabelecimento de geradora ou de distribuidora
138
de energia elétrica
5.350 5.356 Prestação de serviço de transporte a estabelecimento de produtor rural
5.350 5.357 Prestação de serviço de transporte a não-contribuinte
5.350 5.359 Prestação de serviço de transporte a contribuinte ou a não contribuinte quando a
mercadoria transportada está dispensada de emissão de nota fiscal.
5.400 5.401 Venda de produção do estabelecimento em operação com produto sujeito ao regime
de substituição tributária, na condição de contribuinte substituto
5.400 5.402 Venda de produção do estabelecimento de produto sujeito ao regime de substituição
tributária, em operação entre contribuintes substitutos do mesmo produto
5.400 5.403 Venda de mercadoria adquirida ou recebida de terceiros em operação com
mercadoria sujeita ao regime de substituição tributária, na condição de contribuinte
substituto
5.400 5.405 Venda de mercadoria adquirida ou recebida de terceiros em operação com
mercadoria sujeita ao regime de substituição tributária, na condição de contribuinte
substituído
5.400 5.408 Transferência de produção do estabelecimento em operação com produto sujeito ao
regime de substituição tributária
5.400 5.409 Transferência de mercadoria adquirida ou recebida de terceiros em operação com
mercadoria sujeita ao regime de substituição tributária
5.400 5.410 Devolução de compra para industrialização em operação com mercadoria sujeita ao
regime de substituição tributária
5.400 5.411 Devolução de compra para comercialização em operação com mercadoria sujeita ao
regime de substituição tributária
5.400 5.412 Devolução de bem do ativo imobilizado, em operação com mercadoria sujeita ao
regime de substituição tributária
5.400 5.413 Devolução de mercadoria destinada ao uso ou consumo, em operação com
mercadoria sujeita ao regime de substituição tributária
5.400 5.414 Remessa de produção do estabelecimento para venda fora do estabelecimento em
operação com produto sujeito ao regime de substituição tributária
5.400 5.415 Remessa de mercadoria adquirida ou recebida de terceiros para venda fora do
estabelecimento, em operação com mercadoria sujeita ao regime de substituição
tributária
5.450 5.451 Remessa de animal e de insumo para estabelecimento produtor
5.500 5.501 Remessa de produção do estabelecimento, com fim específico de exportação
5.500 5.502 Remessa de mercadoria adquirida ou recebida de terceiros, com fim específico de
exportação
5.500 5.503 Devolução de mercadoria recebida com fim específico de exportação
5.550 5.551 Venda de bem do ativo imobilizado
5.550 5.552 Transferência de bem do ativo imobilizado
5.550 5.553 Devolução de compra de bem para o ativo imobilizado
5.550 5.554 Remessa de bem do ativo imobilizado para uso fora do estabelecimento
5.550 5.555 Devolução de bem do ativo imobilizado de terceiro, recebido para uso no
estabelecimento
5.550 5.556 Devolução de compra de material de uso ou consumo
5.550 5.557 Transferência de material de uso ou consumo
5.600 5.601 Transferência de crédito de ICMS acumulado
5.600 5.602 Transferência de saldo credor de ICMS para outro estabelecimento da mesma
empresa, destinado à compensação de saldo devedor de ICMS
5.600 5.603 Ressarcimento de ICMS retido por substituição tributária
5.600 5.605 Transferência de saldo devedor de ICMS de outro estabelecimento da mesma
empresa.
5.600 5.606 Utilização de saldo credor de ICMS para extinção por compensação de débitos fiscais.
5.650 5.651 Venda de combustível ou lubrificante de produção do estabelecimento destinado à
139
industrialização subseqüente
5.650 5.652 Venda de combustível ou lubrificante de produção do estabelecimento destinado à
comercialização
5.650 5.653 Venda de combustível ou lubrificante de produção do estabelecimento destinado a
consumidor ou usuário final
5.650 5.654 Venda de combustível ou lubrificante adquirido ou recebido de terceiros destinado à
industrialização subseqüente
5.650 5.655 Venda de combustível ou lubrificante adquirido ou recebido de terceiros destinado à
comercialização
5.650 5.656 Venda de combustível ou lubrificante adquirido ou recebido de terceiros destinado a
consumidor ou usuário final
5.650 5.657 Remessa de combustível ou lubrificante adquirido ou recebido de terceiros para
venda fora do estabelecimento
5.650 5.658 Transferência de combustível ou lubrificante de produção do estabelecimento
5.650 5.659 Transferência de combustível ou lubrificante adquirido ou recebido de terceiro
5.650 5.660 Devolução de compra de combustível ou lubrificante adquirido para industrialização
subseqüente
5.650 5.661 Devolução de compra de combustível ou lubrificante adquirido para comercialização
5.650 5.662 Devolução de compra de combustível ou lubrificante adquirido por consumidor ou
usuário final
5.650 5.663 Remessa para armazenagem de combustível ou lubrificante
5.650 5.664 Retorno de combustível ou lubrificante recebido para armazenagem
5.650 5.665 Retorno simbólico de combustível ou lubrificante recebido para armazenagem
5.650 5.666 Remessa por conta e ordem de terceiros de combustível ou lubrificante recebido para
armazenagem
5.900 5.901 Remessa para industrialização por encomenda
5.900 5.902 Retorno de mercadoria utilizada na industrialização por encomenda
5.900 5.903 Retorno de mercadoria recebida para industrialização e não aplicada no referido
processo
5.900 5.904 Remessa para venda fora do estabelecimento
5.900 5.905 Remessa para depósito fechado ou armazém geral
5.900 5.906 Retorno de mercadoria depositada em depósito fechado ou armazém geral
5.900 5.907 Retorno simbólico de mercadoria depositada em depósito fechado ou armazém geral
5.900 5.908 Remessa de bem por conta de contrato de comodato
5.900 5.909 Retorno de bem recebido por conta de contrato de comodato
5.900 5.910 Remessa em bonificação, doação ou brinde
5.900 5.911 Remessa de amostra grátis
5.900 5.912 Remessa de mercadoria ou bem para demonstração
5.900 5.913 Retorno de mercadoria ou bem recebido para demonstração
5.900 5.914 Remessa de mercadoria ou bem para exposição ou feira
5.900 5.915 Remessa de mercadoria ou bem para conserto ou reparo
5.900 5.916 Retorno de mercadoria ou bem recebido para conserto ou reparo
5.900 5.917 Remessa de mercadoria em consignação mercantil ou industrial
5.900 5.918 Devolução de mercadoria recebida em consignação mercantil ou industrial
5.900 5.919 Devolução simbólica de mercadoria vendida ou utilizada em processo industrial,
recebida anteriormente em consignação mercantil ou industrial
5.900 5.920 Remessa de vasilhame ou sacaria
5.900 5.921 Devolução de vasilhame ou sacaria
5.900 5.922 Lançamento efetuado a título de simples faturamento decorrente de venda para
entrega futura
5.900 5.923 Remessa de mercadoria por conta e ordem de terceiros, em venda à ordem
5.900 5.924 Remessa para industrialização por conta e ordem do adquirente da mercadoria,
140
ATRIBUTO DESCRIÇÃO
SEQ_CONT Sequencial de idenficação do estabelecimento inscrito na Secretaria da Fazenda
LOCAL Identificação de onde o estabelecimento está localizado (Capital ou Interior)
ATIV_MESES Quantidade de meses de atividade do estabelecimento
SEQ_CNAE Sequencial de identificação da atividade econômica do estabelecimento
CLASSE_CNAE Classe do Código de Atividade Econômica do estabelecimento
VLR_PRI Valor principal de ICMS recolhido pelo estabelecimento
VLR_TOT Valor total recolhido pelo estabelecimento incluindo o ICMS mais multas e juros
POSTOS_ENTRADA Valor das entradas registradas nos postos fiscais nas divisas do Estado
POSTOS_SAIDA Valor das saídas registradas nos postos fiscais nas divisas do Estado
VLR_TEF Valor de vendas com cartão de crédito do estabelecimento
VC1100 Valor contábil referente aos CFOP's do grupo 1100
VC1150 Valor contábil referente aos CFOP's do grupo 1150
VC1200 Valor contábil referente aos CFOP's do grupo 1200
VC1250 Valor contábil referente aos CFOP's do grupo 1250
VC1300 Valor contábil referente aos CFOP's do grupo 1300
VC1350 Valor contábil referente aos CFOP's do grupo 1350
VC1400 Valor contábil referente aos CFOP's do grupo 1400
VC1450 Valor contábil referente aos CFOP's do grupo 1450
VC1500 Valor contábil referente aos CFOP's do grupo 1500
VC1550 Valor contábil referente aos CFOP's do grupo 1550
VC1600 Valor contábil referente aos CFOP's do grupo 1600
VC1650 Valor contábil referente aos CFOP's do grupo 1650
VC1900 Valor contábil referente aos CFOP's do grupo 1900
VC2100 Valor contábil referente aos CFOP's do grupo 2100
VC2150 Valor contábil referente aos CFOP's do grupo 2150
VC2200 Valor contábil referente aos CFOP's do grupo 2200
VC2250 Valor contábil referente aos CFOP's do grupo 2250
VC2300 Valor contábil referente aos CFOP's do grupo 2300
VC2350 Valor contábil referente aos CFOP's do grupo 2350
VC2400 Valor contábil referente aos CFOP's do grupo 2400
VC2500 Valor contábil referente aos CFOP's do grupo 2500
VC2550 Valor contábil referente aos CFOP's do grupo 2550
VC2600 Valor contábil referente aos CFOP's do grupo 2600
VC2650 Valor contábil referente aos CFOP's do grupo 2650
VC2900 Valor contábil referente aos CFOP's do grupo 2900
VC3100 Valor contábil referente aos CFOP's do grupo 3100
VC3200 Valor contábil referente aos CFOP's do grupo 3200
VC3300 Valor contábil referente aos CFOP's do grupo 3300
VC3350 Valor contábil referente aos CFOP's do grupo 3350
VC3500 Valor contábil referente aos CFOP's do grupo 3500
146
BCST2100 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2100
BCST2150 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2150
BCST2200 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2200
BCST2250 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2250
BCST2300 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2300
BCST2350 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2350
BCST2400 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2400
BCST2500 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2500
BCST2550 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2550
BCST2600 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2600
BCST2650 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2650
BCST2900 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 2900
BCST3100 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 3100
BCST3200 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 3200
BCST3300 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 3300
BCST3350 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 3350
BCST3500 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 3500
BCST3550 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 3550
BCST3650 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 3650
BCST3900 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 3900
BCST5100 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5100
BCST5150 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5150
BCST5200 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5200
BCST5250 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5250
BCST5300 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5300
BCST5350 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5350
BCST5400 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5400
BCST5450 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5450
BCST5500 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5500
BCST5550 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5550
BCST5600 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5600
BCST5650 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5650
BCST5900 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 5900
BCST6100 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6100
BCST6150 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6150
BCST6200 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6200
BCST6250 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6250
BCST6300 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6300
BCST6350 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6350
BCST6400 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6400
BCST6500 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6500
BCST6550 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6550
BCST6600 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6600
BCST6650 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6650
154
BCST6900 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 6900
BCST7100 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 7100
BCST7200 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 7200
BCST7350 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 7350
BCST7500 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 7500
BCST7550 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 7550
BCST7650 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 7650
BCST7900 Base de Cálculo Subst. Tributária referente aos CFOP's do grupo 7900
ICST1100 ICMS Subst. Tributária referente aos CFOP's do grupo 1100
ICST1150 ICMS Subst. Tributária referente aos CFOP's do grupo 1150
ICST1200 ICMS Subst. Tributária referente aos CFOP's do grupo 1200
ICST1250 ICMS Subst. Tributária referente aos CFOP's do grupo 1250
ICST1300 ICMS Subst. Tributária referente aos CFOP's do grupo 1300
ICST1350 ICMS Subst. Tributária referente aos CFOP's do grupo 1350
ICST1400 ICMS Subst. Tributária referente aos CFOP's do grupo 1400
ICST1450 ICMS Subst. Tributária referente aos CFOP's do grupo 1450
ICST1500 ICMS Subst. Tributária referente aos CFOP's do grupo 1500
ICST1550 ICMS Subst. Tributária referente aos CFOP's do grupo 1550
ICST1600 ICMS Subst. Tributária referente aos CFOP's do grupo 1600
ICST1650 ICMS Subst. Tributária referente aos CFOP's do grupo 1650
ICST1900 ICMS Subst. Tributária referente aos CFOP's do grupo 1900
ICST2100 ICMS Subst. Tributária referente aos CFOP's do grupo 2100
ICST2150 ICMS Subst. Tributária referente aos CFOP's do grupo 2150
ICST2200 ICMS Subst. Tributária referente aos CFOP's do grupo 2200
ICST2250 ICMS Subst. Tributária referente aos CFOP's do grupo 2250
ICST2300 ICMS Subst. Tributária referente aos CFOP's do grupo 2300
ICST2350 ICMS Subst. Tributária referente aos CFOP's do grupo 2350
ICST2400 ICMS Subst. Tributária referente aos CFOP's do grupo 2400
ICST2500 ICMS Subst. Tributária referente aos CFOP's do grupo 2500
ICST2550 ICMS Subst. Tributária referente aos CFOP's do grupo 2550
ICST2600 ICMS Subst. Tributária referente aos CFOP's do grupo 2600
ICST2650 ICMS Subst. Tributária referente aos CFOP's do grupo 2650
ICST2900 ICMS Subst. Tributária referente aos CFOP's do grupo 2900
ICST3100 ICMS Subst. Tributária referente aos CFOP's do grupo 3100
ICST3200 ICMS Subst. Tributária referente aos CFOP's do grupo 3200
ICST3300 ICMS Subst. Tributária referente aos CFOP's do grupo 3300
ICST3350 ICMS Subst. Tributária referente aos CFOP's do grupo 3350
ICST3500 ICMS Subst. Tributária referente aos CFOP's do grupo 3500
ICST3550 ICMS Subst. Tributária referente aos CFOP's do grupo 3550
ICST3650 ICMS Subst. Tributária referente aos CFOP's do grupo 3650
ICST3900 ICMS Subst. Tributária referente aos CFOP's do grupo 3900
ICST5100 ICMS Subst. Tributária referente aos CFOP's do grupo 5100
ICST5150 ICMS Subst. Tributária referente aos CFOP's do grupo 5150
ICST5200 ICMS Subst. Tributária referente aos CFOP's do grupo 5200
155
REFERÊNCIAS BIBLIOGRÁFICAS
BONCHI, F. et al. Using Data Mining Techniques in Fiscal Fraud Detection. Pisa, Itália,
1999, Disponível em: http://citeseerx.ist.psu.edu/viewdoc /summary?doi
=10.1.1.42.1403. Acesso em: 20/10/2008.
HAYKIN, Simon S.. Redes Neurais: Princípios e Prática. 2ª Edição. Porto Alegre:
Bookman. (Tradução de Paulo Martins Engel), 2001, 823 pg.
LUDWIG JR., Oswaldo; COSTA, Eduard Montgomery M.. Redes Neurais: Fundamentos
e Aplicações com Programas em C. Rio de Janeiro: Editora Ciência Moderna,
2007, 125 pg.
MANN, Prem S.. Introdução à Estatística. Rio de Janeiro: Livros Técnicos e Científicos
– LTC, 2006, 758 pg.
MITCHELL, Tom M. Machine Learning. Nova York: McGraw-Hill, 1997, 432 pg.
RAO, Valluru B. C++ Neural Networks and Fuzzy Logic. MTBooks, IDG Books
Worldwide, Inc., 1995, 454 pg.
TAFNER, Malcon A.; XEREZ, Marcos de; RODRIGUES FILHO Ilson W.. Redes Neurais
Artificiais – Introdução e Princípios de Neurocomputação. Santa Catarina:
Editora Eco e Editora da FURB, 1995. 199 pg.
YU, Fan; QIN, Zheng; JIA, Xiao-Ling. Data Mining Application Issues in Fraudulent Tax
Declaration Detection. Machine Learning and Cybernetics, 2003 International
Conference on Volume 4. China. 02 a 05 de Nov. 2003. Páginas 2202 a 2206.