Você está na página 1de 15

Aplicao da metodologia CRISP-DM de minerao de

dados Estudo de Caso do TRE-DF


Paulo de Tarso Costa de Sousa1,2

RESUMO
A partir da metodologia CRISP-DM de minerao de dados, este trabalho busca a
aplicao deste modelo em um estudo de caso no TRE-DF, utilizando como fonte de
dados o cadastro de eleitores e de coincidncias do DF, com o objetivo de descobrir
padres teis que possam ser agregados aos servios da Justia Eleitoral. O estudo
de caso proporcionou ainda o conhecimento mais aprofundado dos dados do
cadastro de eleitores do Distrito Federal, alm de apresentar os possveis
desdobramentos oriundos de sua anlise, destacando a necessidade de
mecanismos de controle de qualidade da informao.
Palavras-chave: Minerao de dados, CRISP-DM, Tribunal eleitoral, eleitor, DCBD.

1
2

Tribunal Regional Eleitoral do Distrito Federal


E-Mail: paulodetarso@tre-df.gov.br

1 - INTRODUO
Em anos recentes, a tecnologia de Informtica tem contribudo no sentido de
tornar disponveis as ferramentas de Descoberta de Conhecimento em Bancos de
Dados (DCBD). Estas ferramentas permitem a identificao de padres de
relacionamento entre dados que, adequadamente interpretados, podem levar
abstrao de conhecimento indito e relevante.
Ocorre ainda que a gerao em massa de informaes registradas nos
bancos de dados, impulsionados pela tecnologia da informao (TI), nos proporciona
uma fonte de informaes muita rica e com grande potencial de auxlio na melhoria
de produtos e servios.
A minerao de dados ou Data Mining, faz parte desse contexto e o ato de
buscar ou descobrir conhecimento em grandes volumes de dados. Algumas
pessoas, segundo Han e Kamber (2001), tratam minerao de dados como a
descoberta de conhecimento em bancos de dados. Outros tratam a minerao de
dados como uma fase da descoberta de conhecimento em bancos de dados, como
visto por Fayyad, Piatestsky-Shapiro e Padhraic (1996), que definem claramente as
atribuies das fases da DCBD. Estes mesmos autores j diferenciam DCBD e
minerao de dados, sendo a primeira um conjunto de processos para a descoberta
de conhecimento til a partir de dados; a segunda, como apenas parte desse
processo na aplicao de algoritmos para extrao de padres. Berry e Linoff (2000)
refletem a importncia do entendimento da minerao de dados, no como uma
simples ferramenta que se possa comprar e utilizar, mas como uma disciplina que
envolve o estabelecimento de uma metodologia para sua definio e uso.
O Tribunal Regional Eleitoral do Distrito Federal (TRE-DF) no foge a esse
panorama, possuindo uma srie de dados no explorados que podem ser teis para
a gerao de novos conhecimentos, desembocando na melhoria dos servios
prestados aos cidados. Este trabalho pretende, atravs de um estudo de caso,
demonstrar a aplicao de tcnicas de minerao de dados (MD) na gerao de
padres teis para as atividades da Justia Eleitoral.

2 - METODOLOGIA
2.1 Abordagem adotada
A tecnologia utilizada a de minerao de dados, desenvolvendo-se atravs
da metodologia CRISP-DM1 (CHAPMAN, et al, 1999), e sua aplicao em um estudo
de caso no Tribunal Regional Eleitoral do Distrito Federal.
O estudo de caso tem por objetivo principal a aplicao dos processos de
minerao de dados definidos pela metodologia CRISP-DM.

2.1.1 Descrio do mtodo CRISP-DM


O mtodo CRISP-DM (CHAPMAN, et al, 1999) apresentado por meio de
dois modelos bsicos: o de referncia e o guia do usurio. O modelo de referncia
d uma viso geral do ciclo de um projeto de minerao de dados. O modelo guia do
1

Do acrnimo: CRoss-Industry Standard Process for Data Mining

usurio oferece um detalhamento maior desse processo e ser empregado no


estudo de caso.
O CRISP-DM promove uma viso geral do ciclo de vida de um projeto de
minerao de dados, consistindo em 6 fases (figura 1) descritas a seguir:

Figura 1 Fases do Modelo de Referncia CRISP-DM

2.1.1.1 - Entendimento do negcio - Esta fase busca a compreenso dos


objetivos do projeto e suas necessidades do ponto de vista dos negcios, de forma a
transformar este conhecimento em uma definio de problema e um plano
preliminar. Possui como tarefas: determinar os objetivos do negcio, avaliao da
situao, determinao dos objetivos da minerao de dados, e a produo de um
plano de projeto.
2.1.1.2 - Entendimento dos Dados - a fase de coleta dos dados e de
investigao preliminar, destinada a uma familiarizao maior com os mesmos e
avaliao da qualidade dos dados. Em conseqncia dessas atividades comum a
descoberta de padres interessantes j nesta fase. Possui como tarefas: coletar
dados iniciais, descrever os dados, explorar os dados e verificar a qualidade dos
dados.
2.1.1.3 - Preparao dos Dados - Fase da construo final do banco de dados
que ser submetido ferramenta de anlise. Este banco, retirado dos dados
originais, passar por um processo de limpeza e transformao. Possui como
produtos principais de sada o arquivo para minerao e sua descrio. Possui como
tarefas: selecionar dados, limpeza dos dados, construo dos dados, integrar dados
e formatar dados.
2.1.1.4 Modelagem - Nesta fase escolhida a tcnica de modelagem dos
dados. Dependendo da tcnica utilizada pode ser necessrio o retorno fase de
preparao dos dados para o ajuste s exigncias de determinadas tcnicas. Possui
como tarefas: selecionar a tcnica de modelagem, gerar teste de projeto (test
design), construir modelo e validar o modelo.

2.1.1.5 Avaliao - A avaliao realizada visando identificar alguma


questo do negcio que no foi explorada suficientemente. Este passo avalia o grau
com o qual o modelo produzido alcanou os objetivos. Possui como tarefas: anlise
de resultados, reviso dos processos e determinao dos prximos passos.
2.1.1.6 Distribuio - Fase em que o modelo distribudo aos clientes de
forma que este possa extrair conhecimento. Pode ser um processo nico, com
resultado nico, ou ainda um processo iterativo. Possui como tarefas: Elaborao de
plano de distribuio, plano de monitoramento e manuteno, elaborao do
relatrio final e reviso do projeto.

3 - ESTUDO DE CASO
3.1 Introduo
O Tribunal Regional Eleitoral do Distrito Federal o rgo do Poder Judicirio
responsvel pelo processo eleitoral, no Distrito Federal, nos aspectos jurdico e
operacional, de forma a garantir a fiel observncia das diretrizes fundamentadas em
lei. No processo eleitoral tem-se a caracterizao de servios prestados
comunidade quando se trata do relacionamento com eleitores e partidos polticos
sendo estes o pblico alvo da Justia Eleitoral. O contato da Justia Eleitoral do DF
com os eleitores e partidos polticos, em sua maioria, realizado nos cartrios
eleitorais. Cada cartrio responsvel pelo atendimento aos eleitores de uma
determinada regio geogrfica, e esto subordinados, no TRE, Corregedoria
Regional Eleitoral (CRE).
Nesse contexto organizacional verifica-se que as fontes de conhecimento
pessoais, relativas aos processos eleitorais esto dispersas pelo Tribunal,
especialmente nos Cartrios Eleitorais e CRE. Uma outra fonte de conhecimento
existente o banco de dados onde esto registradas informaes do eleitorado e
seus respectivos histricos.
Este estudo de caso foi realizado junto Corregedoria Regional Eleitoral do
Distrito Federal, rgo responsvel pela normatizao e controle dos procedimentos
realizados pelos Cartrios Eleitorais.
Na etapa seguinte deste estudo, utilizaremos a metodologia CRISP-DM de
minerao de dados, a qual seguiremos passo-a-passo.

3.2 Entendimento do negcio


Nesta fase do CRISP-DM busca-se a compreenso dos objetivos da
aplicao e suas necessidades do ponto de vista dos negcios, de forma a se obter
uma definio do problema e um plano preliminar.

3.2.1 Objetivos
O Tribunal Regional Eleitoral do Distrito federal foi criado pelo Decreto Lei n
21.076/1932 (JOBIM e PORTO, 1996), e a ele so atribudas funes judicirias e
executivas conforme estabelece a Constituio Federal de 5 de outubro de 1988, em
seu artigo 118 e o Cdigo Eleitoral (Lei n 4737/1965) (JOBIM e PORTO, 1996). A
justia eleitoral, como rgo administrador do pleito, segundo Coelho (1996), inicia

os preparativos para as eleies atravs da manuteno do cadastro de eleitores,


este o pilar do processo eleitoral sob aspecto operacional.
No TRE-DF as questes relativas ao cadastro de eleitores so tratadas pela
Corregedoria Regional Eleitoral e Cartrios Eleitorais. Os Cartrios so responsveis
pelo primeiro contato com o eleitor e captam todas as solicitaes de operaes no
cadastro: alistamento, transferncias, reviso e 2 via de titulo de eleitor. E ainda
alguns tipos de solicitao relativas alterao de situao do eleitor.
Podemos ento destacar como objetivos do TRE: zelar pela observncia dos
preceitos legais relativos aos eleitores, partidos e candidatos; manter a integridade e
consistncia das informaes no sentido de evitar fraudes; manter constante
vigilncia sobre as tentativas de fraude e abusos cometidos por eleitores, partidos e
candidatos.
Para identificar alguns problemas relacionados com o cadastro de eleitores
alguns questionamentos foram levantados, os quais direcionaram os trabalhos de
minerao de dados.
A identificao dos problemas foi realizada junto Corregedoria Regional
Eleitoral do Distrito Federal, sendo a principal etapa do trabalho. Para Pyle (1999) a
fase de explorao do espao do problema um ponto crtico para um projeto de
minerao de dados. Atravs de entrevistas com os especialistas, foram
relacionados alguns questionamentos e suas respectivas hipteses de soluo, as
quais foram exploradas pela minerao de dados, exemplificando com o seguinte:
- Qual o perfil de comportamento dos eleitores que entram em coincidncia de
forma a estabelecer um critrio para minimizao de ocorrncias?
. Hiptese: Pode ser realizado estudo de forma a analisar os tipos de
operaes e FASEs dos eleitores que caem em coincidncia, comparando
a freqncia, tipo de solicitaes ou ocorrncias para cada eleitor.
Com a resoluo das questes espera-se obter novos insights para a
melhoria dos processos que lidam com as informaes dos eleitores. Pela anlise
dos dados e seu entendimento, pode-se identificar relacionamentos anteriormente
no explicitados e essa identificao ser realizada pelos especialistas do assunto.
A anlise dos eleitores em coincidncia, que um dos pontos importantes no
cadastro, poder levar a novos conhecimentos para a melhoria dos processos de
tratamento desses casos.

3.2.2 Avaliao dos recursos atuais


Esta etapa destina-se identificao dos recursos necessrios para o alcance
dos objetivos do projeto. realizado o levantamento dos requisitos de hardware,
fontes de dados, especialistas e patrocinadores. Alm desses recursos tambm so
realizados levantamentos quanto ao cronograma, qualidade e segurana dos
resultados e tambm os aspectos legais de disponibilizao e uso das informaes.
Nesta etapa tambm feita a avaliao de algumas hipteses quanto aos dados
disponveis e as restries impostas quanto ao acesso aos dados, senhas e
sistemas operacionais.
Iniciando a avaliao, segue abaixo lista dos recursos disponveis em termos
de talentos humanos, tecnologias, dados e informaes:
a) Base de dados do cadastro de eleitores do Distrito Federal.
b) Especialistas no tema em estudo so funcionrios da prpria CRE.

c) Equipamento com as seguintes caractersticas: Dual Pentium III 1GHz,


2Gbytes de Memria, 40 Gbytes de Disco Rgido;
d) Software de MD WEKA1, (WEKA, 2000). Tambm foi utilizado o software
AIRA2 (verso TRIAL) para a gerao de regras.
e) Recursos externos disponveis quanto ao acesso a outras bases de dados
referem-se aos dados estatsticos do IBGE (BRASIL, 2002e).
Todos os aspectos at agora levantados dizem respeito viabilizao dos
requisitos para execuo do projeto.

3.2.3 Objetivos a serem alcanados pela minerao de dados


A minerao de dados tem por objetivo principal executar mecanismos de
anlise sobre os dados do cadastro de eleitores de forma a prover aos especialistas
novos insights, que sero utilizados na melhoria da qualidade dos dados e dos
processos. Como objetivos especficos temos os seguintes:
a) Obter as caractersticas dos eleitores, com a distino de sexo, que entram
em coincidncia/duplicidade.
b) Obter uma segmentao do conjunto dos eleitores em coincidncia.

3.3 Entendimento dos Dados


a fase da coleta dos dados, sobre os quais realizada uma investigao
preliminar, visando uma familiarizao maior com os mesmos. Nesta fase
realizada uma avaliao da qualidade dos dados.

3.3.1 Dados Iniciais


Os dados utilizados neste estudo foram coletados a partir do banco de dados
do TRE-DF, at o ms de novembro de 2002. Sobre o gerenciador de Bancos de
Dados Oracle, as tabelas utilizadas para a extrao dos dados necessrios
minerao de dados foram restritas s seguintes:
1) Tabela de dados cadastrais dos eleitores do Distrito Federal.
2) Tabela de dados histricos de situaes dos eleitores.
3) Tabela dos dados de origem para a efetivao de um eleitor no cadastro.
4) Tabela de dados histricos de operaes dos eleitores
5) Tabela de coincidncias.
Cabe destacar o uso das seguintes tabelas acessrias, destinadas a
complementar o entendimento dos dados: 1) Tabela de municpios 2) Tabela de
Unidade da Federao 3) Tabela de FASEs 4) Tabela de domnios.
Inicialmente, a coleta dos dados foi realizada atravs da linguagem SQL,
gerando arquivos textos, que, por sua vez, eram importados para o Microsoft
Access. A importao dos dados para esse banco de dados facilitou o transporte
dos modelos j tratados para o equipamento onde seriam executados os algoritmos
de minerao dados.

Do acrnimo Waikato Environment Knowledge Analysis (tambm ave em extino da Nova Zelndia). Open
Source.
2
Ferramenta de minerao de dados baseado no algoritmo CNM (Combinatorial Neural Model).

3.3.2 Explorao dos dados


A explorao dos dados foi realizada por meio da linguagem SQL sendo
feitas, inicialmente, as seguintes anlises:
a) Na distribuio por faixa de idade, o eleitorado do Distrito Federal possui
uma concentrao de eleitores com idade entre 25 e 59 anos.
b) Na distribuio do eleitorado por grau de instruo, os eleitores portadores
de primeiro grau incompleto representam quase 30% do eleitorado.
c) Na distribuio do eleitorado por sexo, destaca-se o nmero maior de
eleitores do sexo feminino.
Da amostra total de 1.717.101, 765.197 eleitores no possuem informaes
sobre solicitaes de operaes no cadastro de eleitores representando 44,56% dos
eleitores. Esta falta de informao sobre as operaes implica uma reduo
significativa da amostra que considere este dado.
O conjunto de dados que contm o registro dos FASEs dos eleitores possui
2.193.903 registros, o que representa 759.891 eleitores (44,25%), cada um deles
podendo ter de um a vrios FASEs. Cabe salientar ainda que 214.556 FASEs
registrados para eleitores do DF, representando 12,49% dos eleitores, j estiveram
em situao impeditiva de votao.
Tratando dos eleitores que j estiveram envolvidos em coincidncias
eleitorais, sua distribuio por sexo indica que mais da metade dos casos de
coincidncia ocorrem para os eleitores do sexo feminino.
A distribuio dos eleitores em coincidncia por zona eleitoral proporciona a
viso de quais zonas esto com seus ndices de coincidncias maiores, permitindo
uma ao que verifique esses casos e estabelea mecanismos de reduo dessas
ocorrncias.
O tempo mdio, em dias, entre a ocorrncia do bito e sua respectiva
digitao no sistema de informao da Justia Eleitoral durou cerca de 220 dias.
At aqui, vimos a explorao dos dados no aspecto das coincidncias, FASEs
e operaes realizadas no cadastro de eleitores do Distrito Federal. A explorao
dos dados um trabalho extenso; por isso, nem todos os aspectos encontrados so
relatados aqui, mostrando-se apenas os mais relevantes para a compreenso das
informaes-alvo para a minerao de dados.

3.3.3 Qualidade dos dados


Nesta etapa so listados os resultados da verificao da qualidade dos dados
do cadastro de eleitores. A incluso de novos dados, em verses mais recentes de
sistemas de informao, foi introduzindo falhas nos dados histricos dos eleitores.
Em conseqncia dessas constantes mudanas, encontrou-se a seguinte situao
na anlise do cadastro de eleitores do Distrito Federal:
a) Existncia de registros, na entidade de registro dos FASES, com data de
ocorrncia com ano invlido;
b) Existncia de 1.171 eleitores com indicao de SEXO no informado.
c) Existncia de 1.692 eleitores com GRAU DE INSTRUO no informado.
d) Existncia de 1.663 eleitores com ESTADO CIVIL no informado.
e) 9 (nove) ocorrncias de FASEs 094 (No votou) com ano de digitao de
1919.

f) 18.881 eleitores esto em situao diferente de REGULAR e LIBERADO


(Qualquer situao de no-votante especificamente as situaes
CANCELADO e NO-LIBERADO), mas no h registro de FASE de
alterao de situao para CANCELADO ou NO-LIBERADO (FASEs
43,337,191,450,35,329,27,19)
g) A tabela HISTORICO_OPERACAO, em que so registradas as
solicitaes de operaes de alistamento, reviso, transferncia e
segunda via, possui 157 eleitores (representando 204 registros) que no
constam da tabela de eleitores.
h) A tabela HISTORICO_FASE, em que so registradas as solicitaes de
alterao de situao de eleitores, possui 240 eleitores (representando
1.045 registros) que no constam da tabela de eleitores;
i) Existem casos de FASEs 167 (Justificativa Eleitoral) para eleitores com
FASE 019 (Cancelamento Falecimento), FASE 191 (Inserida na Base
Histrica), 043 (Conscrito), FASE 450 (Cancelamento Sentena de
autoridade Judicial) e FASE 035 (Cancelamento deixou de votar por trs
pleitos), aps o registro desses FASEs, podendo indicar uma falha da
Justia Eleitoral.
j) Existem 16.127 registros de coincidncias de eleitores do DF na tabela de
coincidncias que possuem FASEs de indicao de envolvimento em
coincidncias.A tabela de coincidncias possui 29.650 eleitores do DF,
indicando que 13.523 eleitores no possuem FASE de envolvimento em
coincidncia.
k) Existem
16.952
eleitores
com
FASE
566
(Envolvido
em
Duplicidade/Pluralidade LIBERADO) ou FASE 418 (Envolvido em
Duplicidade/Pluralidade NO-LIBERADO). Considerando o total de
16.127 eleitores em coincidncia, restam 825 que no possuem registro
na tabela de coincidncias.
l) Existem 765.197 (44,56%) eleitores que no possuem informaes sobre
solicitaes de operaes no cadastro eleitores.
Para a preparao dos dados para a minerao, alguns desses problemas
foram tratados de forma a no comprometer o resultado esperado. Conforme Dorian
Pyle (1999), dados de qualidade so pr-requisitos para a produo de modelos
efetivos de qualquer tipo, reforando a idia por trs da expresso GIGO Garbage
In, Garbage Out. Assim, para os atributos com valores faltantes, foram atribudos
valores genricos. Os registros com dados inconsistentes, como os anos invlidos,
foram ignorados da amostra.

3.4 Preparao dos Dados


Nesta fase, e a partir do entendimento dos dados, so gerados os conjuntos
de dados que sero submetidos ferramenta de anlise. realizada a limpeza de
dados inconsistentes e o tratamento dos dados faltantes, alm da agregao de
valores, a transformao e formatao de atributos em valores no codificados, de
forma a facilitar a compreenso no modelo.
Foram gerados, basicamente, dois conjuntos de dados: o primeiro originado
da tabela de eleitores, com dados que no permitam a identificao do eleitor, a ser
utilizado na classificao, chamado de DATASET1; o segundo com os dados

histricos de FASEs e operaes dos eleitores, dispostos em ordem cronolgica,


com um registro para cada eleitor, chamado DATASET2.
Os valores de alguns atributos foram alterados para a melhor compreenso
dos modelos. Os atributos SEXO, EST_CIVIL, GR_INSTR e SIT tiveram seus
valores transformados.
Os valores do atributo FAIXA_IDADE foram discretizados a partir do atributo
original DAT_NASC (Data de Nascimento do Eleitor). As faixas foram estabelecidas
em consonncia com as j utilizadas pelo Tribunal Superior Eleitoral (BRASIL,
2002d). Outros atributos foram derivados de outras tabelas.
Cada atributo do DATASET2, contm a indicao de valores de cdigos de
FASEs e de valores de operaes, respeitando sempre a ordem em que so
solicitados.
No caso das datas inconsistentes, os registros foram desconsiderados para a
gerao desse conjunto de dados. Para a gerao dos dois conjuntos de dados, foi
utilizada a linguagem procedural do banco de dados Oracle PL/SQL.

3.5 Modelagem
A modelagem a fase do CRISP-DM onde escolhida a tcnica de
minerao dos dados. Esta fase apresenta forte interao com a fase de
preparao, uma vez que a tcnica escolhida pode ter implicaes na formatao
dos dados. As tcnicas de modelagem a serem utilizadas neste trabalho so a
classificao, que se destinar descoberta de caractersticas padro para os
eleitores do Distrito Federal, e a identificao de agrupamentos (Clustering), utilizada
para a descoberta de padres de comportamento dos eleitores envolvidos em
coincidncias.
A classificao foi escolhida como tcnica em virtude da necessidade de
encontrar modelos que descrevessem ou distinguissem os eleitores em
coincidncias, por sexo. Assim, teriam-se caractersticas padro que permitam a
identificao ou comprovao se os eleitores do sexo feminino esto mais
suscetveis a serem identificadas em coincidncias, do que os do sexo masculino. J
o agrupamento, foi escolhido em razo da inexistncia de uma classe alvo e na
necessidade de se identificar comportamentos semelhantes para os eleitores em
coincidncias.

3.5.1 Classificao
Na classificao foi utilizado o conjunto de dados DATASET1, que trata dos
dados dos eleitores, e utilizado para alcanar os objetivos da minerao descritos no
entendimento do negcio. Baseado nas hipteses formuladas e no entendimento
dos dados foi realizada uma classificao por rvore de deciso com as seguintes
caractersticas:
1) Algoritmo utilizado: C4.5 (J48);
2) 16.952 instncias referentes aos eleitores que j estiveram envolvidos em
coincidncias;
3) Confiana de 90% (-C 0.10)
4) Selecionados 7 atributos: SEXO, EST_CIVIL, GR_INSTR, FAIXA_IDADE,
ULTIMA_OPERACAO, QTD_FASES e QTD_OPERACOES_RAE;

5)
6)
7)
8)
9)

Classe alvo: SEXO;


Modo de teste: 10-Fold Cross-Validation;
Nmero mnimo de instncias por folha: 2 (-M)
ndice esperado de aceite do modelo: 75%
Poda utilizada pela ferramenta: post-pruning.

Aps a submisso desse conjunto de dados ferramenta, foi gerada a rvore


de deciso que embasa a seguinte anlise:
Observando-se o percentual de instncias corretamente classificadas,
verifica-se um ndice geral de 54,14%, e, para as incorretamente classificadas,
45,86%, mostrando que o modelo no eficiente. Refora-se essa afirmao com a
anlise da matriz de confuso (Confusion Matrix) indicando que a classe com valor
M (Masculino) obteve um ndice de erros superior ao de acertos (73,23%).
Analisando os valores F (Feminino) da classe, verifica-se que 77,71% das instncias
so classificadas corretamente, o que satisfaz o limite de aceite.
Algumas observaes podem ser feitas com base na rvore de deciso
notando-se que, o estado civil solteiro combinado com o grau de instruo, acima de
segundo grau incompleto, leva a boa classificao para o sexo feminino, o que no
encontra ressonncia na experincia do Tribunal.
Submetido o mesmo arquivo ferramenta AIRA, foram geradas regras com
confiana mxima de 60,37%. Essas regras representam a classificao dos
eleitores envolvidos em coincidncia. Os parmetros submetidos ao AIRA foram os
seguintes: 1) Confiana: 50%, 2) Suporte mnimo: 7%, 3) Ordem mxima: 3 e 4)
Nmero de casos: 2.
Nota-se grandes diferenas entre as regras geradas pelos dois mtodos,
provavelmente devido ao fato de que o algoritmo de rvore de deciso particiona o
espao das classes, atributo por atributo, enquanto que o CNM mapeia todas as
possveis combinaes de atributos, de uma s vez e para cada classe.

3.5.2 Agrupamento (Clustering)


Na identificao de agrupamentos, foi utilizado o conjunto de dados
DATASET2, que contm dados histricos de solicitaes de FASEs e operaes dos
eleitores e utilizado para alcanar os objetivos da minerao levantados da fase do
entendimento do negcio. Baseado nas hipteses formuladas e no entendimento
dos dados foi gerado um conjunto de agrupamentos com base nas seguintes
caractersticas da ferramenta:
1) Algoritmo utilizado: SimpleKMeans;
2) 16.952 instncias referentes aos eleitores que j estiveram envolvidos em
coincidncias;
3) Nmero de Clusters (K): 8 (Baseado na experincia dos especialistas);
4) Selecionados 11 atributos: SOLIC01, SOLIC02, SOLIC03, SOLIC04,
SOLIC05, SOLIC06, SOLIC07, SOLIC08, SOLIC09, SOLIC10 e SOLIC11;
5) Utilizado o parmetro -p 1-11 para a gerao do conjunto de dados e seus
respectivos centrides.
Observando o resultado do agrupamento, verifica-se a gerao de apenas 6
centrides, tendo em vista que os centrides 5 e 6 so pouco significativos. Cada
centride define uma caracterstica diferente para o conjunto de dados.

O primeiro centride, CENTROID 0 possui como caracterstica principal a


ocorrncia de solicitaes de transferncia de ttulos. Nesse centride temos
tambm, como caracterstica marcante, a presena de FASEs 094 por, pelo menos,
trs eleies consecutivas.
O segundo centride, CENTROID 1 tem como caracterstica principal o
grande nvel de operaes de alistamento como as primeiras ocorrncias, seguidas
de FASEs 094 por dois perodos consecutivos.
A caracterstica principal do CENTROID 2, a ocorrncia de FASEs 167 por
dois perodos consecutivos, seguidos de FASEs 094.
O quarto centride, CENTROID 3, com marcante caracterstica para a
ocorrncia de FASEs 256.
O centride 4 possui como caracterstica a destacar a ocorrncia de FASEs
167 (Justificativa) e 094 (No votou na Seo) com mais freqncia e por perodos
mais longos, chegando a grandes ndices na 4 e 5 vez.
O ltimo centride, o CENTROID 7, possui caracterstica semelhante ao
CENTROID 4, porm est ligado ocorrncia de operao de transferncia.
Esta fase do mtodo CRISP-DM refere-se aplicao de tecnologia com o
acompanhamento dos especialistas. Inicialmente busca-se estabelecer os
parmetros iniciais necessrios para a ferramenta; em seguida, a submisso dos
conjuntos de dados aos algoritmos selecionados, execuo de testes, construo
dos modelos e, finalmente, uma avaliao do modelo gerado.

3.6 Avaliao
Nesta fase realizada a avaliao dos modelos encontrados face aos
objetivos definidos, buscando-se identificar possveis desvios que possam subsidiar
a retomada de fases anteriores. So discutidos tambm, possveis desdobramentos
a partir do conhecimento adquirido.
Na fase de entendimento dos dados, houve a descoberta de problemas que
podem ser solucionados atravs de rigoroso critrio de aceitao dos dados no
momento da captao dos dados do eleitor.
Em anlises realizadas na fase de entendimento dos dados, foram
identificados alguns FASEs 167 aps o registro de FASEs de cancelamento ou
suspenso. Para estes eleitores, h a possibilidade de falha da Justia Eleitoral ao
permitir a entrada dos mesmos, para eleitores cancelados ou com direitos polticos
suspensos, sendo que sua comprovao requer a anlise documental e de
processos desses casos. Uma conseqncia importante deste problema o
aumento desnecessrio de informao no banco de dados, j que cada falha
introduz um erro a mais no banco de dados.
Na anlise das regras verifica-se que qualquer mudana de estado civil est
associada s coincidncias. A identificao dessas relaes aponta para a
necessidade de se rever todos os casos de mudana de estado civil, aplicando-se
mecanismos de batimento de nomes, de maneira a se identificar a sanar novos
casos de coincidncias.
Ressalta-se que o maior nmero de casos de coincidncias so advindos das
operaes de alistamento e transferncia, o que refora a necessidade de
mecanismos mais eficazes para a consulta, aos dados do eleitor, no momento de
seu atendimento.

A partir do modelo gerado pela classificao, observa-se que as eleitoras com


at 3 FASEs registrados e com segundo grau completo ou incompleto possuem a
maior probabilidade de se envolverem em coincidncias. Este ato contradiz uma
regra de bom senso pela qual um nmero alto de FASEs tem relao com
coincidncias, apontando para a necessidade de maiores investigaes.
No processo de identificao de agrupamentos foram obtidos 6 grupos de
eleitores dentre os que j se envolveram em coincidncias. Cada grupo gerado
oferece algum tipo de comportamento, que podem ser definidos como segue:
1) Eleitores que tiveram como primeira solicitao a TRANSFERNCIA
seguido de FASE 094 (No votou na seo) ou de trs FASEs 094.
2) Eleitores que aps ALISTAMENTO no votam, sendo registrados vrios
FASEs 094 (No Votou na seo).
3) Eleitores antigos do DF, que no possuem operao registrada e possuem
ocorrncias de FASEs 167 (Justificativa) e de 094 (No Votou na Seo)
por dois perodos consecutivos;
4) Eleitores que possuem FASE de indicao de gmeo (256).
5) Eleitores com ocorrncia de FASEs 167 e 094 a partir da terceira
solicitao e por perodos mais longos;
6) Eleitores com ocorrncias de FASEs 167 e 094 com crescimento de
operaes de TRANFERNCIA entre dois perodos.
Nessa fase de avaliao, necessria a reviso dos processos, de
minerao de dados, no sentido de se identificar e sanar possveis falhas.

3.7 Distribuio
A distribuio a fase que permitir aos clientes o acesso aos modelos
gerados para que extraiam conhecimento til.
Como o objetivo alvo da minerao de dados sobre o cadastro eleitoral recai
sobre a qualidade dos dados, os modelos, num primeiro momento, ficam restritos
Corregedoria Regional Eleitoral, que tomar as providncias para sua distribuio
aos Cartrios e outros rgos que achar conveniente.
Tomando-se medidas corretivas para a soluo dos problemas de forma
gradativa, o processo de minerao deve ser realizado continuamente,
estabelecendo mecanismos de monitoramento dos dados e critrios de avaliao
baseados nos atributos problemticos e outros que possam surgir.
Com relao tecnologia de recuperao, as pessoas envolvidas devem ser
capacitadas para efetuarem suas pesquisas.

4 - APRESENTAO DOS RESULTADOS


O estudo de caso desenvolvido neste trabalho proporcionou aos usurios
especialistas uma nova perspectiva de trabalho que pode ser desenvolvido a partir
da anlise informacional existente. J na primeira fase do processo em que se
buscou a definio e contextualizao do problema, pde-se verificar a necessidade
de identificao do conhecimento, informao e dados existentes, para que, a partir
desses, pudssemos direcionar os esforos para a definio do problema. Pereira
(1980 apud Polya, 1957) enfatiza a compreenso do problema, em que se
estabelecem quais os dados, condies e o que se deve procurar, como a primeira
fase de um processo de resoluo de problemas.

Assim como as competncias, os dados e informaes possuem suas


lacunas que devem ser identificadas e, se possvel, corrigidas. Autores como McGee
e Prusak (1994) e Pyle (1999) consideram a fase da identificao das necessidades
e dos problemas como a mais importante dos processos de gesto da informao.
Ainda assim, a definio do problema no trivial, pois requer a capacidade de
anlise e sntese bem aguadas dos especialistas.
Todo o processo adotado no estudo de caso possui a caracterstica da
criao do conhecimento, gerando, a cada passo, novas vises que podem ser
avaliadas e retro-alimentadas. Quando da captura dos insumos para a soluo dos
problemas, medida que os dados eram explorados, havia a provocao dos
processos mentais (PEREIRA, 1980) dos especialistas, que identificavam novas
necessidades de informao. A partir da percebeu-se a importncia da anlise
qualitativa e quantitativa dos dados, em que se identificou diversas inconsistncias
no banco de dados do cadastro de eleitores do Distrito Federal.
Na fase da avaliao e interpretao dos resultados da minerao, ficou claro
aos especialistas a necessidade de melhoria da informao do cadastro de eleitores,
com o foco na qualidade da informao e no estabelecimento de formas de controle
e manuteno da qualidade. Os resultados da minerao tiveram como maior
contribuio, o conhecimento do perfil dos eleitores e a necessidade de mecanismos
de atualizao dos dados e controle de qualidade dos mesmos, alvo para trabalhos
futuros.
Na minerao de dados, o conhecimento est na interpretao dos modelos
gerados e nas lies aprendidas durante todo o processo. A partir da, a divulgao
desse conhecimento apoiado na tecnologia da informao, subsidiar um processo
de reflexo dos demais funcionrios, que, por sua vez, contribuiro para a criao de
novas idias para os servios oferecidos pelo Tribunal sociedade.

5 - CONCLUSO
Na anlise das referncias utilizadas neste trabalho, nota-se que as
organizaes esto voltadas para aes tanto para o pblico externo como interno,
sejam seus clientes, fornecedores, funcionrios, cidados. O objetivo de cada
organizao a conduo de suas atividades com a melhor qualidade possvel, e,
para isso, utilizam a tecnologia como aliada ao alcance desse objetivo. Para isso, a
questo da gesto da informao, do conhecimento e de pessoas, requer o
planejamento e determinao da misso e dos objetivos organizacionais, como o
norteador principal para execuo das atividades a que se prope.
Inaugurado em 21 de abril de 1960 e instalado em 6 de setembro de 1960 no
Distrito Federal, Braslia, tendo como seu presidente o Desembargador Joo
Henrique Braune, o Tribunal Regional Eleitoral do Distrito Federal vem, desde ento,
executando suas atividades baseadas no que determina a Constituio Federal e
legislaes correlatas. Inserida tambm na necessidade do uso da tecnologia, a
Justia Eleitoral, desde 1986, utiliza-a de maneira a aprimorar cada vez mais seu
papel perante a sociedade.
Est inserida no escopo da descoberta de conhecimento em bases de dados,
a adoo de uma metodologia de controle da qualidade da informao. Wang (1998)
prope uma metodologia baseada no controle da qualidade total para produtos e
enfatiza que as organizaes devem seguir uma metodologia para delinear um

projeto de qualidade da informao, identificar questes criticas e desenvolver


procedimentos e mtricas para uma anlise e aperfeioamento contnuos.
De qualquer forma, a Justia Eleitoral do Distrito Federal possui uma gama de
dados no trabalhados, que podem auxiliar os tomadores de deciso na busca de
conhecimento no explicitado e que permitam a agregao desses aos servios
prestados.
O Tribunal Regional Eleitoral do Distrito Federal pode imprimir uma nova
sistemtica no tratamento do cadastro de eleitores com o uso constante da
minerao de dados. Costa (1999) relata que o ento Ministro Presidente do
Tribunal Superior Eleitoral Jos Nri da Silveira retratou a importncia do cadastro
de eleitores (SILVEIRA, 1998) dizendo:
"O alistamento, que se faz com a qualificao e inscrio de eleitores, pode
constituir, como fase inicial do processo, tambm, a primeira porta fraude,
inscrevendo-se quem no possua as qualificaes legais, ou de forma
mltipla, do que decorre a conseqncia inafastvel de tais vcios
contaminarem etapas posteriores do procedimento eleitoral. Nesse sentido,
a modernizao dos servios eleitorais em geral, utilizando-se tcnicas
novas para seu aprimoramento, com o fim de torn-los no s mais
eficientes, mas, ainda, mais resguardados de quaisquer vcios, h de
compor o rol permanente de providncias indispensveis a afirmar-se a
verdade eleitoral".
O uso da tecnologia de minerao de dados proporcionou uma viso clara da
necessidade do controle de qualidade da informao, podendo a MD ser utilizada
como ferramenta de medio e principalmente na descoberta de conhecimentos
teis para a tomada de deciso. Apesar dos modelos gerados no terem
proporcionado modelos eficientes, abre-se a possibilidade de um estudo mais
detalhado, ao lado dos especialistas, para a gerao de modelos eficientes e que
agreguem valor aos servios prestados pela Justia Eleitoral. Ainda assim, projetos
de minerao de textos, web mining, minerao de dados de sistemas
administrativos, so outras frentes que se pode trabalhar na rea de descoberta de
conhecimento em bases de dados

6 - REFERNCIAS
BERRY, Michael J. A; LINOFF, Gordon. Mastering Data Mining: The Art and
Science of Customer Relationship Management. John Wiley & Sons, Inc., 2000.
BRASIL. Tribunal Superior Eleitoral. Estatstica do Eleitorado. Tribunal Superior
Eleitoral. Stio http://www.tse.gov.br/eleitorado/eleitorado2002/index.html Consulta
realizada em 27/12/2002 s 09:00h. 2002d.
BRASIL Instituto Brasileiro de Geografia e Estatstica. Estatsticas de Registro
Civil. Stio visitado www.ibge.gov.br em 28/12/2002. 2002e.
COELHO, Joo Gilberto. Reflexes para o Futuro. In: Direito Eleitoral/Velloso. Ed.
Del Rey, 1996, p.55.
CHAPMAN, Pete, et. al. CRISP-DM 1.0 Step-by-step data mining guide, 1999.
Disponvel em http://www.crispdm.org, pgina visitada em 02/11/2001s 11:46hs.

COSTA, Alberto Luiz. Depurao do Cadastro Eleitoral. In: Palestra do VIII


Encontro dos Juizes Eleitorais, Florianpolis, 1999. Obtido do stio http://www.tresc.gov.br/sj/cjd/doutrinas/alberto1.htm em 06/01/2003.
FAYYAD, Usama M.; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From
Data Mining to Knowledge Discovery: na Overview. In: Advances in Knowledge
Discovery and Data Mining. Usama M. Fayyad, et.al. 9Editors). AAAI Press/MIT
Press, 1996.
HAN, Jiawei; KAMBER, Micheline. Data Mining: concepts and techniques.
Morgan Kaufmann Publishers, 2001.
JOBIM, Nelson; PORTO, Walter Costa. Legislao Eleitoral no Brasil: do sculo
XVI a nossos dias. Braslia: Senado Federal, Subsecretaria de Biblioteca, 1996.
McGEE, James; PRUSAK, Laurence. Gerenciamento Estratgico da Informao.
9 Edio. Rio de Janeiro, Editora Campus, 1994.
PEREIRA, W. C. de A. Resoluo de problemas Criativos: ativao da
capacidade de pensar. Braslia/DF: Departamento de Informao e
Documentao/EMBRAPA, 1980. 54p.
POLYA, George. How to solve it: a new aspect of mathematical method. New
Jersey: Princeton University Press, 1945.
PYLE, Dorian. Data preparation for data mining. Academic Press, 1999.
SILVEIRA, Jos Nri da. Aspectos do Processo Eleitoral. Ed. Livraria do
Advogado, Porto Alegre, 1998, pg. 23.
SOUSA, Paulo de Tarso Costa de. Minerao de Dados para induo de um
modelo de gesto do conhecimento. Dissertao de Mestrado. Universidade
Catlica de Braslia, 2003.
WANG, Richard. Y. A product perspective on total data quality management.
ACM Inc. Communications of the ACM, fev. 1998. v. 41 n. 2
WEKA 3: Machine Learning in Java. Verso 3.2.3. Software livre obtido do stio
http://www.cs.waikato.ac.nz/~ml/weka/index.html em 08/02/2002.

Você também pode gostar