Escolar Documentos
Profissional Documentos
Cultura Documentos
RESUMO
A partir da metodologia CRISP-DM de minerao de dados, este trabalho busca a
aplicao deste modelo em um estudo de caso no TRE-DF, utilizando como fonte de
dados o cadastro de eleitores e de coincidncias do DF, com o objetivo de descobrir
padres teis que possam ser agregados aos servios da Justia Eleitoral. O estudo
de caso proporcionou ainda o conhecimento mais aprofundado dos dados do
cadastro de eleitores do Distrito Federal, alm de apresentar os possveis
desdobramentos oriundos de sua anlise, destacando a necessidade de
mecanismos de controle de qualidade da informao.
Palavras-chave: Minerao de dados, CRISP-DM, Tribunal eleitoral, eleitor, DCBD.
1
2
1 - INTRODUO
Em anos recentes, a tecnologia de Informtica tem contribudo no sentido de
tornar disponveis as ferramentas de Descoberta de Conhecimento em Bancos de
Dados (DCBD). Estas ferramentas permitem a identificao de padres de
relacionamento entre dados que, adequadamente interpretados, podem levar
abstrao de conhecimento indito e relevante.
Ocorre ainda que a gerao em massa de informaes registradas nos
bancos de dados, impulsionados pela tecnologia da informao (TI), nos proporciona
uma fonte de informaes muita rica e com grande potencial de auxlio na melhoria
de produtos e servios.
A minerao de dados ou Data Mining, faz parte desse contexto e o ato de
buscar ou descobrir conhecimento em grandes volumes de dados. Algumas
pessoas, segundo Han e Kamber (2001), tratam minerao de dados como a
descoberta de conhecimento em bancos de dados. Outros tratam a minerao de
dados como uma fase da descoberta de conhecimento em bancos de dados, como
visto por Fayyad, Piatestsky-Shapiro e Padhraic (1996), que definem claramente as
atribuies das fases da DCBD. Estes mesmos autores j diferenciam DCBD e
minerao de dados, sendo a primeira um conjunto de processos para a descoberta
de conhecimento til a partir de dados; a segunda, como apenas parte desse
processo na aplicao de algoritmos para extrao de padres. Berry e Linoff (2000)
refletem a importncia do entendimento da minerao de dados, no como uma
simples ferramenta que se possa comprar e utilizar, mas como uma disciplina que
envolve o estabelecimento de uma metodologia para sua definio e uso.
O Tribunal Regional Eleitoral do Distrito Federal (TRE-DF) no foge a esse
panorama, possuindo uma srie de dados no explorados que podem ser teis para
a gerao de novos conhecimentos, desembocando na melhoria dos servios
prestados aos cidados. Este trabalho pretende, atravs de um estudo de caso,
demonstrar a aplicao de tcnicas de minerao de dados (MD) na gerao de
padres teis para as atividades da Justia Eleitoral.
2 - METODOLOGIA
2.1 Abordagem adotada
A tecnologia utilizada a de minerao de dados, desenvolvendo-se atravs
da metodologia CRISP-DM1 (CHAPMAN, et al, 1999), e sua aplicao em um estudo
de caso no Tribunal Regional Eleitoral do Distrito Federal.
O estudo de caso tem por objetivo principal a aplicao dos processos de
minerao de dados definidos pela metodologia CRISP-DM.
3 - ESTUDO DE CASO
3.1 Introduo
O Tribunal Regional Eleitoral do Distrito Federal o rgo do Poder Judicirio
responsvel pelo processo eleitoral, no Distrito Federal, nos aspectos jurdico e
operacional, de forma a garantir a fiel observncia das diretrizes fundamentadas em
lei. No processo eleitoral tem-se a caracterizao de servios prestados
comunidade quando se trata do relacionamento com eleitores e partidos polticos
sendo estes o pblico alvo da Justia Eleitoral. O contato da Justia Eleitoral do DF
com os eleitores e partidos polticos, em sua maioria, realizado nos cartrios
eleitorais. Cada cartrio responsvel pelo atendimento aos eleitores de uma
determinada regio geogrfica, e esto subordinados, no TRE, Corregedoria
Regional Eleitoral (CRE).
Nesse contexto organizacional verifica-se que as fontes de conhecimento
pessoais, relativas aos processos eleitorais esto dispersas pelo Tribunal,
especialmente nos Cartrios Eleitorais e CRE. Uma outra fonte de conhecimento
existente o banco de dados onde esto registradas informaes do eleitorado e
seus respectivos histricos.
Este estudo de caso foi realizado junto Corregedoria Regional Eleitoral do
Distrito Federal, rgo responsvel pela normatizao e controle dos procedimentos
realizados pelos Cartrios Eleitorais.
Na etapa seguinte deste estudo, utilizaremos a metodologia CRISP-DM de
minerao de dados, a qual seguiremos passo-a-passo.
3.2.1 Objetivos
O Tribunal Regional Eleitoral do Distrito federal foi criado pelo Decreto Lei n
21.076/1932 (JOBIM e PORTO, 1996), e a ele so atribudas funes judicirias e
executivas conforme estabelece a Constituio Federal de 5 de outubro de 1988, em
seu artigo 118 e o Cdigo Eleitoral (Lei n 4737/1965) (JOBIM e PORTO, 1996). A
justia eleitoral, como rgo administrador do pleito, segundo Coelho (1996), inicia
Do acrnimo Waikato Environment Knowledge Analysis (tambm ave em extino da Nova Zelndia). Open
Source.
2
Ferramenta de minerao de dados baseado no algoritmo CNM (Combinatorial Neural Model).
3.5 Modelagem
A modelagem a fase do CRISP-DM onde escolhida a tcnica de
minerao dos dados. Esta fase apresenta forte interao com a fase de
preparao, uma vez que a tcnica escolhida pode ter implicaes na formatao
dos dados. As tcnicas de modelagem a serem utilizadas neste trabalho so a
classificao, que se destinar descoberta de caractersticas padro para os
eleitores do Distrito Federal, e a identificao de agrupamentos (Clustering), utilizada
para a descoberta de padres de comportamento dos eleitores envolvidos em
coincidncias.
A classificao foi escolhida como tcnica em virtude da necessidade de
encontrar modelos que descrevessem ou distinguissem os eleitores em
coincidncias, por sexo. Assim, teriam-se caractersticas padro que permitam a
identificao ou comprovao se os eleitores do sexo feminino esto mais
suscetveis a serem identificadas em coincidncias, do que os do sexo masculino. J
o agrupamento, foi escolhido em razo da inexistncia de uma classe alvo e na
necessidade de se identificar comportamentos semelhantes para os eleitores em
coincidncias.
3.5.1 Classificao
Na classificao foi utilizado o conjunto de dados DATASET1, que trata dos
dados dos eleitores, e utilizado para alcanar os objetivos da minerao descritos no
entendimento do negcio. Baseado nas hipteses formuladas e no entendimento
dos dados foi realizada uma classificao por rvore de deciso com as seguintes
caractersticas:
1) Algoritmo utilizado: C4.5 (J48);
2) 16.952 instncias referentes aos eleitores que j estiveram envolvidos em
coincidncias;
3) Confiana de 90% (-C 0.10)
4) Selecionados 7 atributos: SEXO, EST_CIVIL, GR_INSTR, FAIXA_IDADE,
ULTIMA_OPERACAO, QTD_FASES e QTD_OPERACOES_RAE;
5)
6)
7)
8)
9)
3.6 Avaliao
Nesta fase realizada a avaliao dos modelos encontrados face aos
objetivos definidos, buscando-se identificar possveis desvios que possam subsidiar
a retomada de fases anteriores. So discutidos tambm, possveis desdobramentos
a partir do conhecimento adquirido.
Na fase de entendimento dos dados, houve a descoberta de problemas que
podem ser solucionados atravs de rigoroso critrio de aceitao dos dados no
momento da captao dos dados do eleitor.
Em anlises realizadas na fase de entendimento dos dados, foram
identificados alguns FASEs 167 aps o registro de FASEs de cancelamento ou
suspenso. Para estes eleitores, h a possibilidade de falha da Justia Eleitoral ao
permitir a entrada dos mesmos, para eleitores cancelados ou com direitos polticos
suspensos, sendo que sua comprovao requer a anlise documental e de
processos desses casos. Uma conseqncia importante deste problema o
aumento desnecessrio de informao no banco de dados, j que cada falha
introduz um erro a mais no banco de dados.
Na anlise das regras verifica-se que qualquer mudana de estado civil est
associada s coincidncias. A identificao dessas relaes aponta para a
necessidade de se rever todos os casos de mudana de estado civil, aplicando-se
mecanismos de batimento de nomes, de maneira a se identificar a sanar novos
casos de coincidncias.
Ressalta-se que o maior nmero de casos de coincidncias so advindos das
operaes de alistamento e transferncia, o que refora a necessidade de
mecanismos mais eficazes para a consulta, aos dados do eleitor, no momento de
seu atendimento.
3.7 Distribuio
A distribuio a fase que permitir aos clientes o acesso aos modelos
gerados para que extraiam conhecimento til.
Como o objetivo alvo da minerao de dados sobre o cadastro eleitoral recai
sobre a qualidade dos dados, os modelos, num primeiro momento, ficam restritos
Corregedoria Regional Eleitoral, que tomar as providncias para sua distribuio
aos Cartrios e outros rgos que achar conveniente.
Tomando-se medidas corretivas para a soluo dos problemas de forma
gradativa, o processo de minerao deve ser realizado continuamente,
estabelecendo mecanismos de monitoramento dos dados e critrios de avaliao
baseados nos atributos problemticos e outros que possam surgir.
Com relao tecnologia de recuperao, as pessoas envolvidas devem ser
capacitadas para efetuarem suas pesquisas.
5 - CONCLUSO
Na anlise das referncias utilizadas neste trabalho, nota-se que as
organizaes esto voltadas para aes tanto para o pblico externo como interno,
sejam seus clientes, fornecedores, funcionrios, cidados. O objetivo de cada
organizao a conduo de suas atividades com a melhor qualidade possvel, e,
para isso, utilizam a tecnologia como aliada ao alcance desse objetivo. Para isso, a
questo da gesto da informao, do conhecimento e de pessoas, requer o
planejamento e determinao da misso e dos objetivos organizacionais, como o
norteador principal para execuo das atividades a que se prope.
Inaugurado em 21 de abril de 1960 e instalado em 6 de setembro de 1960 no
Distrito Federal, Braslia, tendo como seu presidente o Desembargador Joo
Henrique Braune, o Tribunal Regional Eleitoral do Distrito Federal vem, desde ento,
executando suas atividades baseadas no que determina a Constituio Federal e
legislaes correlatas. Inserida tambm na necessidade do uso da tecnologia, a
Justia Eleitoral, desde 1986, utiliza-a de maneira a aprimorar cada vez mais seu
papel perante a sociedade.
Est inserida no escopo da descoberta de conhecimento em bases de dados,
a adoo de uma metodologia de controle da qualidade da informao. Wang (1998)
prope uma metodologia baseada no controle da qualidade total para produtos e
enfatiza que as organizaes devem seguir uma metodologia para delinear um
6 - REFERNCIAS
BERRY, Michael J. A; LINOFF, Gordon. Mastering Data Mining: The Art and
Science of Customer Relationship Management. John Wiley & Sons, Inc., 2000.
BRASIL. Tribunal Superior Eleitoral. Estatstica do Eleitorado. Tribunal Superior
Eleitoral. Stio http://www.tse.gov.br/eleitorado/eleitorado2002/index.html Consulta
realizada em 27/12/2002 s 09:00h. 2002d.
BRASIL Instituto Brasileiro de Geografia e Estatstica. Estatsticas de Registro
Civil. Stio visitado www.ibge.gov.br em 28/12/2002. 2002e.
COELHO, Joo Gilberto. Reflexes para o Futuro. In: Direito Eleitoral/Velloso. Ed.
Del Rey, 1996, p.55.
CHAPMAN, Pete, et. al. CRISP-DM 1.0 Step-by-step data mining guide, 1999.
Disponvel em http://www.crispdm.org, pgina visitada em 02/11/2001s 11:46hs.