Você está na página 1de 11

SelPPD - Seleo e Pr-Processamento de Dados em Data

Mining
Eliane da Silva Rocha, Adriano Adonis
Universidade Luterana do Brasil (ULBRA) Canoas RS - Brasil
elianesrocha @ yahoo.com.br, ado99 @ terra.com.br
Resumo. Este documento apresenta o desenvolvimento de uma ferramenta
que auxilie o usurio na seleo e pr-processamento dos dados de um banco
de dados, elaborando uma amostra consistente e completa, para ser utilizada
em alguma ferramenta de Data Mining. Baseada nos principais conceitos da
rea de Descoberta do Conhecimento de Banco de Dados DCBD, permite
minimizar as dificuldades encontradas nas duas principais etapas desse
processo, a seleo dos dados e o pr-processamento desses dados,
permitindo a obteno de um conhecimento relevante que auxilie os gestores
na tomada de decises.
1 Introduo
Atualmente, as organizaes tm-se mostrado extremamente eficientes em capturar,
organizar e armazenar grandes quantidades de dados, obtidos de suas operaes dirias
ou em pesquisas cientficas, porm, ainda no usam adequadamente essa enorme
quantidade de dados para transform-la em conhecimento que possa ser utilizada de
forma inteligente e mais automatizada na tomada de decises.
Neste contexto, surgiu no final da dcada de 80, um novo ramo da computao,
a Descoberta de Conhecimento em Bancos de Dados DCBD, conhecido originalmente
como KDD Knowledge Discovery in Database, com o objetivo principal de encontrar
uma maneira automatizada de explorar essas grandes bases de dados e reconhecer os
padres existentes (Machado, 2002).
Todo esse processo depende de uma gerao de ferramentas e tcnicas de anlise
de dados e envolve tambm, diversas etapas sucessivas que so definidas da seguinte
forma: seleo dos dados, pr-processamento dos dados, extrao de conhecimento e
interpretao do resultado. A principal etapa, que forma o ncleo de todo o processo,
e que algumas vezes se confunde com ele, chama-se Data Mining ou Minerao de
Dados. Essa etapa tem como objetivo, extrair informaes vlidas e de mxima
abrangncia a partir dessas grandes bases de dados, com o objetivo de obter
conhecimento para a tomada de decises.
Os principais desafios do processo de DCBD situam-se nas etapas de
seleo e de pr-processamento, onde h dificuldade tanto na obteno de informaes
relevantes pela seleo dos dados de amostra, como na formatao para o pr-
processamento de dados. Esses procedimentos so necessrios visto que os algoritmos
1
de extrao no so capazes de manipular estruturas complexas com grande quantidade
de dados.
Apesar de se difundir vastamente que as etapas de seleo e pr-processamento
dos dados, num processo de DCBD, envolvem tarefas trabalhosas, as quais abrangem
aproximadamente 80% do trabalho de Data Mining, pouco esforo verifica-se com
relao implementao de ferramentas que diminuam as dificuldades encontradas
neste processo. Existem hoje no mercado, algumas ferramentas que possuem algumas
funcionalidades que permitem o usurio a minimizar os problemas encontrados nessas
duas etapas do processo de DCBD, mas muitas no centralizam essas funcionalidades
em uma nica s ferramenta. So exemplos dessas ferramentas disponveis : o Weka
(Waikato, 2007), o Access (Byme, 1999) e o Oracle SQL Developer (Oracle, 2007).
A motivao para a elaborao deste trabalho surgiu da necessidade de
apresentar a importncia das etapas de seleo e pr-processamento dos dados no
processo de DCBD, o quanto elas so trabalhosas e o quanto envolvem tarefas
complexas e ainda pouco estudadas. Dessa forma, o objetivo principal neste artigo
apresentar o desenvolvimento de uma ferramenta que auxilie o usurio na seleo e pr-
processamento dos dados de um banco de dados Oracle ou Access, elaborando uma
amostra consistente e completa, para ser utilizada por qualquer ferramenta de Data
Mining. Como resultado, obtm-se um conhecimento relevante que auxilia gestores na
tomada de decises. Tambm contempla desde o estudo da rea de DCBD, at a
seleo de dados e a preparao destes. O foco da ferramenta criada resolver as
principais dificuldades encontradas nessas duas principais etapas do processo, sendo
que para isso, foi preciso seguir alguns desafios:
Conhecer a rea de DCBD e as suas etapas;
Definir um estudo de caso, baseado em um banco de dados real;
Aplicar os principais conceitos da rea na implementao da ferramenta;
Este artigo est organizado em trs sees, incluindo a introduo. A seo
desenvolvimento apresenta a fundamentao terica com os principais conceitos sobre o
processo de DCBD, assim como um detalhamento sobre as suas principais etapas.
Tambm apresenta a proposta elaborada, a apresentao da ferramenta criada e uma
avaliao da implementao em um banco de dados real. A seo concluso, apresenta a
concluso obtida desde o estudo feito na tecnologia de DCBD, passando pela proposta
do projeto e pela implementao da soluo, at a avaliao dos resultados obtidos com
os testes da ferramenta SelPPD.
2 Desenvolvimento
2.1 Fundamentao Terica
Segundo Bigolin (2000), a DCBD refere-se s etapas que produzem conhecimentos a
partir de dados relacionados e sua principal caracterstica a extrao no-trivial de
informaes implicitamente contidas em uma base de dados. Essas informaes so de
difcil deteco por mtodos tradicionais de anlise e devem ser potencialmente teis
para tomada de deciso. Enquanto os mtodos tradicionais so capazes de tratar apenas
2
as informaes explcitas, a DCBD capaz de detectar informaes implcitas
armazenadas nos bancos de dados. O processo completo de DCBD que constitudo
por quatro etapas:
seleo dos dados: selecionar os dados relevantes, para saber um problema
especfico. Essa seleo pode ser feita por uma linguagem de consulta, que
fornece como resultado um subconjunto dos dados providos do banco de dados
pr-processamento: fazer com que os dados selecionados sejam tratados e
colocados em uma estrutura apropriada, que ser utilizada na extrao de
conhecimento. Para isso, vrios tratamentos so necessrios, tais como: limpeza
dos dados, simplificao da estrutura, escolha dos dados relevantes, entre outras.
O resultado deve ser uma base representativa no formato atributo/valor.
extrao de conhecimento: extrair modelos a partir de dados selecionados e
processados, utilizando algortmos de aprendizagem. Esses permitem a
classificao e caracterizao de um conjunto de dados. O resultado um
modelo de conhecimento, que pode ser em formato de grafos, rvores de deciso
ou regras do tipo Se premissa Ento concluso.
interpretao dos dados: formatar modelos obtidos em representaes
explorveis. Essas podem ser apresentadas ou reaproveitadas pelo sistema.
2.2 Proposta
A proposta deste trabalho a criao de uma ferramenta de seleo e pr-processamento
dos dados para Data Mining, chamada de SelPPD Seleo e Pr-Processamento de
Dados, e ser composta por duas principais partes: uma de seleo dos dados e outra de
pr-processamento dos dados desse conjunto que acabou de ser selecionado.
Permitir que a partir de um banco de dados seja selecionado apenas um
conjunto de dados. Esses podero ser pr-processados e assim, fazerem parte de um
arquivo novo, uma amostra, que ir conter o banco de dados de uma forma mais
reduzida e padronizada, para ser utilizado por uma ferramenta de Data Mining.
Para acessar uma base de dados, a ferramenta oferecer uma parte de
configuraes, onde o usurio ir informar a conexo com o banco. No momento que a
conexo for estabelecida, ser disponibilizada a visualizao de todas as tabelas
existentes nesse banco e assim que uma delas for selecionada, ser possvel visualizar,
todos os seus respectivos atributos. A partir desse momento, ser iniciada a etapa de
seleo dos dados.
Na parte de seleo dos dados, permitir ao usurio diminuir o volume de dados,
obtendo assim, uma representao reduzida do banco. Isso se faz necessrio, pois
diminui o tempo de anlise das ferramentas para Data Mining e facilita a interpretao
dos dados. A estratgia para a reduo dos dados se dividir em outras duas partes:
Atributos: utilizar a tcnica de reduo de dimenso. Em Data Mining a
supresso de um atributo muito mais delicada que a supresso de uma
linha. Retirar atributos relevantes ou permanecer com atributos irrelevantes
3
pode implicar na descoberta de padres de baixa qualidade. Surge assim, a
necessidade da seleo manual de atributos, baseada no conhecimento do
usurio especialista. Assim, a ferramenta possibilitar que o usurio
selecione a tabela envolvida na seleo e indique quais atributos dessa, que
faro parte desse novo conjunto de dados a ser gerado pela ferramenta.
Linhas: permitir definir restries na seleo dos dados, utilizando
operadores de igualdade e os de intervalos. Aqui o usurio especialista
precisar ter cuidado em informar o tipo de seleo para montagem do
conjunto de dados, pois influenciar diretamente no resultado quando
aplicado em uma ferramenta de Data Mining. Assim, a ferramenta
possibilitar que o usurio restrinja as linhas pelos atributos indicados na
seleo por atributo. Por exemplo, se o usurio selecionar um atributo tipo
data aqui na seleo dos dados, utilizando-se da estratgia de reduo por
linhas, ele poder restringir apenas um determinado perodo, ou seja, far
com que sejam exibidas as linhas cujo atributo tipo data estiver no intervalo
informado. Um exemplo para a seleo de linhas por igualdade, seria para
os atributos tipo texto, onde o usurio entraria com um valor que seria
procurado no atributo por ele selecionado.
Ainda no processo de seleo dos dados, diferentes tabelas podero ser
selecionadas e conseqentemente, seus atributos tambm podero ser indicados para a
composio da amostra. O usurio apenas ter que atentar para o fato de que as tabelas
precisaro ser ligadas umas s outras atravs da indicao de seus relacionamentos.
Nessa etapa, o usurio precisar indicar qual atributo ou quais atributos de uma
determinada tabela, fazem parte do relacionamento com a segunda tabela.
Na parte de pr-processamento dos dados, haver diversas opes ou
alternativas para o usurio tratar os dados, como por exemplo:
Eliminao de instncias com valores nulos.
Preenchimento de dados ausentes.
Padronizao de atributos tipo data e tipo texto.
Criao de novos atributos.
No momento que essas duas etapas j foram definidas pelo usurio, a ferramenta
disponibilizar a visualizao da amostra, que permitir uma pr-avaliao do que foi
por ele configurado no decorrer da montagem. Caso seja necessrio mudar a seleo ou
at modificar alguma formatao dos atributos, a ferramenta disponibiliza voltar e
complementar ou alterar conforme desejado. A visualizao ser disponibilizada pela
ferramenta, quantas vezes forem necessrias ao usurio.
Quando o usurio aprovar a amostra gerada, a ferramenta disponibilizar a
gerao desse resultado em um arquivo fsico a ser gravado em um diretrio indicado
pelo usurio, portanto, permitindo gerar amostras em arquivos tipo texto, delimitados
por ponto e vrgula, podendo ser editados em qualquer editor de texto.
4
2.3 Apresentao da Ferramenta
A ferramenta SelPPD, foi desenvolvida na linguagem Visual Basic .NET em ambiente
com sistema operacional Windows XP Professional Verso Service Pack 2. Para que
atendesse a qualquer banco de dados Oracle ou Access, foi necessrio trabalhar
diretamente com as tabelas de estruturas internadas dos bancos, aquelas que somente os
administradores de banco de dados tm acesso e que contm todas as informaes sobre
as tabelas, atributos, ndices, databases, entre outros, que so criados pelos usurios para
compor os sistemas utilizados nas organizaes. totalmente transparente ferramenta,
qual tabela, atributos, relacionamentos e at restries aplicadas pelo usurio, pois o seu
processamento abrange somente os dados existentes nas tabelas internas dos bancos.
O SelPPD possui apenas duas opes na tela principal. A primeira opo a de
Configuraes, utilizada para setar o ambiente, indicando o tipo de banco de dados e
sua string de conexo ou o nome do arquivo (no caso do banco Access). Somente aps
confirmar essas informaes, que a ferramenta ir estabelecer a conexo com o banco.
J a segunda opo Seleo, que disponibiliza o acesso a uma nova tela que divide-se
em quatro partes (ou abas), que compem a gerao da amostra dos dados.
Figura 1: Tabela/Atributos
A figura 1 mostra a 1 aba - Tabelas/Atributos - busca automaticamente todas as
tabelas do banco atravs da conexo informada na opo Configuraes. Quando uma
dessas tabelas selecionada, a ferramenta busca automaticamente todos os seus
respectivos atributos apresentando-os no primeiro grid da tela. Nesse, as duas primeiras
colunas identificam-se atravs de checks: o de visualizar, que permite indicar quais
desses atributos sero visualizados na amostra e o de relacionar, que permite indicar os
atributos que sero utilizados na 2 aba para relacionarem-se com outras tabelas
indicadas aqui pelo usurio. Clicando no boto inserir, esses atributos sero
apresentados no segundo grid mais abaixo, permitindo assim, que uma nova tabela seja
selecionada e o mesmo processo seja repetido para todas as tabelas que se faam
necessrias na gerao da amostra. Ainda nesse segundo grid, permite que o usurio
5
faa uma reviso da seleo e, se necessrio, marque atravs do check excluir (primeira
coluna do segundo grid), quais desses atributos devero ser excludos dessa primeira
seleo. Ao concluir essa etapa, indicada atravs do acionamento do boto finalizar,
que ser possvel acompanhar a montagem do script nas caixas que se apresentam na
parte inferior da tela.
Figura 2: Relacionamentos
A figura 2 mostra a 2 aba Relacionamentos - busca somente as tabelas
selecionadas na 1 aba e as apresenta para uma prxima seleo. Escolhendo uma delas,
a ferramenta busca automaticamente os seus respectivos atributos apresentando-os no
primeiro grid. Neste possvel indicar o atributo chave, atravs da primeira coluna onde
existe um check. Assim, na quinta coluna pode-se selecionar atravs de uma lista
montada com todos os atributos indicados na 1 aba, qual o que faz parte da chave de
relacionamento. Clicando no boto inserir, possvel confirmar todos os
relacionamentos indicados, quais os que sero utilizados na montagem do script no
segundo grid. Nesse, possvel revisar a seleo feita e, se necessrio, marcar atravs
do check excluir, da primeira coluna, quais relacionamentos devero ser excludos da
seleo. Ao concluir essa etapa, indicada atravs do acionamento do boto finalizar,
possvel acompanhar a montagem de mais uma parte do script nas caixas que se
apresentam na parte inferior da tela.
A figura 3 mostra a 3 aba Restries - busca automaticamente todos os
atributos indicados para serem visualizados na 1 aba e os apresenta no grid. A partir
da, disponibiliza a programao de restries a serem acrescentadas na seleo, assim
como a possibilidade de formatar sua sada na amostra que ir para o arquivo fsico.
Nesse caso, as opes de formatao dependero do tipo de atributo definido no banco
de dados. As opes disponveis para restries e formataes dos atributos so:
- Nulo: permite indicar se esse pode ou no ter valores nulos. Est disponvel
para os atributos cujo tipo seja date, varchar2 ou numeric.
6
- Initial: permite informar um valor qualquer que ser atribudo ao atributo
selecionado, quando seu valor for nulo. Est disponvel para os atributos cujo
tipo seja date, varchar2 ou numeric.
- Between: permite restringir o valor, para que esse esteja entre o intervalo
especificado. Est disponvel para atributos tipo date, varchar2 ou numeric.
- Formato: permite formatar o valor conforme o seu tipo. Para os atributos do
tipo date, disponibiliza algumas mscaras pr-definidas com as premissas DD,
MM e AA. Para o tipo varchar2, disponibiliza opes UPPER e LOWER. Para
o tipo numeric, disponibiliza que o prprio usurio informe a mscara.
- Like: permite restringir o valor conforme o valor informado. Nesse caso, usa-se
o coringa % para identificar a parte da seqncia de caracteres no texto, que
se pretende procurar. Est disponvel para atributos tipo varchar2.
- Decode: permite substituir o valor original por um outro informado pelo
usurio. Disponibiliza a montagem de uma tabela de/para para os possveis
valores do atributo selecionado. Est disponvel para tipos varchar2 e numeric.
- Nova coluna: permite criar uma nova coluna que ser apresentada na amostra.
Assim que esse boto acionado, novos campos aparecem na tela para que seja
montada a frmula que ir compor o valor da nova coluna. Uma nova linha
acrescentada no grid, com o nome criado automaticamente pela ferramenta.
Esto disponveis: soma, subtrao, diviso e multiplicao, sendo ainda
possvel alterar as prioridades de operaes com a seleo de parnteses. Os
valores que iro compor essas operaes podem ser de atributos escolhidos
pelo usurio ou ento valores fixos, logo, o resultado fica disponvel para ser
acompanho no quadro lateral, sendo tambm possvel visualizar a frmula que
est sendo montada.
Figura 3: Restries
7
Ainda na 3 aba, existe um boto de detalhes, onde possvel obter algumas
informaes relevantes do atributo para estabelecer as formataes ou restries
apresentadas acima. Ser possvel visualizar: se o seu preenchimento obrigatrio ou
opcional, uma tabela com a relao dos valores existentes no banco e o percentual que
esses representam no total de registros, o nmero de registros que esto sem valor e os
que esto com valor (alm do percentual que isso representa no total de registros).
Figura 4: Arquivo
A figura 4 mostra a 4 aba Arquivo - permite executar o script montado nas
abas anteriores. Para isso, deve-se acionar o boto visualizar, que ir buscar todos os
registros do banco que satisfaam a seleo montada e apresent-los no grid. Atravs do
boto gerar, possvel realizar a gerao do arquivo fsico do resultado apresentado no
grid. Nesse caso, antes da gerao necessrio informar o nome do arquivo e tambm
indicar o diretrio em que esse ser criado. Tanto na visualizao quanto na gerao
fsica da amostra, por default todos os registros do banco que atenderem as condies
apontadas no script, retornaro para o grid para serem visualizadas ou faro parte da
amostra no arquivo fsico. A ferramenta permite limitar esse nmero de registros, sendo
necessrio apenas informar nmero de registros desejados no campo nro de registros,
nessa mesma tela.
2.4 Avaliao da Ferramenta
Para a avaliao dos resultados obtidos com a utilizao do SelPPD, selecionou-se uma
base de dados Oracle para servir de ambiente de testes, onde foi proposto que uma
amostra fosse elaborada utilizando-se o SelPPD e outra amostra fosse elaborada
diretamente no SQL Plus da Oracle.
A base de dados utilizada possui informaes do registro de horas trabalhadas
dos funcionrios de uma empresa. Essa base foi selecionada por apresentar uma
estrutura simples para facilitar a montagem, uma vez que necessita do conhecimento de
8
um usurio especialista nesta elaborao. Ela composta por tarefas que so realizadas
e lanadas no sistema pelos usurios. Cada registro possui informaes quanto data e
hora em que a tarefa foi realizada, o cliente atendido, o tipo de tarefa realizada e o
projeto a qual faz parte.
Todas as amostras, independente da utilizao da ferramenta aqui proposta,
precisa possuir dados coerentes para apresentar um resultado notvel na aplicao de
uma ferramenta de Data Mining. E para isso, atravs dos estudos feitos sobre DCBD,
so obtidas junto manipulao dos dados por um usurio especialista para identificar
os atributos relevantes e as tabelas onde os mesmos se encontram. Portanto, ficou
definido que os dados a serem contidos nas amostras elaboradas para os testes seriam as
tarefas registradas no ano de 2006 e os atributos contidos nas amostras seriam os
seguintes: data em que foi realizada a tarefa, apresentada no formato dd/mm; o total de
horas gasto com a tarefa, apresentada no formato hh:mi; o nome do usurio que
registrou a tarefa; o nome do projeto relacionado; nome do tipo de tarefa realizada e o
nome do cliente que solicitou a tarefa .
Durante a extrao das amostras, verificou-se que para a elaborao utilizando-
se o SQL Plus, o usurio especialista levou 8 minutos at a visualizao do arquivo
fsico gerado. J na extrao da amostra utilizando a ferramenta proposta, verificou-se
que o mesmo usurio especialista levou 5 minutos at a visualizao do arquivo fsico
gerado. Dessa forma, foi possvel avaliar que com a utilizao da ferramenta
SelPPD houve um ganho de aproximadamente 40% do tempo do usurio especialista na
elaborao da amostra. Ainda vale salientar que a ferramenta pode ser utilizada por
usurios que no tenham conhecimento de comandos SQL, pois atravs dela, apenas o
conhecimento da estrutura das tabelas necessrio.
Acredita-se ainda que com uma maior familiarizao com a ferramenta proposta,
os usurios ainda podero tirar um melhor proveito da ferramenta, no necessitando
mais a ajuda de um administrador de banco de dados para a extrao das amostras. A
independncia para a montagem das amostras e a possibilidade de visualizar o
resultado, permitindo modific-lo ainda antes de jog-lo para um arquivo fsico,
permitir uma melhor formatao e at elaborao de uma amostra mais consistente.
3 Concluso
As organizaes que detm o conhecimento adquirido com confiabilidade, rapidez e de
forma organizada, tem grandes chances para manterem-se de forma competitiva no
mercado. Isso no uma tarefa fcil, pois a grande quantidade de dados disponvel a
cada dia vem crescendo de forma gigantesca nos ltimos anos. Tentar transformar esses
dados em informao para que possam apoiar os gestores em tomadas de deciso,
melhorando os processos da organizao, detectando tendncias e at caractersticas at
ento no percebidas, um desafio para as reas de informtica. Uma delas DCBD,
que tem como objetivo explorar essa grande quantidade de dados e extrair de forma
consistente o conhecimento, atravs das vrias etapas que compem esse processo e
servindo fundamentalmente como ferramenta essencial para o planejamento estratgico
das organizaes.
9
Assim, esse artigo apresentou a implementao de uma ferramenta de
seleo e pr-processamento de dados para Data Mining, que tem como objetivo
minimizar as dificuldades encontradas nas duas principais etapas do processo de
DCBD. A ferramenta foi desenvolvida utilizando-se a tecnologia Visual Basic .Net,
linguagem totalmente orientada a objetos, e encontra-se disponvel para testes. Ela ainda
pode ser aplicada em qualquer base de dados Oracle ou Access, gerando como sada um
arquivo fsico no formato texto que pode ser administrado por ferramentas de Data
Mining.
Para a utilizao do SelPPD no exige-se conhecimento de comandos SQL por
parte do usurio, apenas o conhecimento da estrutura das tabelas onde os dados estejam
armazenados. Isso pode ser constatado na utilizao da ferramenta, onde o usurio
apenas selecionava as tabelas e atributos existentes no banco configurado. A partir desse
momento, o usurio s tinha a necessidade de marcar os que fariam parte da amostra e
selecionar quais as formas que gostaria de apresentar o resultado formatado no arquivo
texto gerado no final.
Conforme verificou-se durante os estudos de DCBD, as amostras geradas por
um usurio especialista so melhor elaboradas devido ao conhecimento que esse possui
com relao aos atributos relevantes a serem utilizados para restries e at para compor
o arquivo fsico.
No decorrer dos testes do usurio especialista, surgiram algumas sugestes para
melhoramentos futuros nessa ferramenta. Ficou bem claro que a extratificao dos
atributos em intervalos foi um dos itens oferecidos pela ferramenta, atravs da opo
decode da 3 aba, que apesar de atender de forma bem simples como uma forma de
dividir os dados em faixas, est muito trabalhosa para o usurio. Assim, pode-se optar
por utilizar tcnicas mais automatizadas como regra de Sturges, a ser ainda melhor
estudada, ou at mesmo a diviso por n classes informadas pelo prprio usurio.
Alm disso, a possibilidade de informar o delimitador no arquivo fsico gerado,
a possibilidade de montar frmulas com funes prontas j definidas, entre outras,
podem tambm serem avaliadas para um futuro melhoramento da ferramenta.
Como sugesto de implementao futura na ferramenta, sero pesquisados e
estudados novos bancos de dados e suas estruturas internas de tabelas, para possibilitar
assim, ampliar as possibilidades de conexes da ferramenta. Sabendo-se como os
bancos armazenam as informaes de suas tabelas, atributos, ndices, databases, entre
outros, ser possvel fazer com que a ferramenta seja adaptada para novas estruturas.
Referncias
Bigolin, N. M. (2000) Data Mining: Conceitos e Tcnicas, Iju-RS, p.233-252.
Byme, J. (1999) Microsoft Access 2000. Rio de Janeiro, Editora Campus.
Machado, V. M. (2002) Estudo de tcnicas de Data Mining para utilizao em dados de
concesso de crdito imobilirio. Universidade Luterana do Brasil, Graduao em
Informtica, Canoas. (Trabalho de Concluso de Curso)
10
Oracle, T. N. (2007) Oracle Technology Network - Oracle SQL Developer.
http://www.oracle.com/technology/products/database/sql_developer/index.html,
Abril.
Waikato, U. (2007) Weka The University of Waikato,
http://www.cs.waikato.ac.nz/ml/weka/, Abril.
11