Abernethy - 2010 - Mineração de Dados Com WEKA, Parte 1 Introdução 2

Mineração de dados com WEKA, Parte 1: Introdução e regressão Página 1 de 16
Mineração de dados com WEKA, Parte 1:

Introdução e regressão
Michael Abernethy, Product Development Manager, Optimal Auctions
Resumo: A mineração de dados é o assunto da indústria de tecnologia, na medida em que as

empresas estão gerando milhões de pontos de dados sobre seus usuários e buscando um modo de
transformar estas informações em mais receita. A mineração de dados é um termo coletivo para
dúzias de técnicas que retiram informações dos dados e as transformam em algo significativo. Este
artigo apresenta o software de mineração de dados de código aberto e algumas das técnicas mais
comuns para interpretar dados.
Data: 12/Mai/2010
Nível: Intermediário
Atividade: 15275 visualizações
Comentários: 3 (Visualizar | Incluir comentário - Conectar)
Média de classificação (26 votos)

Classificar este artigo
Introdução
O que é mineração de dados? É possível que ocasionalmente nos façamos esta pergunta, pois este
assunto parece estar chamando cada vez mais a atenção no mundo da tecnologia. Sabe-se que
empresas como Google e Yahoo! estão gerando bilhões de pontos de dados sobre todos os seus
usuários, e poderíamos perguntar, "O que eles planejam fazer com todas essas informações?"
Também podemos ficar surpresos ao saber que a Walmart é uma das mais avançadas empresas em
mineração de dados e na aplicação de seus resultados ao negócio. Virtualmente todas as empresas do
mundo já estão usando a mineração de dados, e quem não está logo vai sofrer uma extrema
desvantagem.
Assim, como fazer você e sua empresa adotarem a mineração de dados?
Esperamos responder a todas as suas perguntas iniciais sobre a mineração de dados. Também vamos
apresentar o Waikato Environment for Knowledge Analysis (WEKA), um software gratuito e de
código aberto que pode ser usado para minerar seus próprios dados e transformar o conhecimento
sobre seus usuários, clientes, e seu negócio em informações úteis para aumentar sua receita. Veremos
que não é tão difícil assim fazer um trabalho "satisfatório" de mineração de dados.
http://www.ibm.com/developerworks/br/opensource/library/os-weka1/ 15/01/2013
Além disso, este artigo vai discutir a primeira técnica de mineração de dados: a regressão, que
transforma os dados existentes em uma previsão numérica para dados futuros. Provavelmente este é o
método mais fácil de mineração de dados, e mesmo em um nível simples algo que já pode ter sido
feito antes em seu software favorito de planilha eletrônica (embora o WEKA possa fazer cálculos
muito mais complexos). Futuros artigos vão abordar outros métodos de mineração de dados, incluindo
armazenamento em cluster, vizinho mais próximo, e árvores de classificação. (Se esses termos não
significarem nada para você, não se preocupe. Todos eles serão cobertos nesta série.)
O que é mineração de dados?
A mineração de dados, basicamente, é a transformação de grandes quantidades de dados em padrões e

regras significativos. Além disso, ela pode ser dividida em dois tipos: direcionada e não direcionada.
Na mineração de dados direcionada tentamos prever um ponto de dados em particular — o preço de
venda de uma casa baseado em informações sobre outras casas à venda no bairro, por exemplo.
Na mineração de dados não direcionada tentamos criar grupos de dados, ou achar padrões em dados
existentes — criando o grupo demográfico "Mãe de Futebol", por exemplo. Com efeito, todo censo é
mineração de dados, na medida em que o governo busca reunir dados sobre todos os habitantes do
país e transformar isto em informações úteis.
Em nosso caso, a mineração de dados moderna começou em meados da década de 1990, quando o
poder de computação e o custo de seu processamento e armazenamento finalmente alcançou um nível
que permitia as empresas fazê-la internamente, sem precisar recorrer a recursos de computação
externos.
Além disso, o termo mineração de dados é muito abrangente, se referindo a dúzias de técnicas e
procedimentos usados para examinar e transformar dados. Então, esta série de artigos só vai arranhar
a superfície do que é possível fazer com a mineração de dados. Os especialistas provavelmente tem
doutorado em estatística e já passaram 10-30 anos em campo. Isso pode dar a impressão de que a
mineração de dados é algo que só as grandes empresas podem pagar.
Esperamos esclarecer muitos destes conceitos errôneos sobre a mineração de dados, e deixar claro que
ela não é tão fácil quanto simplesmente rodar uma função em uma planilha eletrônica contra uma
grade de dados, mas não é tão difícil assim que ninguém consiga fazer pelo menos uma parte dela
sozinho. Este é um exemplo perfeito do paradigma 80/20 — talvez até mesmo chegando ao
paradigma 90/10. É possível criar um modelo de mineração de dados com uma efetividade de 90%
com apenas 10 % dos conhecimentos de um destes assim-chamados especialistas em mineração de
dados. Para incluir os 10% restantes no modelo e criar um modelo perfeito, seria preciso 90% de
tempo adicional e talvez mais 20 anos. Então, a menos que se planeje fazer carreira na mineração de
dados, é provável que o "razoável" seja tudo o que você precisa. Olhando a coisa de outro modo,
provavelmente o razoável é melhor do que aquilo que está sendo feito agora.
Em última instância, o objetivo da mineração de dados é criar um modelo, um modelo que possa
melhorar o modo pelo qual lemos e interpretamos nossos dados existentes e futuros. Como há muitas
técnicas de mineração de dados, o passo principal para criar um bom modelo é determinar que tipo de
técnica deve ser usada. Isso vem com a prática e a experiência, e alguma orientação. A partir de então,
o modelo precisa ser refinado para ficar ainda mais útil. Depois de ler estes artigos devemos poder
olhar nosso conjunto de dados, determinar a técnica certa a ser usada, e então adotar as medidas para
refiná-la. Vamos poder então criar um modelo razoavelmente bom para nossos próprios dados.
WEKA
A mineração de dados não é o domínio exclusivo das grandes empresas e do software caro. Na
realidade, há um software que faz quase todas as mesmas coisas que estes programas caros — este
software se chama WEKA (vide Recursos). O WEKA é um produto da Universidade de Waikato
(Nova Zelândia) e foi implementado pela primeira vez em sua forma moderna em 1997. Ele usa a
GNU General Public License (GPL). O software foi escrito na linguagem Java™ e contém uma GUI
para interagir com arquivos de dados e produzir resultados visuais (pense em tabelas e curvas). Ele
também tem uma API geral, assim é possível incorporar o WEKA, como qualquer outra biblioteca, a
seus próprios aplicativos para fazer coisas como tarefas de mineração de dados automatizadas no lado
do servidor.
Neste ponto, vamos prosseguir e instalar o WEKA. Ele é baseado em Java, assim se você não tiver
um JRE instalado em seu computador, baixe a versão do WEKA que contém o JRE também.
Figura 1. Tela de inicialização do WEKA
Ao iniciar o WEKA, o selecionador de GUI é exibido e permite escolher quatro modos de trabalho
com o WEKA e seus dados. Para todos os exemplos nesta série de artigos, vamos escolher apenas a
opção Explorer. Esta opção é mais que suficiente para tudo o que precisamos fazer nestes artigos.
Figura 2. O WEKA Explorer
Agora que estamos familiarizados com o procedimento de instalação e inicialização do WEKA,

vamos para nossa primeira técnica de mineração de dados: a regressão.
Regressão
A regressão é a técnica mais fácil de usar, mas provavelmente também é a menos poderosa
(engraçado como isto é sempre assim). Este modelo é tão fácil porque contém uma variável de
entrada e uma variável de saída (chamada de diagrama de dispersão no Excel, ou de DiagramaXY no
OpenOffice.org). Claro, as coisas podem ficar mais complexas que isso, incluindo dúzias de variáveis
de entrada. Na verdade, todos os modelos de regressão tem o mesmo padrão geral. Há algumas
variáveis independentes que, quando tomadas em conjunto, produzem um resultado — uma variável
dependente. O modelo de regressão é então usado para prever o resultado de uma variável dependente
desconhecida, dados os valores das variáveis independentes.
Todos provavelmente já usamos ou vimos um modelo de regressão antes, e talvez até tenhamos criado
mentalmente um modelo de regressão. O exemplo que imediatamente vem à mente é o de calcular o
preço de uma casa. O preço da casa (a variável dependente) é o resultado de muitas variáveis
independentes — a metragem quadrada da casa, o tamanho do lote, se há granito na cozinha, se os
banheiros foram reformados, etc. Assim, se você alguma vez já comprou uma casa ou vendeu uma, é
provável que você tenha criado um modelo de regressão para avaliar a casa. O modelo é criado com
base em outras casas comparáveis no bairro e no preço pelo qual elas foram vendidas (o modelo), e
então colocando os valores de sua própria casa neste modelo para produzir o preço esperado.
Vamos continuar com este exemplo de modelo de regressão baseado no preço de uma casa, e criar
alguns dados reais para exame. Estes são números reais de casas que estão à venda em meu bairro, e
vamos tentar achar o valor de minha própria casa. (Também vou tentar usar a saída deste modelo para
protestar contra a avaliação de minha propriedade pela prefeitura para estabelecer o imposto).
Tabela 1. Valores da casa para o modelo de regressão

Tamanho da casa (pés Tamanho do Banheiro Preço de
Quartos Granito
quadrados) lote reformado? venda
3529 9191 6 0 0 $205,000
3247 10061 5 1 1 $224,900
4032 10150 5 0 1 $197,900
2397 14156 4 1 0 $189,900
2200 9600 4 0 1` $195,000
3536 19994 6 1 1 $325,000
2983 9365 5 0 1 $230,000
3198 9669 5 1 1 ????
A boa notícia (ou má notícia, dependendo de seu ponto de vista) é que esta pequena introdução à
regressão apenas arranha a superfície, e que este arranhão na realidade quase não se percebe. Há
cursos de faculdade sobre modelos de regressão que levam o semestre inteiro, e que provavelmente
ensinam mais sobre modelos de regressão do que você desejaria saber. Mas este arranhão ajuda a nos
familiarizarmos com o conceito, e é o suficiente para nossos testes com o WEKA neste artigo. Se
você tiver um interesse contínuo em modelos de regressão e em todos os seus detalhes estatísticos,
pesquise os seguintes temos com seu mecanismo de busca favorito: mínimo quadrado,
homocedasticidade, distribuição normal, teste de White, teste de Lilliefors, R ao quadrado, e valores
p.
Construindo o conjunto de dados para o WEKA
Para carregar dados no WEKA, precisamos colocá-los em um formato que seja entendido. O método
preferido do WEKA para carregar dados é no Formato de Arquivo de Atributo-Relação (ARFF), onde
é possível definir o tipo de dados que estão sendo carregados, e então fornecer seus próprios dados.
No arquivo, definimos cada coluna e o que cada coluna contém. No caso do modelo de regressão,
estamos limitados a uma coluna de NUMERIC ou de DATE. Finalmente, fornecemos cada linha de dados
em um formato delimitado por vírgulas. O arquivo ARFF que vamos usar com o WEKA é exibido
abaixo. Note que nas linhas de dados nós omitimos minha casa. Como estamos criando o modelo, não
podemos usar minha casa nele porque seu preço de venda é desconhecido.
Listagem 1. Formato de arquivo WEKA
@RELATION house @ATTRIBUTE houseSize NUMERIC @ATTRIBUTE

lotSize NUMERIC @ATTRIBUTE bedrooms
NUMERIC @ATTRIBUTE granite NUMERIC @ATTRIBUTE bathroom
NUMERIC @ATTRIBUTE sellingPrice NUMERIC
@DATA 3529,9191,6,0,0,205000 3247,10061,5,1,1,224900
4032,10150,5,0,1,197900 2397,14156,4,1,0,189900
2200,9600,4,0,1,195000 3536,19994,6,1,1,325000
2983,9365,5,0,1,230000
Carregando os dados no WEKA
Figura 3. WEKA com os dados da casa carregados
Nesta tela, o WEKA permite revisar os dados com os quais estamos trabalhando. A seção esquerda da
janela do Explorer mostra todas das colunas de seus dados (Atributos) e o número de linhas de dados
fornecidas (Instâncias). Ao selecionar cada coluna, a seção direita da janela do Explorer também
mostra informações sobre os dados daquela coluna de seu conjunto de dados. Por exemplo, ao
selecionar a coluna houseSize na seção esquerda (que deveria estar selecionada por padrão), a seção
direita deveria mudar para mostrar informações estatísticas adicionais sobre a coluna. Ela mostra que
o valor máximo do conjunto de dados para esta coluna é 4.032 pés quadrados, e o mínimo é 2.200 pés
quadrados. O tamanho médio é 3.131 pés quadrados, com um desvio padrão de 655 pés quadrados. (O
desvio padrão é uma medida estatística da variação.) Finalmente, há um modo visual de examinar os
dados, que é possível ver clicando no botão Visualize All. Devido ao nosso número limitado de linhas
neste conjunto de dados, a visualização não é tão poderosa quanto seria se houvesse mais pontos de
dados (centenas, por exemplo).
Basta de olhar os dados. Vamos criar um modelo e obter um preço para a minha casa.
Criando o modelo de regressão com o WEKA
Para criar o modelo, clique na guia Classify. O primeiro passo é selecionar o modelo que queremos
construir, para que o WEKA saiba como trabalhar com os dados, e como criar o modelo apropriado:
1. Clique no botão Choose, e então expanda a ramificação functions.

2. Selecione a folha LinearRegression.
Isto instrui o WEKA que queremos construir um modelo de regressão. Como podemos ver a partir das
outras opções, há muitos modelos possíveis que podem ser construídos. Montes deles! Isto deve nos
dar uma boa indicação de que estamos apenas tocando a superfície deste tema. Também devemos
observar: Há outra opção chamada SimpleLinearRegression na mesma ramificação. Não a selecione
porque a regressão simples só olha uma variável, e nós temos seis. Após selecionar o modelo certo,
seu WEKA Explorer deve estar parecido com o da Figura 4.
Figura 4. Modelo de regressão linear no WEKA
Posso fazer isso com uma planilha eletrônica?

Resposta curta: Não. Resposta longa: Sim. Os programas de planilha eletrônica mais populares não
podem fazer com facilidade o que fizemos com o WEKA, ou seja, definir um modelo de regressão
linear com múltiplas variáveis independentes. Porém, é possível fazer um modelo de Regressão
Linear Simples (uma variável independente) com bastante facilidade. Se você estiver se sentindo
muito valente, ele pode fazer a regressão com múltiplas variáveis, embora isso seja bastante confuso e
difícil, definitivamente não com tanta facilidade quanto no WEKA. É possível ver um vídeo de
exemplo do Microsoft Excel em Recursos.
Agora que o modelo desejado foi escolhido, temos que dizer ao WEKA onde estão os dados que ele
deve usar para construir o modelo. Embora para nós possa ser óbvio querermos usar os dados que
fornecemos no arquivo ARFF, na realidade há opções diferentes, algumas mais avançadas do que as
que estaremos usando. As outras três opções são Supplied test set, onde é possível fornecer um
conjunto diferente de dados para construir o modelo; Cross-validation, que deixa o WEKA construir
um modelo baseado em subconjuntos dos dados fornecidos e então calcular sua média para criar um
modelo final; e Percentage split, onde o WEKA toma um subconjunto percentual dos dados
fornecidos para construir um modelo final. Estas outras opções são úteis com modelos diferentes, que
veremos em artigos futuros. Com a regressão, podemos simplesmente escolher Use training set. Isto
diz ao WEKA que para construir nosso modelo desejado, podemos simplesmente usar o conjunto de
dados que fornecemos em nosso arquivo ARFF.
Finalmente, o último passo para criar nosso modelo é escolher a variável dependente (a coluna que
estamos tentando prever). Sabemos que este deve ser o preço de venda, pois é isso que estamos
tentando determinar para minha casa. Logo abaixo das opções de teste, há uma caixa combo que
permite selecionar a variável dependente. A coluna sellingPrice deve estar selecionada por padrão. Se
não estiver, selecione-a.
Agora estamos prontos para criar nosso modelo. Clique em Start. A Figura 5 mostra o como deve ser
a saída.
Figura 5. Modelo de regressão do preço da casa no WEKA
Interpretando o modelo de regressão
O WEKA não brinca em serviço. Ele põe o modelo de regressão bem ali na saída, como mostrado na
Listagem 2.
Listagem 2. Saída da regressão
sellingPrice = (-26.6882 * houseSize) +

(7.0551 * lotSize) +
(43166.0767 * bedrooms) +
(42292.0901 * bathroom)
- 21661.1208
A Listagem 3 mostra os resultados, relacionando os valores de minha casa.
Listagem 3. Valor da casa usando o modelo de regressão
sellingPrice = (-26.6882 * 3198) +

(7.0551 * 9669) +
(43166.0767 * 5) +
(42292.0901 * 1)
- 21661.1208 sellingPrice = 219,328
Porém, voltando até o começo do artigo, a mineração de dados não se limita a produzir um único
número: Trata-se de identificar padrões e regras. Ela não é usada estritamente para produzir um
número absoluto, mas sim para criar um modelo que permite detectar padrões, prever a saída, e tirar
conclusões baseadas em dados. Vamos seguir adiante e interpretar os padrões e conclusões que nosso
modelo nos fornece, além de um único e estrito valor para a casa:
• O granito não tem importância — O WEKA só usa as colunas que contribuem

estatisticamente para a precisão do modelo (medido em R ao quadrado, mas que está fora do
escopo deste artigo). Ele descarta e ignora as colunas que não ajudam a criar um bom modelo.
Assim, este modelo de regressão está nos dizendo que o granito da cozinha não afeta o valor da
casa.
• Já os banheiros são importantes — Como usamos um simples valor 0 ou 1 para um banheiro
reformado, podemos usar o coeficiente do modelo de regressão para determinar o valor que um
banheiro reformado representa para o valor da casa. O modelo nos diz para acrescentarmos
$42.292 ao valor da casa.
• Casas maiores reduzem o valor — O WEKA está nos dizendo que quanto maior for nossa
casa, menor será o preço de venda? Isto pode ser visto pelo coeficiente negativo na frente da
variável houseSize. O modelo está nos dizendo que cada pé quadrado adicional da casa reduz
seu preço em $26? Isso não faz nenhum sentido. Estamos na América! Maior é melhor,
especialmente onde moro, no Texas. Como devemos interpretar isto? Este é um bom exemplo
de lixo entrando, lixo saindo. O tamanho da casa, infelizmente, não é uma variável
independente porque está relacionado à variável dos quartos, o que faz sentido porque casas
maiores tendem a ter mais quartos. Assim, nosso modelo não está perfeito. Mas nós podemos
consertar isso. Lembre-se: Na guia Preprocess é possível remover colunas do conjunto de
dados. Para sua própria prática, remova a coluna houseSize e crie outro modelo. Como isso
afeta o preço de minha casa? Este novo modelo faz mais sentido? (O valor de minha casa agora
é: $217,894).
Nota aos estatísticos

Este modelo quebra vários requisitos de um modelo "correto" de regressão linear, já que cada coluna
não é verdadeiramente independente, e não há linhas de dados suficientes para produzir um modelo
válido. Como o propósito principal deste artigo é introduzir o WEKA como uma ferramenta de
mineração de dados, estamos simplificando muito os dados do exemplo.
Para levar este exemplo simples um nível acima, vamos dar uma olhada em um arquivo de dados que
o site da WEKA na Web nos fornece como exemplo de regressão. Teoricamente, ele deveria ser
muito mais complexo que nosso simples exemplo de sete casas. Este arquivo de dados de amostra
tenta criar um modelo de regressão para prever as milhas por galão (MPG) de um carro com base em
vários atributos do carro (estes dados são de 1970 a 1982, assim lembre-se disso). O modelo inclui
estes possíveis atributos do carro: cilindros, deslocamento, cavalos, peso, aceleração, ano modelo,
origem, e fabricante. Além disso, este conjunto de dados tem 398 linhas de dados e atende muitas das
exigências estatísticas que nosso modelo de preço de casa acima não atendia. Teoricamente este deve
ser um modelo de regressão muito mais complexo, e talvez o WEKA possa ter mais dificuldade para
criar um modelo com esta quantidade de dados (embora eu tenha certeza de que a esta altura você já
saiba que o WEKA vai se sair muito bem).
Para produzir o modelo de regressão com este conjunto de dados, devemos seguir exatamente os
mesmos passos que seguimos para os dados da casa, assim não vou repeti-los. Então vamos seguir
adiante e criar o modelo de regressão. Ele deve produzir a saída mostrada na Listagem 4.
Listagem 4. Modelo de regressão com dados de MPG
class (aka MPG) =

-2.2744 * cylinders=6,3,5,4 +
-4.4421 * cylinders=3,5,4 +
6.74 * cylinders=5,4 +
0.012 * displacement +
-0.0359 * horsepower +
-0.0056 * weight +
1.6184 * model=75,71,76,74,77,78,79,81,82,80 +
1.8307 * model=77,78,79,81,82,80 +
1.8958 * model=79,81,82,80 + 1.7754 * model=81,82,80 +
1.167 * model=82,80 + 1.2522 * model=80 +
2.1363 * origin=2,3 + 37.9165
Ao fazer isto sozinho, você verá que o WEKA percorre o modelo em menos de um segundo. Assim,
não é um problema de computação criar um modelo de regressão poderoso a partir de muitos dados.
Este modelo também pode parecer ser muito mais complexo que os dados da casa, mas não é. Por
exemplo, a primeira linha do modelo de regressão, -2.2744 * cylinders=6,3,5,4 significa que se
o carro tiver seis cilindros, você coloca 1 nesta coluna, e se ele tiver oito cilindros, você coloca 0.
Vamos tomar uma linha como exemplo do conjunto de dados (linha 10) e colocar estes números no
modelo de regressão, para ver se a saída do modelo se aproxima da saída que obtivemos no conjunto
de dados.
Listagem 5. Exemplo de dados de MPG
data = 8,390,190,3850,8.5,70,1,15 class (aka MPG) =

-2.2744 * 0 + -4.4421 * 0 +
6.74 * 0 + 0.012 * 390 +
-0.0359 * 190 + -0.0056 * 3850 +
1.6184 * 0 + 1.8307 * 0 + 1.8958 * 0 +
1.7754 * 0 + 1.167 * 0 + 1.2522 * 0 +
2.1363 * 0 + 37.9165
Expected Value = 15 mpg Regression Model Output = 14.2 mpg
Assim, nosso modelo foi muito bem quando o avaliamos com nossos dados de teste escolhidos
aleatoriamente, prevendo 14,2 MPG em um carro cujo valor real era de 15 MPG.
Conclusão
Este artigo tenta responder à pergunta "o que é mineração de dados?" dando uma introdução ao
assunto e apresentando as metas do campo. A mineração de dados tenta transformar muita
desinformação (na forma de dados espalhados) em informações úteis, criando modelos e regras. Sua
meta é usar os modelos e regras para prever um comportamento futuro, melhorar seu negócio, ou
apenas explicar coisas que caso contrário não seria possível explicar. Estes modelos podem confirmar
o que já pensávamos, ou ainda melhor, podem achar coisas novas em nossos dados que nem sabíamos
que existiam. Como um exemplo engraçado, há uma lenda urbana de mineração de dados (não tenho
certeza de quantas existem) segundo a qual, nos Estados Unidos, o Walmart aos finais de semana
passa a cerveja para a extremidade dos corredores de fralda porque sua mineração de dados mostrou
que nesses dias os homens tipicamente compram fraldas, e muitos também gostam de cerveja.
Este artigo também apresentou o programa de software gratuito e de código aberto WEKA.
Certamente há produtos de software comerciais complexos construídos para a mineração de dados,
mas para a pessoa comum que está tentando começar na mineração de dados, há uma solução útil
disponível que é de código aberto. Lembre- se, você nunca vai ser um especialista em mineração de
dados a menos que queira passar 20 anos fazendo isso. O WEKA permite começar e oferece uma
solução satisfatória para muitos de seus problemas iniciais. Se você nunca fez mineração antes, a
solução satisfatória é tudo o que você precisa.
Finalmente, este artigo discutiu o primeiro modelo de mineração de dados, o modelo de regressão
(especificamente, o modelo de regressão linear de múltiplas variáveis), e mostrou como usá-lo no
WEKA. Este modelo de regressão é fácil de usar e pode ser usado em diversos conjuntos de dados.
Ele provavelmente é o modelo mais útil que discutimos nesta série. Porém, a mineração de dados é
muito mais do que simplesmente regressão, e é possível que alguns outros modelos sejam soluções
melhores para conjuntos de dados diferentes e objetivos de saída diferentes.
Finalmente, quero reiterar que este artigo e as partes futuras desta série são apenas uma breve
introdução ao campo da estatística e mineração de dados. As pessoas passam semestres inteiros
estudando estatística mineração de dados, para só então poderem ser considerados como "iniciantes."
Nossa meta é explorar as ferramentas de código aberto disponíveis para os novatos, e estimular a
apreciação do valor que a mineração de dados pode oferecer. Lembre-se isso à medida que
continuamos com esta série.
Download
Descrição Nome Tamanho Método de download

Sample code os-weka1-Examples.zip 6KB HTTP
Informações sobre métodos de download
Recursos
Aprender
• O WEKA pede que todas as publicações sobre ele citem o documento intitulado "The WEKA
Data Mining Software: An Update," de Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard
Pfahringer Peter Reutemann, e Ian H. Witten.
• Veja como usar uma planilha eletrônica para fazer um modelo de regressão simples com este
vídeo do YouTube.
• Visite o site do WEKA na Web para obter toda a documentação e um FAQ sobre o software.
• Leia mais sobre Modelos de regressão na Wikipédia, que provavelmente tem mais detalhes
técnicos do que você jamais vai querer saber.
• Leia os detalhes sobre o ARFF, para poder carregar seus dados no WEKA.
• A IBM tem seu próprio software de mineração de dados, e "Integrate InfoSphere Warehouse
data mining with IBM Cognos reporting, Part 1" é um bom ponto de partida.
• Para ouvir entrevistas e discussões interessantes para desenvolvedores de software, consulte os

podcasts do developerWorks.
• Mantenha-se atualizado com os eventos e webcasts técnicos do developerWorks.
• Siga o developerWorks no Twitter.
• Consulte as próximas conferências, feiras, webcasts e outros Eventos em todo o mundo que
sejam de interesse dos desenvolvedores IBM de software livre.
• Visite a Zona de software livre do developerWorks para obter informações abrangentes sobre
procedimentos, ferramentas e atualizações de projetos que simplificam o desenvolvimento de
tecnologias de software livre e a utilização destas com produtos IBM; e não deixe de passar
pelos nossos artigos e tutoriais mais populares.
• A comunidade My developerWorks é um exemplo de comunidade geral de sucesso que abrange

uma ampla gama de assuntos.
• Assista e aprenda sobre a IBM e as tecnologias e funções de produtos de software livre com as
demos on demand do developerWorks grátis.
Obter produtos e tecnologias
• Faça o download do WEKA para rodá-lo em seu próprio sistema.
• Você também pode ver detalhes específicos sobre o software IBM DB2 Intelligent Miner para
fazer uma comparação com o WEKA.
• Inove em seu próximo projeto de desenvolvimento de software livre com o software de

avaliação da IBM, disponível para download ou em DVD.
• Faça download das versões de avaliação de produtos IBM ou explore as avaliações on-line no
IBM SOA Sandbox e utilize as ferramentas de desenvolvimento de aplicativos e produtos de
middleware do DB2®, Lotus®, Rational®, Tivoli® e WebSphere®.
Discutir
• Participar do fórum de discussão.
• Além disso, veja o novo grupo Data Mining em My developerWorks.
• Participe dos blogs developerWorks e envolva-se na comunidade do developerWorks.
Sobre o autor
Em seus 11 anos de tecnologia, Michael Abernethy trabalhou com uma ampla variedade de
tecnologias e de clientes. Atualmente, ele trabalha como Gerente de Desenvolvimento de Produto
para a Optimal Auctions, uma companhia de software de leilões. Seu foco hoje em dia está em Rich
Internet Applications e em torná-los ao mesmo tempo mais complexos e mais simples. Quando não
está trabalhando em seu computador ele pode ser encontrado no México, na praia com um bom livro.
Fechar [x]
developerWorks: Registre-se
IBM ID:
Precisa de um ID IBM?
Esqueceu seu ID IBM?
Senha:
Esqueceu sua senha?
Alterar sua senha
Mantenha-me conectado.
Ao clicar em Enviar, você concorda com os termos de uso do developerWorks.
Enviar Cancelar
Na primeira vez que você efetua sign in no developerWorks, um perfil é criado para você.
Informações selecionadas do seu perfil developerWorks são exibidas ao público, mas você pode
editá-las a qualquer momento. Seu primeiro nome, sobrenome (a menos que escolha ocultá-los), e
seu nome de exibição acompanharão o conteúdo que postar.
Todas as informações enviadas são seguras.
Fechar [x]
Selecione seu nome de exibição

Ao se conectar ao developerWorks pela primeira vez, é criado um perfil para você e é necessário
selecionar um nome de exibição. O nome de exibição acompanhará o conteúdo que você postar no
developerWorks.
Escolha um nome de exibição de 3 - 31 caracteres. Seu nome de exibição deve ser exclusivo na
comunidade do developerWorks e não deve ser o seu endereço de email por motivo de privacidade.
Nome de exibição: (Deve possuir de 3 a 31 caracteres.)
Ao clicar em Enviar, você concorda com os termos de uso do developerWorks.
Enviar Cancelar
Todas as informações enviadas são seguras.
Média de classificação (26 votos)
1 estrela
1 estrela
2 estrelas
2 estrelas
3 estrelas
3 estrelas
4 estrelas
4 estrelas
5 estrelas
5 estrelas
Enviar
Incluir comentário:
Conectar or registre-se para deixar um comentário.
Observação: elementos HTML não são suportados nos comentários.
Notificar-me quando um comentário for adicionado1000 caracteres restantes
Postar
Total de comentários (3)
Existem inúmeros livros de Data Mining nas livrarias hoje em dia, porém a maioria deles trata mais
da parte de conceitos e aprendizado de máquinas. Um livro que eu realmente gosto e recomendo é
Data Mining: Concepts and Techniques.
O livro pode ser encontrado em
http://www.amazon.com/exec/obidos/ASIN/1558604898/albionresearc-20
Enviado por BrenoLeitÃ£o em 15/May/2012
Relatar abuso
Você indica algum livro para quem esta iniciando em mineracão de dados?
Enviado por MichelPereira em 14/May/2012
Relatar abuso
Muito obrigado pelo artigo. No entato, ao tentar reproduzir o primeiro exemplo, não consegui
localizar uma rotina do Weka (em classify) que fosse capaz de fornecer "automaticamente" o valor da
resposta (SellingPrice) considerando os valores das diversas variáveis preditoras da nova casa
(houseSize=3198, lotSize=9669, bedrooms=5, granite=1, bathroom=1). Pelo segundo exemplo,

parece que a estimação do valor é possivel ser obtido sem que isto seja feito manualmente.
Enviado por Weidson em 26/Oct/2010
Relatar abuso

Abernethy - 2010 - Mineração de Dados Com WEKA, Parte 1 Introdução 2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Abernethy - 2010 - Mineração de Dados Com WEKA, Parte 1 Introdução 2

Enviado por

Direitos autorais:

Formatos disponíveis

Mineração de dados com WEKA, Parte 1: Introdução e regressão Página 1 de 16

Mineração de dados com WEKA, Parte 1:

Resumo: A mineração de dados é o assunto da indústria de tecnologia, na medida em que as

Média de classificação (26 votos)

Assim, como fazer você e sua empresa adotarem a mineração de dados?

O que é mineração de dados?

A mineração de dados, basicamente, é a transformação de grandes quantidades de dados em padrões e

Figura 1. Tela de inicialização do WEKA

Figura 2. O WEKA Explorer

Agora que estamos familiarizados com o procedimento de instalação e inicialização do WEKA,

Tabela 1. Valores da casa para o modelo de regressão

Construindo o conjunto de dados para o WEKA

Listagem 1. Formato de arquivo WEKA

@RELATION house @ATTRIBUTE houseSize NUMERIC @ATTRIBUTE

Carregando os dados no WEKA

Figura 3. WEKA com os dados da casa carregados

Criando o modelo de regressão com o WEKA

1. Clique no botão Choose, e então expanda a ramificação functions.

Figura 4. Modelo de regressão linear no WEKA

Posso fazer isso com uma planilha eletrônica?

Figura 5. Modelo de regressão do preço da casa no WEKA

Interpretando o modelo de regressão

Listagem 2. Saída da regressão

sellingPrice = (-26.6882 * houseSize) +

A Listagem 3 mostra os resultados, relacionando os valores de minha casa.

Listagem 3. Valor da casa usando o modelo de regressão

sellingPrice = (-26.6882 * 3198) +

• O granito não tem importância — O WEKA só usa as colunas que contribuem

Nota aos estatísticos

Listagem 4. Modelo de regressão com dados de MPG

class (aka MPG) =

Listagem 5. Exemplo de dados de MPG

data = 8,390,190,3850,8.5,70,1,15 class (aka MPG) =

Descrição Nome Tamanho Método de download

Informações sobre métodos de download

• Para ouvir entrevistas e discussões interessantes para desenvolvedores de software, consulte os

• Mantenha-se atualizado com os eventos e webcasts técnicos do developerWorks.

• Siga o developerWorks no Twitter.

• A comunidade My developerWorks é um exemplo de comunidade geral de sucesso que abrange

Obter produtos e tecnologias

• Faça o download do WEKA para rodá-lo em seu próprio sistema.

• Inove em seu próximo projeto de desenvolvimento de software livre com o software de

• Participar do fórum de discussão.

• Além disso, veja o novo grupo Data Mining em My developerWorks.

• Participe dos blogs developerWorks e envolva-se na comunidade do developerWorks.

Ao clicar em Enviar, você concorda com os termos de uso do developerWorks.

Todas as informações enviadas são seguras.

Selecione seu nome de exibição

Nome de exibição: (Deve possuir de 3 a 31 caracteres.)

Ao clicar em Enviar, você concorda com os termos de uso do developerWorks.

Todas as informações enviadas são seguras.

Média de classificação (26 votos)

Conectar or registre-se para deixar um comentário.

Observação: elementos HTML não são suportados nos comentários.

Notificar-me quando um comentário for adicionado1000 caracteres restantes

Total de comentários (3)

Enviado por BrenoLeitÃ£o em 15/May/2012

Enviado por MichelPereira em 14/May/2012

(houseSize=3198, lotSize=9669, bedrooms=5, granite=1, bathroom=1). Pelo segundo exemplo,

Enviado por Weidson em 26/Oct/2010

Você também pode gostar