Bem-vindo(a) ao Scribd!

Relatório Mineração de Dados

Enviado por

0% acharam este documento útil (0 voto)

40 visualizações9 páginas

1) Os alunos analisaram a base de dados "Adult" no Weka para prever a renda de pessoas, aplicando filtros para lidar com valores ausentes e atributos nominais e numéricos. 2) Eles executaram os algoritmos k-NN variando k e Naive Bayes, com k-NN (k=7) tendo a maior acurácia de 83,0411%. 3) A análise demorou devido ao tamanho da base de dados no Weka.

Descrição original:

Direitos autorais

Formatos disponíveis

PDF, TXT ou leia online no Scribd

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Denunciar este documento

Direitos autorais:

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

0% acharam este documento útil (0 voto)

40 visualizações9 páginas

Relatório Mineração de Dados

Enviado por

rickdant

Direitos autorais:

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

Pular para a página

Você está na página 1de 9

Pesquisar no documento

UNIVERSIDADE FEDERAL DE SÃO PAULO

Giovanna Bonafé Maurício – 134585

Henrique Vieira Dantas - 134591

PREPROCESSAMENTO E ANÁLISE NO WEKA

UC: MINERAÇÃO DE DADOS

SANTOS

2021
Buscando colocar em prática o conhecimento a respeito de
preprocessamento e análise de bases de dados no Weka, realizamos uma
atividade prática com dados fornecidos por um repositório online.

(Nesta atividade, buscamos seguir os seguintes passos, elecandos de 1-6.)

1. Acesse o site UCI Machine Learning Repository e escolha uma base

de dados para o problema de Classificação que contenha tanto
atributos nominais como numéricos.

Para esta etapa, utilizamos a base de dados “Adult”, disponível no

link: < https://archive.ics.uci.edu/ml/datasets/Adult>. Esta base de dados
diz respeito a uma predição que determina se um grupo de
estadunidenses possuíra receita que ultrapasse $50 mil/ano. O conjunto
de dados utilizado é denominado “Renda-Censo (1996)”, e avalia o perfil
de cerca de 32.561 pessoas (instâncias), considerando 15 atributos. Os
dados utilizados possuem tanto caráter nominal, quanto numérico.
2. Verifique se nos atributos existem valores ausentes e no caso
afirmativo, utilize os filtros do Weka para completar os valores
ausentes.

Foram identificados 1836 atributos ausentes em nossa base de

dados, cerca de 6% do total, como demonstrado na figura abaixo:
Para solucionar o problema, utilizamos o filtro “Replace Missing
Values”, que através da média e da moda dos dados, substituiu os valores
faltantes.

O resultado da substituição pode ser encontrado abaixo:

3. Aplique o filtro para transformar atributos nominais para atributos

numéricos.
Nesta etapa da prática, utilizamos da filtro “Nominal To Binary” para
transformar nossos valores, a mesma substitui atributos numéricos por
atributos nominais que variavam entre 0 e 1.
O resultado abaixo foi encontrado após a binarização:

4. Nos atributos numéricos, aplique o filtro para normalizar os valores

entre o intervalo [0,1]
Aqui, para normalizar os dados, utilizamos do filtro “Normalize”:
5. A seguir, execute o algoritmo dos vizinhos mais próximos variando
o valor de k entre: 1,3,5,7
Com intuito de analisar os dados por meio do algoritmo KNN
(vizinhos mais próximos), classificamos os mesmos por meio da função
“IBk”, utilizando 1,3,5 e 7 como valores para k.
k=1

k=3
k=5

k=7

6. Execute também o algoritmo naive bayes para a mesma base de

dados
Para executar o algoritmo “Naive Bayes” para a mesma base de dados,
utilizamos da aba “Classify” e selecionamos a função “Naive Bayes”:

Resultados e Conclusão

Com essas análises, percebemos que ambos os algoritmos de

classificação de dados podem ser aplicados à base de dados como a que foi
utilizada. Em especial, podemos destacar que para este conjunto, o algoritmo k-
NN obteve maior acurácia, especificamente k=7, como é demonstrado na tabela:

Instâncias Instâncias
Algoritmo Classificadas Classificadas
Corretamente Incorretamente
k-NN (k=1) 79,2605% 20,7395%
k-NN (k=3) 81,8525% 18,1475%
k-NN (k=5) 82,5712% 17,4288%
k-NN (k=7) 83,0411% 16,9559%
Naive-Bayes 82,6817% 17,3183%

É interessante comentar que devido ao seu tamanho, um período de

tempo considerável para o projeto foi demandado para a análise no software
Weka.

Você também pode gostar

Método Monte Carlo de varredura de domínio (MCS)
No Everand
Método Monte Carlo de varredura de domínio (MCS)
Alexandre David Caldeira
Ainda não há avaliações
Programação Em Java Para A Raspberry Pi Parte Ii
No Everand
Programação Em Java Para A Raspberry Pi Parte Ii
Vitor Amadeu Souza
Ainda não há avaliações
Relatório - Análise de Componentes Principais - PCA
Documento1 página
Relatório - Análise de Componentes Principais - PCA
Lucas Sérgio
Ainda não há avaliações
Min Dados @3
Documento17 páginas
Min Dados @3
Rodrigo Oliveira
Ainda não há avaliações
Trabalho2 - Cálculo Numérico
Documento16 páginas
Trabalho2 - Cálculo Numérico
Paulo Marcus Haratani
Ainda não há avaliações
DAE - Aula 1
Documento37 páginas
DAE - Aula 1
Ricardo Santos
Ainda não há avaliações
Aula Pratica Tecnicas de Inteligencia Artificial Anhanguera 1 g4tdhf
Documento12 páginas
Aula Pratica Tecnicas de Inteligencia Artificial Anhanguera 1 g4tdhf
fabioadaptcrew
Ainda não há avaliações
Atividade Prática - Gestão de Recursos Hídricos e Bacias Hidrográficas
Documento15 páginas
Atividade Prática - Gestão de Recursos Hídricos e Bacias Hidrográficas
Cavalini Assessoria Acadêmica
Ainda não há avaliações
Resolução - (032) 98482-3236 - Atividade Prática - Gestão e Manejo de Recursos Hídricos e Bacias Hidrográficas
Documento16 páginas
Resolução - (032) 98482-3236 - Atividade Prática - Gestão e Manejo de Recursos Hídricos e Bacias Hidrográficas
sportfolios 123
Ainda não há avaliações
Portifolio Tecnicas de Inteligencia Artificial
Documento11 páginas
Portifolio Tecnicas de Inteligencia Artificial
Odair Mattos
Ainda não há avaliações
Vijaya ML
Documento26 páginas
Vijaya ML
ScribdTranslations
Ainda não há avaliações
E Book XGB by Odemir Depieri 1683592886
Documento20 páginas
E Book XGB by Odemir Depieri 1683592886
Lorrayne Silva
Ainda não há avaliações
Fazendo Etl Do Ipca em 2 Camadas, Extraindo Dados Com Web Scraping Na Engenharia de Dados
Documento15 páginas
Fazendo Etl Do Ipca em 2 Camadas, Extraindo Dados Com Web Scraping Na Engenharia de Dados
Jairo Bernardes da Silva Júnior
Ainda não há avaliações
Modulo 5 Exercicio
Documento7 páginas
Modulo 5 Exercicio
Gleison Braz
Ainda não há avaliações
Paper K Means
Documento4 páginas
Paper K Means
Anselmo Leonardo
Ainda não há avaliações
RedesNeurais UN 5
Documento22 páginas
RedesNeurais UN 5
McJoe
Ainda não há avaliações
1 - Algoritmos e Estrutura de Dados
Documento10 páginas
1 - Algoritmos e Estrutura de Dados
a13x3
Ainda não há avaliações
R Tyder
Documento20 páginas
R Tyder
Francisco Araújo
Ainda não há avaliações
Manual Do Utilizador
Documento4 páginas
Manual Do Utilizador
Cristina Gonçalves
Ainda não há avaliações
RPubs - Tutorial de ANOVA Usando o R
Documento11 páginas
RPubs - Tutorial de ANOVA Usando o R
Fernando Devite
Ainda não há avaliações
K Medias Na Prática
Documento5 páginas
K Medias Na Prática
Augusto Almeida Santana
Ainda não há avaliações
Resolução - (032) 98482-3236 - Roteiro de Aula Prática - Arquitetura de Dados
Documento9 páginas
Resolução - (032) 98482-3236 - Roteiro de Aula Prática - Arquitetura de Dados
assistenciatrabalhos1
Ainda não há avaliações
BancoPerguntas Miniteste SAD
Documento16 páginas
BancoPerguntas Miniteste SAD
Pedro Melo
Ainda não há avaliações
Econometria Espacial No R
Documento19 páginas
Econometria Espacial No R
campus
100% (2)
TCC2 Cainan
Documento80 páginas
TCC2 Cainan
Cainan Teixeira
Ainda não há avaliações
Prática de Laboratório 1 - B
Documento11 páginas
Prática de Laboratório 1 - B
pamella.cora
Ainda não há avaliações
Cefet/Rj Bacharelado em Ci Encia Da Computa C Ao GCC1917 - T Opicos Especiais em Programa C Ao 2021.2 Trabalho 1
Documento5 páginas
Cefet/Rj Bacharelado em Ci Encia Da Computa C Ao GCC1917 - T Opicos Especiais em Programa C Ao 2021.2 Trabalho 1
Igor Feital
Ainda não há avaliações
Índices de Exatidão Global, Kappa e Tau
Documento8 páginas
Índices de Exatidão Global, Kappa e Tau
calmito
Ainda não há avaliações
Impressao
Documento14 páginas
Impressao
Jean Carlos
Ainda não há avaliações
Portfólio Inteligência Artificial
Documento8 páginas
Portfólio Inteligência Artificial
leonardo.nakamur
Ainda não há avaliações
Modelagem de Dados e Modelo Relacional - Slides
Documento60 páginas
Modelagem de Dados e Modelo Relacional - Slides
anizete7575
Ainda não há avaliações
Prova Modelagem de Dados
Documento4 páginas
Prova Modelagem de Dados
João Vitor Santos Mendes
Ainda não há avaliações
Criando Um Dasbhoard Do Zero 01 04
Documento5 páginas
Criando Um Dasbhoard Do Zero 01 04
Bruno Campanha Baltazar .'.
Ainda não há avaliações
3332 9353 1 PB
Documento2 páginas
3332 9353 1 PB
Victor Dias Almeida
Ainda não há avaliações
Tutorial Scilab
Documento19 páginas
Tutorial Scilab
Lauro Jose
Ainda não há avaliações
08 - Prática e Desafios Dentro Do Contexto de Redes Neurais
Documento6 páginas
08 - Prática e Desafios Dentro Do Contexto de Redes Neurais
Rafael Simba
Ainda não há avaliações
Roteiro IA
Documento5 páginas
Roteiro IA
bosajob795
Ainda não há avaliações
Enunciado Do Desafio - Módulo 3 - Engenheiro (A) de Dados Cloud-1
Documento10 páginas
Enunciado Do Desafio - Módulo 3 - Engenheiro (A) de Dados Cloud-1
kanedakodama
Ainda não há avaliações
Aula5 Bayesiano Naive Bayes
Documento1 página
Aula5 Bayesiano Naive Bayes
Amanda Caroline Pires
Ainda não há avaliações
CNU - Cesgranrio - Reta Final - Prof - Thiago Cavalcanti
Documento35 páginas
CNU - Cesgranrio - Reta Final - Prof - Thiago Cavalcanti
anderson
Ainda não há avaliações
Relatório PDF
Documento6 páginas
Relatório PDF
Jadiel Teófilo
Ainda não há avaliações
Data Mining Na Prática - Algoritmo K-Means
Documento9 páginas
Data Mining Na Prática - Algoritmo K-Means
aluysiogc
Ainda não há avaliações
N2 (A5) - Revisão Da Tentativa
Documento7 páginas
N2 (A5) - Revisão Da Tentativa
Ludmila Arantes
Ainda não há avaliações
Artigo Fundações
Documento15 páginas
Artigo Fundações
VH Henicka
Ainda não há avaliações
Extração de Árvores de Decisão Com A Ferramenta de Data Mining Weka
Documento8 páginas
Extração de Árvores de Decisão Com A Ferramenta de Data Mining Weka
Oswaldo Evaristo Costa Neto
Ainda não há avaliações
NEGRAO, Joao Ricardo - Introdução Ao Geostastical Analyst Do ArcGis
Documento152 páginas
NEGRAO, Joao Ricardo - Introdução Ao Geostastical Analyst Do ArcGis
Tcanettieri
Ainda não há avaliações
Geracao de Mapas No Programa Arcview
Documento10 páginas
Geracao de Mapas No Programa Arcview
Gelito Marcos
Ainda não há avaliações
Estatística Circular - Principais Análises Utilizando o R
Documento15 páginas
Estatística Circular - Principais Análises Utilizando o R
npfh
Ainda não há avaliações
Cap 3
Documento22 páginas
Cap 3
Jean Carlos A de Figueiredo
Ainda não há avaliações
Blog Do DBA - Instrutor Fábio Prado - Coletando Estatísticas para o Otimizador de Queries Do Oracle
Documento3 páginas
Blog Do DBA - Instrutor Fábio Prado - Coletando Estatísticas para o Otimizador de Queries Do Oracle
Tarcisio Freitas
Ainda não há avaliações
Lista Avaliativa AB2
Documento6 páginas
Lista Avaliativa AB2
Manoel Rocha dos Santos Neto
Ainda não há avaliações
Arquitetura de Dados
Documento8 páginas
Arquitetura de Dados
Lorena
Ainda não há avaliações
Santos Adriana Revisado
Documento12 páginas
Santos Adriana Revisado
emanoeldavi348
Ainda não há avaliações
Matriz de Proximidade
Documento53 páginas
Matriz de Proximidade
Lilliane Renata Defante
Ainda não há avaliações
AULA 03 - Tuning de Banco de Dados Oracle
Documento41 páginas
AULA 03 - Tuning de Banco de Dados Oracle
Adrian Sancler
Ainda não há avaliações
Desafio Semanal 3 - Coursera
Documento5 páginas
Desafio Semanal 3 - Coursera
Fernando Araujo
Ainda não há avaliações
Livrros - Manuel Beat 1
Documento7 páginas
Livrros - Manuel Beat 1
Manuel Isaac
Ainda não há avaliações
VC - Slide
Documento39 páginas
VC - Slide
Cleiton
Ainda não há avaliações
Description of Machine Learning Tools To Classify Business Addresses (Portuguese)
Documento12 páginas
Description of Machine Learning Tools To Classify Business Addresses (Portuguese)
Fabio Nagamine
Ainda não há avaliações
Otimizando Parâmetros de uma DenseNet: através do controle de geração de mapas de características
No Everand
Otimizando Parâmetros de uma DenseNet: através do controle de geração de mapas de características
Cristiano Roberto Siebert
Ainda não há avaliações
Crescimento em Cristo - COMPLETO 6,37 MB
Documento37 páginas
Crescimento em Cristo - COMPLETO 6,37 MB
Natanael Lopes
100% (1)
Trabalho de Eletrotécnica
Documento11 páginas
Trabalho de Eletrotécnica
rickdant
Ainda não há avaliações
FISPQ - Azul de Metileno
Documento3 páginas
FISPQ - Azul de Metileno
rickdant
Ainda não há avaliações
Importância Da Energia Elétrica
Documento1 página
Importância Da Energia Elétrica
rickdant
Ainda não há avaliações
Energia Hídrica
Documento8 páginas
Energia Hídrica
rickdant
Ainda não há avaliações
Importância Das Normas em Instalações Elétricas Residenciais Ou Comerciais
Documento1 página
Importância Das Normas em Instalações Elétricas Residenciais Ou Comerciais
rickdant
Ainda não há avaliações
Nanopartículas
Documento1 página
Nanopartículas
rickdant
Ainda não há avaliações
A Fotocatálise Heterogênea e A Sua Aplicação Ambiental - UNICAMP
Documento4 páginas
A Fotocatálise Heterogênea e A Sua Aplicação Ambiental - UNICAMP
Júlio Gabriel Queiroz dos Santos
Ainda não há avaliações
14 - Estudo Analítico Dos Espelhos Esféricos
Documento9 páginas
14 - Estudo Analítico Dos Espelhos Esféricos
rickdant
Ainda não há avaliações
Manual Do Usuário Do Positivo Union PCTV
Documento24 páginas
Manual Do Usuário Do Positivo Union PCTV
rickdant
33% (3)
Relatório de Ambiental
Documento8 páginas
Relatório de Ambiental
rickdant
Ainda não há avaliações
Manual PCTV
Documento40 páginas
Manual PCTV
rickdant
Ainda não há avaliações
Há Mais Um Anjo No Céu
Documento2 páginas
Há Mais Um Anjo No Céu
rickdant
Ainda não há avaliações
Jose e o Casaco Colorido
Documento5 páginas
Jose e o Casaco Colorido
rickdant
100% (1)
VestibulinhoEtec 1modulo 2012 2sem Gabarito
Documento1 página
VestibulinhoEtec 1modulo 2012 2sem Gabarito
Odirley Mello Montesino
Ainda não há avaliações
Bugadinho Definição
Documento1 página
Bugadinho Definição
rickdant
Ainda não há avaliações
Bugadinho Definição
Documento1 página
Bugadinho Definição
rickdant
Ainda não há avaliações
Meu Nome É Eduardo Vasconcellos Fiorenzinni
Documento1 página
Meu Nome É Eduardo Vasconcellos Fiorenzinni
rickdant
Ainda não há avaliações
Meu Nome É Bugadinho
Documento1 página
Meu Nome É Bugadinho
rickdant
Ainda não há avaliações
Henrique
Documento1 página
Henrique
rickdant
Ainda não há avaliações
Calendario 2021
Documento3 páginas
Calendario 2021
JOSE OLIVEIRA
Ainda não há avaliações
Estrelas Tortas Trabalho
Documento3 páginas
Estrelas Tortas Trabalho
Breno Mattos
100% (3)
Masculinidade em Crise-WPS Office
Documento3 páginas
Masculinidade em Crise-WPS Office
PastorNocivaldo Costa
Ainda não há avaliações
Tzimisce
Documento19 páginas
Tzimisce
Sérgio Carlos
100% (1)
AO02 - Adm Serviços - Aparecida Alves Dos Santos
Documento3 páginas
AO02 - Adm Serviços - Aparecida Alves Dos Santos
Aparecida Alves Dos Santos
Ainda não há avaliações
Lei Complementar #97, de 3 de Setembro de 2.010
Documento32 páginas
Lei Complementar #97, de 3 de Setembro de 2.010
Gabo747
Ainda não há avaliações
BIA Método Brasiliano
Documento10 páginas
BIA Método Brasiliano
marcelorgs
Ainda não há avaliações
CFP c208 - Texto Base Parte4
Documento134 páginas
CFP c208 - Texto Base Parte4
Elysson Ramalho
Ainda não há avaliações
Curriculum Adriano
Documento3 páginas
Curriculum Adriano
Marcio Adriano Nepomuceno Silva
Ainda não há avaliações
Univeridade Lusófona de Cabo Verde Licenciatura em Direito Disciplina: História Do Direito Direito - 2° Semestre Professora: Msc. Jocilene Gomes
Documento8 páginas
Univeridade Lusófona de Cabo Verde Licenciatura em Direito Disciplina: História Do Direito Direito - 2° Semestre Professora: Msc. Jocilene Gomes
César Santos Silva
Ainda não há avaliações
Geologia Da Formação Aquidauana Neopaleozóico PDF
Documento162 páginas
Geologia Da Formação Aquidauana Neopaleozóico PDF
Wanly Pereira
Ainda não há avaliações
Atividade de Interpretação de Texto para Eja
Documento3 páginas
Atividade de Interpretação de Texto para Eja
Antonio Cesar Cesar
80% (5)
Feira - Local de Apresentação - Ordem Alfabetica
Documento12 páginas
Feira - Local de Apresentação - Ordem Alfabetica
Dyego Lacerda
Ainda não há avaliações
Jorge Linhares - Preparado para Ser Grande
Documento21 páginas
Jorge Linhares - Preparado para Ser Grande
jean
100% (1)
Projeto Bombeiro Civil Mirim
Documento15 páginas
Projeto Bombeiro Civil Mirim
Eufrásio Pereira
100% (2)
Nutricão e Dietética Avaliando Aprendizado 1 e 2
Documento7 páginas
Nutricão e Dietética Avaliando Aprendizado 1 e 2
Elenilma Barros
Ainda não há avaliações
Simualdo Aprova Brasil Portugues 3 Ano
Documento58 páginas
Simualdo Aprova Brasil Portugues 3 Ano
Mauriane Almeida
Ainda não há avaliações
DANIEL JAREMENKO - Segurança Do Trabalho 1 - Atividade - 30nov2020 PDF
Documento4 páginas
DANIEL JAREMENKO - Segurança Do Trabalho 1 - Atividade - 30nov2020 PDF
Ana Mônica Jaremenko
Ainda não há avaliações
29 Eletrodinamica Geradores
Documento12 páginas
29 Eletrodinamica Geradores
api-3713096
100% (3)
Cânticos Da Missa Da Exaltação Da Santa Cruz
Documento4 páginas
Cânticos Da Missa Da Exaltação Da Santa Cruz
SERVOS DE CRISTO SACERDOTE
100% (1)
Redação 2023 - Quinzena Enem
Documento124 páginas
Redação 2023 - Quinzena Enem
jc1465614
Ainda não há avaliações
Mini-Pautas .12 2021.2022
Documento6 páginas
Mini-Pautas .12 2021.2022
Miguel Kaiove
Ainda não há avaliações
#Cynthia Freeman - A Ultima Princesa
Documento263 páginas
#Cynthia Freeman - A Ultima Princesa
xistin1
67% (3)
Projeto de Pesquisa - TC1 - REVISÃO SISTEMÁTICA DA LITERATURA
Documento32 páginas
Projeto de Pesquisa - TC1 - REVISÃO SISTEMÁTICA DA LITERATURA
Weder Fernando Nazari
100% (1)
04-31 - Supervisão em Terapia Cognitivo-Comportamental
Documento7 páginas
04-31 - Supervisão em Terapia Cognitivo-Comportamental
Dania Costa
Ainda não há avaliações
VHP Gaxetas
Documento20 páginas
VHP Gaxetas
Orimak Maquina
Ainda não há avaliações
Tutorial Conta Gmail PDF
Documento5 páginas
Tutorial Conta Gmail PDF
Fernando Ribeiro Júnior
Ainda não há avaliações
LM - EDO - Cap 01
Documento29 páginas
LM - EDO - Cap 01
Pedro Ferreira
Ainda não há avaliações
Genetica - 1 - Lei - Mendel Listão 1
Documento17 páginas
Genetica - 1 - Lei - Mendel Listão 1
edilsongoncalves
67% (6)
Trabalho Termodinamica PDF
Documento5 páginas
Trabalho Termodinamica PDF
liviaaugusto
Ainda não há avaliações