Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
SUMÁRIO
OBJETIVOS DE APRENDIZAGEM
INTRODUÇÃO...........................................................................................................................
1 COLETA DE DADOS.............................................................................................................
2 PRÉ-PROCESSAMENTO.....................................................................................................
2.1 Limpeza de dados
2.2 Transformação de dados
2.3 Redução de dados
3 INDEXAÇÃO E NORMALIZAÇÃO.....................................................................................
CONSIDERAÇÕES FINAIS.....................................................................................................
UNIDADE VII – RECUPERAÇÃO DE INFORMAÇÃO
OBJETIVOS DE APRENDIZAGEM
Dados não estruturados: não possuem uma organização estrutural muito clara.
Para gerar insights sobre estes esses dados, é preciso realizar um intenso pré-
processamento para recuperar a informação. Pode ser citados comoSão
exemplos de dados não estruturados os documentos de texto, áudio e
imagens.
O pré-processamento de dados são as técnicas de mineração de dados
usadas para transformar dados brutos em formatos úteis e eficientes. É necessário
em qualquer uma das três estruturas de dados vistas anteriormente. Existem três
passos envolvidos neste nesse processo: limpeza, transformação e redução de
dados., e Ccada um dos três passosdeles envolve diversas atividades. Esses três
passos estão descritos a seguir:r.
Dados ausentes ocorrem quando alguns dados não estão presentes. Para
resolver essa situação, é possível remover os registros com atributos nulos, calcular
a média ou então a mediana com os valores do mesmo atributo, preencher o atributo
faltante com os valores que mais ocorrem no banco de dados. Para os dados
ruidosos, que são os dados “sem sentido”, que não podem ser interpretados pelas
máquinas de aprendizado, que os quais podem ser gerados devido a falhas na
coleta de dados, erros de entrada de dados, entre outras situações difíceis de
prever, poderão ser tratados utilizando-se as seguintes técnicas: Método de
Binning, regressão, e agrupamento.
2.2 Transformação de Dadosdados
Ao passo que com um campo classificado, uma pesquisa binária pode ser
utilizada, com log 2 N acesso aos blocos. E como os dados são classificados com
um campo sem chave, o restante da tabela não precisa ser pesquisado em busca de
valores duplicados, uma vez que o maior valor é encontrado. Dessa maneira, o
aumento de desempenho é substancial.
A normalização é uma técnica aplicada como parte da preparação de dados
para o aprendizado de máquina. Seu objetivo é mudar os valores das colunas
numéricas na base de dados para usar uma escala comum, sem distorcer as
diferenças nos intervalos de valores e nem perder informações. A normalização é
necessária para a certos algoritmos para modelarem corretamente os dados.