Escolar Documentos
Profissional Documentos
Cultura Documentos
APRENDIZADO DE MÁQUINA
Pré-processamento de Dados
PRÉ-PROCESSAMENTO DE DADOS
Conjuntos de dados podem apresentar diferentes características,
dimensões ou formatos. Podem ainda estar limpos ou conter ruídos e
imperfeições, com valores incorretos, inconsistentes, duplicados ou
ausentes.
• Integração de dados
• Eliminação manual de atributos
• Amostragem de dados
• Balanceamento de dados
• Limpeza de dados (Incompletos, Inconsistentes, Redundantes, Com ruído)
• Transformação de dados
• Conversões: simbólico-numérico, numérico-simbólico
• Regularização de atributos
• Redução de dimensionalidade: agregação, seleção de atributos
PRÉ-PROCESSAMENTO DE DADOS
Integração de Dados:
Muitas vezes os dados utilizados para formar um conjunto de dados são provenientes de
diferentes fontes.
Alguns atributos podem não ser relevantes para o aprendizado. Um número muito grande
de atributos pode inclusive comprometer o desempenho do algoritmo de aprendizado.
É comum que um especialista na área de dados defina quais atributos serão utilizados para
formar os objetos no conjunto de dados.
As fontes causadoras de problemas nos conjuntos de dados podem ser as mais variadas:
problemas de coleta, armazenamento, transmissão, manipulação humana, ou ainda um
processo de integração de dados.
A redundância pode ocorrer tanto para atributos como para objetos de um conjunto de
dados.
Um atributo é redundante quando seu valor, para todos os objetos, pode ser obtido a partir
do valor e outro atributo ou de uma combinação de atributos (o cálculo da correlação pode
auxiliar na identificação de relações entre atributos).
Dados inconsistentes são aqueles cujos valores são conflitantes entre seus atributos (e.g.
idade=3 anos, peso=340 kg).
Dados com ruído são dados corrompidos por valores aleatórios. Podendo o ruído se somar
ou multiplicar o valor original.
bordelines
Técnicas baseadas em agrupamento: podem ser utilizadas para objetos e atributos. São
utilizadas técnicas de agrupamento. Os valores que não formam grupos são considerados
outliers.
Se o atributo simbólico assume apenas dois valores, um digito binário (0 e 1) normalmente é suficiente.
Se existem mais de dois valores, mas o atributo é nominal, a relação entre quaisquer dois valores deve
ser a mesma, e, portanto, esta característica deve ser mantida no mapeamento para valores numéricos.
Ou seja, a diferença entre quaisquer dois atributos deve ser a mesma.
Quando existe uma relação de ordem, ou seja, o atributo é do tipo ordinal, a codificação deve preservar
esta relação. Quando o valor numérico é um inteiro ou real, a transformação é direta. Uma conversão
para valores binários também pode ser realizada, utilizando-se o sistema de numeração binário ou ainda
algum mapeamento que reflita o caráter ordinal dos valores do atributo.
Se o atributo quantitativo for do tipo discreto e binário, com apenas dois valores, a
conversão é trivial. Basta associar um nome a cada valor.
Se o atributo original for formado por sequências binárias sem uma relação de ordem entre
si, cada sequência pode ser substituída por um nome ou categoria.
Quando os dados de entrada possuem um valor de offset ou uma dispersão muito grande de valores, a
normalização das entradas pode auxiliar na velocidade do aprendizado. A normalização geralmente
ajuda na velocidade do aprendizado.
A ideia básica na normalização das entradas está em subtrair a média das entradas e em seguida dividir
pelo desvio padrão:
PRÉ-PROCESSAMENTO DE DADOS
Transformação de dados
Redução da dimensionalidade:
Em muitos algoritmos de AM, para que dados com um número elevado de atributos possam
ser utilizados, a quantidade de atributos precisa ser reduzida. (e.g uma imagem RGB
1024x1024 pixel tem 3.145.728 atributos)
Pré-processamento de Dados