Você está na página 1de 4

4.

MINERAÇÃO DE DADOS
Um processo de mineração corresponde à extração de minerais a partir de um local onde
estejam localizados, como uma mina por exemplo. Esses minerais têm como característica o fato de
que não podem ser cultivados, ou ainda, que não podem ser produzidos artificialmente, mas podem
ser extraídos. Esse processo requer o acesso ao local onde estes minerais estão presentes, e do uso
de ferramentas adequadas para a sua mineração, extração e preparo para a comercialização.
Em computação, o termo mineração de dados foi criado como alusão ao processo de
mineração citado anteriormente, no qual é explorada uma base de dados (mina) usando algoritmos
(ferramentas) adequados para obter informação e conhecimento. (FERRARI; DE CASTRO, 2016)
O processo de mineração de dados é parte integrante de um processo mais amplo,
denominado descoberta de conhecimento em bases de dados, ou knowledge discovery in databases
(KDD).
O KDD pode ser dividido em quatro etapas principais, sendo elas a base de dados,
preparação ou pré-processamento de dados, mineração de dados e avaliação do conhecimento.
Essas etapas podem ser visualizadas na Figura 5.

Figura 1 - Etapas do KDD

Fonte:
FERRARI; DE CASTRO, 2016
No KDD, a base de dados é a coleção organizada dos dados, com valores quantitativos e
qualitativos referente a um conjunto de itens, e, conceitualmente, é o nível mais básico para
extração de informações. A preparação ou pré-processamento de dados são processos que visam
preparar os dados para uma análise eficiente e eficaz, como integração de dados obtidos em
múltiplas fontes, seleção e redução de dados, a fim de obter dados mais relevantes para a análise.
A mineração de dados é a etapa referente ao processo de aplicação de algoritmos para a
extração de conhecimento através dos dados pré-processados. Por fim, a etapa de validação tem o
objetivo de avaliar os resultados obtidos através da mineração e identificar conhecimentos
verdadeiramente úteis e não triviais.
Assim, no contexto de aplicação do KDD, a mineração de dados é responsável pelo processo
de identificação de padrões, através da aplicação de algoritmos e processos para realizar uma busca
efetiva por conhecimentos úteis, para tomada de decisões e para agregação de valor, a partir de uma
base de dados armazenados e pré-processados.

4.1 TÉCNICAS PARA MINERAÇÃO DE DADOS

No processo de mineração de dados são definidas técnicas, referentes a quais algoritmos


devem ser utilizados de acordo com um determinado problema. Redes neurais, algoritmos
genéticos, modelos estatísticos e probabilísticos são exemplos de técnicas que podem ser usadas na
etapa de mineração de dados. Conceitualmente, as técnicas podem ser subdivididas em três grupos:
técnicas tradicionais, técnicas específicas e técnicas híbridas. (GOLDSCHMIDT e PASSOS, 2005,
p. 13-20).
As técnicas tradicionais existem independente do contexto de mineração de dados e têm a
característica de produzirem bons resultados. Como exemplo de tecnologias tradicionais é possível
citar:
1. Redes neurais: Uma Rede neural artificial (RNA) constrói um modelo matemático
inspirado em um sistema neural biológico simplificado e tem capacidade de
aprendizado, generalização, associação e abstração. Uma RNA tenta aprender a partir de
um processo de repetidas apresentações de dados, procurando por relacionamentos e
construindo modelos automaticamente, e corrigindo-os de forma a diminuir seu próprio
erro.
2. Lógica nebulosa (Fuzzy Logic): Esta técnica é referente a sistemas que trabalham com
informações subjetivas e imprecisas, oferecendo flexibilidade na definição e avaliação
de conceitos.
3. Algoritmos genéticos (AG): Faz parte das técnicas baseadas em modelos heurísticos,
sendo o AG um modelo inspirado na evolução natural e na genética, aplicados a
problemas complexos de otimização. Não podem garantir uma solução ótima, mas
conseguem soluções próximas ou aceitáveis (subótimas).
4. Estatística: São modelos tradicionais que fornecem técnicas para a análise e
interpretação dos dados, como por exemplo: análise discriminante, redes bayesianas,
análise exploratória de dados etc.
Já as técnicas específicas são desenvolvidas especificamente para a aplicação em tarefas no
KDD. Esse tipo de técnica é utilizado na descoberta de regras associativas, referentes, por exemplo,
à implementação para o ramo comercial, com a possibilidade de incremento de vendas em um
determinado segmento, a partir de estratégias baseadas em um conjunto de regras de associação
extraídas de grandes bases de dados históricos.
Por fim, as Técnicas Híbridas são referentes a utilização de mais de uma técnica. Tem como
vantagem a sinergia da combinação, podendo resultar em um sistema com menos deficiência e mais
poderoso em termos de interpretação, aprendizado, estimativa de parâmetros, generalização, dentre
outros.
4.2 PROCESSO DE MINERAÇÃO DE DADOS

No KDD, a busca por conhecimentos úteis em uma base de dados é realizada com o
processo de mineração de dados. Essa etapa ocorre através da aplicação de algoritmos seguindo
técnicas para exploração de dados, com a finalidade de identificar padrões e modelos para produção
do conhecimento.
Segundo Kantardzic (2011), o processo de mineração de dados é responsável pela
descoberta de modelos, resumos e valores de uma determinada coleção de dados. Esse processo não
consiste em apenas escolher e aplicar uma ferramenta computacional e obter automaticamente uma
solução, e nem em aplicação aleatória de estatística, métodos, ferramentas analíticas. Na verdade, a
mineração de dados consiste em um processo interativo de estudar as informações obtidas, através
de técnicas analíticas, e então, se necessário, aplicar novamente as técnicas e algoritmos de
mineração utilizados a fim de alcançar resultados melhores ou diferentes.
Assim, o processo de mineração de dados utiliza-se de técnicas analíticas e de processos
planejados para considerar e decidir o que é útil, promissor e revelador. Esse processo experimental
de aplicar técnicas de mineração, realizar a aplicação de técnicas analíticas e tirar conclusões dos
dados, fazem parte de um procedimento experimental geral adaptado para problemas de mineração
de dados.
Ainda segundo Kantardzic (2011), o processo de mineração de dados, aplicado através de
um procedimento experimental geral, envolve etapas para geração de um modelo de conhecimento.
Essas etapas são:
1. Indicação do problema: Para dar início ao processo de mineração, é necessário
especificar um problema que pode ser resolvido com as informações e conhecimentos a
serem obtidos. Como a maioria das modelagens baseadas em dados é realizada em um
domínio de aplicação específico, então conhecimento e experiência específicos do
domínio são necessários para uma declaração de problema nesses tipos de casos. Quem
irá fazer a modelagem do processo deve atentar-se para o domínio da aplicação, a fim de
estabelecer qual técnica e modelo de mineração de dados irá utilizar.
2. Coleta de dados: Esta etapa diz respeito a como os dados serão gerados e coletados.
Geralmente existem duas formas. Na primeira, a geração de dados está sob o controle de
quem está fazendo a modelagem, e é conhecida como experimento projetado. A segunda
forma é conhecida como abordagem observacional. Esta geralmente é a mais utilizada e
consiste na busca de dados armazenados ou na geração aleatória dos dados, com a
distribuição da amostragem desconhecida ou fornecida parcial e implicitamente no
procedimento de coleta de dados. É importante entender como a coleta dos dados é
realizada, tanto inicialmente para a modelagem, como posteriormente para a
interpretação final dos resultados obtidos.
3. Pré-processamento dos dados: Nos cenários observacionais, os dados são geralmente
coletados em bancos de dados, data warehouses etc. O pré-processamento geralmente
inclui a preparação dos dados e a remoção de valores discrepantes e não consistentes. É
importante salientar que a cada iteração do processo de mineração de dados, surgem
novos dados que devem ser definidos e aprimorados para iterações subsequentes.
Geralmente, um bom método de pré-processamento fornece uma representação ideal
para a técnica de mineração de dados.
4. Estimar o modelo: Nesta fase, a principal tarefa é definir e implementar a técnica de
mineração de dados mais apropriada. A definição de qual é o melhor modelo a se obter
dentre as possíveis técnicas existentes não é um processo simples.
5. Interpretar o modelo e tirar conclusões: Os modelos de mineração de dados geralmente
são usados para auxiliar na tomada de decisões. A busca por precisão de dados e
informações pode acarretar modelagens e técnicas complexas. Assim, para serem úteis,
esses modelos de conhecimento obtidos precisam ser interpretáveis, visto que modelos
extremamente complexos e de difícil interpretação podem não apresentar formas úteis
no auxílio na tomada de decisões.
O processo de mineração é altamente iterativo, como pode ser visualizado na Figura 6. É
importante ter uma boa compreensão de todas as suas etapas, para obter uma aplicação de
mineração bem-sucedida. Por exemplo, não importa se uma modelagem de aplicação utiliza uma
técnica extremamente eficaz. Se os dados não forem coletados e pré-processados corretamente, o
resultado obtido não será válido.
Figura 2 - Etapas do processo de mineração de dados

Fonte: Os Autores

Você também pode gostar