Você está na página 1de 15

ARMAZENAMENTO DE DADOS

AULA 5:
MINERAÇÃO DE DADOS

Elaborado por: Edivaldo Rodrigues João


O processo de mineração corresponde à extração de
minerais valiosos, como ouro e pedras preciosas, a partir de
uma mina.

Uma característica importante desses materiais é que,


embora não possam ser cultivados ou produzidos
artificialmente, existem de maneira implícita e muitas vezes
desconhecida em alguma fonte, podendo ser extraídos.
Esse processo requer acesso à mina, o uso de ferramentas
adequadas de mineração, a extração dos minérios
propriamente dita e o seu posterior preparo para
comercialização.

02
Mineração de dados
O termo mineração de dados (Data Mining) foi cunhado
como alusão ao processo de mineração convencional e,
uma vez que se explora uma base de dados (mina)
usando algoritmos (ferramentas) adequados para obter
conhecimento (minerais preciosos).

A mineração de dados é examinar um grande volume de


informações, passando-as em uma peneira tecnológica
que revela padrões consistentes e informações úteis
para necessidades específicas do negócio.

A mineração de dados é parte integrante de um


processo mais amplo, conhecido como descoberta de
conhecimento em bases de dados (knowledge discovery
in databases, ou KDD).

03
Dados x Informação x Conhecimento

04
Tarefas de mineração de
dados
Em geral, as tarefas podem ser classificadas em
duas categorias:

(1) Descritivas: caracterizam as propriedades


gerais dos dados;

(2) Preditivas: fazem inferência a partir dos dados


objectivando predições.

05
Análise Descritiva
Uma etapa inicial do processo de mineração que
não requer elevado nível de sofisticação é a
análise descritiva dos dados, ou seja, o uso de
ferramentas capazes de medir, explorar e
descrever características intrínsecas aos dados.

Especificamente, essas análises permitem


investigar a distribuição de frequência, as medidas
de centro e variação, e as medidas de posição
relativa e associação dos dados. Além disso,
técnicas elementares de visualização também são
empregadas para um melhor entendimento da
natureza e distribuição dos dados.

As análises descritivas permitem uma sumarização


e compreensão dos objectos da base e seus
06 atributos.
Análise de grupos
Agrupamento (clustering) é o nome dado ao processo de
separar (particionar ou segmentar) um conjunto de objectos em
grupos (clusters) de objectos similares.
Diferentemente da tarefa de classificação, o agrupamento de
dados considera dados de entrada não rotulados, ou seja, o
grupo (classe) ao qual cada dado de entrada (objecto)
pertence não é conhecido a priori. Como os rótulos das
classes dos dados de treinamento não são conhecidos a priori,
esse processo é denominado treinamento não supervisionado
(ou aprendizagem não supervisionada).

07
Associação
Nas análises de grupos e preditivas, o objectivo em geral
é encontrar relações (grupos, classes ou estimativas)
entre os objectos da base. Entretanto, há diversas
aplicações práticas nas quais o objectivo é encontrar
relações entre os atributos (ou variáveis), e não entre os
objectos.

Uma regra de associação é um padrão da forma X → Y ,


onde X e Y são conjuntos de valores (artigos comprados
por um cliente, sintomas apresentados por um paciente,
etc). Consideremos por exemplo um supermercado. O
seguinte padrão Clientes que compram pão também
compram leite representa uma regra de associação que
reflete um padrão de comportamento dos clientes do
supermercado. Descobrir regras de associação entre
produtos comprados por clientes numa mesma compra
pode ser útil para melhorar a organização das prateleiras,
facilitar (ou dificultar) as compras do usuário ou induzi-lo
a comprar mais.
08
Detecção de anomalias (outliers)
Uma base de dados pode conter objectos que não
seguem o comportamento ou não possuem a
característica comum dos dados ou de um modelo
que os represente. Esses dados são conhecidos
como anomalias ou valores discrepantes (outliers).
A maioria das ferramentas de mineração descarta
as anomalias – por exemplo, ruídos ou exceções –,
entretanto, em algumas aplicações, como na
detecção de fraudes, os eventos raros podem ser
mais informativos do que aqueles que ocorrem
regularmente.

Por exemplo, podemos detectar o uso fraudulento


de cartões de crédito ao descobrir que certos
clientes efetuaram compras de valor extremamente
alto, fora de seu padrão habitual de gastos.
09
Análise Preditiva
Predição é uma terminologia usada para se referir
à construção e ao uso de um modelo para avaliar a
classe de um objecto não rotulado ou para estimar
o valor de um ou mais atributos de dado objecto.

No primeiro caso, denominamos a tarefa de


classificação e, no segundo, denominamos de
regressão (em estatística) ou simplesmente
estimação.

10
Classificação
Classificação é o processo de encontrar um conjunto de
modelos (funções) que descrevem e distinguem classes
ou conceitos, com o propósito de utilizar o modelo para
predizer a classe de objetos que ainda não foram
classificados. O modelo construído baseia-se na análise
prévia de um conjunto de dados de amostragem ou
dados de treinamento, contendo objectos corretamente
classficados.

É uma técnica utilizada para recuperar informações


sobre os dados e metadados e classificá-los em
diferentes classes de itens. Atribuir objectos à uma
dentre várias categorias pré-definidas.

Ex.:
• Classificação de letras e números
• Reconhecimento de faces
• Análise de crédito
11 • Diagnóstico médico
Regressão
A regressão é usada para identificar e analisar o
relacionamento entre as variáveis, bem como a
probabilidade de uma determinada variável
aparecer.

Regressão (Estimativa) é similar à classificação,


porém é usada quando o registro é identificado por
um valor numérico e não um categórico. Assim,
pode-se estimar o valor de uma determinada
variável analisando-se os valores das demais.

12
Exemplos de técnicas de mineração

• K-vizinhos mais próximos


• Árvores de Decisão
• Redes Neurais
• Naive Bayes

13
Considerações finais

Acrualmete o conteúdo digital disponível no mundo


inteiro, seja dentro das organizações, seja na
internet, apresenta dados que, se forem
devidamente trabalhados, tornam-se informações
valiosas para organizações, seja para o
planeamento, controle, previsão ou tomada de
decisão. Todo volume de informações, acumulado
dia após dia, gera uma quantidade de dados
disponíveis que permite a extração de informação
e construção de modelos relevantes para diversas
áreas da Administração, mas que também
apresentam uma dificuldade de análise devido ao
grande volume. A mineração de dados é uma
técnica que sobrepõe à dificuldade de manipulação
e transformação de dados em informação
14 relevante.
Obrigado

Email: edivaldo.rodriguesjoao@gmail.com

Você também pode gostar