Você está na página 1de 91

Traduzido do Inglês para o Português - www.onlinedoctranslator.

com

tutoriaisapontar
APRENDIZAGEM SIMPLESMENTE FÁCIL

www.tutorI a EUspoint.com
fJ https:f/wwc.fásbook.com/tutorlaeuspolnlfndeu1 https://tceutter.com/1 utorlaeuspoeunt
Sobre o
Tutorial
A mineração de dados é definida como o procedimento de extração de informações de grandes conjuntos
de dados. Em outras palavras, podemos dizer que a mineração de dados é extrair conhecimento de dados.

O tutorial começa com uma visão geral básica e as terminologias envolvidas na mineração
de dados e, gradualmente, avança para cobrir tópicos como descoberta de conhecimento,
linguagem de consulta, classificação e previsão, indução de árvore de decisão, análise de
cluster e como minerar a Web.

público
e
Este tutorial foi preparado para graduados em ciência da computação para ajudá-los a entender
os conceitos básicos aos avançados relacionados à mineração de dados.

Pré-requisito
s
Antes de prosseguir com este tutorial, você deve ter uma compreensão dos conceitos básicos de
banco de dados, como esquema, modelo ER, linguagem de consulta estruturada e um
conhecimento básico dos conceitos de Data Warehousing.

direito autoral &


Isenção de responsabilidade

Copyright 2014 por Tutorials Point (I) Pvt. Ltda.

Todo o conteúdo e gráficos publicados neste e-book são propriedade da Tutorials Point (I)
Pvt. Ltd. O usuário deste e-book está proibido de reutilizar, reter, copiar, distribuir ou
republicar qualquer conteúdo ou parte do conteúdo deste e-book de qualquer maneira sem
o consentimento por escrito do editor.

Nós nos esforçamos para atualizar o conteúdo do nosso site e tutoriais o mais rápido e
preciso possível, no entanto, o conteúdo pode conter imprecisões ou erros. Tutoriais Ponto
(I) Pvt. Ltd. não oferece nenhuma garantia em relação à precisão, pontualidade ou
integridade de nosso site ou de seu conteúdo, incluindo este tutorial. Se você descobrir
algum erro em nosso site ou neste tutorial, notifique-nos em
contact@tutorialspoint.com
eu
Índice
Sobre o Tutorial

···············································································································

· · · · · · · · · · · · · · · · · · eu

Público················································· ················································· ··

· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · eu Pré-requisitos

···············································································································

· · · · · · · · · · · · · · · · · · · · · · · · · · iCopyright&Disclaimer

···············································································································

· · · · · · · · · · · iTableofContents

···············································································································

· · · · · · · · · · · · · · · · · · · ii

1.
VISÃO GERAL················································· ················································· ··
························1

O que é Dados Mineração?


···············································································································
··············1

Dados Mineração Formulários


···············································································································
········1

Mercado Análise e Gerenciamento


········································································································2

corporativo Análise e Risco Gerenciamento


······························································································2

Fraude Detecção
···············································································································
······················2

2. TAREFAS
··················································································································

···············3

Descritivo Função
···············································································································
···············3
Classificação e Predição
···············································································································
··4

Dados Mineração Tarefa


Primitivos·············································· ················································· ·
··················5

3. PROBLEMAS
··················································································································

··············7

Mineração Metodologia e Do utilizador Interação Problemas


·····················································································7

Desempenho Problemas
···············································································································
·················8

diversos Dados tipos Problemas


···············································································································
······8

4. AVALIAÇÃO
··················································································································

· 10

Dados Armazém
·················································································································
· · · · · · · · · · · · · · · · 10

Dados Armazenagem
·················································································································
· · · · · · · · · · · · · · 10

Guiado por consulta Abordagem


·················································································································
· · · · · 11

Orientado por atualização Abordagem


·················································································································
· · · 11

ii
Do armazenamento de dados (OLAP) à mineração de dados (OLAM)
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12

Importância da OLAM
··················································································································
· · · · · · · · · 12

5. TERMINOLOGIAS
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 14

Mineração de dados
··················································································································
· · · · · · · · · · · · · · · · · · · · · · 14

Mecanismo de Mineração de Dados


··················································································································
· · · · · · · · · · · · 14

Conhecimento
Base················································· ················································· ············
· · · · · · · · · · · · · · · · · · · · · · · · 14

Descoberta de conhecimento
··················································································································
· · · · · · · · · 14

Interface de usuário
··················································································································
· · · · · · · · · · · · · · · · · · · 15

Dados
Integração················································· ················································· ··
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 15

Dados
Limpeza················································· ················································· ·····
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 15

Seleção de dados
··················································································································
· · · · · · · · · · · · · · · · · · · 15

Clusters
··················································································································
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 16

Dados
Transformação················································· ············································
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 16

6. DESCOBERTA DE CONHECIMENTO
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 17

O que é Descoberta de Conhecimento?


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 17
7.
SISTEMAS··············································· ················································· ····
· · · · · · · · · · · · · · · · · · · · · · · 18

Classificação do sistema de mineração de dados


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 18

Integrando um sistema de mineração de dados com um sistema DB/DW


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 20

8. LINGUAGEM DA CONSULTA
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 22

Sintaxe para especificação de dados relevantes para a tarefa


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 22

Sintaxe para especificar o tipo de conhecimento


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 22

Sintaxe para Especificação de Hierarquia de Conceitos


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 24

Sintaxe para Especificação de Medidas de Interesse


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25

Sintaxe para Apresentação de Padrão e Especificação de Visualização


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25

Especificação completa de DMQL


··················································································································
25

iii
Padronização de linguagens de mineração de dados

9. CLASSIFICAÇÃO E PREDIÇÃO
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 27

O que é Classificação?
··················································································································
· · · · · · 27

O que é Previsão?
··················································································································
· · · · · · · · · · · · 27

Como Funciona a Classificação?


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 28

Questões de classificação e previsão·············································


················································· ········· 29

Comparação de métodos de classificação e predição


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30

10. ÁRVORE DE DECISÃO


INDUÇÃO················································· ·············································· 31

Algoritmo de Indução de Árvore de Decisão


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 31

poda de árvore
··················································································································
· · · · · · · · · · · · · · · · · · · · · · 33

Complexidade de custos
··················································································································
· · · · · · · · · · · · · · · · 33

11. BAYESIANO
CLASSIFICAÇÃO················································· ···········································
· · · · · · · 34

Teorema de Bayes
··················································································································
· · · · · · · · · · · · · · · · 34

Rede Bayesiana de Crenças


··················································································································
· · · 34

Gráfico Acíclico Direcionado


··················································································································
· · · · · · · 34
Linguagens de mineração de dados Padronização
Representação gráfica acíclica direcionada
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 35

Tabela de Probabilidade Condicional


···············································································································
35

12. BASEADO EM REGRAS


CLASSIFICAÇÃO················································· ···········································
· · 36

SE ENTÃO
Regras················································· ················································· ············
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 36

Regra
Extração················································· ················································· ···
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 36

Indução de regra usando algoritmo de cobertura sequencial


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 37

Poda de regras
··················································································································
· · · · · · · · · · · · · · · · · · · · · · 37

13. MÉTODOS DIVERSOS DE CLASSIFICAÇÃO


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 39

Algorítmos genéticos
··················································································································
· · · · · · · · · · · · 39

Abordagem de conjunto aproximado

··················································································································
· · · · · · · · · · 39

4
Abordagem de conjunto difuso

14. ANÁLISE DE CLUSTER


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 42

O que é Clusterização?
··················································································································
· · · · · · · · · · · · 42

Aplicações da Análise de Cluster


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 42

Requisitos de Clustering em Data Mining···········································


················································ 43

Agrupamento
Métodos················································· ················································· ······
· · · · · · · · · · · · · · · · · · · · · · · · 43

15. TEXTO DE MINERAÇÃO


DADOS················································· ················································· ·········· 46

Informação
Recuperação················································· ················································· ·····
· · · · · · · · · · · · · · · · · · · · · · 46

Medidas básicas para recuperação de texto


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 47

16. MINERAÇÃO WORLD WIDE WEB


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 48

Desafios na web
Mineração················································· ················································· ·········
· · · · · · · · · · · · 48

Estrutura de layout da página da Web de mineração············································


················································· ·········
· · 48

Segmentação de página baseada em visão (VIPS)


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 49

17. APLICAÇÕES E TENDÊNCIAS


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 50

Aplicativos de mineração de dados


··················································································································
· · 50

Produtos de sistema de mineração de dados


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52
Abordagem de conjunto difuso

Escolhendo um sistema de mineração de dados


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 53

Tendências em mineração de dados


··················································································································
· · · · · · · · 54

18. TEMAS
··················································································································

· · · · · · · · · 55

Fundamentos Teóricos da Mineração de Dados


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 55

Mineração de Dados Estatísticos


··················································································································
· · · · · · 56

Mineração de Dados Visuais


··················································································································
· · · · · · · · · · · · · 57

Mineração de dados de áudio


··················································································································
· · · · · · · · · · · · · 58

Mineração de dados e filtragem colaborativa


· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 58

v
1. VISÃO GERAL Mineração de dados

Há uma enorme quantidade de dados disponíveis na indústria da informação. Esses dados


são inúteis até que sejam convertidos em informações úteis. É necessário analisar essa
enorme quantidade de dados e extrair deles informações úteis.

A extração de informações não é o único processo que precisamos realizar; A mineração de


dados também envolve outros processos, como limpeza de dados, integração de dados,
transformação de dados, mineração de dados, avaliação de padrões e apresentação de
dados. Uma vez concluídos todos esses processos, poderíamos usar essas informações em
muitas aplicações, como detecção de fraude, análise de mercado, controle de produção,
exploração científica, etc.

O que é Dados
Mineração?

A mineração de dados é definida como a extração de informações de grandes conjuntos de dados. Em


outras palavras, podemos dizer que a mineração de dados é o procedimento de mineração de
conhecimento a partir de dados. A informação ou conhecimento assim extraído pode ser usado para
qualquer uma das seguintes aplicações:

- Análise de mercado

- Detecção de fraude

- Fidelização de clientes

- Controle de produção

- Exploração científica

Dados Mineração

Formulários
A mineração de dados é altamente útil nos seguintes domínios:

- Análise e Gestão de Mercado

- Análise Corporativa e Gestão de Riscos

- Detecção de fraude

Além disso, a mineração de dados também pode ser usada nas áreas de controle de
produção, retenção de clientes, exploração científica, esportes, astrologia e auxílio à
navegação na Internet.

1
Mineração de dados

Mercado Análise e
Gerenciamento
Listados abaixo estão os vários campos de mercado onde a mineração de dados é usada:

- Perfil do cliente-A mineração de dados ajuda a determinar que tipo de pessoa


compra que tipo de produto.

- Identificando os requisitos do cliente-A mineração de dados ajuda a identificar os


melhores produtos para diferentes clientes. Ele usa a previsão para encontrar os
fatores que podem atrair novos clientes.

- Análise cruzada de mercado-A mineração de dados realiza associações/correlações


entre vendas de produtos.

-Mercado alvo-A mineração de dados ajuda a encontrar grupos de clientes modelo que
compartilham as mesmas características, como interesses, hábitos de consumo,
renda etc.

- Determinando o padrão de compra do cliente-A mineração de dados ajuda a


determinar o padrão de compra do cliente.

- Fornecimento de informações resumidas-A mineração de dados nos fornece vários


relatórios de resumo multidimensionais.

corporativo Análise e Risco


Gerenciamento
A mineração de dados é utilizada nas seguintes áreas do Setor Corporativo:

- Planejamento Financeiro e Avaliação de Ativos-Envolve análise e previsão de fluxo de


caixa, análise de reivindicações contingentes para avaliar ativos.

-Planejamento de recursos-Envolve resumir e comparar os recursos e gastos.

- Concorrência-Envolve monitorar os concorrentes e as direções do mercado.

Fraude
Detecção
A mineração de dados também é usada nas áreas de serviços de cartão de crédito e
telecomunicações para detectar fraudes. Em chamadas telefônicas fraudulentas, ajuda a
encontrar o destino da chamada, duração da chamada, hora do dia ou da semana, etc.
Também analisa os padrões que fogem das normas esperadas.

2
2.
Mineração de dados

TAREFAS

A mineração de dados lida com o tipo de padrões que podem ser extraídos. Com base no tipo de
dados a serem minerados, existem duas categorias de funções envolvidas na mineração de
dados:

- Descritivo

- Classificação e previsão

Descritivo
Função
A função descritiva lida com as propriedades gerais dos dados no banco de dados. Aqui está
a lista de funções descritivas:

- Descrição da classe/conceito

- Mineração de Padrões Frequentes

- Mineração de Associações

- Mineração de Correlações

- Mineração de Clusters

Classe/Conceito
Descrição
Classe/Conceito refere-se aos dados a serem associados às classes ou conceitos. Por
exemplo, em uma empresa, as classes de itens para vendas incluem computadores e
impressoras, e os conceitos de clientes incluem grandes gastadores e gastadores de
orçamento. Tais descrições de uma classe ou conceito são chamadas de descrições de
classe/conceito. Essas descrições podem ser derivadas das duas maneiras a seguir:

- Caracterização de Dados-Refere-se a resumir os dados de uma classe em estudo.


Esta classe em estudo é chamada de Classe Alvo.

- Discriminação de dados-Refere-se ao mapeamento ou classificação de uma classe com


algum grupo ou classe predefinidos.

Mineração de Freqüente
Padrões
3
Padrões frequentes são aqueles padrões que ocorrem frequentemente em dados transacionais. Aqui
está a lista de tipos de padrões frequentes:

- Conjunto de itens frequentes-Refere-se a um conjunto de itens que frequentemente


aparecem juntos, por exemplo, leite e pão.

4
Mineração de dados

- Subsequência Frequente- Uma sequência de padrões que ocorrem com frequência,


como a compra de uma câmera, é seguida pelo cartão de memória.

- Subestrutura Frequente-A subestrutura refere-se a diferentes formas estruturais,


como grafos, árvores ou redes, que podem ser combinadas com conjuntos de itens
ou subsequências.

Mineração de
Associação
As associações são usadas em vendas no varejo para identificar padrões que são
frequentemente comprados juntos. Este processo refere-se ao processo de descobrir a
relação entre os dados e determinar as regras de associação.

Por exemplo, um varejista gera uma regra de associação que mostra que 70% das vezes
leite é vendido com pão e apenas 30% das vezes biscoitos são vendidos com pão.

Mineração de
correlações
É um tipo de análise adicional realizada para descobrir correlações estatísticas interessantes
entre pares de valores de atributos associados ou entre dois conjuntos de itens para
analisar se eles têm efeito positivo, negativo ou nenhum efeito um sobre o outro.

Mineração de
Clusters
Cluster refere-se a um grupo de tipos semelhantes de objetos. A análise de cluster refere-se
à formação de grupos de objetos que são muito semelhantes entre si, mas muito diferentes
dos objetos em outros clusters.

Classificação e
Predição
Classificação é o processo de encontrar um modelo que descreva as classes de dados ou
conceitos. O objetivo é poder usar esse modelo para prever a classe de objetos cujo rótulo
de classe é desconhecido. Este modelo derivado é baseado na análise de conjuntos de
dados de treinamento. O modelo derivado pode ser apresentado nas seguintes formas:

- Regras de Classificação (SE-ENTÃO)

- Árvores de decisão

- Fórmulas matemáticas

- Redes neurais
Mineração de dados
A lista de funções envolvidas nesses processos é a seguinte:

- Classificação-Ele prevê a classe de objetos cujo rótulo de classe é desconhecido. Seu


objetivo é encontrar um modelo derivado que descreva e diferencie classes de dados
ou conceitos. O Modelo Derivado é baseado na
conjunto de análise de dados de treinamento, ou seja, o objeto de dados cujo rótulo de classe é bem
conhecido.

- Predição-Ele é usado para prever valores de dados numéricos ausentes ou indisponíveis


em vez de rótulos de classe. A análise de regressão é geralmente usada para previsão. A
previsão também pode ser usada para identificação de tendências de distribuição com
base nos dados disponíveis.

- Análise Outlier-Outliers podem ser definidos como os objetos de dados que não
obedecem ao comportamento geral ou modelo dos dados disponíveis.

- Análise de Evolução-A análise de evolução refere-se à descrição e regularidades do


modelo ou tendências para objetos cujo comportamento muda ao longo do tempo.

Primitivas de tarefas de mineração de dados

- Podemos especificar uma tarefa de mineração de dados na forma de uma consulta de mineração de dados.

- Esta consulta é inserida no sistema.

- Uma consulta de mineração de dados é definida em termos de primitivas de tarefas de mineração de dados.

Observação: essas primitivas nos permitem comunicar de forma interativa com o sistema de
mineração de dados. Aqui está a lista de Primitivos de Tarefas de Mineração de Dados:

- Conjunto de dados relevantes da tarefa a serem minerados.

- Tipo de conhecimento a ser minerado.

- Conhecimento prévio a ser usado no processo de descoberta.

- Medidas de interesse e limiares para avaliação de padrões.

- Representação para visualizar os padrões descobertos.

Conjunto de dados relevantes da tarefa a serem minerados

Esta é a parte do banco de dados na qual o usuário está interessado. Esta parte inclui o
seguinte:

- Atributos do banco de dados

- Dimensões de Data Warehouse de interesse

Tipo de conhecimento a ser minerado

Refere-se ao tipo de funções a serem executadas. Estas funções são:

- Caracterização

- Discriminação

- Análise de associação e correlação


- Classificação

- Predição

- Agrupamento

- Análise Outlier

- Análise de Evolução

Conhecimento prévio
O conhecimento de fundo permite que os dados sejam extraídos em vários níveis de
abstração. Por exemplo, as hierarquias de conceito são um dos conhecimentos básicos que
permitem que os dados sejam extraídos em vários níveis de abstração.

Medidas de interesse e limites para avaliação de padrões


Isso é usado para avaliar os padrões que são descobertos pelo processo de descoberta de
conhecimento. Existem diferentes medidas interessantes para diferentes tipos de
conhecimento.

Representação para visualizar os padrões descobertos


Isso se refere à forma na qual os padrões descobertos devem ser exibidos. Essas
representações podem incluir o seguinte:

- Regras

- Tabelas

- Gráficos

- Gráficos

- Árvores de decisão

- cubos
Mineração de dados

3.
MASALAH

Data mining bukanlah tugas yang mudah, karena algoritma yang digunakan bisa sangat
kompleks dan data tidak selalu tersedia di satu tempat. Perlu diintegrasikan dari berbagai
sumber data yang heterogen. Faktor-faktor ini juga membuat beberapa masalah. Di sini, di
tutorial ini, kita akan membahas isu-isu utama mengenai:

• Metodologi Pertambangan dan Pengguna Interaksi


• Masalah Kinerja
• Dados de Isu Jenis Beragam

Diagram berikut ini menjelaskan isu-isu utama.

Metodologi Pertambangan dan Pengguna Isu Interaksi


Hal ini mengacu pada jenis masalah berikut
ini:
Mineração de dados

- Berbagai jenis pengetahuan pertambangan dalam banco de dados-pengguna yang


berbeda mungkin tertarik dalam berbagai jenis pengetahuan. Oleh karena itu diperlukan
mineração de dados para menutupi berbagai tugas penemuan pengetahuan.

- Pertambangan interaktif pada pengetahuan berbagai tingkat abstraksi-Proses data


mining perlu interaktif karena memungkinkan pengguna untuk
Fokus pencarian pola, memproduksi e permintaan pertambangan penyulingan data
berdasarkan hasil kembali.

- Pengetahuan Penggabungan latar belakang-Untuk memandu penemuan proses


dan untuk mengungkapkan penemuan pola, pengetahuan latar belakang dapat
digunakan. Pengetahuan Latar Belakang dapat digunakan untuk mengekspresikan
penemuan pola tidak hanya dalam hal ringkas tetapi pada beberapa tingkatan
abstraksi.

- Bahasa query data mining e data ad hoc mining-A Mineração de dados de


consulta básica é uma ferramenta útil para a realização de tarefas ad hoc, que se
integra com o armazenamento de dados de consulta básica e ideal para a eficiência
e a mineração de dados flexível.

- Apresentar e visualizar hasil data mining-Setelah pola yang ditemukan itu perlu
diungkapkan dalam bahasa tingkat tinggi, dan representasi visual. representasi ini harus
mudah dimengerti.

- Menangani data yang bising atau tidak lengkap-Metode pembersihan data yang
diperlukan untuk menangani kebisingan dan benda-benda yang tidak lengkap
sementara pertambangan penyimpangan data. Data metode pembersihan tidak ada
maka akurasi dari pola ditemukan akan menjadi buruk.

- Evaluasi Pola–Penemuan pola harus menarik karena baik mereka mewakili


pengetahuan umum atau kurang baru.

Masalah Kinerja
Ada beberapa isu-isu terkait kinerja seperti berikut:

- Efisiensi e scalabilitas de mineração de dados de algoritmo-Dalam rangka untuk


mengekstrak informasi dari sejumlah besar data di database secara eficaz, algoritma
data mining harus efisien dan terukur.

- Paralel, didistribusikan, dan tambahan algoritma pertambangan-Faktor seperti


ukuran besar database, distribusi yang luas dari data, dan kompleksitas metode data
mining memotivasi pengembangan algoritma data mining paralelo dan terdistribusi.
Algoritma ini membagi data ke dalam partisi yang selanjutnya diproses secara paralela.
Kemudian hasil dari partisi yang tergabung. Algoritma tambahan, memperbarui
database tanpa pertambangan data lagi dari awal.

Dados de Beragam Jenis Masalah


- Penanganan jenis relacional e dados complexos-O banco de dados contém muitos
objetos de dados complexos, dados de objetos de multimídia, dados espaciais,
dados que semeiam dll.
- Informações sobre bancos de dados heterogêneos e informações sobre sistemas
globais- Data tersedia di sumber data yang berbeda pada LAN ou WAN. Sumber Data ini
dapat terstruktur, semi terstruktur ou tidak terstruktur. Oleh karena itu pertambangan
pengetahuan dari mereka menambah tantangan untuk data mining.
4. AVALIAÇÃO
Mineração de dados

Dados
Armazém
Sebuah gudang data menunjukkan karakteristik berikut ini untuk mendukung proses
pengambilan keputusan manajemen ini:

- Subjek Berorientasi-Data warehouse adalah subjek berorientasi karena


memberikan kami informasi di sekitar subjek daripada operasi yang sedang
berlangsung organisasi. Subjek ini dapat berupa produk, pelanggan, pemasok,
penjualan, pendapatan, dll data warehouse tidak fokus pada operasi yang sedang
berlangsung, melainkan berfokus pada pemodelan e analisis data untuk
pengambilan keputusan.

- Terpadu-Data warehouse dibangun oleh integrasi data dari sumber yang heterogen
seperti database relacional, flat file dll integrasi ini meningkatkan analisis efektif data.

- Waktu variante-Data yang dikumpulkan dalam data warehouse diidentifikasi dengan jangka
waktu tertentu. Dados dalam data warehouse Memberikan Informasi dari sudut pandang
sejarah.

- Não volátil-Os dados não voláteis do berarti sebelumnya tidak dihapus ketika data baru
yang ditambahkan ke dalamnya. Data warehouse disimpan terpisah dari database
operacional karena perubahan sering dalam database operacional tidak tercermin dalam
data warehouse.

Dados
Armazenagem
Data Warehousing é um processo de integração e armazenamento de dados. Sebuah data
warehouse dibangun dengan mengintegrasikan data dari berbagai sumber yang
heterogen. Mendukung pelaporan analitis, terstruktur dan / atau ad hoc query, dan
pengambilan keputusan.

Data Warehousing facilita a limpeza de dados, integra dados e consolida dados. Untuk
mengintegrasikan database heterogen, kita memiliki dua pendekatan berikut:

- Abordagem orientada por consulta

- Atualizar Abordagem Orientada

10
Mineração de dados

Guiado por consulta


Abordagem

Ini adalah pendekatan traditional untuk mengintegrasikan base de dados heterogen. Pendekatan ini
digunakan untuk membangun pembungkus dan integrador de bancos de dados de bebidas
heterogêneas. integrador ini juga dikenal sebagai mediador.

Abordagem Orientada por Consulta Proses

1. Ketika query dikeluarkan untuk sisi client, kamus metadata menerjemahkan permintaan ke
permintaan, sesuai untuk situs heterogen individu yang terlibat.
2. Sekarang pertanyaan ini dipetakan dan dikirim ke prosesor query lokal.
3. Hasil dari situs heterogen diintegrasikan ke dalam satu set jawaban global.

Kekuragan
Pendekatan ini memiliki kelemahan sebagai berikut:

- Pendekatan Permintaan Didorong kebutuhan kompleks proses integrasi dan


penyaringan.

-Hal ini sangat tidak efisien dan sangat mahal untuk pertanyaan yang sering.

-Pendekatan ini mahal untuk query yang membutuhkan agregasi.

Orientado por atualização

Abordagem

Sistem data warehouse hari ini mengikuti pendekatan atualização-driven daripada pendekatan
dibahas tradisioal sebelumnya. Dalam pendekatan update-driven, informações dari berbagai
somber yang heterogen terintegrasi di muka e disimpan di gudang. Informasi ini tersedia untuk
consulta langsung dan analisis.

Kekuragan
Pendekatan ini memiliki kelemahan sebagai berikut:
-Pendekatan ini Memberikan Kinerja tinggi.

- Data dapat disalin, diproses, terpadu, dijelaskan, diringkas dan direstrukturisasi


dalam menyimpan data semantik di muka.

Pemrosesan query tiak memerlukan interface dengan pengolahan di sumber-sumber lokal.


Mineração de dados

Dari Data Warehousing (OLAP) Ke Data Mining


(OLAM)
Integrações analíticas on-line integradas com processamento analítico on-line com mineração de
dados e análises abrangentes de bancos de dados multidimensionais. Berikut adalah diagram yang
menunjukkan integrasi kedua OLAP dan OLAM:

Pentingnya OLAM
OLAM penting untuk alasan berikut:

- Kualitas tinggi dari data dalam data warehouse-Alat data mining yang diperlukan untuk
bekerja pada data terpadu, konsisten, dan dibersihkan. Langkah-langkah ini sangat mahal di
pré-processamento de dados. Dibangun de dados por pré-processamento separa a coleta de
dados de processamento para OLAP e mineração de dados.
- Informasi yang tersedia pengolahan infrastruktur sekitar data warehouse-
Informações sobre infra-estrutura fornecem informações, integram, consolidam e
transformam bancos de dados heterogêneos, web-mengaks e facilidades pelayanan,
pelaporan e toda a análise OLAP.

- Análise de dados Berbasis OLAP eksplorasi-análise de dados eksplorasi diperlukan


untuk data mining yang efektif. A OLAM oferece facilidades para a mineração de dados
de vários subconjuntos de dados e de vários resumos.

- Seleksi on-line pada fungsi mineração de dados-Integrar OLAP com recursos de


mineração de dados e analisar análises on-line oferece flexibilidade para aprimorar
recursos de mineração de dados e otimizar a dinâmica de mineração de dados.
S
ta M ining

5. TERMINÓLOGO EU E D a

Dados
Mineração

A mineração de dados é definida como a extração de informações de um grande conjunto de dados. Em


outras palavras, podemos dizer que a mineração de dados é extrair o conhecimento dos dados. Esta
informação pode ser usada para qualquer uma das seguintes aplicações:

- Análise de mercado

- Detecção de fraude

- Fidelização de clientes

- Controle de produção

- Exploração científica

Dados Mineração

Motor
O mecanismo de mineração de dados é muito essencial para o sistema de mineração de dados. É composto
por um conjunto de módulos funcionais que executam as seguintes funções:

- Caracterização

- Análise de associação e correlação

- Classificação

- Predição

- análise de cluster

- Análise de outliers

- Análise de evolução

Conhecimento
Base
Este é o conhecimento do domínio. Esse conhecimento é usado para guiar a busca ou
avaliar o interesse dos padrões resultantes.

14
Conhecimento
Descoberta
Algumas pessoas tratam a mineração de dados da mesma forma que a descoberta de conhecimento, enquanto
outras veem a mineração de dados como uma etapa essencial no processo de descoberta de conhecimento. Aqui
está a lista de etapas envolvidas no processo de descoberta de conhecimento:

15
Mineração de dados

- Limpeza de dados

- Integração de dados

- Seleção de dados

- Transformação de dados

- Mineração de dados

- Avaliação de padrão

- Apresentação de conhecimento

Do utilizador

Interface
A interface do usuário é o módulo do sistema de mineração de dados que ajuda na
comunicação entre os usuários e o sistema de mineração de dados. A interface do usuário
permite as seguintes funcionalidades:

- Interaja com o sistema especificando uma tarefa de consulta de mineração de dados.

- Fornecer informações para ajudar a focar a pesquisa.

- Mineração baseada nos resultados intermediários da mineração de dados.

- Procure esquemas de banco de dados e data warehouse ou estruturas de dados.

- Avalie os padrões extraídos.

- Visualize os padrões em diferentes formas.

Dados
Integração
Integração de dados é uma técnica de pré-processamento de dados que mescla os dados de várias
fontes de dados heterogêneas em um armazenamento de dados coerente. A integração de dados
pode envolver dados inconsistentes e, portanto, precisa de limpeza de dados.

Dados
Limpeza
A limpeza de dados é uma técnica aplicada para remover os dados ruidosos e corrigir as
inconsistências nos dados. A limpeza de dados envolve transformações para corrigir os dados
errados. A limpeza de dados é realizada como uma etapa de pré-processamento de dados durante a
preparação dos dados para um data warehouse.
Mineração de dados

Dados
Seleção
Seleção de dados é o processo em que os dados relevantes para a tarefa de análise são
recuperados do banco de dados. Às vezes, a transformação e consolidação de dados são
realizadas antes do processo de seleção de dados.
Conjunto
s
Cluster refere-se a um grupo de tipos semelhantes de objetos. A análise de cluster refere-se
à formação de grupos de objetos que são muito semelhantes entre si, mas muito diferentes
dos objetos em outros clusters.

Dados
Transformação
Nesta etapa, os dados são transformados ou consolidados em formas apropriadas para
mineração, realizando operações de resumo ou agregação.
6. CONHECIMENTO
Mineração de dados

O que é Conhecimento
Descoberta?
Algumas pessoas não diferenciam a mineração de dados da descoberta de conhecimento, enquanto
outras veem a mineração de dados como uma etapa essencial no processo de descoberta de
conhecimento. Aqui está a lista de etapas envolvidas no processo de descoberta de conhecimento:

- Limpeza de dados-Nesta etapa, o ruído e os dados inconsistentes são removidos.

- Integração de dados-Nesta etapa, várias fontes de dados são combinadas.

- Seleção de dados-Nesta etapa, os dados relevantes para a tarefa de análise são


recuperados do banco de dados.

- Transformação de dados-Nesta etapa, os dados são transformados ou


consolidados em formas apropriadas para mineração, realizando operações de
resumo ou agregação.

- Mineração de dados-Nesta etapa, métodos inteligentes são aplicados para extrair


padrões de dados.

- Avaliação de padrão-Nesta etapa, os padrões de dados são avaliados.

- Apresentação de conhecimento-Nesta etapa, o conhecimento é representado.

O diagrama a seguir mostra o processo de descoberta de conhecimento:


7.
Mineração de dados

Existe uma grande variedade de sistemas de mineração de dados disponíveis. Os sistemas de


mineração de dados podem integrar técnicas do seguinte:

- Análise de Dados Espaciais

- Recuperação de informação

- Reconhecimento de padrões

- Análise de imagem

- Processamento de Sinal

- computação gráfica

- Tecnologia Web

- Negócios

- Bioinformática

Classificação do sistema de mineração de dados


Um sistema de mineração de dados pode ser classificado de acordo com os seguintes critérios:

- Tecnologia de banco de dados

- Estatisticas

- Aprendizado de máquina

- Ciência da Informação

- Visualização

- Outras Disciplinas
Mineração de dados

Além disso, um sistema de mineração de dados também pode ser classificado com base no tipo
de (a) banco de dados extraído, (b) conhecimento extraído, (c) técnicas utilizadas e (d) aplicativos
adaptados.

Classificação com base nos bancos de dados


extraídos
Podemos classificar um sistema de mineração de dados de acordo com o tipo de banco de dados
extraído. O sistema de banco de dados pode ser classificado de acordo com diferentes critérios, como
modelos de dados, tipos de dados, etc. E o sistema de mineração de dados pode ser classificado de
acordo.

Por exemplo, se classificarmos um banco de dados de acordo com o modelo de dados, podemos
ter um sistema de mineração relacional, transacional, relacional de objeto ou data warehouse.

Classificação Baseado sobre o Tipo de


Conhecimento Minado
Podemos classificar um sistema de mineração de dados de acordo com o tipo de conhecimento extraído.
Isso significa que o sistema de mineração de dados é classificado com base em funcionalidades como:

- Caracterização

- Discriminação

19
Mineração de dados
- Análise de associação e correlação

- Classificação

20
- Predição

- Agrupamento

- Análise Outlier

- Análise de Evolução

Classificação Baseada nas Técnicas


Utilizadas
Podemos classificar um sistema de mineração de dados de acordo com o tipo de técnicas
utilizadas. Podemos descrever essas técnicas de acordo com o grau de interação do usuário
envolvido ou os métodos de análise empregados.

Classificação Baseada nas Aplicações


Adaptadas
Podemos classificar um sistema de mineração de dados de acordo com as aplicações adaptadas.
Estas aplicações são as seguintes:

- Finança

- telecomunicações

- DNA

- Mercado de ações

- E-mail

Integrando um sistema de mineração de dados com um DB/DW


Sistema
Se um sistema de mineração de dados não estiver integrado a um banco de dados ou a um sistema
de data warehouse, não haverá sistema para se comunicar. Este esquema é conhecido como
esquema de não acoplamento. Neste esquema, o foco principal está no projeto de mineração de
dados e no desenvolvimento de algoritmos eficientes e eficazes para a mineração dos conjuntos de
dados disponíveis.

A lista de Esquemas de Integração é a seguinte:

- Sem Acoplamento-Nesse esquema, o sistema de mineração de dados não utiliza nenhuma


das funções de banco de dados ou data warehouse. Ele busca os dados de uma fonte
específica e processa esses dados usando alguns algoritmos de mineração de dados. O
resultado da mineração de dados é armazenado em outro arquivo.

- Acoplamento solto-Nesse esquema, o sistema de mineração de dados pode usar


algumas das funções do banco de dados e do sistema de data warehouse. Ele busca
os dados dos dados respiratórios gerenciados por esses sistemas e realiza
mineração de dados nesses dados. Em seguida, ele armazena o resultado da mineração em um arquivo
ou em um local designado em um banco de dados ou em um data warehouse.

- Acoplamento semi-apertado-Nesse esquema, o sistema de mineração de dados está


vinculado a um banco de dados ou a um sistema de data warehouse e, além disso,
implementações eficientes de algumas primitivas de mineração de dados podem ser fornecidas
no banco de dados.

- Acoplamento apertado-Nesse esquema de acoplamento, o sistema de mineração de dados


é perfeitamente integrado ao banco de dados ou ao sistema de data warehouse. O
subsistema de mineração de dados é tratado como um componente funcional de um sistema
de informação.
Mineração de dados

8. PERGUNTA
LINGUAGEM

A Data Mining Query Language (DMQL) foi proposta por Han, Fu, Wang, et al. para o sistema de
mineração de dados DBMiner. A Linguagem de Consulta de Mineração de Dados é, na verdade,
baseada na Linguagem de Consulta Estruturada (SQL). As linguagens de consulta de mineração
de dados podem ser projetadas para oferecer suporte à mineração de dados ad hoc e interativa.
Este DMQL fornece comandos para especificar primitivos. O DMQL também pode trabalhar com
bancos de dados e armazéns de dados. DMQL pode ser usado para definir tarefas de mineração
de dados. Em particular, examinamos como definir data warehouses e data marts em DMQL.

Sintaxe para Relevante para a tarefa Dados


Especificação
Aqui está a sintaxe do DMQL para especificar dados relevantes para a tarefa:

usar banco de dados database_name,

ou

usar armazenamento de dados

data_warehouse_name em relevância para


att_or_dim_list
de relação(s)/cubo(s) [onde condição] ordem
por lista_de_ordem
agrupar por grouping_list

Sintaxe para especificar o tipo de conhecimento


Aqui vamos discutir a sintaxe para Caracterização, Discriminação, Associação, Classificação
e Predição.

Caracterização
A sintaxe para Caracterização é:

características da mina [como pattern_name]


22
analisar {medida(s)}

A cláusula de análise especifica medidas agregadas, como contagem, soma ou contagem%.

23
Mineração de dados

Por exemplo:

Descrição que descreve os hábitos de compra do cliente.

minhas características como clienteCompras

analisar contagem%

Discriminação
A sintaxe para Discriminação é:

comparação de minas [como {pattern_name]}

para {target_class } onde {t arget_condition }


{versus {contrast_class_i}
onde {contrast_condition_i}}
analisar {medida(s)}

Por exemplo, um usuário pode definir grandes gastadores como clientes que compram
itens que custam US$ 100 ou mais em média; e gastadores de orçamento como clientes que
compram itens por menos de US$ 100 em média. A mineração de descrições discriminantes
para clientes de cada uma dessas categorias pode ser especificada no DMQL como:

comparação de minas como grupos de compra

para grandes gastadores onde avg(I.price) ≥ $ 100

versus budgetSpenders onde avg(I.price) < $100


analisar contagem

Associação
A sintaxe para Associação é:

associações de minas [como {pattern_name}]


{correspondente a {metapadrão} }

Por exemplo:

associações de minas como hábitos de compra

correspondente P(X:cliente,W) Q(X,Y) ≥ compra(X,Z)

onde X é a chave de relacionamento com o cliente; P e Q são variáveis predicadas; e W, Y e


Z são variáveis de objeto.
Classificação
A sintaxe para Classificação é:

classificação de mina [como pattern_name]

analisar classificando_atributo_ou_dimensão

Por exemplo, para minerar padrões, classificando a classificação de crédito do cliente em


que as classes são determinadas pelo atributo credit_rating e a classificação da mina é
determinada comoclassCustomerCreditRating.

analisar credit_rating

Predição
A sintaxe para previsão é:

minha previsão [como pattern_name]


analisar predição_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}

Sintaxe para Especificação de Hierarquia de Conceitos


Para especificar hierarquias de conceito, use a seguinte sintaxe:

use a hierarquia <hierarchy> para <attribute_or_dimension>

Usamos diferentes sintaxes para definir diferentes tipos de hierarquias, como:

- hierarquias de esquema

definir hierarquia time_hierarchy na data como [data, mês, trimestre, ano]


-
hierarquias de agrupamento

definir hierarquia age_hierarchy para idade no cliente como


nível1: {jovem, meia-idade, sênior} < nível0: todos os níveis2:
{20, ..., 39} < nível1: jovem
level3: {40, ..., 59} < level1: middle_aged level4:
{60, ..., 89} < level1: sênior
- hierarquias derivadas da operação

definir hierarquia age_hierarchy para idade no cliente como


{age_category(1), ..., age_category(5)} :=
cluster(padrão, idade, 5) < all(idade)
- hierarquias baseadas em regras

definir hierarquia profit_margin_hierarchy no item como


level_1: low_profit_margin < level_0: tudo se
(preço - custo) < $ 50
level_1: medium-proft_margin < level_0: todos

se ((preço - custo) > $ 50) e ((preço - custo) ≤ $ 250))


level_1: high_profit_margin < level_0: todos

Sintaxe para Especificação de Medidas de Interesse


Medidas e limites de interesse podem ser especificados pelo usuário com a declaração:

com <interest_measure_name> threshold = threshold_value

Por exemplo:

com limite de suporte = 0,05


com limite de confiança = 0,7

Sintaxe para Apresentação de Padrão e Especificação de


Visualização
Temos uma sintaxe que permite aos usuários especificar a exibição dos padrões
descobertos em uma ou mais formas.

exibir como <result_form>

Por exemplo:

exibir como tabela

Especificação completa de
DMQL
Como gerente de mercado de uma empresa, você gostaria de caracterizar os hábitos de
compra dos clientes que podem comprar itens com preços não inferiores a US$ 100; em
relação à idade do cliente, tipo de item adquirido e local onde o

25
item foi comprado. Você gostaria de saber a porcentagem de clientes com essa
característica. Em particular, você está interessado apenas em compras feitas em

26
Canadá e pago com cartão de crédito American Express. Você gostaria de visualizar as
descrições resultantes na forma de uma tabela.

usar banco de dados AllElectronics_db

use a hierarquia location_hierarchy para B.endereçar as

características da mina como clienteAnalisar a compra do

cliente%

em relevância para C.age,I.type,I.place_made do cliente


C, item I, compra P, items_sold S, ramo B onde
I.item_ID = S.item_ID e P.cust_ID = C.cust_ID e P.method_paid = "AmEx" e
B.address = "Canadá" e I.price ≥ 100 com limite de ruído = 5%

exibir como tabela

Padronização de linguagens de mineração de dados


A padronização das linguagens de mineração de dados servirá aos seguintes propósitos:

- Ajuda no desenvolvimento sistemático de soluções de mineração de dados.

- Melhora a interoperabilidade entre vários sistemas e funções de mineração de


dados.

- Promove educação e aprendizado rápido.

- Promove o uso de sistemas de mineração de dados na indústria e na sociedade.


9. CLASSIFICAÇÃO AN D
mineração ata

PREVISÃO

Existem duas formas de análise de dados que podem ser usadas para extrair modelos que
descrevem classes importantes ou para prever tendências futuras de dados. Estas duas formas
são as seguintes:

- Classificação

- Predição

Os modelos de classificação prevêem rótulos de classes categóricas; e os modelos de predição


prevêem funções de valor contínuo. Por exemplo, podemos construir um modelo de classificação
para categorizar os pedidos de empréstimos bancários como seguros ou arriscados, ou um modelo
de previsão para prever os gastos em dólares de clientes potenciais em equipamentos de informática
de acordo com sua renda e ocupação.

O que é
Classificação?
A seguir estão os exemplos de casos em que a tarefa de análise de dados é Classificação:

- Um oficial de empréstimo bancário deseja analisar os dados para saber qual cliente
(candidato ao empréstimo) é arriscado ou seguro.

- Um gerente de marketing de uma empresa precisa analisar um cliente com um determinado


perfil, que vai comprar um novo computador.

Em ambos os exemplos acima, um modelo ou classificador é construído para prever os rótulos categóricos.
Esses rótulos são arriscados ou seguros para dados de solicitação de empréstimo e sim ou não para dados
de marketing.

O que é
Predição?
A seguir estão os exemplos de casos em que a tarefa de análise de dados é Previsão:

Suponha que o gerente de marketing precise prever quanto um determinado cliente


gastará durante uma venda em sua empresa. Neste exemplo, estamos preocupados em
prever um valor numérico. Portanto, a tarefa de análise de dados é um exemplo de previsão
numérica. Nesse caso, será construído um modelo ou um preditor que prevê uma função de
valor contínuo ou um valor ordenado.

27
Observação: a análise de regressão é uma metodologia estatística mais usada para
previsão numérica.

28
Mineração de dados

Como funciona a classificação


Trabalhar?

Com a ajuda do pedido de empréstimo bancário que discutimos acima, vamos entender o
funcionamento da classificação. O processo de Classificação de Dados inclui duas etapas:

- Construindo o Classificador ou Modelo

- Usando classificador para classificação

Construindo o Classificador ou
Modelo
- Esta etapa é a etapa de aprendizagem ou a fase de aprendizagem.

- Nesta etapa, os algoritmos de classificação constroem o classificador.

- O classificador é construído a partir do conjunto de treinamento formado pelas tuplas do banco de dados e
seus rótulos de classe associados.

- Cada tupla que constitui o conjunto de treinamento é chamada de categoria ou classe.


Essas tuplas também podem ser chamadas de amostras, objetos ou pontos de dados.

Usando Classificador para


Classificação
Nesta etapa, o classificador é usado para classificação. Aqui, os dados de teste são usados
para estimar a precisão das regras de classificação. As regras de classificação podem ser
aplicadas às novas tuplas de dados se a precisão for considerada aceitável.
Problemas de classificação e previsão
A questão principal é preparar os dados para Classificação e Previsão. A preparação dos
dados envolve as seguintes atividades:

- Limpeza de dados-A limpeza de dados envolve a remoção do ruído e o tratamento de


valores ausentes. O ruído é removido aplicando técnicas de suavização e o problema
de valores ausentes é resolvido substituindo um valor ausente pelo valor que ocorre
com mais frequência para esse atributo.

- Análise de Relevância-O banco de dados também pode ter os atributos irrelevantes. A


análise de correlação é usada para saber se quaisquer dois atributos dados estão
relacionados.

- Transformação e redução de dados- Os dados podem ser transformados por qualquer


um dos seguintes métodos.

oNormalização-Os dados são transformados usando a normalização.


A normalização envolve dimensionar todos os valores para um determinado atributo
para fazê-los cair dentro de um pequeno intervalo especificado. A normalização é
utilizada quando na etapa de aprendizado são utilizadas as redes neurais ou os
métodos envolvendo medições.

o Generalização-Os dados também podem ser transformados generalizando-os


para o conceito superior. Para isso, podemos usar o conceito de hierarquias.

Observação: os dados também podem ser reduzidos por alguns outros métodos, como
transformação de wavelet, binning, análise de histograma e agrupamento.
Comparação de métodos de classificação e predição
Seguem os critérios para comparação dos métodos de Classificação e Predição:

o Precisão-A precisão do classificador refere-se à capacidade do classificador. Ele


prevê o rótulo da classe corretamente e a precisão do preditor refere-se a quão
bem um determinado preditor pode adivinhar o valor do atributo previsto para
novos dados.

o Velocidade-Isso se refere ao custo computacional na geração e uso do


classificador ou preditor.

o Robustez-Refere-se à capacidade do classificador ou preditor de fazer previsões


corretas a partir de dados ruidosos.

o Escalabilidade-Escalabilidade refere-se à capacidade de construir o classificador ou


preditor de forma eficiente; dada grande quantidade de dados.

o Interpretabilidade-Refere-se a até que ponto o classificador ou preditor


entende.
10. ÁRVORE DE DECISÃO Mineração de dados

INDUÇÃO

Uma árvore de decisão é uma estrutura que inclui um nó raiz, ramos e nós folha. Cada nó
interno denota um teste em um atributo, cada ramificação denota o resultado de um teste e
cada nó folha contém um rótulo de classe. O nó mais alto na árvore é o nó raiz.

A árvore de decisão a seguir é para o conceito buy_computer que indica se um cliente em


uma empresa provavelmente comprará um computador ou não. Cada nó interno
representa um teste em um atributo. Cada nó folha representa uma classe.

Os benefícios de ter uma árvore de decisão são os seguintes:

- Não requer nenhum conhecimento de domínio.

- É fácil de compreender.

- As etapas de aprendizado e classificação de uma árvore de decisão são simples e rápidas.

Decisão Árvore Indução


Algoritmo

31
Um pesquisador de máquinas chamado J. Ross Quinlan desenvolveu em 1980 um algoritmo de
árvore de decisão conhecido como ID3 (Iterative Dichotomiser). Posteriormente, apresentou o
C4.5, que foi o sucessor do ID3. ID3 e C4.5 adotam uma abordagem gananciosa. Nisso

32
Mineração de dados

algoritmo, não há retrocesso; as árvores são construídas de uma maneira recursiva de


divisão e conquista de cima para baixo.

Gerando uma árvore de decisão a partir das tuplas de treinamento da partição de dados D

Algoritmo: Generate_decision_tree

Entrada:

Partição de dados, D, que é um conjunto de tuplas de treinamento e

seus rótulos de classe associados.

attribute_list, o conjunto de atributos candidatos. Método de


seleção de atributos, um procedimento para determinar o critério
de divisão que melhor particiona os tuplos de dados em classes
individuais. Este critério inclui uma
splitting_attribute e um ponto de divisão ou subconjunto de divisão.

Saída:
Uma árvore de decisão

Método
criar um nó N;
se tuplas em D são todas da mesma classe, C então retorna
N como nó folha rotulado com classe C; se

attribute_list estiver vazio então

retorna N como nó folha com rotulado


com classe majoritária em D;|| votação majoritária

aplique attribute_selection_method(D, attribute_list) para


encontrar o melhor splitting_criterion;
nó de rótulo N com splitting_criterion;
se splitting_attribute for de valor discreto e
divisões multiway permitidas então // não restritas a árvores binárias
attribute_list = splitting attribute; // remove o atributo de divisão para cada
resultado j do critério de divisão
// particiona as tuplas e aumenta as subárvores para cada partição
seja Dj o conjunto de tuplas de dados em D satisfazendo o resultado j; // uma partição
se Dj está vazio então

anexar uma folha rotulada com a classe


majoritária em D ao nó N;
outro

anexe o nó retornado por Gerar


árvore de decisão (Dj, lista de atributos) para o nó N;

fim para

retornar N;

poda de árvore
A poda de árvores é realizada para remover anomalias nos dados de treinamento devido a
ruídos ou outliers. As árvores podadas são menores e menos complexas.

Abordagens de poda de árvores


Existem duas abordagens para podar uma árvore:

- Pré-poda-A árvore é podada parando sua construção cedo.

- Pós-poda-Essa abordagem remove uma subárvore de uma árvore totalmente


crescida.

Complexidade de custos
A complexidade do custo é medida pelos dois parâmetros a seguir:

- Número de folhas na árvore e

- Taxa de erro da árvore.


11. BAYESIANO
Mineração de dados

CLASSIFICAÇÃO

A classificação Bayesiana é baseada no Teorema de Bayes. Os classificadores bayesianos são os


classificadores estatísticos. Os classificadores bayesianos podem prever as probabilidades de
associação de classe, como a probabilidade de uma determinada tupla pertencer a uma classe
específica.

Bayes'
Teorema
O teorema de Bayes é nomeado após Thomas Bayes. Existem dois tipos de probabilidades:

- Probabilidade posterior [P(H/X)]

- Probabilidade anterior [P(H)]

onde X é a tupla de dados e H é alguma hipótese.

De acordo com o Teorema de Bayes,

P(H/X)= P(X/H)P(H) / P(X)

Bayesiano Crença
Rede
Redes Bayesianas de Crenças especificam distribuições de probabilidade condicionais conjuntas.
Elas também são conhecidas como Redes de Crenças, Redes Bayesianas ou Redes
Probabilísticas.

- Uma rede de crenças permite que as independências condicionais de classe sejam definidas
entre subconjuntos de variáveis.

- Ele fornece um modelo gráfico de relacionamento causal no qual o aprendizado


pode ser realizado.

- Podemos usar uma Rede Bayesiana treinada para classificação.

Existem dois componentes que definem uma Rede Bayesiana de Crenças:

- Gráfico acíclico direcionado

- Um conjunto de tabelas de probabilidade condicional

34
Dirigido acíclico
Gráfico
- Cada nó em um grafo acíclico direcionado representa uma variável aleatória.

- Estas variáveis podem ter valores discretos ou contínuos.

35
Mineração de dados

- Essas variáveis podem corresponder ao atributo real fornecido nos dados.

Dirigido acíclico Gráfico


Representação
O diagrama a seguir mostra um gráfico acíclico direcionado para seis variáveis booleanas.

O arco no diagrama permite a representação do conhecimento causal. Por exemplo, o


câncer de pulmão é influenciado pelo histórico familiar de câncer de pulmão de uma
pessoa, bem como pelo fato de a pessoa ser ou não fumante. Vale ressaltar que a variável
PositiveXray independe se o paciente tem história familiar de câncer de pulmão ou se o
paciente é fumante, uma vez que sabemos que o paciente tem câncer de pulmão.

Condicional Probabilidade
Mesa
A tabela de probabilidade condicional para os valores da variável LungCancer (LC)
mostrando cada combinação possível dos valores de seus nós pais, FamilyHistory (FH) e
Smoker (S) é a seguinte:

35
12. REGRA-BA S E D
ing

D ata mín.

ICAÇÃO

Regras SE-ENTÃO
O classificador baseado em regras faz uso de um conjunto de regras IF-THEN para classificação.
Podemos expressar uma regra no seguinte de:

SE condição ENTÃO conclusão

Consideremos uma regra R1,

R1: SE idade=jovem E aluno=sim


ENTÃO compre_computador=sim

Pontos para lembrar:


- A parte IF da regra é chamadaantecedente da regraoucondição prévia.

- A parte THEN da regra é chamadaregra consequente.

- A parte antecedente da condição consiste em um ou mais testes de atributo e esses


testes são logicamente conectados.

- A parte consequente consiste na predição de classes.

Observação: Também podemos escrever a regra R1 da seguinte forma:

R1: (idade = jovem) ^ (estudante = sim))(compra computador = sim)

Se a condição for verdadeira para uma dada tupla, então o antecedente é satisfeito.

Extração de regras
Aqui aprenderemos como construir um classificador baseado em regras extraindo regras IF-THEN de
uma árvore de decisão.

Pontos para lembrar:

Para extrair uma regra de uma árvore de decisão:

- Uma regra é criada para cada caminho desde a raiz até o nó folha.

- Para formar um antecedente de regra, cada critério de divisão é logicamente ANDed.

- O nó folha contém a predição da classe, formando o consequente da regra.


36
Mineração de dados

Indução de regra usando cobertura sequencial


Algoritmo
O Algoritmo de Cobertura Sequencial pode ser usado para extrair regras IF-THEN dos dados de
treinamento. Não precisamos gerar uma árvore de decisão primeiro. Nesse algoritmo, cada
regra para uma determinada classe abrange muitas das tuplas dessa classe.

Alguns dos algoritmos de cobertura sequenciais são AQ, CN2 e RIPPER. De acordo com a
estratégia geral, as regras são aprendidas uma de cada vez. Para cada vez que as regras são
aprendidas, uma tupla coberta pela regra é removida e o processo continua para o restante das
tuplas. Isso ocorre porque o caminho para cada folha em uma árvore de decisão corresponde a
uma regra.

Observação: A indução da árvore de decisão pode ser considerada como aprender um conjunto de regras
simultaneamente.

O seguinte é o algoritmo de aprendizagem sequencial onde as regras são aprendidas para uma
classe de cada vez. Ao aprender uma regra de uma classe Ci, queremos que a regra cubra todas
as tuplas da classe C apenas e nenhuma tupla de qualquer outra classe.

Algoritmo: Cobertura Sequencial


Entrada:

D, um conjunto de dados com tuplas rotuladas por classe,

Att_vals, o conjunto de todos os atributos e seus valores possíveis. Saída: Um

conjunto de regras SE-ENTÃO.

Método:
Rule_set={ }; // conjunto inicial de regras aprendidas está vazio para

cada classe c do

repita
Regra = Learn_One_Rule(D, Att_valls, c);
remover tuplas cobertas pela forma de regra D;

até condição de rescisão;


Rule_set=Regra_set+Regra; // adiciona uma nova regra ao final do conjunto de regras

para
return Rule_Set;

Poda de regras
A regra é podada devido aos seguintes motivos:

- A avaliação da qualidade é feita no conjunto original de dados de treinamento.


Mineração de dados
A regra pode ter um bom desempenho em dados de treinamento, mas não tão bem em dados subsequentes.
dados. É por isso que a poda de regra é necessária.
- A regra é podada removendo o conjunto. A regra R é podada, se a versão podada
de R tiver maior qualidade do que a avaliada em um conjunto independente de
tuplas.

FOIL é um dos métodos simples e eficazes para a poda de regras. Para uma dada regra R,

FOIL_Prune = pos-neg/ pos+neg

onde pos e neg é o número de tuplas positivas cobertas por R, respectivamente.

Observação: Este valor aumentará com a precisão de R no conjunto de poda. Portanto, se o


valor FOIL_Prune for maior para a versão podada de R, então podamos R.
13. DIVERSOS
Mineração de dados

CLASSIFICAÇÃO
MÉTODOS
Aqui discutiremos outros métodos de classificação, como Algoritmos Genéticos, Abordagem de
Conjunto Rough e Abordagem de Conjunto Fuzzy.

Genético
Algoritmos
A ideia do algoritmo genético é derivada da evolução natural. No algoritmo genético, em
primeiro lugar, a população inicial é criada. Essa população inicial consiste em regras
geradas aleatoriamente. Podemos representar cada regra por uma cadeia de bits.

Por exemplo, em um determinado conjunto de treinamento, as amostras são descritas por dois
atributos booleanos, como A1 e A2. E esse conjunto de treinamento fornecido contém duas
classes, como C1 e C2.

Podemos codificar a regraSE A1 E NÃO A2 ENTÃO C2em uma pequena string100. Nesta
representação de bit, os dois bits mais à esquerda representam os atributos A1 e A2,
respectivamente.

Da mesma forma, a regraSE NÃO A1 E NÃO A2 ENTÃO C1pode ser codificado como 001.

Observação: Se o atributo tiver valores K onde K>2, então podemos usar os bits K para
codificar os valores do atributo. As classes também são codificadas da mesma maneira.

Pontos para lembrar:

- Com base na noção de sobrevivência do mais apto, é formada uma nova


população que consiste nas regras mais aptas da população atual e também nos
valores descendentes dessas regras.

- A adequação de uma regra é avaliada por sua precisão de classificação em um conjunto de


amostras de treinamento.

- Os operadores genéticos, como cruzamento e mutação, são aplicados para criar


descendentes.

- No cruzamento, a substring do par de regras é trocada para formar um novo par


de regras.

- Na mutação, os bits selecionados aleatoriamente na string de uma regra são invertidos.

39
Duro Definir

Abordagem
Podemos usar a abordagem de conjunto aproximado para descobrir relações estruturais dentro de
dados imprecisos e ruidosos.

40
Mineração de dados

Observação: esta abordagem só pode ser aplicada em atributos de valor discreto. Portanto,
atributos de valor contínuo devem ser discretizados antes de sua utilização.

A Rough Set Theory é baseada no estabelecimento de classes de equivalência dentro dos


dados de treinamento fornecidos. As tuplas que formam a classe de equivalência são
indiscerníveis. Isso significa que as amostras são idênticas em relação aos atributos que
descrevem os dados.

Existem algumas classes nos dados do mundo real fornecidos, que não podem ser distinguidas
em termos de atributos disponíveis. Podemos usar os conjuntos aproximados para
aproximadamentedefinir tais classes.

Para uma determinada classe C, a definição aproximada do conjunto é aproximada por dois conjuntos da seguinte
forma:

- Aproximação Inferior de C-A aproximação inferior de C consiste em todas as


tuplas de dados, que com base no conhecimento do atributo, certamente
pertencem à classe C.

- Aproximação Superior de C-A aproximação superior de C consiste em todas as


tuplas, que com base no conhecimento dos atributos, não podem ser descritas
como não pertencentes a C.

O diagrama a seguir mostra a aproximação superior e inferior da classe C:

Difuso Definir

Abordagem
A Teoria dos Conjuntos Fuzzy também é chamada de Teoria das Possibilidades. Esta teoria foi
proposta por Lotfi Zadeh em 1965 como uma alternativa aológica de dois valoreseprobabilidade
teoria. Essa teoria nos permite trabalhar em um alto nível de abstração. Também nos
fornece os meios para lidar com medições imprecisas de dados.

A teoria dos conjuntos difusos também nos permite lidar com fatos vagos ou inexatos. Por
exemplo, ser um membro de um conjunto de altas rendas é exato (por exemplo, se $ 50.000 é
alto, então o que dizer de $ 49.000 e $ 48.000). Ao contrário do conjunto CRISP tradicional, onde
o elemento pertence a S ou seu complemento, mas na teoria do conjunto fuzzy o elemento pode
pertencer a mais de um conjunto fuzzy.

Por exemplo, o valor de renda $ 49.000 pertence aos conjuntos fuzzy médio e alto, mas em
graus diferentes. A notação do conjunto fuzzy para esse valor de receita é a seguinte:

mrenda_média($ 49k) = 0,15 e malta renda($ 49k) = 0,96

onde 'm' é a função de pertinência que opera nos conjuntos difusos de medium_income e
high_income respectivamente. Esta notação pode ser representada esquematicamente da
seguinte forma:
4.
1
ta M ini ng

Da

SIS

O cluster está velho outras palavras,


objeto semelhante agrupados em
outro aglomerado

O que é
Agrupamento?
Clustering é o processo de transformar um grupo de objetos abstratos em classes de objetos
semelhantes.

Pontos para lembrar:


- Um cluster de objetos de dados pode ser tratado como um grupo.

- Ao fazer a análise de cluster, primeiro particionamos o conjunto de dados em grupos com


base na similaridade de dados e, em seguida, atribuímos os rótulos aos grupos.

- A principal vantagem do agrupamento sobre a classificação é que ele é adaptável a


mudanças e ajuda a destacar recursos úteis que distinguem diferentes grupos.

Formulários de Conjunto
Análise
- A análise de agrupamento é amplamente usada em muitas aplicações, como pesquisa de
mercado, reconhecimento de padrões, análise de dados e processamento de imagens.

- O agrupamento também pode ajudar os profissionais de marketing a descobrir grupos


distintos em sua base de clientes. E podem caracterizar seus grupos de clientes com base nos
padrões de compra.

- No campo da biologia, pode ser usado para derivar taxonomias de plantas e


animais, categorizar genes com funcionalidades semelhantes e obter informações
sobre estruturas inerentes às populações.

- O agrupamento também ajuda na identificação de áreas de uso semelhante da terra em um


banco de dados de observação da Terra. Também ajuda na identificação de grupos de casas
em uma cidade de acordo com o tipo de casa, valor e localização geográfica.

- O agrupamento também ajuda na classificação de documentos na Web para descoberta de


informações.
42
- O clustering também é usado em aplicativos de detecção de outliers, como detecção de fraude de
cartão de crédito.

- Como uma função de mineração de dados, a análise de cluster serve como uma ferramenta para obter
informações sobre a distribuição de dados para observar as características de cada cluster.

43
Mineração de dados

Requisitos de Clustering em Dados


Mineração

Os pontos a seguir esclarecem por que o agrupamento é necessário na mineração de dados:

- Escalabilidade-Precisamos de algoritmos de agrupamento altamente escaláveis para lidar com


grandes bancos de dados.

- Capacidade de lidar com diferentes tipos de atributos-Os algoritmos devem


poder ser aplicados em qualquer tipo de dados, como dados baseados em intervalos
(numéricos), dados categóricos e binários.

- Descoberta de clusters com forma de atributo-O algoritmo de agrupamento deve ser


capaz de detectar agrupamentos de forma arbitrária. Eles não devem ser limitados
apenas a medidas de distância que tendem a encontrar aglomerados esféricos de
tamanhos pequenos.

- Alta dimensionalidade-O algoritmo de agrupamento não deve ser capaz apenas de lidar
com dados de baixa dimensão, mas também com o espaço de alta dimensão.

- Capacidade de lidar com dados ruidosos-Os bancos de dados contêm dados ruidosos,
ausentes ou incorretos. Alguns algoritmos são sensíveis a esses dados e podem levar a
clusters de baixa qualidade.

- Interpretabilidade-Os resultados do agrupamento devem ser interpretáveis,


compreensíveis e utilizáveis.

Agrupamento
Métodos
Os métodos de agrupamento podem ser classificados nas seguintes categorias:

- Método de particionamento

- Método hierárquico

- Método baseado em densidade

- Método baseado em grade

- Método baseado em modelo

- Método baseado em restrições

Particionamento
Método
Suponha que tenhamos um banco de dados de 'n' objetos e o método de particionamento
construa 'k' partições de dados. Cada partição representará um cluster e k ≤ n.
Mineração de dados
Isso significa que classificará os dados em k grupos, que satisfazem o seguinte
requisitos:

- Cada grupo contém pelo menos um objeto.

- Cada objeto deve pertencer a exatamente um grupo.


Pontos para lembrar:
- Para um determinado número de partições (digamos k), o método de particionamento criará
um particionamento inicial.

- Em seguida, ele usa a técnica de realocação iterativa para melhorar o


particionamento movendo objetos de um grupo para outro.

hierárquico
Método
Este método cria uma decomposição hierárquica de um determinado conjunto de objetos
de dados. Podemos classificar métodos hierárquicos com base em como a decomposição
hierárquica é formada. Existem duas abordagens aqui:

- abordagem aglomerativa

- Abordagem Divisiva

abordagem aglomerativa
Essa abordagem também é conhecida como abordagem de baixo para cima. Neste, começamos com
cada objeto formando um grupo separado. Ele continua mesclando os objetos ou grupos que estão
próximos uns dos outros. Ele continua fazendo isso até que todos os grupos sejam mesclados em um
ou até que a condição de término seja válida.

Abordagem Divisiva
Essa abordagem também é conhecida como abordagem de cima para baixo. Neste, começamos
com todos os objetos no mesmo cluster. Na iteração contínua, um cluster é dividido em clusters
menores. Ele fica inativo até que cada objeto em um cluster ou a condição de finalização seja
mantida. Este método é rígido, ou seja, uma vez que uma fusão ou divisão é feita, ela nunca
pode ser desfeita.

Abordagens para melhorar a qualidade do agrupamento hierárquico

Aqui estão as duas abordagens que são usadas para melhorar a qualidade do agrupamento
hierárquico:

- Realize uma análise cuidadosa das ligações de objetos em cada particionamento


hierárquico.

- Integre a aglomeração hierárquica usando primeiro um algoritmo de aglomeração


hierárquica para agrupar objetos em microclusters e, em seguida, realizando
macroclustering nos microclusters.

baseado em densidade

Método

44
Este método é baseado na noção de densidade. A idéia básica é continuar crescendo o
cluster fornecido enquanto a densidade na vizinhança exceder algum limite, ou seja, para
cada ponto de dados dentro de um determinado cluster, o raio de um determinado cluster
deve conter pelo menos um número mínimo de pontos.

45
baseado em grade

Método
Neste, os objetos juntos formam uma grade. O espaço do objeto é quantizado em um número finito
de células que formam uma estrutura de grade.

Vantagens
- A principal vantagem deste método é o tempo de processamento rápido.

- Depende apenas do número de células em cada dimensão no espaço quantizado.

baseado em modelo

Método
Nesse método, um modelo é hipotetizado para cada cluster para encontrar o melhor ajuste de
dados para um determinado modelo. Este método localiza os clusters agrupando a função de
densidade. Ele reflete a distribuição espacial dos pontos de dados.

Esse método também fornece uma maneira de determinar automaticamente o número de


clusters com base em estatísticas padrão, levando em consideração outliers ou ruídos. Portanto,
produz métodos robustos de agrupamento.

baseado em restrição
Método
Neste método, o agrupamento é realizado pela incorporação de restrições orientadas ao
usuário ou à aplicação. Uma restrição refere-se à expectativa do usuário ou às propriedades
dos resultados de agrupamento desejados. As restrições nos fornecem uma forma
interativa de comunicação com o processo de agrupamento. As restrições podem ser
especificadas pelo usuário ou pelo requisito do aplicativo.
15. TEXTO DE MINERAÇÃO Mineração de dados

DADOS

Bancos de dados de texto consistem em uma enorme coleção de documentos. Eles coletam essas
informações de várias fontes, como artigos de notícias, livros, bibliotecas digitais, mensagens de e-
mail, páginas da web, etc. Devido ao aumento da quantidade de informações, os bancos de dados de
texto estão crescendo rapidamente. Em muitos dos bancos de dados de texto, os dados são
semiestruturados.

Por exemplo, um documento pode conter alguns campos estruturados, como título, autor,
data_da_publicação etc. Mas junto com os dados da estrutura, o documento também
contém componentes de texto não estruturados, como resumo e conteúdo. Sem saber o
que poderia estar nos documentos, é difícil formular consultas eficazes para analisar e
extrair informações úteis dos dados. Os usuários precisam de ferramentas para comparar
os documentos e classificar sua importância e relevância. Portanto, a mineração de texto
tornou-se popular e um tema essencial na mineração de dados.

Informação
Recuperação

A recuperação de informações lida com a recuperação de informações de um grande número de


documentos baseados em texto. Alguns dos sistemas de banco de dados geralmente não estão presentes
nos sistemas de recuperação de informações porque ambos lidam com diferentes tipos de dados.
Exemplos de sistemas de recuperação de informações incluem:

- Sistema de catálogo de biblioteca online

- Sistemas de gerenciamento de documentos on-line

- Sistemas de busca na web, etc.

Observação: O principal problema em um sistema de recuperação de informações é localizar documentos


relevantes em uma coleção de documentos com base na consulta de um usuário. Esse tipo de consulta do usuário
consiste em algumas palavras-chave que descrevem uma necessidade de informação.

Em tais problemas de busca, o usuário toma a iniciativa de extrair informações relevantes de uma
coleção. Isso é apropriado quando o usuário tem necessidade de informações ad hoc, ou seja, uma
necessidade de curto prazo. Mas se o usuário tiver uma necessidade de informação de longo prazo, o
sistema de recuperação também pode tomar a iniciativa de enviar qualquer item de informação
recém-chegado ao usuário.

Esse tipo de acesso à informação é chamado de Filtragem de Informação. E os sistemas


correspondentes são conhecidos como Sistemas de Filtragem ou Sistemas de
Recomendação.
46
Mineração de dados

Medidas básicas para texto


Recuperação

Precisamos verificar a precisão de um sistema quando ele recupera uma série de documentos
com base na entrada do usuário. Deixe o conjunto de documentos relevantes para uma consulta
ser denotado como {Relevant} e o conjunto de documentos recuperados como {Retrieved}. O
conjunto de documentos relevantes e recuperados pode ser indicado como {Relevante}∩ {
Recuperado}. Isso pode ser mostrado na forma de um diagrama de Venn da seguinte forma:

Existem três medidas fundamentais para avaliar a qualidade da recuperação de texto:

- Precisão

- Lembrar

- F-score

precisão
n
Precisão é a porcentagem de documentos recuperados que são de fato relevantes para a
consulta. A precisão pode ser definida como:

Precisão= |{Relevante} ∩ {Recuperado}| / |{Recuperado}|

Lembrar

Recall é a porcentagem de documentos que são relevantes para a consulta e foram de fato
recuperados. A recordação é definida como:

Recall = |{Relevante} ∩ {Recuperado}| / |{Relevante}|

F-
pontuação

F-score é o trade-off comumente usado. O sistema de recuperação de informações geralmente


precisa compensar a precisão ou vice-versa. F-score é definido como média harmônica de recall
ou precisão da seguinte forma:
47
F-score = rechamada x precisão / (recall + precisão) / 2

48
16. MUNDO DA MINERAÇÃO Mineração de dados

WIDE WEB

A World Wide Web contém grandes quantidades de informações que fornecem uma fonte rica para
mineração de dados.

desafios em Rede
Mineração

A web apresenta grandes desafios para a descoberta de recursos e conhecimento com base nas
seguintes observações:

- A web é muito grande.-O tamanho da web é muito grande e está aumentando rapidamente.
Isso parece que a web é muito grande para armazenamento de dados e mineração de dados.

- Complexidade de páginas da Web.-As páginas da web não possuem estrutura unificadora.


Eles são muito complexos em comparação com o documento de texto tradicional. Há uma
enorme quantidade de documentos na biblioteca digital da web. Essas bibliotecas não são
organizadas de acordo com nenhuma ordem de classificação específica.

- A Web é uma fonte de informação dinâmica.-As informações na web são atualizadas


rapidamente. Os dados, como notícias, bolsas de valores, clima, esportes, compras, etc.,
são atualizados regularmente.

- Diversidade de comunidades de usuários.-A comunidade de usuários na web está


se expandindo rapidamente. Esses usuários têm origens, interesses e propósitos de
uso diferentes. Existem mais de 100 milhões de estações de trabalho conectadas à
Internet e ainda aumentando rapidamente.

- Relevância da Informação.-Considera-se que uma determinada pessoa geralmente


está interessada em apenas uma pequena parte da web, enquanto o resto da parte
da web contém informações que não são relevantes para o usuário e podem
atrapalhar os resultados desejados.

Layout da página da Web de mineração


Estrutura
A estrutura básica da página da Web é baseada no Document Object Model (DOM). A
estrutura DOM refere-se a uma estrutura semelhante a uma árvore em que a tag HTML na
página corresponde a um nó na árvore DOM. Podemos segmentar a página da web usando
tags predefinidas em HTML. A sintaxe do HTML é flexível, portanto, a web

48
páginas não segue as especificações W3C. Não seguir as especificações do W3C pode causar
erro na estrutura da árvore DOM.

A estrutura DOM foi inicialmente introduzida para apresentação no navegador e não para
descrição da estrutura semântica da página web. A estrutura DOM não consegue identificar
corretamente a relação semântica entre as diferentes partes de uma página web.

49
Mineração de dados

Segmentação de página baseada em visão (VIPS)


- O objetivo do VIPS é extrair a estrutura semântica de uma página da web com base
em sua apresentação visual.

- Tal estrutura semântica corresponde a uma estrutura de árvore. Nesta árvore cada
nó corresponde a um bloco.

- Um valor é atribuído a cada nó. Este valor é chamado de Grau de Coerência. Este
valor é atribuído para indicar o conteúdo coerente no bloco com base na percepção
visual.

- O algoritmo VIPS primeiro extrai todos os blocos adequados da árvore HTML DOM.
Depois disso, ele encontra os separadores entre esses blocos.

- Os separadores referem-se às linhas horizontais ou verticais em uma página da Web que se


cruzam visualmente sem blocos.

- A semântica da página web é construída com base nesses blocos.

A figura a seguir mostra o procedimento do algoritmo VIPS:

49
1
Data Mi ning

Da comercial
da n isso
nossa dados
m

D
Formulários
Aqui está a lista de áreas onde a mineração de dados é amplamente utilizada:

- Análise de Dados Financeiros

- Indústria de varejo

- Indústria de Telecomunicações

- Análise de Dados Biológicos

- Outras Aplicações Científicas

- Detecção de intruso

Financeiro Dados
Análise
Os dados financeiros no setor bancário e financeiro são geralmente confiáveis e de alta
qualidade, o que facilita a análise sistemática de dados e a mineração de dados. Alguns dos
casos típicos são os seguintes:

- Projeto e construção de data warehouses para análise de dados multidimensionais e


mineração de dados.

- Previsão de pagamento de empréstimos e análise da política de crédito do cliente.

- Classificação e agrupamento de clientes para marketing direcionado.

- Detecção de lavagem de dinheiro e outros crimes financeiros.

50
Varejo
Indústria
A Mineração de Dados tem grande aplicação no Varejo, pois coleta grande quantidade de
dados sobre vendas, histórico de compras de clientes, transporte de mercadorias, consumo
e serviços. É natural que a quantidade de dados coletados continue a crescer rapidamente
devido à crescente facilidade, disponibilidade e popularidade da web.

A mineração de dados no setor de varejo ajuda a identificar os padrões e tendências de compra do cliente
que levam à melhoria da qualidade do atendimento ao cliente e ao bom atendimento ao cliente.

51
Mineração de dados

retenção e satisfação. Aqui está a lista de exemplos de mineração de dados no setor de


varejo:

- Projeto e construção de data warehouses com base nos benefícios da mineração de


dados.

- Análise multidimensional de vendas, clientes, produtos, tempo e região.

- Análise de eficácia de campanhas de vendas.

- Fidelização de clientes.

- Recomendação de produtos e referência cruzada de itens.

Telecomunicação
Indústria
Hoje, a indústria de telecomunicações é uma das indústrias mais emergentes, fornecendo
vários serviços, como fax, pager, telefone celular, mensageiro de internet, imagens, e-mail,
transmissão de dados pela web, etc. indústria de telecomunicações está se expandindo
rapidamente. Esta é a razão pela qual a mineração de dados se tornou muito importante
para ajudar e entender o negócio.

mineração de dados em telecomunicação indústria ajuda em identificando o


padrões de telecomunicações, detectar atividades fraudulentas, fazer melhor uso dos recursos e
melhorar a qualidade do serviço. Aqui está a lista de exemplos para os quais a mineração de
dados melhora os serviços de telecomunicações:

- Análise Multidimensional de Dados de Telecomunicações.

- Análise de padrão fraudulento.

- Identificação de padrões incomuns.

- Associação multidimensional e análise de padrões sequenciais.

- Serviços de Telecomunicações Móveis.

- Utilização de ferramentas de visualização na análise de dados de telecomunicações.

Biológico Dados
Análise
Nos últimos tempos, temos visto um grande crescimento no campo da biologia, como
genômica, proteômica, genômica funcional e pesquisa biomédica. A mineração de dados
biológicos é uma parte muito importante da Bioinformática. A seguir estão os aspectos em
que a mineração de dados contribui para a análise de dados biológicos:

- Integração semântica de bases de dados genômicas e proteômicas heterogêneas e


distribuídas.
Mineração de dados
- Alinhamento, indexação, busca por similaridade e análise comparativa múltipla
sequências de nucleotídeos.
- Descoberta de padrões estruturais e análise de redes genéticas e vias proteicas.

- Análise de associação e caminho.

- Ferramentas de visualização na análise de dados genéticos.

Outro Científico
Formulários
As aplicações discutidas acima tendem a lidar com conjuntos de dados relativamente
pequenos e homogêneos para os quais as técnicas estatísticas são apropriadas. Uma
grande quantidade de dados foi coletada de domínios científicos, como geociências,
astronomia, etc. Uma grande quantidade de conjuntos de dados está sendo gerada devido
às simulações numéricas rápidas em vários campos, como modelagem de clima e
ecossistema, engenharia química, dinâmica de fluidos, etc. . Seguem as aplicações de
mineração de dados no campo de Aplicações Científicas:

- Data Warehouses e pré-processamento de dados.

- Mineração baseada em gráficos.

- Visualização e conhecimento específico do domínio.

Intrusão
Detecção
Intrusão refere-se a qualquer tipo de ação que ameace a integridade, a confidencialidade ou
a disponibilidade dos recursos da rede. Neste mundo de conectividade, a segurança tornou-
se a questão principal. Com o aumento do uso da Internet e a disponibilidade de
ferramentas e truques para invadir e atacar a rede, a detecção de invasões tornou-se um
componente crítico da administração da rede. Aqui está a lista de áreas em que a tecnologia
de mineração de dados pode ser aplicada para detecção de intrusão:

- Desenvolvimento de algoritmo de mineração de dados para detecção de intrusão.

- Análise de associação e correlação, agregação para ajudar a selecionar e construir


atributos de discriminação.

- Análise de dados do Stream.

- Mineração de dados distribuídos.

- Ferramentas de visualização e consulta.

Dados Mineração Sistema


Produtos
Existem muitos produtos de sistema de mineração de dados e aplicativos de mineração de dados
específicos de domínio. Os novos sistemas e aplicativos de mineração de dados estão sendo adicionados ao
os sistemas anteriores. Além disso, estão sendo feitos esforços para padronizar as linguagens de
mineração de dados.
Escolhendo um sistema de mineração de dados
A seleção de um sistema de mineração de dados depende dos seguintes recursos:

- Tipos de dados-O sistema de mineração de dados pode lidar com texto formatado, dados
baseados em registros e dados relacionais. Os dados também podem estar em texto ASCII,
dados de banco de dados relacional ou dados de data warehouse. Portanto, devemos
verificar qual formato exato o sistema de mineração de dados pode manipular.

- Problemas do sistema-Devemos considerar a compatibilidade de um sistema de mineração de


dados com diferentes sistemas operacionais. Um sistema de mineração de dados pode ser
executado em apenas um sistema operacional ou em vários. Existem também sistemas de
mineração de dados que fornecem interfaces de usuário baseadas na Web e permitem dados XML
como entrada.

- Fontes de dados-As fontes de dados referem-se aos formatos de dados nos quais o sistema
de mineração de dados irá operar. Alguns sistemas de mineração de dados podem funcionar
apenas em arquivos de texto ASCII, enquanto outros em várias fontes relacionais. O sistema
de mineração de dados também deve suportar conexões ODBC ou OLE DB para conexões
ODBC.

- Funções e metodologias de mineração de dados-Existem alguns sistemas de


mineração de dados que fornecem apenas uma função de mineração de dados, como
classificação, enquanto alguns fornecem várias funções de mineração de dados, como
descrição de conceito, análise OLAP baseada em descoberta, mineração de associação,
análise de ligação, análise estatística, classificação, previsão, clustering, outlier análise,
busca de similaridade, etc.

- Acoplar mineração de dados com bancos de dados ou sistemas de data warehouse- Os


sistemas de mineração de dados precisam ser acoplados a um banco de dados ou a um
sistema de data warehouse. Os componentes acoplados são integrados em um ambiente
uniforme de processamento de informações. Aqui estão os tipos de acoplamento listados
abaixo:

o Sem acoplamento

o Acoplamento solto

o Acoplamento semi-apertado

o Acoplamento apertado

- Escalabilidade-Existem dois problemas de escalabilidade na mineração de dados:

oLinha (tamanho do banco de dados) Escalabilidade–Um sistema de mineração de dados é


considerado como linha escalável quando o número ou linhas são ampliadas 10
vezes. Não leva mais de 10 vezes para executar uma consulta.

oColuna (Dimensão) Vendabilidade–Um sistema de mineração de dados é


considerado como coluna escalável se o tempo de execução da consulta de
mineração aumentar linearmente com o número de colunas.
- Ferramentas de visualização-A visualização na mineração de dados pode ser categorizada da seguinte
forma:

o Visualização de dados

o Visualização de resultados de mineração

o Visualização do processo de mineração

o Mineração de dados visuais

- Linguagem de consulta de mineração de dados e interface gráfica do usuário-Uma interface gráfica


do usuário fácil de usar é importante para promover a mineração de dados interativa e guiada pelo
usuário. Ao contrário dos sistemas de banco de dados relacionais, os sistemas de mineração de dados
não compartilham a linguagem de consulta de mineração de dados subjacente.

Tendências em mineração de dados

Os conceitos de mineração de dados ainda estão evoluindo e aqui estão as últimas tendências que
podemos ver neste campo:

- Exploração de aplicativos.

- Métodos de mineração de dados escalonáveis e interativos.

- Integração de mineração de dados com sistemas de banco de dados, sistemas de data warehouse
e sistemas de banco de dados da web.

- Padronização da linguagem de consulta de mineração de dados.

- Mineração de dados visuais.

- Novos métodos para minerar tipos complexos de dados.

- Mineração de dados biológicos.

- Mineração de dados e engenharia de software.

- Mineração da Web.

- Mineração de dados distribuídos.

- Mineração de dados em tempo real.

- Mineração de dados de vários bancos de dados.

- Proteção de privacidade e segurança da informação na mineração de dados.


18. TEMAS Mineração de dados

Fundamentos Teóricos de Dados


Mineração

Os fundamentos teóricos da mineração de dados incluem os seguintes conceitos:

- Redução de dados-A ideia básica dessa teoria é reduzir a representação de dados


que troca precisão por velocidade em resposta à necessidade de obter respostas
aproximadas rápidas para consultas em bancos de dados muito grandes. Algumas
das técnicas de redução de dados são as seguintes:

o Decomposição de valor singular

o Ondas

o Regressão

o Modelos log-lineares

o Histogramas

o Agrupamento

o Amostragem

o Construção de Árvores de Índice

- Compressão de dados-A ideia básica dessa teoria é comprimir os dados fornecidos


pela codificação nos termos do seguinte:

o bits

o Regras de associação

o Árvores de decisão

o Clusters

- Descoberta de padrões-A ideia básica dessa teoria é descobrir padrões que


ocorrem em um banco de dados. A seguir estão as áreas que contribuem para esta
teoria:

o Aprendizado de máquina

o Rede neural

o Associação Mineira

o Correspondência sequencial de padrões

oAgrupamento
55
Mineração de dados

- Teoria da probabilidade-Esta teoria é baseada na teoria estatística. A ideia básica


por trás dessa teoria é descobrir distribuições de probabilidade conjunta de variáveis
aleatórias.

- Teoria da probabilidade-De acordo com essa teoria, a mineração de dados encontra os


padrões que são interessantes apenas na medida em que podem ser usados no
processo de tomada de decisão de alguma empresa.

- Visão Microeconômica-De acordo com esta teoria, um esquema de banco de dados consiste em
dados e padrões que são armazenados em um banco de dados. Portanto, a mineração de dados é
a tarefa de realizar indução em bancos de dados.

- bancos de dados indutivos-Além das técnicas orientadas a banco de dados, existem


técnicas estatísticas disponíveis para análise de dados. Essas técnicas podem ser
aplicadas a dados científicos e também a dados de ciências econômicas e sociais.

Dados estatísticos
Mineração

Algumas das técnicas de mineração de dados estatísticos são as seguintes:

- Regressão-Os métodos de regressão são usados para prever o valor da variável de


resposta a partir de uma ou mais variáveis preditoras em que as variáveis são
numéricas. Abaixo estão listadas as formas de Regressão:

o Linear

o Múltiplo

o Pesada

o Polinomial

o Não paramétrico

o Robusto

- Modelo Linear Generalizado-O Modelo Linear Generalizado inclui:

o Regressão Logística

o regressão de Poisson

A generalização do modelo permite que uma variável de resposta categórica seja


relacionada a um conjunto de variáveis preditoras de maneira semelhante à
modelagem de variável de resposta numérica usando regressão linear.

- Análise de variação-Esta técnica analisa:

oDados experimentais para duas ou mais populações descritas por um


variável de resposta numérica.

oUma ou mais variáveis categóricas (fatores).


- Modelos de efeito misto-Esses modelos são usados para analisar dados
agrupados. Esses modelos descrevem a relação entre uma variável de resposta e
algumas covariáveis nos dados agrupados de acordo com um ou mais fatores.

- Análise Fatorial-A análise fatorial é usada para prever uma variável de resposta
categórica. Este método assume que as variáveis independentes seguem uma
distribuição normal multivariada.

- Análise de Séries Temporais-A seguir estão os métodos para analisar dados de séries
temporais:

oMétodos de auto-regressão.

oARIMA Univariado (Média Móvel Integrada AutoRegressiva)


Modelagem.

o Modelagem de séries temporais de longa memória.

Visual Dados
Mineração

A mineração de dados visuais usa técnicas de visualização de dados e/ou conhecimento para
descobrir conhecimento implícito de grandes conjuntos de dados. A mineração de dados visuais pode
ser vista como uma integração das seguintes disciplinas:

- Visualização de dados

- Mineração de dados

A mineração de dados visuais está intimamente relacionada ao seguinte:

- computação gráfica

- Sistemas multimídia

- Interação Humano-Computador

- Reconhecimento de padrões

- Computação de alto desempenho

Geralmente, a visualização de dados e a mineração de dados podem ser integradas das seguintes
maneiras:

- Visualização de dados-Os dados em um banco de dados ou data warehouse podem ser


visualizados em várias formas visuais listadas abaixo:

o Boxplots

o Cubos 3-D

o Gráficos de distribuição de dados


ocurvas
o Superfícies

o Gráficos de links, etc.

- Visualização de resultados de mineração de dados-Data Mining Result Visualization é


a apresentação dos resultados da mineração de dados em formas visuais. Essas formas
visuais podem ser plots dispersos, boxplots, etc.

- Visualização do processo de mineração de dados-Data Mining Process Visualization


apresenta os diversos processos de mineração de dados. Ele permite que os usuários
vejam como os dados são extraídos. Ele também permite que os usuários vejam de qual
banco de dados ou data warehouse os dados são limpos, integrados, pré-processados e
minerados.

áudio Dados
Mineração

A mineração de dados de áudio faz uso de sinais de áudio para indicar os padrões de dados
ou as características dos resultados da mineração de dados. Ao transformar padrões em
som e reflexão, podemos ouvir alturas e melodias, em vez de assistir a imagens, a fim de
identificar qualquer coisa interessante.

Data Mining e Colaborativa


Filtragem
Os consumidores de hoje se deparam com uma variedade de bens e serviços durante as
compras. Durante as transações ao vivo do cliente, um Sistema de Recomendação ajuda o
consumidor fazendo recomendações de produtos. A Abordagem de Filtragem Colaborativa
é geralmente usada para recomendar produtos aos clientes. Estas recomendações são
baseadas nas opiniões de outros clientes.

Você também pode gostar