Escolar Documentos
Profissional Documentos
Cultura Documentos
com
tutoriaisapontar
APRENDIZAGEM SIMPLESMENTE FÁCIL
www.tutorI a EUspoint.com
fJ https:f/wwc.fásbook.com/tutorlaeuspolnlfndeu1 https://tceutter.com/1 utorlaeuspoeunt
Sobre o
Tutorial
A mineração de dados é definida como o procedimento de extração de informações de grandes conjuntos
de dados. Em outras palavras, podemos dizer que a mineração de dados é extrair conhecimento de dados.
O tutorial começa com uma visão geral básica e as terminologias envolvidas na mineração
de dados e, gradualmente, avança para cobrir tópicos como descoberta de conhecimento,
linguagem de consulta, classificação e previsão, indução de árvore de decisão, análise de
cluster e como minerar a Web.
público
e
Este tutorial foi preparado para graduados em ciência da computação para ajudá-los a entender
os conceitos básicos aos avançados relacionados à mineração de dados.
Pré-requisito
s
Antes de prosseguir com este tutorial, você deve ter uma compreensão dos conceitos básicos de
banco de dados, como esquema, modelo ER, linguagem de consulta estruturada e um
conhecimento básico dos conceitos de Data Warehousing.
Todo o conteúdo e gráficos publicados neste e-book são propriedade da Tutorials Point (I)
Pvt. Ltd. O usuário deste e-book está proibido de reutilizar, reter, copiar, distribuir ou
republicar qualquer conteúdo ou parte do conteúdo deste e-book de qualquer maneira sem
o consentimento por escrito do editor.
Nós nos esforçamos para atualizar o conteúdo do nosso site e tutoriais o mais rápido e
preciso possível, no entanto, o conteúdo pode conter imprecisões ou erros. Tutoriais Ponto
(I) Pvt. Ltd. não oferece nenhuma garantia em relação à precisão, pontualidade ou
integridade de nosso site ou de seu conteúdo, incluindo este tutorial. Se você descobrir
algum erro em nosso site ou neste tutorial, notifique-nos em
contact@tutorialspoint.com
eu
Índice
Sobre o Tutorial
···············································································································
· · · · · · · · · · · · · · · · · · eu
Público················································· ················································· ··
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · eu Pré-requisitos
···············································································································
· · · · · · · · · · · · · · · · · · · · · · · · · · iCopyright&Disclaimer
···············································································································
· · · · · · · · · · · iTableofContents
···············································································································
· · · · · · · · · · · · · · · · · · · ii
1.
VISÃO GERAL················································· ················································· ··
························1
Fraude Detecção
···············································································································
······················2
2. TAREFAS
··················································································································
···············3
Descritivo Função
···············································································································
···············3
Classificação e Predição
···············································································································
··4
3. PROBLEMAS
··················································································································
··············7
Desempenho Problemas
···············································································································
·················8
4. AVALIAÇÃO
··················································································································
· 10
Dados Armazém
·················································································································
· · · · · · · · · · · · · · · · 10
Dados Armazenagem
·················································································································
· · · · · · · · · · · · · · 10
ii
Do armazenamento de dados (OLAP) à mineração de dados (OLAM)
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12
Importância da OLAM
··················································································································
· · · · · · · · · 12
5. TERMINOLOGIAS
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 14
Mineração de dados
··················································································································
· · · · · · · · · · · · · · · · · · · · · · 14
Conhecimento
Base················································· ················································· ············
· · · · · · · · · · · · · · · · · · · · · · · · 14
Descoberta de conhecimento
··················································································································
· · · · · · · · · 14
Interface de usuário
··················································································································
· · · · · · · · · · · · · · · · · · · 15
Dados
Integração················································· ················································· ··
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 15
Dados
Limpeza················································· ················································· ·····
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 15
Seleção de dados
··················································································································
· · · · · · · · · · · · · · · · · · · 15
Clusters
··················································································································
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 16
Dados
Transformação················································· ············································
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 16
6. DESCOBERTA DE CONHECIMENTO
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 17
8. LINGUAGEM DA CONSULTA
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 22
iii
Padronização de linguagens de mineração de dados
9. CLASSIFICAÇÃO E PREDIÇÃO
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 27
O que é Classificação?
··················································································································
· · · · · · 27
O que é Previsão?
··················································································································
· · · · · · · · · · · · 27
poda de árvore
··················································································································
· · · · · · · · · · · · · · · · · · · · · · 33
Complexidade de custos
··················································································································
· · · · · · · · · · · · · · · · 33
11. BAYESIANO
CLASSIFICAÇÃO················································· ···········································
· · · · · · · 34
Teorema de Bayes
··················································································································
· · · · · · · · · · · · · · · · 34
SE ENTÃO
Regras················································· ················································· ············
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 36
Regra
Extração················································· ················································· ···
· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 36
Poda de regras
··················································································································
· · · · · · · · · · · · · · · · · · · · · · 37
Algorítmos genéticos
··················································································································
· · · · · · · · · · · · 39
··················································································································
· · · · · · · · · · 39
4
Abordagem de conjunto difuso
O que é Clusterização?
··················································································································
· · · · · · · · · · · · 42
Agrupamento
Métodos················································· ················································· ······
· · · · · · · · · · · · · · · · · · · · · · · · 43
Informação
Recuperação················································· ················································· ·····
· · · · · · · · · · · · · · · · · · · · · · 46
Desafios na web
Mineração················································· ················································· ·········
· · · · · · · · · · · · 48
18. TEMAS
··················································································································
· · · · · · · · · 55
v
1. VISÃO GERAL Mineração de dados
O que é Dados
Mineração?
- Análise de mercado
- Detecção de fraude
- Fidelização de clientes
- Controle de produção
- Exploração científica
Dados Mineração
Formulários
A mineração de dados é altamente útil nos seguintes domínios:
- Detecção de fraude
Além disso, a mineração de dados também pode ser usada nas áreas de controle de
produção, retenção de clientes, exploração científica, esportes, astrologia e auxílio à
navegação na Internet.
1
Mineração de dados
Mercado Análise e
Gerenciamento
Listados abaixo estão os vários campos de mercado onde a mineração de dados é usada:
-Mercado alvo-A mineração de dados ajuda a encontrar grupos de clientes modelo que
compartilham as mesmas características, como interesses, hábitos de consumo,
renda etc.
Fraude
Detecção
A mineração de dados também é usada nas áreas de serviços de cartão de crédito e
telecomunicações para detectar fraudes. Em chamadas telefônicas fraudulentas, ajuda a
encontrar o destino da chamada, duração da chamada, hora do dia ou da semana, etc.
Também analisa os padrões que fogem das normas esperadas.
2
2.
Mineração de dados
TAREFAS
A mineração de dados lida com o tipo de padrões que podem ser extraídos. Com base no tipo de
dados a serem minerados, existem duas categorias de funções envolvidas na mineração de
dados:
- Descritivo
- Classificação e previsão
Descritivo
Função
A função descritiva lida com as propriedades gerais dos dados no banco de dados. Aqui está
a lista de funções descritivas:
- Descrição da classe/conceito
- Mineração de Associações
- Mineração de Correlações
- Mineração de Clusters
Classe/Conceito
Descrição
Classe/Conceito refere-se aos dados a serem associados às classes ou conceitos. Por
exemplo, em uma empresa, as classes de itens para vendas incluem computadores e
impressoras, e os conceitos de clientes incluem grandes gastadores e gastadores de
orçamento. Tais descrições de uma classe ou conceito são chamadas de descrições de
classe/conceito. Essas descrições podem ser derivadas das duas maneiras a seguir:
Mineração de Freqüente
Padrões
3
Padrões frequentes são aqueles padrões que ocorrem frequentemente em dados transacionais. Aqui
está a lista de tipos de padrões frequentes:
4
Mineração de dados
Mineração de
Associação
As associações são usadas em vendas no varejo para identificar padrões que são
frequentemente comprados juntos. Este processo refere-se ao processo de descobrir a
relação entre os dados e determinar as regras de associação.
Por exemplo, um varejista gera uma regra de associação que mostra que 70% das vezes
leite é vendido com pão e apenas 30% das vezes biscoitos são vendidos com pão.
Mineração de
correlações
É um tipo de análise adicional realizada para descobrir correlações estatísticas interessantes
entre pares de valores de atributos associados ou entre dois conjuntos de itens para
analisar se eles têm efeito positivo, negativo ou nenhum efeito um sobre o outro.
Mineração de
Clusters
Cluster refere-se a um grupo de tipos semelhantes de objetos. A análise de cluster refere-se
à formação de grupos de objetos que são muito semelhantes entre si, mas muito diferentes
dos objetos em outros clusters.
Classificação e
Predição
Classificação é o processo de encontrar um modelo que descreva as classes de dados ou
conceitos. O objetivo é poder usar esse modelo para prever a classe de objetos cujo rótulo
de classe é desconhecido. Este modelo derivado é baseado na análise de conjuntos de
dados de treinamento. O modelo derivado pode ser apresentado nas seguintes formas:
- Árvores de decisão
- Fórmulas matemáticas
- Redes neurais
Mineração de dados
A lista de funções envolvidas nesses processos é a seguinte:
- Análise Outlier-Outliers podem ser definidos como os objetos de dados que não
obedecem ao comportamento geral ou modelo dos dados disponíveis.
- Podemos especificar uma tarefa de mineração de dados na forma de uma consulta de mineração de dados.
- Uma consulta de mineração de dados é definida em termos de primitivas de tarefas de mineração de dados.
Observação: essas primitivas nos permitem comunicar de forma interativa com o sistema de
mineração de dados. Aqui está a lista de Primitivos de Tarefas de Mineração de Dados:
Esta é a parte do banco de dados na qual o usuário está interessado. Esta parte inclui o
seguinte:
- Caracterização
- Discriminação
- Predição
- Agrupamento
- Análise Outlier
- Análise de Evolução
Conhecimento prévio
O conhecimento de fundo permite que os dados sejam extraídos em vários níveis de
abstração. Por exemplo, as hierarquias de conceito são um dos conhecimentos básicos que
permitem que os dados sejam extraídos em vários níveis de abstração.
- Regras
- Tabelas
- Gráficos
- Gráficos
- Árvores de decisão
- cubos
Mineração de dados
3.
MASALAH
Data mining bukanlah tugas yang mudah, karena algoritma yang digunakan bisa sangat
kompleks dan data tidak selalu tersedia di satu tempat. Perlu diintegrasikan dari berbagai
sumber data yang heterogen. Faktor-faktor ini juga membuat beberapa masalah. Di sini, di
tutorial ini, kita akan membahas isu-isu utama mengenai:
- Apresentar e visualizar hasil data mining-Setelah pola yang ditemukan itu perlu
diungkapkan dalam bahasa tingkat tinggi, dan representasi visual. representasi ini harus
mudah dimengerti.
- Menangani data yang bising atau tidak lengkap-Metode pembersihan data yang
diperlukan untuk menangani kebisingan dan benda-benda yang tidak lengkap
sementara pertambangan penyimpangan data. Data metode pembersihan tidak ada
maka akurasi dari pola ditemukan akan menjadi buruk.
Masalah Kinerja
Ada beberapa isu-isu terkait kinerja seperti berikut:
Dados
Armazém
Sebuah gudang data menunjukkan karakteristik berikut ini untuk mendukung proses
pengambilan keputusan manajemen ini:
- Terpadu-Data warehouse dibangun oleh integrasi data dari sumber yang heterogen
seperti database relacional, flat file dll integrasi ini meningkatkan analisis efektif data.
- Waktu variante-Data yang dikumpulkan dalam data warehouse diidentifikasi dengan jangka
waktu tertentu. Dados dalam data warehouse Memberikan Informasi dari sudut pandang
sejarah.
- Não volátil-Os dados não voláteis do berarti sebelumnya tidak dihapus ketika data baru
yang ditambahkan ke dalamnya. Data warehouse disimpan terpisah dari database
operacional karena perubahan sering dalam database operacional tidak tercermin dalam
data warehouse.
Dados
Armazenagem
Data Warehousing é um processo de integração e armazenamento de dados. Sebuah data
warehouse dibangun dengan mengintegrasikan data dari berbagai sumber yang
heterogen. Mendukung pelaporan analitis, terstruktur dan / atau ad hoc query, dan
pengambilan keputusan.
Data Warehousing facilita a limpeza de dados, integra dados e consolida dados. Untuk
mengintegrasikan database heterogen, kita memiliki dua pendekatan berikut:
10
Mineração de dados
Ini adalah pendekatan traditional untuk mengintegrasikan base de dados heterogen. Pendekatan ini
digunakan untuk membangun pembungkus dan integrador de bancos de dados de bebidas
heterogêneas. integrador ini juga dikenal sebagai mediador.
1. Ketika query dikeluarkan untuk sisi client, kamus metadata menerjemahkan permintaan ke
permintaan, sesuai untuk situs heterogen individu yang terlibat.
2. Sekarang pertanyaan ini dipetakan dan dikirim ke prosesor query lokal.
3. Hasil dari situs heterogen diintegrasikan ke dalam satu set jawaban global.
Kekuragan
Pendekatan ini memiliki kelemahan sebagai berikut:
-Hal ini sangat tidak efisien dan sangat mahal untuk pertanyaan yang sering.
Abordagem
Sistem data warehouse hari ini mengikuti pendekatan atualização-driven daripada pendekatan
dibahas tradisioal sebelumnya. Dalam pendekatan update-driven, informações dari berbagai
somber yang heterogen terintegrasi di muka e disimpan di gudang. Informasi ini tersedia untuk
consulta langsung dan analisis.
Kekuragan
Pendekatan ini memiliki kelemahan sebagai berikut:
-Pendekatan ini Memberikan Kinerja tinggi.
Pentingnya OLAM
OLAM penting untuk alasan berikut:
- Kualitas tinggi dari data dalam data warehouse-Alat data mining yang diperlukan untuk
bekerja pada data terpadu, konsisten, dan dibersihkan. Langkah-langkah ini sangat mahal di
pré-processamento de dados. Dibangun de dados por pré-processamento separa a coleta de
dados de processamento para OLAP e mineração de dados.
- Informasi yang tersedia pengolahan infrastruktur sekitar data warehouse-
Informações sobre infra-estrutura fornecem informações, integram, consolidam e
transformam bancos de dados heterogêneos, web-mengaks e facilidades pelayanan,
pelaporan e toda a análise OLAP.
5. TERMINÓLOGO EU E D a
Dados
Mineração
- Análise de mercado
- Detecção de fraude
- Fidelização de clientes
- Controle de produção
- Exploração científica
Dados Mineração
Motor
O mecanismo de mineração de dados é muito essencial para o sistema de mineração de dados. É composto
por um conjunto de módulos funcionais que executam as seguintes funções:
- Caracterização
- Classificação
- Predição
- análise de cluster
- Análise de outliers
- Análise de evolução
Conhecimento
Base
Este é o conhecimento do domínio. Esse conhecimento é usado para guiar a busca ou
avaliar o interesse dos padrões resultantes.
14
Conhecimento
Descoberta
Algumas pessoas tratam a mineração de dados da mesma forma que a descoberta de conhecimento, enquanto
outras veem a mineração de dados como uma etapa essencial no processo de descoberta de conhecimento. Aqui
está a lista de etapas envolvidas no processo de descoberta de conhecimento:
15
Mineração de dados
- Limpeza de dados
- Integração de dados
- Seleção de dados
- Transformação de dados
- Mineração de dados
- Avaliação de padrão
- Apresentação de conhecimento
Do utilizador
Interface
A interface do usuário é o módulo do sistema de mineração de dados que ajuda na
comunicação entre os usuários e o sistema de mineração de dados. A interface do usuário
permite as seguintes funcionalidades:
Dados
Integração
Integração de dados é uma técnica de pré-processamento de dados que mescla os dados de várias
fontes de dados heterogêneas em um armazenamento de dados coerente. A integração de dados
pode envolver dados inconsistentes e, portanto, precisa de limpeza de dados.
Dados
Limpeza
A limpeza de dados é uma técnica aplicada para remover os dados ruidosos e corrigir as
inconsistências nos dados. A limpeza de dados envolve transformações para corrigir os dados
errados. A limpeza de dados é realizada como uma etapa de pré-processamento de dados durante a
preparação dos dados para um data warehouse.
Mineração de dados
Dados
Seleção
Seleção de dados é o processo em que os dados relevantes para a tarefa de análise são
recuperados do banco de dados. Às vezes, a transformação e consolidação de dados são
realizadas antes do processo de seleção de dados.
Conjunto
s
Cluster refere-se a um grupo de tipos semelhantes de objetos. A análise de cluster refere-se
à formação de grupos de objetos que são muito semelhantes entre si, mas muito diferentes
dos objetos em outros clusters.
Dados
Transformação
Nesta etapa, os dados são transformados ou consolidados em formas apropriadas para
mineração, realizando operações de resumo ou agregação.
6. CONHECIMENTO
Mineração de dados
O que é Conhecimento
Descoberta?
Algumas pessoas não diferenciam a mineração de dados da descoberta de conhecimento, enquanto
outras veem a mineração de dados como uma etapa essencial no processo de descoberta de
conhecimento. Aqui está a lista de etapas envolvidas no processo de descoberta de conhecimento:
- Recuperação de informação
- Reconhecimento de padrões
- Análise de imagem
- Processamento de Sinal
- computação gráfica
- Tecnologia Web
- Negócios
- Bioinformática
- Estatisticas
- Aprendizado de máquina
- Ciência da Informação
- Visualização
- Outras Disciplinas
Mineração de dados
Além disso, um sistema de mineração de dados também pode ser classificado com base no tipo
de (a) banco de dados extraído, (b) conhecimento extraído, (c) técnicas utilizadas e (d) aplicativos
adaptados.
Por exemplo, se classificarmos um banco de dados de acordo com o modelo de dados, podemos
ter um sistema de mineração relacional, transacional, relacional de objeto ou data warehouse.
- Caracterização
- Discriminação
19
Mineração de dados
- Análise de associação e correlação
- Classificação
20
- Predição
- Agrupamento
- Análise Outlier
- Análise de Evolução
- Finança
- telecomunicações
- DNA
- Mercado de ações
8. PERGUNTA
LINGUAGEM
A Data Mining Query Language (DMQL) foi proposta por Han, Fu, Wang, et al. para o sistema de
mineração de dados DBMiner. A Linguagem de Consulta de Mineração de Dados é, na verdade,
baseada na Linguagem de Consulta Estruturada (SQL). As linguagens de consulta de mineração
de dados podem ser projetadas para oferecer suporte à mineração de dados ad hoc e interativa.
Este DMQL fornece comandos para especificar primitivos. O DMQL também pode trabalhar com
bancos de dados e armazéns de dados. DMQL pode ser usado para definir tarefas de mineração
de dados. Em particular, examinamos como definir data warehouses e data marts em DMQL.
ou
Caracterização
A sintaxe para Caracterização é:
23
Mineração de dados
Por exemplo:
analisar contagem%
Discriminação
A sintaxe para Discriminação é:
Por exemplo, um usuário pode definir grandes gastadores como clientes que compram
itens que custam US$ 100 ou mais em média; e gastadores de orçamento como clientes que
compram itens por menos de US$ 100 em média. A mineração de descrições discriminantes
para clientes de cada uma dessas categorias pode ser especificada no DMQL como:
Associação
A sintaxe para Associação é:
Por exemplo:
analisar classificando_atributo_ou_dimensão
analisar credit_rating
Predição
A sintaxe para previsão é:
- hierarquias de esquema
Por exemplo:
Por exemplo:
Especificação completa de
DMQL
Como gerente de mercado de uma empresa, você gostaria de caracterizar os hábitos de
compra dos clientes que podem comprar itens com preços não inferiores a US$ 100; em
relação à idade do cliente, tipo de item adquirido e local onde o
25
item foi comprado. Você gostaria de saber a porcentagem de clientes com essa
característica. Em particular, você está interessado apenas em compras feitas em
26
Canadá e pago com cartão de crédito American Express. Você gostaria de visualizar as
descrições resultantes na forma de uma tabela.
cliente%
PREVISÃO
Existem duas formas de análise de dados que podem ser usadas para extrair modelos que
descrevem classes importantes ou para prever tendências futuras de dados. Estas duas formas
são as seguintes:
- Classificação
- Predição
O que é
Classificação?
A seguir estão os exemplos de casos em que a tarefa de análise de dados é Classificação:
- Um oficial de empréstimo bancário deseja analisar os dados para saber qual cliente
(candidato ao empréstimo) é arriscado ou seguro.
Em ambos os exemplos acima, um modelo ou classificador é construído para prever os rótulos categóricos.
Esses rótulos são arriscados ou seguros para dados de solicitação de empréstimo e sim ou não para dados
de marketing.
O que é
Predição?
A seguir estão os exemplos de casos em que a tarefa de análise de dados é Previsão:
27
Observação: a análise de regressão é uma metodologia estatística mais usada para
previsão numérica.
28
Mineração de dados
Com a ajuda do pedido de empréstimo bancário que discutimos acima, vamos entender o
funcionamento da classificação. O processo de Classificação de Dados inclui duas etapas:
Construindo o Classificador ou
Modelo
- Esta etapa é a etapa de aprendizagem ou a fase de aprendizagem.
- O classificador é construído a partir do conjunto de treinamento formado pelas tuplas do banco de dados e
seus rótulos de classe associados.
Observação: os dados também podem ser reduzidos por alguns outros métodos, como
transformação de wavelet, binning, análise de histograma e agrupamento.
Comparação de métodos de classificação e predição
Seguem os critérios para comparação dos métodos de Classificação e Predição:
INDUÇÃO
Uma árvore de decisão é uma estrutura que inclui um nó raiz, ramos e nós folha. Cada nó
interno denota um teste em um atributo, cada ramificação denota o resultado de um teste e
cada nó folha contém um rótulo de classe. O nó mais alto na árvore é o nó raiz.
- É fácil de compreender.
31
Um pesquisador de máquinas chamado J. Ross Quinlan desenvolveu em 1980 um algoritmo de
árvore de decisão conhecido como ID3 (Iterative Dichotomiser). Posteriormente, apresentou o
C4.5, que foi o sucessor do ID3. ID3 e C4.5 adotam uma abordagem gananciosa. Nisso
32
Mineração de dados
Gerando uma árvore de decisão a partir das tuplas de treinamento da partição de dados D
Algoritmo: Generate_decision_tree
Entrada:
Saída:
Uma árvore de decisão
Método
criar um nó N;
se tuplas em D são todas da mesma classe, C então retorna
N como nó folha rotulado com classe C; se
fim para
retornar N;
poda de árvore
A poda de árvores é realizada para remover anomalias nos dados de treinamento devido a
ruídos ou outliers. As árvores podadas são menores e menos complexas.
Complexidade de custos
A complexidade do custo é medida pelos dois parâmetros a seguir:
CLASSIFICAÇÃO
Bayes'
Teorema
O teorema de Bayes é nomeado após Thomas Bayes. Existem dois tipos de probabilidades:
Bayesiano Crença
Rede
Redes Bayesianas de Crenças especificam distribuições de probabilidade condicionais conjuntas.
Elas também são conhecidas como Redes de Crenças, Redes Bayesianas ou Redes
Probabilísticas.
- Uma rede de crenças permite que as independências condicionais de classe sejam definidas
entre subconjuntos de variáveis.
34
Dirigido acíclico
Gráfico
- Cada nó em um grafo acíclico direcionado representa uma variável aleatória.
35
Mineração de dados
Condicional Probabilidade
Mesa
A tabela de probabilidade condicional para os valores da variável LungCancer (LC)
mostrando cada combinação possível dos valores de seus nós pais, FamilyHistory (FH) e
Smoker (S) é a seguinte:
35
12. REGRA-BA S E D
ing
D ata mín.
ICAÇÃO
Regras SE-ENTÃO
O classificador baseado em regras faz uso de um conjunto de regras IF-THEN para classificação.
Podemos expressar uma regra no seguinte de:
Se a condição for verdadeira para uma dada tupla, então o antecedente é satisfeito.
Extração de regras
Aqui aprenderemos como construir um classificador baseado em regras extraindo regras IF-THEN de
uma árvore de decisão.
- Uma regra é criada para cada caminho desde a raiz até o nó folha.
Alguns dos algoritmos de cobertura sequenciais são AQ, CN2 e RIPPER. De acordo com a
estratégia geral, as regras são aprendidas uma de cada vez. Para cada vez que as regras são
aprendidas, uma tupla coberta pela regra é removida e o processo continua para o restante das
tuplas. Isso ocorre porque o caminho para cada folha em uma árvore de decisão corresponde a
uma regra.
Observação: A indução da árvore de decisão pode ser considerada como aprender um conjunto de regras
simultaneamente.
O seguinte é o algoritmo de aprendizagem sequencial onde as regras são aprendidas para uma
classe de cada vez. Ao aprender uma regra de uma classe Ci, queremos que a regra cubra todas
as tuplas da classe C apenas e nenhuma tupla de qualquer outra classe.
Método:
Rule_set={ }; // conjunto inicial de regras aprendidas está vazio para
cada classe c do
repita
Regra = Learn_One_Rule(D, Att_valls, c);
remover tuplas cobertas pela forma de regra D;
para
return Rule_Set;
Poda de regras
A regra é podada devido aos seguintes motivos:
FOIL é um dos métodos simples e eficazes para a poda de regras. Para uma dada regra R,
CLASSIFICAÇÃO
MÉTODOS
Aqui discutiremos outros métodos de classificação, como Algoritmos Genéticos, Abordagem de
Conjunto Rough e Abordagem de Conjunto Fuzzy.
Genético
Algoritmos
A ideia do algoritmo genético é derivada da evolução natural. No algoritmo genético, em
primeiro lugar, a população inicial é criada. Essa população inicial consiste em regras
geradas aleatoriamente. Podemos representar cada regra por uma cadeia de bits.
Por exemplo, em um determinado conjunto de treinamento, as amostras são descritas por dois
atributos booleanos, como A1 e A2. E esse conjunto de treinamento fornecido contém duas
classes, como C1 e C2.
Podemos codificar a regraSE A1 E NÃO A2 ENTÃO C2em uma pequena string100. Nesta
representação de bit, os dois bits mais à esquerda representam os atributos A1 e A2,
respectivamente.
Da mesma forma, a regraSE NÃO A1 E NÃO A2 ENTÃO C1pode ser codificado como 001.
Observação: Se o atributo tiver valores K onde K>2, então podemos usar os bits K para
codificar os valores do atributo. As classes também são codificadas da mesma maneira.
39
Duro Definir
Abordagem
Podemos usar a abordagem de conjunto aproximado para descobrir relações estruturais dentro de
dados imprecisos e ruidosos.
40
Mineração de dados
Observação: esta abordagem só pode ser aplicada em atributos de valor discreto. Portanto,
atributos de valor contínuo devem ser discretizados antes de sua utilização.
Existem algumas classes nos dados do mundo real fornecidos, que não podem ser distinguidas
em termos de atributos disponíveis. Podemos usar os conjuntos aproximados para
aproximadamentedefinir tais classes.
Para uma determinada classe C, a definição aproximada do conjunto é aproximada por dois conjuntos da seguinte
forma:
Difuso Definir
Abordagem
A Teoria dos Conjuntos Fuzzy também é chamada de Teoria das Possibilidades. Esta teoria foi
proposta por Lotfi Zadeh em 1965 como uma alternativa aológica de dois valoreseprobabilidade
teoria. Essa teoria nos permite trabalhar em um alto nível de abstração. Também nos
fornece os meios para lidar com medições imprecisas de dados.
A teoria dos conjuntos difusos também nos permite lidar com fatos vagos ou inexatos. Por
exemplo, ser um membro de um conjunto de altas rendas é exato (por exemplo, se $ 50.000 é
alto, então o que dizer de $ 49.000 e $ 48.000). Ao contrário do conjunto CRISP tradicional, onde
o elemento pertence a S ou seu complemento, mas na teoria do conjunto fuzzy o elemento pode
pertencer a mais de um conjunto fuzzy.
Por exemplo, o valor de renda $ 49.000 pertence aos conjuntos fuzzy médio e alto, mas em
graus diferentes. A notação do conjunto fuzzy para esse valor de receita é a seguinte:
onde 'm' é a função de pertinência que opera nos conjuntos difusos de medium_income e
high_income respectivamente. Esta notação pode ser representada esquematicamente da
seguinte forma:
4.
1
ta M ini ng
Da
SIS
O que é
Agrupamento?
Clustering é o processo de transformar um grupo de objetos abstratos em classes de objetos
semelhantes.
Formulários de Conjunto
Análise
- A análise de agrupamento é amplamente usada em muitas aplicações, como pesquisa de
mercado, reconhecimento de padrões, análise de dados e processamento de imagens.
- Como uma função de mineração de dados, a análise de cluster serve como uma ferramenta para obter
informações sobre a distribuição de dados para observar as características de cada cluster.
43
Mineração de dados
- Alta dimensionalidade-O algoritmo de agrupamento não deve ser capaz apenas de lidar
com dados de baixa dimensão, mas também com o espaço de alta dimensão.
- Capacidade de lidar com dados ruidosos-Os bancos de dados contêm dados ruidosos,
ausentes ou incorretos. Alguns algoritmos são sensíveis a esses dados e podem levar a
clusters de baixa qualidade.
Agrupamento
Métodos
Os métodos de agrupamento podem ser classificados nas seguintes categorias:
- Método de particionamento
- Método hierárquico
Particionamento
Método
Suponha que tenhamos um banco de dados de 'n' objetos e o método de particionamento
construa 'k' partições de dados. Cada partição representará um cluster e k ≤ n.
Mineração de dados
Isso significa que classificará os dados em k grupos, que satisfazem o seguinte
requisitos:
hierárquico
Método
Este método cria uma decomposição hierárquica de um determinado conjunto de objetos
de dados. Podemos classificar métodos hierárquicos com base em como a decomposição
hierárquica é formada. Existem duas abordagens aqui:
- abordagem aglomerativa
- Abordagem Divisiva
abordagem aglomerativa
Essa abordagem também é conhecida como abordagem de baixo para cima. Neste, começamos com
cada objeto formando um grupo separado. Ele continua mesclando os objetos ou grupos que estão
próximos uns dos outros. Ele continua fazendo isso até que todos os grupos sejam mesclados em um
ou até que a condição de término seja válida.
Abordagem Divisiva
Essa abordagem também é conhecida como abordagem de cima para baixo. Neste, começamos
com todos os objetos no mesmo cluster. Na iteração contínua, um cluster é dividido em clusters
menores. Ele fica inativo até que cada objeto em um cluster ou a condição de finalização seja
mantida. Este método é rígido, ou seja, uma vez que uma fusão ou divisão é feita, ela nunca
pode ser desfeita.
Aqui estão as duas abordagens que são usadas para melhorar a qualidade do agrupamento
hierárquico:
baseado em densidade
Método
44
Este método é baseado na noção de densidade. A idéia básica é continuar crescendo o
cluster fornecido enquanto a densidade na vizinhança exceder algum limite, ou seja, para
cada ponto de dados dentro de um determinado cluster, o raio de um determinado cluster
deve conter pelo menos um número mínimo de pontos.
45
baseado em grade
Método
Neste, os objetos juntos formam uma grade. O espaço do objeto é quantizado em um número finito
de células que formam uma estrutura de grade.
Vantagens
- A principal vantagem deste método é o tempo de processamento rápido.
baseado em modelo
Método
Nesse método, um modelo é hipotetizado para cada cluster para encontrar o melhor ajuste de
dados para um determinado modelo. Este método localiza os clusters agrupando a função de
densidade. Ele reflete a distribuição espacial dos pontos de dados.
baseado em restrição
Método
Neste método, o agrupamento é realizado pela incorporação de restrições orientadas ao
usuário ou à aplicação. Uma restrição refere-se à expectativa do usuário ou às propriedades
dos resultados de agrupamento desejados. As restrições nos fornecem uma forma
interativa de comunicação com o processo de agrupamento. As restrições podem ser
especificadas pelo usuário ou pelo requisito do aplicativo.
15. TEXTO DE MINERAÇÃO Mineração de dados
DADOS
Bancos de dados de texto consistem em uma enorme coleção de documentos. Eles coletam essas
informações de várias fontes, como artigos de notícias, livros, bibliotecas digitais, mensagens de e-
mail, páginas da web, etc. Devido ao aumento da quantidade de informações, os bancos de dados de
texto estão crescendo rapidamente. Em muitos dos bancos de dados de texto, os dados são
semiestruturados.
Por exemplo, um documento pode conter alguns campos estruturados, como título, autor,
data_da_publicação etc. Mas junto com os dados da estrutura, o documento também
contém componentes de texto não estruturados, como resumo e conteúdo. Sem saber o
que poderia estar nos documentos, é difícil formular consultas eficazes para analisar e
extrair informações úteis dos dados. Os usuários precisam de ferramentas para comparar
os documentos e classificar sua importância e relevância. Portanto, a mineração de texto
tornou-se popular e um tema essencial na mineração de dados.
Informação
Recuperação
Em tais problemas de busca, o usuário toma a iniciativa de extrair informações relevantes de uma
coleção. Isso é apropriado quando o usuário tem necessidade de informações ad hoc, ou seja, uma
necessidade de curto prazo. Mas se o usuário tiver uma necessidade de informação de longo prazo, o
sistema de recuperação também pode tomar a iniciativa de enviar qualquer item de informação
recém-chegado ao usuário.
Precisamos verificar a precisão de um sistema quando ele recupera uma série de documentos
com base na entrada do usuário. Deixe o conjunto de documentos relevantes para uma consulta
ser denotado como {Relevant} e o conjunto de documentos recuperados como {Retrieved}. O
conjunto de documentos relevantes e recuperados pode ser indicado como {Relevante}∩ {
Recuperado}. Isso pode ser mostrado na forma de um diagrama de Venn da seguinte forma:
- Precisão
- Lembrar
- F-score
precisão
n
Precisão é a porcentagem de documentos recuperados que são de fato relevantes para a
consulta. A precisão pode ser definida como:
Lembrar
Recall é a porcentagem de documentos que são relevantes para a consulta e foram de fato
recuperados. A recordação é definida como:
F-
pontuação
48
16. MUNDO DA MINERAÇÃO Mineração de dados
WIDE WEB
A World Wide Web contém grandes quantidades de informações que fornecem uma fonte rica para
mineração de dados.
desafios em Rede
Mineração
A web apresenta grandes desafios para a descoberta de recursos e conhecimento com base nas
seguintes observações:
- A web é muito grande.-O tamanho da web é muito grande e está aumentando rapidamente.
Isso parece que a web é muito grande para armazenamento de dados e mineração de dados.
48
páginas não segue as especificações W3C. Não seguir as especificações do W3C pode causar
erro na estrutura da árvore DOM.
A estrutura DOM foi inicialmente introduzida para apresentação no navegador e não para
descrição da estrutura semântica da página web. A estrutura DOM não consegue identificar
corretamente a relação semântica entre as diferentes partes de uma página web.
49
Mineração de dados
- Tal estrutura semântica corresponde a uma estrutura de árvore. Nesta árvore cada
nó corresponde a um bloco.
- Um valor é atribuído a cada nó. Este valor é chamado de Grau de Coerência. Este
valor é atribuído para indicar o conteúdo coerente no bloco com base na percepção
visual.
- O algoritmo VIPS primeiro extrai todos os blocos adequados da árvore HTML DOM.
Depois disso, ele encontra os separadores entre esses blocos.
49
1
Data Mi ning
Da comercial
da n isso
nossa dados
m
D
Formulários
Aqui está a lista de áreas onde a mineração de dados é amplamente utilizada:
- Indústria de varejo
- Indústria de Telecomunicações
- Detecção de intruso
Financeiro Dados
Análise
Os dados financeiros no setor bancário e financeiro são geralmente confiáveis e de alta
qualidade, o que facilita a análise sistemática de dados e a mineração de dados. Alguns dos
casos típicos são os seguintes:
50
Varejo
Indústria
A Mineração de Dados tem grande aplicação no Varejo, pois coleta grande quantidade de
dados sobre vendas, histórico de compras de clientes, transporte de mercadorias, consumo
e serviços. É natural que a quantidade de dados coletados continue a crescer rapidamente
devido à crescente facilidade, disponibilidade e popularidade da web.
A mineração de dados no setor de varejo ajuda a identificar os padrões e tendências de compra do cliente
que levam à melhoria da qualidade do atendimento ao cliente e ao bom atendimento ao cliente.
51
Mineração de dados
- Fidelização de clientes.
Telecomunicação
Indústria
Hoje, a indústria de telecomunicações é uma das indústrias mais emergentes, fornecendo
vários serviços, como fax, pager, telefone celular, mensageiro de internet, imagens, e-mail,
transmissão de dados pela web, etc. indústria de telecomunicações está se expandindo
rapidamente. Esta é a razão pela qual a mineração de dados se tornou muito importante
para ajudar e entender o negócio.
Biológico Dados
Análise
Nos últimos tempos, temos visto um grande crescimento no campo da biologia, como
genômica, proteômica, genômica funcional e pesquisa biomédica. A mineração de dados
biológicos é uma parte muito importante da Bioinformática. A seguir estão os aspectos em
que a mineração de dados contribui para a análise de dados biológicos:
Outro Científico
Formulários
As aplicações discutidas acima tendem a lidar com conjuntos de dados relativamente
pequenos e homogêneos para os quais as técnicas estatísticas são apropriadas. Uma
grande quantidade de dados foi coletada de domínios científicos, como geociências,
astronomia, etc. Uma grande quantidade de conjuntos de dados está sendo gerada devido
às simulações numéricas rápidas em vários campos, como modelagem de clima e
ecossistema, engenharia química, dinâmica de fluidos, etc. . Seguem as aplicações de
mineração de dados no campo de Aplicações Científicas:
Intrusão
Detecção
Intrusão refere-se a qualquer tipo de ação que ameace a integridade, a confidencialidade ou
a disponibilidade dos recursos da rede. Neste mundo de conectividade, a segurança tornou-
se a questão principal. Com o aumento do uso da Internet e a disponibilidade de
ferramentas e truques para invadir e atacar a rede, a detecção de invasões tornou-se um
componente crítico da administração da rede. Aqui está a lista de áreas em que a tecnologia
de mineração de dados pode ser aplicada para detecção de intrusão:
- Tipos de dados-O sistema de mineração de dados pode lidar com texto formatado, dados
baseados em registros e dados relacionais. Os dados também podem estar em texto ASCII,
dados de banco de dados relacional ou dados de data warehouse. Portanto, devemos
verificar qual formato exato o sistema de mineração de dados pode manipular.
- Fontes de dados-As fontes de dados referem-se aos formatos de dados nos quais o sistema
de mineração de dados irá operar. Alguns sistemas de mineração de dados podem funcionar
apenas em arquivos de texto ASCII, enquanto outros em várias fontes relacionais. O sistema
de mineração de dados também deve suportar conexões ODBC ou OLE DB para conexões
ODBC.
o Sem acoplamento
o Acoplamento solto
o Acoplamento semi-apertado
o Acoplamento apertado
o Visualização de dados
Os conceitos de mineração de dados ainda estão evoluindo e aqui estão as últimas tendências que
podemos ver neste campo:
- Exploração de aplicativos.
- Integração de mineração de dados com sistemas de banco de dados, sistemas de data warehouse
e sistemas de banco de dados da web.
- Mineração da Web.
o Ondas
o Regressão
o Modelos log-lineares
o Histogramas
o Agrupamento
o Amostragem
o bits
o Regras de associação
o Árvores de decisão
o Clusters
o Aprendizado de máquina
o Rede neural
o Associação Mineira
oAgrupamento
55
Mineração de dados
- Visão Microeconômica-De acordo com esta teoria, um esquema de banco de dados consiste em
dados e padrões que são armazenados em um banco de dados. Portanto, a mineração de dados é
a tarefa de realizar indução em bancos de dados.
Dados estatísticos
Mineração
o Linear
o Múltiplo
o Pesada
o Polinomial
o Não paramétrico
o Robusto
o Regressão Logística
o regressão de Poisson
- Análise Fatorial-A análise fatorial é usada para prever uma variável de resposta
categórica. Este método assume que as variáveis independentes seguem uma
distribuição normal multivariada.
- Análise de Séries Temporais-A seguir estão os métodos para analisar dados de séries
temporais:
oMétodos de auto-regressão.
Visual Dados
Mineração
A mineração de dados visuais usa técnicas de visualização de dados e/ou conhecimento para
descobrir conhecimento implícito de grandes conjuntos de dados. A mineração de dados visuais pode
ser vista como uma integração das seguintes disciplinas:
- Visualização de dados
- Mineração de dados
- computação gráfica
- Sistemas multimídia
- Interação Humano-Computador
- Reconhecimento de padrões
Geralmente, a visualização de dados e a mineração de dados podem ser integradas das seguintes
maneiras:
o Boxplots
o Cubos 3-D
áudio Dados
Mineração
A mineração de dados de áudio faz uso de sinais de áudio para indicar os padrões de dados
ou as características dos resultados da mineração de dados. Ao transformar padrões em
som e reflexão, podemos ouvir alturas e melodias, em vez de assistir a imagens, a fim de
identificar qualquer coisa interessante.