Você está na página 1de 11
Capítulo 1 Introdução
Capítulo 1
Introdução
O que é Data Mining ? Produzir conhecimento novo escondido em grandes bases de dados

O que é Data Mining?

Produzir conhecimento novo escondido em grandes bases de dados
Produzir conhecimento novo
escondido em grandes bases de dados

A coleta de dados (transações bancárias, registros de compras, perfil de uso da internet, integração das informações de diversos sistemas, código de barras, via sensores remotos (sistemas fotográficos ou óptico-eletrônicos capazes de detectar e registrar, sob a forma de imagens ou não, o fluxo de energia radiante refletido ou emitido por objetos distantes), satélites, processamento analítico on line (OLAP),

documentos), tem atingido grandes proporções

problema na área do conhecimento

conhecimento

visa otimizar e automatizar o processo de descrição das tendências e

dos padrões contidos neste processo, potencialmente úteis e interpretáveis.

acarretou

potencialmente úteis e interpretáveis . acarretou novo ramo do (KDD – Knowledge Discovery in Databases ),
potencialmente úteis e interpretáveis . acarretou novo ramo do (KDD – Knowledge Discovery in Databases ),

novo ramo do

(KDD – Knowledge Discovery in Databases), o qual

Os dados: • Os dados geralmente originam-se de diversas fontes, e combinando-se as informações destas

Os dados:

Os dados geralmente originam-se de diversas fontes, e combinando-se as

informações destas pode-se encontrar “algumas coisas” novas e não triviais, usuais.

• A necessidade por informações melhores e rápidas, tem gerado grande

interesse na construção de data warehouse capazes de trabalhar rapidamente

em conjunto e fornecer as informações necessárias de forma prática (úteis).

• Um conjunto de dados típico apresenta milhares de observações.

• Uma observação pode representar um consumidor, uma transação específica, ou um chefe de família.

Os dados: •Como estas informações são utilizadas depende das questões de interesse da pesquisa. •

Os dados:

•Como estas informações são utilizadas depende das questões de interesse da pesquisa.

• Os arquivos de dados contém informações específicas (variáveis) sobre cada observação tais como informações demográficas, histórico de vendas, informações financeiras.

• Bases de dados: relacional, data warehouse, transacional, orientado a objetos, espaciais, séries temporais, textos, multimedia (imagem, vídeo, áudio).

Padrão: Um evento ou combinações de eventos numa base de dados que ocorre com mais

Padrão:

Um evento ou combinações de eventos numa base de dados que ocorre com mais freqüência do que esperamos.

Significa que sua ocorrência é significativamente diferente do que se esperaria devido ao acaso.

Padrões são guiados pelos dados e geralmente refletem os próprios dados; Exemplo: se “salário <

Padrões são guiados pelos dados e geralmente refletem os próprios dados; Exemplo: se “salário < T, então a pessoa não efetuou o pagamento” pode ser um padrão para uma escolha adequada de T.

Úteis:

Representa o grau de utilidade de um padrão, isto é, até que ponto a descoberta ajuda a responder os objetivos inerentes ao processo de KDD.

Interpretáveis:

Um dos objetivos do KDD é gerar padrões compreensíveis para os analistas na perspectiva de um melhor entendimento dos dados. Válidos:

Para dados novos ou arquivo de teste com certo grau de certeza. Novo, desconhecido:

Especialmente no sentido de interessante, não usual.

A extração de conhecimento de bases de dados é um processo complexo e, ainda hoje,

A extração de conhecimento de bases de dados é um processo complexo e, ainda

hoje, muito dependente da experiência e do trabalho do analista (formulação do problema, preparação dos dados, análises e interpretações dos resultados, avaliações).

É indispensável a presença do mesmo.

É atribuído às máquinas a responsabilidade de manipular conjuntos de dados,

procurando sempre de maneira eficaz, padrões que satisfazem os problemas apresentados.

Utiliza-se um conjunto de técnicas estatísticas e de inteligência artificial.

Data Mining se relaciona com a análise de dados e o uso de ferramentas computacionais (softwares) na busca de características, regras e regularidades em um grande conjunto de dados.

A interdisciplinaridade da técnica Data mining é, também, uma área interdisciplinar, envolvendo: •banco de dados,

A interdisciplinaridade da técnica

Data mining é, também, uma área interdisciplinar, envolvendo:

•banco de dados,

•técnicas de estatísticas,

•redes neurais,

•de aprendizado de máquinas,

•de reconhecimento de padrões e

•de visualização de dados.

Estatística Mineração de dados Inteligência Artificial (Redes Neurais) Banco de dados Visualização Outras Disciplinas

Estatística

Mineração de dados

Inteligência Artificial (Redes Neurais)

Banco de dados

Visualização

Estatística Mineração de dados Inteligência Artificial (Redes Neurais) Banco de dados Visualização Outras Disciplinas
Estatística Mineração de dados Inteligência Artificial (Redes Neurais) Banco de dados Visualização Outras Disciplinas
Estatística Mineração de dados Inteligência Artificial (Redes Neurais) Banco de dados Visualização Outras Disciplinas

Outras Disciplinas

Problemas típicos de data mining § Problemas de sumarização(resumo) e visualização Tem como objetivo encontrar

Problemas típicos de data mining

§ Problemas de sumarização(resumo) e visualização

Tem como objetivo encontrar descrições compactas dos dados e apresentar diferentes maneiras de apresentá-los. Quando os dados ainda não estão organizados de uma forma padrão (com atributos e objetivos), técnicas de visualização são essenciais na descoberta de novos conhecimentos. Para facilitar a interpretação, pode-se aplicar procedimentos estatísticos tradicionais.

§ Segmentação ou agrupamento de bancos de dados

O banco de dados original é decomposto em vários bancos de dados menores e espera- se que diferentes conclusões possam ser obtidas para cada um deles. A idéia é dividir um problema em segmentos menores, os quais formam grupos mais inter-relacionados.

§ Regras de associação

São associações na forma de regras de associação. Relaciona-se a

associação entre

diferentes itens presentes na mesma transação. Bastante usada para análises de cestas de compras ou dados transacionais.

Problemas típicos de data mining § Classificação e predição Classificação é o processo de encontrar

Problemas típicos de data mining

§Classificação e predição

Classificação é o processo de encontrar um conjunto de modelos (ou funções) que descrevem e distinguem classes de dados, com o propósito de ser capaz de predizer a que classe de objetos pertence uma nova observação (classe desconhecida). A construção do modelo é feita com os dados de treinamento, isto é, objetos cujas classes são conhecidas. A predição também refere-se a avaliação de um novo valor de uma variável alvo com base em outras variáveis explicativas.