Você está na página 1de 19

Curso de Data Mining - Aula 1

1. Como surgiu 2. O que e 3. Em que tipo de dados pode ser aplicado 4. Que tipos de padres podem ser minerados o 5. Critrios de classicao de sistemas de Data Mining e ca 6. Tpicos importantes de estudo em Data Mining o 7. Aplicaes co 8. Sistemas Comerciais de Data Mining

Como surgiu MUITOS DADOS POUCA INFORMACAO Grandes volumes de dados dispon veis Arquivos de dados cemitrio de dados : raramente e visitados. Necessidade de transformar estes dados em informao util ca necessidade de desenvolvimento de ferramentas de minerao. ca

Como surgiu Decises so tomadas utilizando intuio. o a ca Tecnologias de sistemas especialistas que inserem manualmente o conhecimento na base de dados : procedimento pass de vel erros e extremamente custoso em tempo. Ferramentas de Data mining realizam anlise de grandes a volumes de dados e podem descobrir padres interessantes o frequentes nos dados. O grande abismo entre dados e informao requer o ca desenvolvimento de ferramentas de datamining que vo a transformar os cemitrios de dados em minas de e conhecimento.

O que Data Mining e Uma das etapas do processo de Descoberta de Conhecimento

Limpeza dos dados : eliminao de ru ca dos e dados inconsistentes. Integrao dos dados : diversas fontes de dados so ca a combinadas. Seleo dos dados dados relevantes `s tarefas de anlise so ca a a a extraidos do banco de dados. Transformao dos dados : formas apropriadas para ca minerao. ca

O que Data Mining - continuao e ca Data Mining : mtodos inteligentes so aplicados nos dados e a j preparados a m de extrair padres interessantes (de a o acordo com critrios do usurio). e a Ps-processamento dos padres minerados para identicar o o quais so realmente interessantes para o usurio. a a Visualizao : tcnicas de visualizao e representao de ca e ca ca conhecimento so utilizadas para apresentar o conhecimento a minerado ao usurio. a

Em que tipo de dados pode ser aplicado

Bancos de Dados Relacionais : Consultas clssicas SQL : dar a lista dos artigos comprados a no ultimo trimestre. Data Mining : predizer os riscos de crdito a novos clientes e baseados em seus rendimentos, idade e informaes sobre co crditos passados. e

Em que tipo de dados pode ser aplicado

Data Warehouse : Modelo Multidimensional ou data cubes Consultas OLAP (On Line Analytical Processing) : permitem obter os dados sob diferentes graus de sumarizao. ca Exemplo : obter o total de vendas por regio, por pa etc, a a s, partir de dados de vendas organizados por cidade. Data Mining : Descobrir existncia de clusters de clientes em e diferentes localidades, ou em diferentes faixas de salrio. a

Em que tipo de dados pode ser aplicado Bancos de Dados de Transaes : tickets de supermercado, por co exemplo : Trans-id T100 ItensComprados Po, Leite, Aucar a c

Consultas Clssicas : Quantas transaes incluem o item a co Po ? a Data Mining : Quais itens tm boa sa conjuntamente ? e da Exemplo: se impressoras so normalmente compradas a conjuntamente com um computador, ento uma boa estratgia a e seria oferecer modelos caros de impressoras com desconto para clientes que compram certas marcas de computadores.

Em que tipo de dados pode ser aplicado Sistemas de Bancos de Dados Avanados c Orientado-objeto / Relacional-estendido Espacial : bancos de dados geogrcos, imagens mdicas e de a e satlite. e Ex: mapas de cidades, incluindo informaes sobre ruas de co mo-nica, sugestes de caminhos para ser ir de um ponto A a a u o um ponto B, hora do rush, localizao de restaurantes e ca hospitais, etc. Poss veis padres : caracter o sticas de casas localizadas em certas regies (parques, por exemplo). o Temporal Textos e Multim dia No estruturados ou Semi-estruturados (XML) a

Que tipos de padres podem ser minerados o Numa grande loja de departamentos... Regras de Associao : Clientes entre 20 e 29 anos, com ca rendimentos mensais entre 2000 e 5000 normalmente compram DVD Players. idade(X,20-29) AND rend(X, 2000-5000) compra(X, DVD-Player). Classicao e Predio : encontrar critrios que ca ca e classiquem os artigos da loja em vende bem, vende mais ou menos, no vende; poder-se-ia descobrir que os a critrios seriam preo, marca, categoria, lugar de e c fabricao. ca

Que tipos de padres podem ser minerados o Anlise de Clusters : Deteco de clusters correspondendo ` a ca a localizao de clientes numa cidade. ca Os clientes esto aglutinados em torno de trs locais na cidade. a e Anlise de Outliers : Deteo de eventos raros, fora do a ca padro; a Clientes que excepcionalmente fazem uma compra de grande valor e pagam com carto de crdito provavelmente esto tendo a e a um comportamento fraudulento. Sequncias (ou Anlise Evolutiva) : clientes tm tendncia e a e e a comprar aparelhos de TV, depois V deo-Cassete e depois DVD. Padro Sequencial : <TV,V a deo,DVD>

Critrios de classicao de sistemas de Data Mining e ca Quanto ao tipo de bancos de dados : relacional, transacional, orientado-objeto, relacional-estendido, datawarehouse; Quanto ao tipo de conhecimento minerado : regras de associao, classicao, clustering, outliers, anlise de ca ca a sequncias; e Quanto ao tipo de tcnicas utilizadas : tcnicas de e e aprendizado de mquina (Machine Learning), estat a stica, redes neurais, algoritmos genticos, etc; tipos de interao com o e ca usurio; a Quanto ao tipo de aplicaes a que so dirigidos : co a telecomunicaes, anlise nanceira, bio-informtica, mercado co a a de aoes, comrcio eletrnico; Diferentes aplicaes requerem a c e o co integrao de metdos espec ca o cos.

Tpicos importantes de estudo em Data Mining o Minerao de diferentes tipos de padres; ca o Minerao interativa; ca Desenvolvimento de Linguagens de Minerao : permitindo ao ca usurio solicitar tarefas de minerao; a ca Desenvolvimento de Ferramentas de Visualizao do ca conhecimento minerado; Gerenciamento de ru dos e dados incompletos; Ecincia e escalabilidade dos algoritmos de minerao; e ca

Aplicaes co Anlise Financeira a predio de pagamentos de emprstimos, pol ca e tica de crditos e para clientes. classicao e clustering de clientes para ns de marketing ca direcionado. detecao de lavagem de dinheiro e outros crimes nanceiros. c Necessita integrao de diferentes bancos de dados : dados ca bancrios, registros de pol a cias estaduais e federais.

Aplicaes co Comrcio varejista, E-comrcio e e Marketing - Campanhas publicitrias a Sugestes de compras aos clientes o Melhor design de sites de compras Distribuio de artigos nas prateleiras ca Anlise de delidade da clientela a

Aplicaes co Ind stria de Telecomunicaes u co Identicao de atividades fraudulentas - padres at ca o picos de comportamento. Regras de associao e padres sequenciais : Se um cliente ca o mora em So Paulo e trabalha fora de So Paulo, ento bem a a a e provvel que ele faa uma chamada interurbana entre as duas a c localidades por volta de 17:00h e duas horas depois utilize o celular por pelo menos 30 minutos.

Aplicaes co Anlises biomdicas e de DNA a e Identicao de sequncias de genes que desempenham papel ca e importante em diversas doenas. c Path Analysis : diferentes genes podem tornar-se ativos em diferentes estgios de uma doena. Se sequncias de atividades a c e genticas durante as diferentes etapas do desenvolvimento de e uma doena podem ser identicadas, poss desenvolver c e vel remdios que atuam em sequncia nas diferentes etapas. e e Sequncias de sintomas associados a determinadas doenas. e c

Sistemas Comerciais de Data Mining

Nome Intelligent Miner

Fabricante IBM

Funes co algoritmos para regras de associao, ca classicao, ca regresso, a padres sequeno ciais, clustering. algoritmos classicao, ca regresso, a pacotes de anlise a estat stica. algoritmos para regras de associao, ca classicao, anlise ca a estat stica.

Destaque Integrado com o SGBD DB2 da IBM. Grande escalabilidade dos algoritmos.

Enterprise Miner

SAS Inc.

Institute

Grande variedade de ferramentas estat sticas. Um robusto conjunto de ferramentas avanadas c de visualizao. ca

MineSet

Silicon Graphics Inc.

Sistemas Comerciais de Data Mining

Nome Clementine

Fabricante Integral Solutions Ltd.

Funes co algoritmos de regras de induao, c redes neurais, classicaao c e ferramentas de visualizaao. c algoritmos de regras de associaao, c classicaao, c clustering. algoritmos de anlise de a sequncias e

Destaque Interface orientadaobjeto.

DBMiner

DBMiner Technology Inc.

Data Mining utilizando OLAP

Genamics Expression

Genamics veloper

De-

Revolutionary new Windows application for DNA and protein sequence analysis.

Você também pode gostar