Escolar Documentos
Profissional Documentos
Cultura Documentos
Curso em 1 slide
Introduo
n
Bases de
maiores
Introduo
n
Estima-se que a quantidade de dados em Bases de Dados mundiais dobra a cada 20 anos Crescimento tem ocorrido em vrias reas
q q q q q q q
Transaes bancrias Utilizao de cartes de crdito Dados governamentais Medies ambientais Dados clnicos Projetos genoma Informaes disponveis na web
Introduo
Nmero de pginas na web
Introduo
Fonte: Genbank Seqncias (milhes) Pares de bases de DNA (bilhes)
Introduo
Incidentes de segurana na Internet brasileira
Introduo
Incidentes de segurana na Internet brasileira
Introduo
n
Alguns nmeros:
q
Transaes eletrnicas
n
BD Wal-Mart: 20 milhes transaes / dia BD NASA: recebe de satlites 50 GB / hora Mobil Data Warehouse: 100 TB de dados armazenados
Controle e monitoramento
n
Pesquisas KDnuggets
n
Fonte:
n
n n
Pesquisas KDnuggets
n
Introduo
n
Bases de Dados muito grandes podem conter (esconder) dados e informaes preciosos Existe um interesse crescente em explorar esses dados armazenados
q q
Introduo
n
Quantos itens de um produto em particular foram vendidos em um dado dia? No conseguem responder consultas do tipo: n Quais so os clientes que podem cometer fraudes? n Que clientes gostariam de comprar um novo produto P? Tcnicas mais sofisticadas, capazes de extrair conhecimento de grandes BD, so necessrias
Minerao de Dados
n
MD
q q
Minerao de Dados
n
Minerao de Dados
Bases de Dados Aprendizado de Mquina Estatstica Biologia
Minerao De Dados
Visualizao
Processamento Paralelo
MD x SBBD
n
Atividades Preditivas:
q
Classificao e Regresso
n Sistemas
de MD aprendem a partir de exemplos como particionar ou classificar os dados n Exemplo - base de dados de clientes de um banco
q Pergunta:
Um novo cliente solicitando um emprstimo um bom ou mau investimento? q Regra tpica formulada: Se STATUS = casado e RENDA > 2000 e PROPRIETARIO-IMVEL = sim ento TIPO-DE-INVESTIMENTO = bom
Atividades Descritivas:
q
de Associao q Regras que associam um atributo de uma relao a outro q Exemplo - base de dados de um supermercado
CRISP-DM
n
Projeto CRISP-DM
q
Daimer-Chrysler
q
Aplicava MD em suas operaes de negcios Prestava servio de MD desde 1990 Primeira ferramenta comercial de MD (Clementine) Propsito de adicionar valor a sua enorme BD
SPSS
q q
NDR
q
Pesquisas Kdnuggets
n
CRISP-DM
n
Projeto CRISP-DM
q
n n
Em resposta a requisitos de usurios Definiu e validou processo de MD utilizado em vrios setores industriais
Entendimento do negcio
Dados
Avaliao
Verso 1.0
CRISP-DM
n
Entendimento do negcio
Dados
Avaliao
Verso 1.0
Entendimento do Negcio
n
Converter o conhecimento em definio de um problema de MD Traar um planejamento preliminar para atingir objetivos
Entendimento do negcio
Dados
Avaliao
Verso 1.0
Tem incio com uma coleta dos dados Segue com atividades para:
q
Calcular estatsticas bsicas Investigar interao de atributos Identificar problemas de qualidade nos dados
Explorar os dados
n n
q q
Entendimento do negcio
Dados
Avaliao
Verso 1.0
Sem uma ordem pr-definida Seleo de tabelas, instncias e atributos Limpeza de dados Transformao de dados
Inclui:
n n n
Entendimento do negcio
Dados
Avaliao
Verso 1.0
Modelagem
n
Entendimento do negcio
Dados
Avaliao
Verso 1.0
Avaliao
n
Para ter certeza de que ele atende adequadamente aos objetivos do problema Verificar se algum aspecto importante no foi suficientemente considerado
Entendimento do negcio
Dados
Avaliao
Verso 1.0
Desenvolvimento
n
Criao do modelo geralmente no o final do projeto Mesmo se seu propsito for aumentar conhecimento sobre os dados
q
Conhecimento precisa ser organizado e apresentado em uma forma que o usurio possa utiliz-lo
Pode ir:
q q
CRISP-DM
n
Diviso da fase de preparao de dados Mtodos de avaliao dentro da fase de modelagem Fase de avaliao ser associada avaliao na empresa Incluso de fase de monitoramento
Identificao do Problema
q q q
Quais so as principais metas do processo? Quais critrios de desempenho so importantes? O conhecimento extrado deve ser compreensvel a seres humanos ou um modelo tipo caixa-preta apropriado? Qual a deve ser a relao entre simplicidade e preciso do conhecimento extrado?
Pr-processamento
q q q q
q q
4.
5.
MD e AM
n
AM
n
Definio
q
Tcnicas de AM podem melhorar seu desempenho em uma dada tarefa utilizando experincias prvias (Mitchell, 1997)
Aplicaes
n
q q q
Finanas: anlise de risco, deteco de fraudes, gerenciamento de carteiras Internet: algoritmos de busca, marketing na web Cincia e Medicina: descoberta de padres, diagnstico de pacientes, anlise de dados do genoma Indstrias: previso de falhas, diagnstico de produtos Marketing: segmentao de mercado Telecomunicaes: processamento de alarmes
Aplicaes
n
Cadeias de PUB britnicas utilizam MD para definir mudanas dirias nos preos de algumas bebidas
q
Aplicaes
n
Software de MD que pode fazer 200 consultas por segundo Utilizado pela Reuters para procurar violaes de propriedade intelectual na Web
n
Busca por textos semelhantes aos publicados pela Reuters Envia a advogados textos suspeitos
Aplicaes
n
Inclusive texto
Aplicaes
n
Seimans Medical
q
Descobriu centenas de casos onde os melhores procedimentos mdicos no haviam sido seguidos
n
Identificou pacientes elegveis para estudos mdicos Ganhou o 2005 ICDM Data Mining Practice Prize
Aplicaes
n
Aplicaes
n
Procura por grupos de contribuintes que podem estar participando de um esquema de sonegao
q
Aplicaes
n
Resultados
n
ALVINN
ALVINN
n
Baseado em uma cmera montada no veculo Dirigiu a 70 M/h (110 Km/h) em uma rodovia pblica americana Dirigiu de costa a costa em 1989 por 2850 milhas (com exceo de 50 milhas)
ALVINN
n
960 entradas
n
q q
Nariz Artificial
Sensores
Pr-processamento
S1
S2
...
S6
Substncia
Problema Abordado
q
Base de Dados:
n n
Classificao entre odores de duas safras de vinho (A e B) Para cada safra, as resistncias dos sensores foram registradas a cada 0.5s. Cada conjunto de seis valores registrados no mesmo instante de tempo um dado (total de 200 dados, sendo 100 da safra A e 100 da safra B). 50% dos dados de cada safra escolhidos aleatoriamente para treinamento, 25% para validao, e 25% para teste.
n n
Pesquisas KDnuggets
n n
Fonte:
n
n n
Pesquisas KDnuggets
Pesquisas KDnuggets
n n
Fonte:
n
n n
Pesquisas KDnuggets
Pesquisas KDnuggets
n
2006 x 2007
Investimentos em MD preditivo
n n n n n
15% - coleta de dados 60% - limpeza de dados 15% - construo e anlise de modelos 5% - aplicao 5% - melhorias contnuas
Produtos de MD
P redictive D ynamix
Model 1
Mais produtos
PRW
Mitos
n
Julgamento humano crtico na maioria das aplicaes De qualquer modo, semi-automao muito til Regras de associao so essencialmente listas de correlaes
Consideraes Finais
n
Fenmeno sogra
q
http://www.youtube.com/watch?v=pmIYR9yJwE
Agradecimentos
n
Alguns slides dessa apresentao foram cedidos pela prof. Ana Lorena (UFABC), Andr Carvalho (USP/So Carlos), Marcilio Souto (Empirial College ?)