Escolar Documentos
Profissional Documentos
Cultura Documentos
Grande disponibilidade de dados armazenados eletronicamente Existem informaes teis, invisveis, nesses grandes volumes de dados
Relacionado com tendncia de buscar correlaes escondidas em altos volumes de dados, nem sempre evidentes.
Interpretao dos dados existentes. Realiza inferncias, tentando adivinhar possveis fatos e correlaes no explicadas nos dados.
Exemplo:
Fabricante Estado Cidade Cor do Produto Lucro Smith CA Los Angeles Azul Alto Smith AZ Flagstaff Verde Baixo Adams NY NYC Azul Alto Adams AZ Flagstaff Vermelho Baixo Johnson NY NYC Verde Mdio Johnson CA Los Angeles Vermelho Mdio
Fraldas e cervejas
homens casados, entre 25 e 30 anos compravam fraldas e/ou cervejas s sextas-feiras tarde no caminho do
trabalho para casa Wal-Mart otimizou as gndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas Resultado: o consumo cresceu 30%
Bank of America
Selecionou entre seus 36 milhes de clientes
Aqueles com menor risco de dar calotes Resultado: em trs anos o banco lucrou 30 milhes de dlares com a carteira de emprstimos.
Banco Ita
Enviava mais de 1 milho de malas diretas, para todos os correntistas.
Apenas 2% respondiam s promoes Passaram a enviar apenas a quem tem maior chance de responder Resultado: a taxa de retorno subiu para 30%, a conta de correio foi reduzida a um quinto.
10
Lojas Brasileiras
Aplicou 1 milho de dlares em tcnicas de data mining Resultado: Reduziu de 51000 produtos para 14000 produtos oferecidos
em suas lojas. Exemplo de anomalias detectadas: Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente 220v
11
Data Mining
data
modeling
model
evaluation analysis
visualization
explanation
Decision Support
decision makers+ experts+ decision analysts
...
model
12
Entendimento do negcio, objetivos e metas O que necessita: anlises complexas, tendncias, inferncias, deteces, perfil, verificao de hipteses Conhece o problema em detalhes Possui os dados necessrios Possui patrocinador Detm, tcnicas necessrias Precisa de uam arquitetura de tecnologia robusta um projeto contnuo de busca de inteligncia
13
Data Mining parte de um processo maior de conhecimento denominado Knowledge Discovery in Database . KDD consiste, fundamentalmente;
na estruturao do banco de dados;
na seleo, preparao e pr-processamento dos dados;
14
Interativo (necessita interveno humana) Cclico/iterativo (deve ser feito vrias vezes) 80% do trabalho/esforo est na Preparao e Anlise
Dado Preparado
Preparao
Minerao
Anlise
Aplicao
15
Inclui
ETL (extrao, transformao, carga) Cleansing (limpeza) Qualificao Enriquecimento Banco de dados separado Coletar dados Selecionar o subconjunto de dados que ser aplicado no projeto de mining Atentar para a qualidade dos dados Definir para os campos consolidados os critrios de reconciliao Carregar o banco para o processo de mining
Sistema de Apoio a Deciso - Joelma de Moura Ferreira 16
Processo:
Seleo
Selecionar ou segmentar dados de acordo com critrios definidos: Ex.: Todas as pessoas que so proprietrias de carros um subconjunto de dados determinado.
Pr-processamento
Estgio de limpeza dos dados, onde informaes julgadas desnecessrias
so removidas.
Ex. :O sexo de um paciente gestante
Reconfigurao dos dados para assegurar formatos consistentes
(identificao)
Ex. : sexo = F ou M sexo = M ou H
17
Transformao
Transforma-se os dados em formatos utilizveis. Esta depende da tcnica data mining usada.
18
Data Mining um processo que extrai informaes vlida e previamente desconhecidas a partir de um banco de dados.
Ou seja, a extrao dos padres de comportamento dos dados, utilizando a definio de fatos, medidas de padres, estados e o relacionamento entre eles.
O processo decorrente:
Estatstica Inteligncia artificial Tecnologia
19
Tipos de Padres
Padres preditivos so encontrados para resolver o problema de predizer
o valor futuro ou desconhecido de um ou mais atributos do banco de dados a partir do valor conhecido dos demais atributos. Padres descritivos, ou informativos, tm por objetivo encontrar padres interessantes, de forma interpretvel pelo homem, que descrevam os dados.
20
Compreende:
Criar modelos de mining Definir amostras e populao
21
ABCXYABCZKABDKCABCTUABEWLABCWO
22
ABCXYABCZKABDKCABCTUABEWLABCWO
Passo 1: A primeira etapa perceber que existe uma sequncia de letras que se repete bastante. Encontramos as sequncias "AB" e "ABC" e observamos que elas ocorrem com frequncia superior das outras sequncias.
23
ABCXYABCZKABDKCABCTUABEWLABCWO
Passo 2: Aps determinarmos as sequncias "ABC" e "AB", verificamos que elas segmentam o padro original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO"
24
ABCXYABCZKABDKCABCTUABEWLABCWO
Passo 3: Fazem-se agora indues, que geram algumas representaes genricas dessas unidades:
"ABC??" "ABD??" "ABE??" e "AB???", onde '?' representa qualquer letra
25
Contudo, mais importante do que simplesmente obter essa reduo (compresso) de informao, esse processo nos permite gerar formas de predizer futuras ocorrncias de padres. Este exatamente o ponto onde este processo comea a mostrar o seu valor.
26
A letra 'A' poderia significar "aquisio de po" em uma transao de supermercado. A letra 'B' poderia, por exemplo, significar "aquisio de leite A letra 'C' um indicador de que o leite que foi adquirido do tipo desnatado
Regra com as letras "AB" quer dizer, na prtica, que toda vez que algum comprou po, tambm comprou leite. Esses dois atributos esto associados.
Sistema de Apoio a Deciso - Joelma de Moura Ferreira 27
Identificado os padres pelo sistema, estes so interpretados em conhecimentos, os quais daro suporte a tomada de decises humanas Ex.: Tarefas de previses e classificaes
Visualizao de resultados
Milhares de conhecimentos descobertos Separa o que novo e til Focar em certos dados (linhas ou colunas)
28
Tcnicas
Associao Padres sequnciais Descritivo
Agregao (clustering)
Classificao
Anlise de regresso
Anlise de Distribuio rvores de Deciso Redes neurais Modelos de Predio Deteco de Desvios
Preditivo
29
Depois de definido e testado o modelo, a aplicao se d pela utilizao daqueles algoritmos ajustados em situaes reais de sistemas.
30
Interpreta os resultados
31
Vendas e Marketing
Identificar padres de comportamento de consumidores Associar comportamentos caractersticas demogrficas de consumidores
32
Bancos
Identificar padres de fraudes (cartes de crdito) Identificar caractersticas de correntistas Mercado Financeiro Minimizar prejuzos atravs de crdito a clientes de confiana
33
Mdica
Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de sades Comportamento de usurios de planos de sade Planos diferenciados por perfil
34