Você está na página 1de 34

Motivaes

Grande disponibilidade de dados armazenados eletronicamente Existem informaes teis, invisveis, nesses grandes volumes de dados

Aproveitar para prever um conhecimento futuro (ir alm do

armazenamento explcito de dados).

[01] Queens University - Belfast

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

Relacionado com tendncia de buscar correlaes escondidas em altos volumes de dados, nem sempre evidentes.

Interpretao dos dados existentes. Realiza inferncias, tentando adivinhar possveis fatos e correlaes no explicadas nos dados.

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

Exemplo:

Fabricante Estado Cidade Cor do Produto Lucro Smith CA Los Angeles Azul Alto Smith AZ Flagstaff Verde Baixo Adams NY NYC Azul Alto Adams AZ Flagstaff Vermelho Baixo Johnson NY NYC Verde Mdio Johnson CA Los Angeles Vermelho Mdio

Concluses: Produtos azuis so de alto lucro ou Arizona um lucro baixo


Sistema de Apoio a Deciso - Joelma de Moura Ferreira 5

Uma ferramenta de OLAP responderia:


Qual o valor mdio de pagamento de seguros de vida, para fumantes na

regio sul do estado, em agosto de 1999?


FERRAMENTAS DE DATA MINING Definir os melhores atributos de clientes, capazes de ajudar como previsores possveis de acidentes de automvel.
Qual o valor mdio de faturamento de clientes do tipo industrial, da rea

de alumnio, nas regies da Mantiqueira, comparando-se os anos 1998 e 1999?


FERRAMENTAS DE DATA MINING Indicar quais atributos de clientes seriam importantes para ser considerados numa possvel e indesejvel quebra de fidelizao.
Sistema de Apoio a Deciso - Joelma de Moura Ferreira 6

Uma ferramenta de OLAP responderia:


Produziriam grficos mostrando os percentuais comparativos de compras

com cartes de crditos roubados e vlidos?


FERRAMENTAS DE DATA MINING Indicariam padres associados a certo comportamento fraudulento com cartes de crdito.

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

Fraldas e cervejas
homens casados, entre 25 e 30 anos compravam fraldas e/ou cervejas s sextas-feiras tarde no caminho do

trabalho para casa Wal-Mart otimizou as gndolas nos pontos de vendas, colocando as fraldas ao lado das cervejas Resultado: o consumo cresceu 30%

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

Bank of America
Selecionou entre seus 36 milhes de clientes

Aqueles com menor risco de dar calotes Resultado: em trs anos o banco lucrou 30 milhes de dlares com a carteira de emprstimos.

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

Banco Ita
Enviava mais de 1 milho de malas diretas, para todos os correntistas.

Apenas 2% respondiam s promoes Passaram a enviar apenas a quem tem maior chance de responder Resultado: a taxa de retorno subiu para 30%, a conta de correio foi reduzida a um quinto.

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

10

Lojas Brasileiras
Aplicou 1 milho de dlares em tcnicas de data mining Resultado: Reduziu de 51000 produtos para 14000 produtos oferecidos

em suas lojas. Exemplo de anomalias detectadas: Roupas de inverno e guarda chuvas encalhadas no nordeste Batedeiras 110v a venda em SC onde a corrente 220v

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

11

knowledge discovery from data

Use of models: classification clustering

Data Mining
data
modeling

model

evaluation analysis

visualization
explanation

Decision Support
decision makers+ experts+ decision analysts

...

model

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

12

Entendimento do negcio, objetivos e metas O que necessita: anlises complexas, tendncias, inferncias, deteces, perfil, verificao de hipteses Conhece o problema em detalhes Possui os dados necessrios Possui patrocinador Detm, tcnicas necessrias Precisa de uam arquitetura de tecnologia robusta um projeto contnuo de busca de inteligncia

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

13

Data Mining parte de um processo maior de conhecimento denominado Knowledge Discovery in Database . KDD consiste, fundamentalmente;
na estruturao do banco de dados;
na seleo, preparao e pr-processamento dos dados;

na transformao, adequao e reduo da dimensionalidade dos dados;


no processo de Data Mining; e nas anlises, assimilaes, interpretaes e uso do conhecimento extrado

do banco de dados, atravs do processo de Data Mining.

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

14

Interativo (necessita interveno humana) Cclico/iterativo (deve ser feito vrias vezes) 80% do trabalho/esforo est na Preparao e Anlise

Dado Preparado

Preparao

Minerao

Anlise

Aplicao
15

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

Porque: no se pode minerar todos os dados


Exemplo: Dados de vendas numa loja, durante 20 anos produtos que saram de

linha, anos atpicos, mudana de comportamento dos consumidores

Inclui

ETL (extrao, transformao, carga) Cleansing (limpeza) Qualificao Enriquecimento Banco de dados separado Coletar dados Selecionar o subconjunto de dados que ser aplicado no projeto de mining Atentar para a qualidade dos dados Definir para os campos consolidados os critrios de reconciliao Carregar o banco para o processo de mining
Sistema de Apoio a Deciso - Joelma de Moura Ferreira 16

Processo:

Seleo
Selecionar ou segmentar dados de acordo com critrios definidos: Ex.: Todas as pessoas que so proprietrias de carros um subconjunto de dados determinado.

Pr-processamento
Estgio de limpeza dos dados, onde informaes julgadas desnecessrias

so removidas.
Ex. :O sexo de um paciente gestante
Reconfigurao dos dados para assegurar formatos consistentes

(identificao)
Ex. : sexo = F ou M sexo = M ou H

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

17

Transformao

Transforma-se os dados em formatos utilizveis. Esta depende da tcnica data mining usada.

Ex: rede neural converter valor literal em valor numrico


Disponibilizar os dados de maneira usvel e navegvel.

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

18

Data Mining um processo que extrai informaes vlida e previamente desconhecidas a partir de um banco de dados.

Ou seja, a extrao dos padres de comportamento dos dados, utilizando a definio de fatos, medidas de padres, estados e o relacionamento entre eles.
O processo decorrente:
Estatstica Inteligncia artificial Tecnologia

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

19

Tipos de Padres
Padres preditivos so encontrados para resolver o problema de predizer

o valor futuro ou desconhecido de um ou mais atributos do banco de dados a partir do valor conhecido dos demais atributos. Padres descritivos, ou informativos, tm por objetivo encontrar padres interessantes, de forma interpretvel pelo homem, que descrevam os dados.

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

20

Compreende:
Criar modelos de mining Definir amostras e populao

Selecionar dados para treinar o modelo


Definir formatao requerida pelas ferramentas

Criar os previsores ou atributos-chave para a anlise do negcio

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

21

ABCXYABCZKABDKCABCTUABEWLABCWO

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

22

ABCXYABCZKABDKCABCTUABEWLABCWO
Passo 1: A primeira etapa perceber que existe uma sequncia de letras que se repete bastante. Encontramos as sequncias "AB" e "ABC" e observamos que elas ocorrem com frequncia superior das outras sequncias.

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

23

ABCXYABCZKABDKCABCTUABEWLABCWO
Passo 2: Aps determinarmos as sequncias "ABC" e "AB", verificamos que elas segmentam o padro original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO"

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

24

ABCXYABCZKABDKCABCTUABEWLABCWO
Passo 3: Fazem-se agora indues, que geram algumas representaes genricas dessas unidades:
"ABC??" "ABD??" "ABE??" e "AB???", onde '?' representa qualquer letra

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

25

Contudo, mais importante do que simplesmente obter essa reduo (compresso) de informao, esse processo nos permite gerar formas de predizer futuras ocorrncias de padres. Este exatamente o ponto onde este processo comea a mostrar o seu valor.

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

26

"ABC??" "ABD??" "ABE?? "AB???

A letra 'A' poderia significar "aquisio de po" em uma transao de supermercado. A letra 'B' poderia, por exemplo, significar "aquisio de leite A letra 'C' um indicador de que o leite que foi adquirido do tipo desnatado

Regra com as letras "AB" quer dizer, na prtica, que toda vez que algum comprou po, tambm comprou leite. Esses dois atributos esto associados.
Sistema de Apoio a Deciso - Joelma de Moura Ferreira 27

Identificado os padres pelo sistema, estes so interpretados em conhecimentos, os quais daro suporte a tomada de decises humanas Ex.: Tarefas de previses e classificaes

Porque: gerar conhecimento a partir dos padres identificados


Como validar ? Que fazer depois ?

Visualizao de resultados
Milhares de conhecimentos descobertos Separa o que novo e til Focar em certos dados (linhas ou colunas)

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

28

Tcnicas
Associao Padres sequnciais Descritivo

Agregao (clustering)
Classificao

Anlise de regresso
Anlise de Distribuio rvores de Deciso Redes neurais Modelos de Predio Deteco de Desvios

Preditivo

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

29

Depois de definido e testado o modelo, a aplicao se d pela utilizao daqueles algoritmos ajustados em situaes reais de sistemas.

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

30

Analista de Data Mining ou BI


Conhece as tcnicas e ferramentas

Analista de Negcios ou Gestor ou Analista da Organizao


Conhece o negcio

Interpreta os resultados

Cientista Social ou Estatstico


Definio de amostras e tcnicas estatsticas

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

31

Vendas e Marketing
Identificar padres de comportamento de consumidores Associar comportamentos caractersticas demogrficas de consumidores

Campanhas de marketing direto (mailing campaigns)


Identificar consumidores leais

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

32

Bancos
Identificar padres de fraudes (cartes de crdito) Identificar caractersticas de correntistas Mercado Financeiro Minimizar prejuzos atravs de crdito a clientes de confiana

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

33

Mdica
Comportamento de pacientes Identificar terapias de sucessos para diferentes tratamentos Fraudes em planos de sades Comportamento de usurios de planos de sade Planos diferenciados por perfil

Sistema de Apoio a Deciso - Joelma de Moura Ferreira

34

Você também pode gostar