Você está na página 1de 16

INTRODUO MINERAO DE DADOS Luis Paulo Vieira Braga

1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.

Introduo KDD e minerao de dados Bancos de dados para minerao de dados A construo de modelos no processo KDD/DM Tratamento de dados para DM Mtodos para modelagem Plano de prototipagem Validao do Modelo Implementao Retorno do investimento Estudos de caso

1.

Introduo

A minerao de dados prov um mtodo automtico para descobrir padres em dados, sem a tendenciosidade e a limitao de uma anlise baseada meramente na intuio humana. Alm disso massas de dados so demasiadamente grandes e intrincadas para tratamento manual.

Em particular, o comrcio eletrnico vem pressionando drasticamente as empresas para utilizao de formas mais elaboradas de obteno de conhecimento sobre seus clientes. A grande diferena entre as empresas reais e as empresas na Internet, supondo-se que o bsico seja atingido, o relacionamento com os clientes. O negcio que conhece seus clientes vai servi-los ainda melhor.

Tipos de negcios eletrnicos

B2C: venda ao consumidor final C2C: venda entre consumidores C2B: consumidor dita o preo e o item B2B: interempresarial B2G: vendas para o governo

Muitos dos problemas encontrados em um negcio/comrcio tambm ocorrem no B2C. A questo central de qualquer negcio ATRAIR CLIENTES, FECHAR COMPRAS E MANTER OS CLIENTES LUCRATIVOS. No B2C o conceito de ponto (local de venda ou de prestao de servios ) e o de cliente tornam-se indissociveis, pois a vontade do cliente que o far acessar o site e permanecer nele. O ponto pertence agora mente do cliente, ou ser o contrrio ?

Dentre os quatro ps do Marketing: ponto, produto, preo e promoo o ponto o que se transforma de modo mais radical. Entretanto, h tambm mudanas significativas nos outros aspectos : maior oferta de produtos, possibilidade ampliada de pesquisa de preos e novas formas de comunicao. Os riscos deste tipo de negcio podem ser agrupados em quatro categorias: volatilidade, velocidade, segurana e concorrncia.

Devido volatilidade que este novo modelo de negcio apresenta, a figura do cliente passa a ser central para o seu sucesso. As tcnicas de marketing orientados ao cliente, as quais j vinham sendo utilizadas em negcios tradicionais, ganharam uma nova dimenso no ambiente B2C. A busca de enxugamento do ciclo de produo, como por exemplo, com a filosofia do just in time colocaram a logstica como disciplina fundamental para o sucesso deste novo paradigma de produo.

Entretanto, na fase que se aproxima, um outro paradigma mais radical vai se impondo , a customizao em massa. O qual coloca a produo a servio do cliente. O ambiente natural para este novo paradigma o B2C. No se pode frustrar um cliente que leva poucos minutos para fazer uma compra, levando muitos dias para entregar o seu pedido ! Desafio : entregar encomendas menores por custos cada vez mais reduzidos.

Do ponto de vista da logstica o atendimento ao consumidor final o resultado de todas as atividades logsticas. Considerando-se que cerca de 65% das transaes de uma empresa so com clientes correntes, o fator fidelizao fundamental para a manuteno do lucro. O acompanhamento do ciclo de compra passa a ser uma atividade estratgica e no mais meramente operacional

Tipos de falhas na entrega de um produto

13% 31%
en ganos ou baixa q ualidade produtos danificados atrasos

44%

outras

12%

Fonte: Baritz e Zissman ,Researching Customer Service: The Right Way, in Business Logistics Management; Ballou, Prentice Hall, 1999

Reaes dos clientes a falhas na entrega de um produto

27%

29%

reduziu com pras no com pra m ais reclam a outras

26%

18%

Fonte: Baritz e Zissman ,Researching Customer Service: The Right Way, in Business Logistics Management; Ballou, Prentice Hall, 1999

Tipos de N egcios Eletrnicos

EM PRESAS

Site B2C
ENCO ENDAS M

Site B2B
DIVULG AO

PEDIDO S

FO RNEC ORES ED

PRO DUT OS

P DUT RO OS CO NSUM IDO RES FINAIS

CENT RO D ISTRIBUIO

A minerao de dados centrada no cliente prov o conhecimento das caractersticas e do comportamento dos clientes. Esta compreenso a base para qualquer prospeco realstica. Reter clientes custa menos que adquirir novos e a expanso do comrcio eletrnico tornou fcil para os clientes mudarem de fornecedor. Muitas relaes comerciais no passaro de uma simples transao, por este motivo o melhor gasto com marketing aquele que mantem os clientes que voc j tem. Obviamente no se deve esquecer da eficincia operacional que a chave para manter os custos sob controle.

A minerao de dados compreende um conjunto de tcnicas para descrio e predio a partir de grandes massas de dados. Por este motivo ela est geralmente associada bancos de dados especiais denominados datawharehouse. Estes bancos de dados viabilizam a integrao rpida de dados oriundos de diferentes fontes. Neste trabalho apresentaremos a metodologia bsica do processo de minerao de dados, as grandes categorias de problemas, as ferramentas matemticas mais usuais , estudos de casos e concluses.

Minerao de Dados Classes de Problemas em DM

SEGMENTAO CLASSIFICAO PREDIO ANLISE DE ASSOCIAO

Minerao de Dados Segmentao (classificao no supervisionada)


Tem por objetivo a separao dos dados em sub-grupos ou classes. No confundir com classificao. Em geral a segmentao uma etapa do processo. Segmentao a criao de classes.

Minerao de Dados Classificao (supervisionada) ou predio categrica


Tem por objetivo a criao de modelos para predizer as classes a que pertencem objetos desconhecidos. Determinar uma regra que possa ser usada para classificar de forma otimizada uma nova observao a uma classe j rotulada.

Minerao de Dados Predio (contnua)


Similar classificao salvo que o atributo contnuo, podendo inclusive variar no tempo.

Minerao de Dados Anlise de Associao


Determinar um modelo que descreva uma associao significativa entre dados ou eventos.

2.

KDD e Minerao de Dados

A minerao de dados est inserida em um processo maior denominado descoberta de conhecimento em banco de dados , Knowledge Discovery in Database (KDD). Rigorosamente o DM se restringe obteno de modelos, ficando as etapas anteriores e o prprio DM como instncias do KDD.

Esquema para gerao de conhecimento em bancos de dados KDD

Dados

Dados Alvo

Dados Pr

Dados Transf.

Classes Previso

Conhecimento

Processados

Procurando estabelecer uma seqncia genrica de etapas para um projeto de Minerao de Dados teramos: Definio do problema Avaliao dos dados Extrao de caractersticas e realce Plano de prototipagem, Prototipagem e Desenvolvimento do Modelo Avaliao do modelo Implementao Avaliao do retorno do investimento (ps-projeto)

Exemplo das sete etapas em uma aplicao destinada a uma campanha de vendas de CDBs de um Banco que tem 1.400.000 clientes pessoas fsicas.
1. Problema: identificar clientes que se interessariam em comprar CDBs. 2. Dados: amostra de 150.000 clientes dos quais se mediram os seguintes atributos: idade, renda, variveis demogrficas, lucratividade, nvel do depsito, freqncia de investimentos, ocasio das aplicaes entre outras. 3. Extrao de caractersticas : considerar apenas os atributos relacionados recncia, freqncia e fator monetrio. 4. Modelo : rvore de deciso

5. Avaliao: A rvore explicou 80% do comportamento dos clientes 6. Implementao: Baseado na rvore foram enviados convites para parte da totalidade dos clientes do Banco propondo a aplicao em CDBs 7. Retorno do Investimento: Gastou-se 30% a menos em divulgao porque ao contrrio de outras promoes o contato s foi feito com parte dos clientes. A resposta foi 50% melhor do que em promoes anteriores.

3.

Bancos de Dados para Minerao de Dados Data Warehouse, Data Mart e Data Web House

A qualidade dos dados crtica e de muito mais importncia do que a quantidade A informao est nos dados O trabalho deve ser desenvolvido nos dados

Bancos de dados para negcios eletrnicos (Data Warehouse-DW)


DW um repositrio centralizado de dados e informaes corporativas, orientado gesto operacional, ttica e estratgica da empresa. O DW obtido a partir da contnua integrao de dados de fontes internas - operacionais e institucionais e externas - mercado - com uma perspectiva temporal. Entrega, devolues e seus motivos deixam de ser aspectos meramente operacionais e passam a integrar o repositrio de informaes sobre os clientes

www.jeunesse.com.br

Cubide:

Os dados so modelados em uma estrutura dimensional conhecida como cubos, os quais consistem de dimenses e valores quantitativos. Um cubo consiste da fonte de dados que identifica e conecta ao banco de dados do Datawarehouse.

Diagrama da seqncia de resultados de cubides :


As setas mostram as seqncias que os nveis ( D ) de cubides podem ser expresso

10

Modelo Utilitrio Utilitrio Sedan Sedan

Cor Vermelha Branca Amarelo Azul

Vendas 6 5 3 1

RELACIONAL

MULTIDIMENSIONAL Cor Modelo Utilitrio Sedan 0 1 6 0 5 0 0 3 Azul Vermelha Branca Amarelo

Sistemas para Business Intelligence

DATAWAREHOUSE OLTP EIS/DSS OLAP DATAMINING

Tipo de Questo bsica ferramenta Data Mining O que interessante ? O que pode acontecer ? O que aconteceu e por qu ?

Exemplo da resposta

Tipos de clientes Previso de vendas

OLAP

Vendas mensais versus mudanas de preos de competidores Cotaes diversas

EIS/DSS

O que eu preciso saber agora ? O que aconteceu ?

Pesquisas e Relatrios

Vendas do ltimo ms

11

Procurando estabelecer uma seqncia genrica de etapas para um projeto de Minerao de Dados teramos:
1. 2. 3. 4. 5. 6. 7. Definio do problema Avaliao dos dados Extrao de caractersticas e realce Plano de prototipagem, Prototipagem e Desenvolvimento do Modelo Avaliao do modelo Implementao Avaliao do retorno do investimento (ps-projeto)

4. A construo de modelos no processo KDD/DM


O termo KDD Knowledge Discovery in Databases foi criado em 1995 para designar o conjunto de processos, tcnicas e abordagens que propiciam o contexto no qual a minerao de dados ter lugar. Em suma a aplicao do mtodo cientfico moderno aos problemas do mundo dos negcios.

preciso, portanto, estar consciente que o processo de descoberta no se faz provando uma hiptese mas, colhendo evidncias e explicaes sobre ela que podem eventualmente levar construo de um modelo. Os resultados ganharo evidncia medida que os fatos assim o confirmarem. Alm disto esta evidncia e confirmao refletem um paradigma. Quando h a mudana de paradigma, tudo deve mudar hipteses, evidncias e modelos.

12

Portanto quando se fr usar as tcnicas de minerao de dados para analisar problemas do mundo dos negcios, preciso estar atento mudana de paradigma que est ocorrendo. No velho paradigma , um negcio estava organizado em reas funcionais marketing, finanas, engenharia e um comando voltado para produo. Este paradigma est mudando para algo centrado no cliente em torno de quem se estabelece uma rede de processos controlveis retroativamente. Os modelos de minerao de dados devem refletir este novo paradigma sob pena de nada acrescentarem.

A primeira onda desta mudana de paradigma foi baseada no conceito de lealdade / assiduidade medidas pela mtrica RFM ( recncia, freqncia e valor monetrio), um exemplo o programa de milhagem presente em muitas companhias areas. A segunda onda se baseou na otimizao do valor do cliente, buscando a oferta de produtos e servios em nichos definidos por segmentos de clientes. A terceira onda vai muito alm busca a customizao em massa , processo radical no qual o consumidor pode alterar estruturalmente o produto / servio de acordo com o seu pedido. o caso da Toyota no Japo, Domino nos EUA, entre outras.

Exemplos de Metas
Atrair novos clientes Tornar novos clientes rentveis Evitar clientes de risco Entender as caractersticas dos clientes Tornar rentveis os atuais clientes Reter clientes rentveis Recuperar clientes Melhorar a satisfao dos clientes Aumentar vendas Reduzir despesas

13

A partir das metas desenvolve-se uma seqncia de passos que levem consecuo das mesmas. Este processo leva construo de um modelo o qual pode ser preditivo ou descritivo. Um modelo preditivo calcula algum valor que representa um nvel de atividade futura, um modelo descritivo descobre regras que so usadas para agrupar itens em categorias. Dentre algumas aplicaes dos modelos preditivos temos: os modelos de resposta; risco; cross-sell; upsell; concorrncia; valor presente lquido e ciclo de vida. J em relao aos modelos descritivos as aplicaes mais comuns so: anlise de perfil de cliente e cesta de compras.

Modelos e suas finalidades

Anlise de Perfil : contem estatsticas sobre os clientes relativas a atributos demogrficos (idade mdia, proporo de gnero, proporo de casados, proporo de solteiros, tempo mdio de residncia, etc... A anlise de perfil mais efetiva quando aplicada a segmentos. Segmentao : segmenta os clientes segundo um conjunto de critrios, por exemplo, lucratividade e potencial.

Modelos e suas finalidades

Resposta: procura determinar dentre os clientes quem reagir a uma oferta de produto ou servio. Risco: determina a probabilidade de que um tomador de crdito no honre sua dvida. prediz se um cliente inicial ir efetivamente se tornar cliente.

Ativao:

14

Modelos e suas finalidades

Cross-Sell :

determina a probabilidade de um cliente comprar outro produto ou servio na empresa. determina a probabilidade de um cliente aumentar suas compras do mesmo produto ou servio na empresa.

Up-Sell :

Modelos e suas finalidades


Attrition: prediz a reduo do consumo ou uso de um servio ou produto.

Valor Lquido de um Produto (Net Present Value): prediz a lucratividade de um produto por um perodo pr-determinado de tempo. Valor Lquido de um Cliente (Lifetime Value): prediz a lucratividade de um cliente por um perodo pr-determinado de tempo.

FORMULAR UM PROBLEMA DE SUA ORGANIZAO QUE POSSA SER RESOLVIDO EM TERMOS DE UMA PREDIO OU DE UMA CLASSIFICAO SUPERVISIONADA OU DE UMA CLASSIFICAO NO SUPERVISIONADA. ESPECIFIQUE A REA DE ATUAO DA ORGANIZAO E EM QUE MEDIDA A RESOLUO DO PROBLEMA IMPACTA O DESEMPENHO DA EMPRESA.

15

Continua no prximo arquivo mindad_06_p2

16

Você também pode gostar