Você está na página 1de 75

Captulo 1

Introduo
O que Data Mining?
Produzir conhecimento novo escondido em grandes bases de dados
A coleta de dados (transaes bancrias, registros de compras, perfil de uso da internet, integrao das informaes de diversos sistemas, cdigo de barras, via sensores remotos (sistemas fotogrficos ou ptico-eletrnicos capazes de detectar e registrar, sob a forma de imagens ou no, o fluxo de energia radiante refletido ou emitido por objetos distantes), satlites, processamento analtico on line (OLAP), documentos), tem atingido grandes propores acarretou problema na rea do conhecimento novo ramo do conhecimento (KDD Knowledge Discovery in Databases), o qual visa otimizar e automatizar o processo de descrio das tendncias e dos padres contidos neste processo, potencialmente teis e interpretveis. 1

Os dados:
Os dados geralmente originam-se de diversas fontes, e combinando-se as informaes destas pode-se encontrar algumas coisas novas e no triviais, usuais. A necessidade por informaes melhores e rpidas, tem gerado grande interesse na construo de data warehouse capazes de trabalhar rapidamente em conjunto e fornecer as informaes necessrias de forma prtica (teis). Um conjunto de dados tpico apresenta milhares de observaes. Uma observao pode representar um consumidor, uma transao especfica, ou um chefe de famlia. Como estas informaes so utilizadas depende das questes de interesse da pesquisa. Os arquivos de dados contm informaes especficas (variveis) sobre cada observao tais como informaes demogrficas, histrico de vendas, informaes financeiras. Bases de dados: relacional, data warehouse, transacional, orientado a objetos, espaciais, sries temporais, textos, multimedia (imagem, vdeo, udio).
2

Padro:

Um evento ou combinaes de eventos numa base de dados que ocorre com mais freqncia do que esperamos. Significa que sua ocorrncia significativamente diferente do que se esperaria devido ao acaso. Padres so guiados pelos dados e geralmente refletem os prprios dados; Exemplo: se salrio < T, ento a pessoa no efetuou o pagamento pode ser um padro para uma escolha adequada de T.
teis: Representa o grau de utilidade de um padro, isto , at que ponto a descoberta ajuda a responder os objetivos inerentes ao processo de KDD. Interpretveis:

Um dos objetivos do KDD gerar padres compreensveis para os analistas na perspectiva de um melhor entendimento dos dados. Vlidos: Para dados novos ou arquivo de teste com certo grau de certeza. Novo, desconhecido:
Especialmente no sentido de interessante, no usual.
3

A extrao de conhecimento de bases de dados um processo complexo e, ainda hoje, muito dependente da experincia e do trabalho do analista (formulao do problema, preparao dos dados, anlises e interpretaes dos resultados, avaliaes). indispensvel a presena do mesmo. atribudo s mquinas a responsabilidade de manipular conjuntos de dados, procurando sempre de maneira eficaz, padres que satisfazem os problemas apresentados. Utiliza-se um conjunto de tcnicas estatsticas e de inteligncia artificial.

Data Mining se relaciona com a anlise de dados e o uso de ferramentas computacionais (softwares) na busca de caractersticas, regras e regularidades em um grande conjunto de dados.

A interdisciplinaridade da tcnica
Data mining , tambm, uma rea interdisciplinar, envolvendo banco de dados, tcnicas de estatsticas, redes neurais, de aprendizado de mquinas, de reconhecimento de padres e de visualizao de dados.
4

Estatstica

Banco de dados

Minerao de dados

Visualizao

Outras Disciplinas

Redes Neurais

Captulo 2
Observando e Aprendendo
Exemplo: um proprietrio de uma pequena loja de vinhos conhece tudo sobre vinhos, por exemplo, o tipo de uva, a regio onde a uva foi cultivada, o clima, o solo, a altitude dos parreirais, aroma, sabor, cor, o processo de fabricao. Os clientes gostam de visitar sua loja pois, tambm, aprendem muito sobre vinhos. Porm, s isto no basta, o proprietrio precisa conhece-los, como por exemplo, qual o tipo de vinho que o cliente gosta? Qual o poder aquisitivo? Assim, ele poder dar um atendimento diferenciado (um a um) aos clientes. Temos, portanto, duas necessidades:
conhecimento e aprendizado Uma pequena loja poucos clientes atendimento personalizado

Uma grande empresa milhares de clientes dificuldade em dar um atendimento dedicado


8

Qual a tendncia nos dias atuais?


Ter clientes leais, atravs de um relacionamento pessoal, umpara-um, entre a empresa e o cliente. Dentro desta tendncia, as empresas desejam identificar os clientes cujos valores e necessidades sejam compatveis com o uso prolongado de seus produtos, e nos quais vlido o risco de investir em promoes com descontos, pacotes, brindes e outras formas de criar essa relao pessoal. Esta mudana de foco requer mudanas em toda a empresa, mas principalmente nos setores de marketing, vendas e atendimento ao cliente.

Memria e Inteligncia

Na pequena empresa, o proprietrio com sua inteligncia e memria aprende, conhece o cliente.

10

Data Warehouse: a memria da empresa


Para criar relaes um-para-um em uma grande empresa, o proprietrio humano precisa ser substitudo por uma mquina capaz de tratar grandes nmeros, o computador. A memria do proprietrio substituda por um grande banco de dados denominado de Data Warehouse, enquanto a capacidade de aprendizado substituda por tcnicas de inteligncia artificial e estatstica genericamente denominadas de Data Mining (Minerao de Dados). Diariamente gera-se dados, por exemplo, considere gera-se e armazena-se atributos tais como: o nmero do telefone, a durao da chamada, o nmero do carto de crdito, o endereo da entrega, o produto escolhido, renda, escolaridade, lazer, etc. Certamente, s armazenar dados no significa aprender sobre o cliente.

11

Dados armazenados

Fonte de informaes preciosas para a empresa

12

Data Mining: a inteligncia da empresa


Para o aprendizado ocorrer, uma srie de informaes de diferentes formatos e fontes precisa ser organizada de maneira consistente na grande memria empresarial denominada data warehouse. Aps isto, mtodos de anlise estatstica e inteligncia artificial precisam ser aplicados sobre esses dados e relaes novas e teis empresa devem ser descobertas, ou seja, os dados devem ser minerados (data mining). A minerao dos dados consiste mais especificamente em descobrir relaes entre produtos, classificar consumidores, prever vendas, localizar reas geogrficas potencialmente lucrativas para novas filiais, inferir necessidades, entre outras. Definio de data mining

Uso de tcnicas, preferencialmente automticas, de explorao de grandes quantidades de dados de forma a descobrir novos padres e relaes que, devido ao volume de dados, no seriam facilmente descobertos a olho n pelo ser humano (Carvalho, 2001).
13

Data Warehouse

Data Mining

Na grande empresa, a memria o data warehouse, enquanto a inteligncia o data mining


14

Alguns resultados do data mining numa empresa: melhor relao entre empresa e cliente aumenta as vendas dirige as estratgias de marketing

diminuir custos operacionais


reas de aplicao: Medicina Agronomia Economia Administrao Geologia

Outros.
indispensvel a presena de um analista com conhecimento profundo da rea de estudo.
15

Motivao: O volume de dados armazenados atualmente muito grande Data mining uma tcnica aplicvel a grandes bancos de dados. Estes so necessrios para construir e treinar modelos que sero utilizados para realizar alguma tarefa de data mining. Exemplo: empresas de telefonia, cartes de crdito, bancos, televiso por assinatura, comrcio eletrnico e outros. Os dados esto sendo organizados

Com a tecnologia data warehousing os dados de vrias fontes esto sendo organizados e padronizados de forma a possibilitar sua organizao dirigida para o auxlio deciso. As tcnicas de data mining necessitam de bancos de dados limpos, padronizados e organizados.
Os recursos computacionais possuem grande capacidade Algoritmos computacionalmente intensivos (processos iterativos). Preos de memria, discos, etc. esto diminuindo. A competio empresarial exige tcnicas mais modernas de deciso

Programas de data mining j podem ser adquiridos

16

Alguns exemplos (aplicaes) de data mining


1. O governo dos EUA se utiliza do data mining j h bastante tempo para identificar padres de transferncias de fundos internacionais que se parecem com lavagem de dinheiro do narcotrfico. Data mining usado para identificar fraudes.
17

2. Supermercados apresentam ofertas aos clientes que se cadastram, fornecendo informaes importantes sobre suas vidas financeiras e preferncias. A partir de ento, esses dados so cruzados com suas compras ms a ms e as informaes sobre compras casadas e nvel de consumo so utilizadas para organizar as prateleiras de melhor forma a propiciar compras casadas, alm de oferecer brindes e descontos personalizados. Esses supermercados vendem suas informaes para que outras empresas faam propaganda e ofertas apropriadas para os clientes 18 cujos dados foram minerados.

3. Com dados de clientes, possvel definir hbitos de consumo e prever necessidades de outras classes sociais em outras cidades (community knowledge). Por exemplo, podemos realizar uma pesquisa como perguntar ao cliente que tipo de filmes e msicas ele gosta e, baseado nesses dados, extrapolar e classific-lo em certa categoria de consumo e preferncia. A partir da, ofertas podem ser dirigidas a ele, pois seu perfil est enquadrado pelo data mining.
19

4. Vendas cruzadas podem ser realizadas com facilidade se um banco de dados com informaes sobre o passado do cliente existir. Sabendo das necessidades e gostos do cliente, novos produtos podem ser oferecidos pela empresa, mantendo a fidelidade do cliente que no precisa ir buscar o produto em outro local.

20

5. Devido a competio empresarial, clientes mudam de empresa com facilidade. O data mining pode ser usado para verificar por que os clientes trocam uma empresa por outra e oferecer servios, vantagens e ofertas que evitam essa fuga de clientes. Com o data mining, pode-se localizar que oferta fazer a que cliente para mant-lo na empresa, ou mesmo localizar os clientes que podem sair da empresa sem representar prejuzo.
21

6. Na medicina j possvel a criao e manuteno de grandes bancos de dados com informaes sobre sintomas, resultados de exames, diagnsticos, tratamentos e curso das doenas para cada paciente. A minerao desses dados pode fornecer conhecimento novo, como, por exemplo, a relao entre algumas doenas e certos perfis profissionais, scio-culturais, hbitos pessoais e local de moradia. Essas relaes so usadas para melhor entendimento das doenas e seus tratamentos.
22

7. Com o uso de data mining na sua base de dados, voc pode construir modelos preditivos (Predictive Modeling Techniques: Regression Models, Decision Treees, Neural Networks), que mostram consumidores que esto sob risco, ou seja, esto na eminncia de mudar para uma empresa competidora. Por exemplo, empresas de telefones celulares, cartes de crditos. 8. Internet - Identificao de determinados padres em home pages, busca e agrupamento de documentos.

23

9. Marketing e comrcio - Identificao do comportamento de compra dos clientes, predio de respostas para campanhas de marketing, determinao de associaes entre itens comprados e entre caractersticas demogrficas dos clientes.

24

10. Seguros e Planos de sade - Predio de quais clientes ou grupos de clientes comprariam novas aplices de seguro, ou planos de sade, identificao de clientes/pacientes de risco, identificao de clientes ou sinistros fraudulentos, verificao de quais procedimentos mdicos e/ou odontolgicos so utilizados conjuntamente.
25

11.Setor bancrio - Estudo do comportamento do uso de cartes de crdito para determinados grupos de clientes, deteco de cartes de crdito roubados, estudo do comportamento do uso de cartes de crdito roubados, identificao de clientes fiis, deteco de correlaes escondidas entre diferentes indicadores financeiros, credit scoring e behaviour scoring (relacionados determinao do comportamento de clientes de risco).

12.Meio ambiente - determinao do impacto ambiental de instalao de fbricas em uma determinada regio, estudo de difuso de poluentes.
26

13. Crimes causas scio-econmicas e sua relao com o tipo de crime de acordo com a regio de ocorrncia. Se a ocorrncia da criminalidade est associada com locais de consumo de bebidas alcolicas, drogas.

27

14. Marketing direto. Imagine uma


empresa que quer aumentar a venda de telefones celulares. Temos:

1. Atravs do histrico de compradores da empresa, pode-se criar duas classes: i) pessoas que j compraram pelo menos um telefone celular e ii) pessoas que nunca compraram este tipo de aparelho.
28

14. Marketing direto. Imagine uma


empresa que quer aumentar a venda de telefones celulares. Temos: 2. Aps define-se alguns atributos preditivos (classe social, estilo de vida, regio demogrfica, etc.). Assim, definese um conjunto de treinamento contendo dados de compradores e no compradores de celulares.
29

14. Marketing direto. Imagine uma


empresa que quer aumentar a venda de telefones celulares. Temos: 3. Gera-se a rvore de classificao. Aps esse passo a empresa poder identificar novos clientes como potenciais compradores (ou no) de celulares, e de tempos em tempos formar uma base de clientes que devem receber mala-direta sobre promoo de celulares.
30

Captulo 3
O Processo KDD
Historicamente, a noo de encontrar padres teis em dados em seu estado bruto tem recebido diversos nomes, inclusive descoberta de conhecimento em base de dados (KDD Knowledge Discovery in Database)
Definio: KDD a descoberta de novos conhecimentos, seja padres, tendncias, relaes, associaes, probabilidades ou fatos, que no so bvios ou de fcil identificao.

31

As fases e os passos do processo KDD


O processo KDD envolve duas grandes fases: 1. 2. Preparao de dados Minerao de dados

Essas fases possuem inmeros passos, os quais envolvem um nmero elevado de decises a serem tomadas pelo usurio, ou seja, um processo interativo. tambm um processo iterativo, pois ao longo do processo KDD, um passo ser repetido tantas vezes quantas se fizerem necessrias para que se chegue a um resultado satisfatrio.

O processo KDD est representado na figura do prximo slide.

32

Assimilao (Conhecimento)


Base de dados Dados selecionados (a analisar) Dados processados


Dados transformados

Padres

Minerao de dados
33

Preparao de dados

Trade: dados informao conhecimento

34

A fase de preparao dos dados


Esta fase envolve seleo, pr-processamento e transformao dos dados. uma etapa que exige bastante tempo, aproximadamente entre 60 e 80% do tempo utilizado em todo o processo, com a maior parte do tempo consumido com a limpeza dos dados. 1. O primeiro passo a definio do problema ou do objetivo do trabalho, que o conhecimento desejado pelo usurio final, ou seja, definido o tipo de conhecimento que se deseja extrair do banco de dados. Exemplo: o departamento financeiro de uma grande loja de vesturio, notou pelos seus bancos de dados, que o faturamento sofreu uma queda significativa nos ltimos meses. Isto ocorreu pela queda das vendas em suas lojas que esto espalhadas por todo o pas. Uma anlise humana simples constatou que a queda das vendas se deu em quase todas as regies do pas com predominncia nas regies Sudeste, Nordeste e Norte. Esta a primeira fase do data mining: a definio do problema ou, a definio de um objetivo a ser alcanado (questes importantes). Algumas solues propostas pelos diversos departamentos da empresa foram: O setor de marketing poderia desenvolver uma campanha publicitria; O setor de crdito pessoal proporia aumentar a oferta do carto de crdito
35

O setor de planejamento sugestionaria uma mudana no formato da rede, tornando suas lojas mais atrativas com novos layouts; O setor de vendas poderia propor um servio de mala direta com o envio de catlogos peridicos. Todas estas propostas custam muito dinheiro e possuem a caracterstica de no atacarem o problema causador da queda das vendas que, por enquanto, desconhecido por ns.

2.

O segundo passo a criao de um conjunto de dados-alvo, ou dados selecionados. Nesta fase, seleciona-se um conjunto de dados ou focaliza-se em um subconjunto de atributos (variveis) ou de instncias de dados, em que a descoberta dever ser efetuada. Certamente a seleo dos dados vai variar de acordo com os objetivos da empresa. As variveis selecionadas podem ser de dois tipos: qualitativas (categorizadas) ou quantitativas. As variveis qualitativas referem-se a uma qualidade, a um atributo e assumem valores finitos, diferem na forma, e podem ser nominais ou ordinais. As variveis qualitativas ordinais apresentam, como o prprio nome indica, um ordem entre os possveis valores, por exemplo, grau de instruo (primeiro grau, segundo grau, superior) e escore de crdito pessoal (ruim, regular, bom). Quando uma varivel qualitativa no apresentar esta ordenao, temos uma varivel nominal, por exemplo, estado civil (casado, solteiro, divorciado, desconhecido), sexo (masculino, feminino). As variveis quantitativas assumem valores
36

numricos e podem ser do tipo contnua (os possveis valores so os nmeros reais), por exemplo, receita, taxa, salrios, e discretas (os possveis valores fazem parte de um conjunto finito ou infinito numervel), por exemplo, nmero de empregados, nmero de filhos de uma famlia.
Esquematicamente, temos: ordinal Qualitativas Variveis Quantitativas discreta contnua As variveis selecionadas para data mining so denominadas de variveis ativas uma vez que elas so ativamente usadas para distinguir segmentos, fazer predies ou desenvolver outras operaes especficas de data mining. Muitas vezes, o sucesso desse processo depende da correta escolha dos dados que formam o conjunto de dados-alvo. Para isso, so usadas tcnicas, linguagens, ferramentas e comandos convencionais de bancos de dados, como o SQL. difcil fazer-se uma boa seleo das variveis de entrada sem se ter um bom conhecimento do problema em estudo.
37

nominal

3.

O terceiro passo a limpeza e o pr-processamento dos dados.


As grandes bases de dados so altamente susceptveis a rudos (outliers), valores faltantes e inconsistentes. Dados limpos e compreensveis so requisitos bsicos para o sucesso da minerao dos dados. O pr-processamento dos dados tem por objetivo assegurar a qualidade dos dados selecionados. Esta fase inicia-se com uma reviso geral da estrutura dos dados e algumas medidas de sua qualidade (mnimo, mximo, mdia, mediana, desvio padro).

38

Isto pode ser feito utilizando-se uma combinao de mtodos estatsticos e tcnicas de visualizao (Anlise Exploratria de Dados)(ver captulo 10 de Diniz e Neto, 2000). Para entender os dados, no caso de variveis categorizadas, podemos construir as distribuies de freqncias dos valores e/ou utilizar ferramentas grficas, como, por exemplo, grficos de setores. No caso de variveis quantitativas, tambm podemos construir as distribuies de freqncias para entender as variveis. Uma forma de verificar a presena de dados invlidos atravs do clculo de estatsticas (valores mnimo e mximo, mdia, mediana, quartis, desvio padro amostral). O box plot e diagrama de disperso so ferramentas grficas extremamente teis no caso de variveis quantitativas. Os box plots podem ser usados para comparao de vrias distribuies, inclusive comparar mdias ou desvio padro de duas ou mais variveis, enquanto o diagrama de disperso um grfico simples, bidimensional, que representa a relao entre duas variveis contnuas. (ver captulo 10 de Diniz e Neto, 2000). Dados com erros (valores discrepantes), registros repetidos e valores faltantes (missing values) so problemas que naturalmente so resolvidos no passo pr-processamento dos dados.

39

Valores que so significativamente fora do esperado so denominados de valores discrepantes ou, em ingls, outliers. Os outliers podem indicar uma boa ou m notcia. Uma boa notcia se indicarem uma nova tendncia de resultados para as variveis em questo e uma m notcia se realmente forem dados invlidos. Um tipo comum de outlier devido a erro humano, como um registro de compra da ordem de milhes de reais. Estes registros devem ser corrigidos se valores razoveis ou vlidos esto disponveis, caso contrrio, estes registros devem ser excludos da anlise. Outro tipo de outlier criado quando alguma mudana no sistema operacional ainda no tenha sido refletida no ambiente da minerao de dados. Por exemplo, novos cdigos de produtos, que aparecero no ambiente como sendo outliers. Neste caso deve-se atualizar o sistema.

Regresso: Os valores discrepantes (outliers) podem ser substitudos atravs do ajuste de uma funo matemtica aos dados.
Dados incoerentes podem ser corrigidos manualmente usando referncias externas. Pode haver incoerncias devido a integrao dos dados, onde um determinado atributo pode receber diferentes nomes em diferentes bases de dados. Mdias mveis (pgina 110 do HAN & KAMBER)
40

Os valores missing incluem os valores que simplesmente no esto presentes no conjunto selecionado e os valores invlidos que foram eliminados durante a deteco de outliers. Os valores missing podem ocorrer devido a erros humanos, ou porque a informao no est disponvel no momento do levantamento dos dados, ou quando os dados so selecionados considerando-se diferentes origens, gerando informaes contraditrias. Uma forma de tratamento de valores missing eliminar todo o registro (toda a linha), ou coluna (campo) de observaes que contenha valores faltantes. Isto simples porm h perda de informao. A deciso de eliminar observaes ou variveis no fcil. Existem tcnicas que podem ser usadas para substituir os valores missing. Para variveis quantitativas , a mais simples, o uso da mdia. Para variveis categorizadas, pode-se utilizar um novo atributo para a varivel, como por exemplo, usar a denotao Desconhecido. Use a mdia da varivel para todas as amostras pertencentes a mesma classe. Por exemplo: numa classificao dos consumidores de acordo com o risco de crdito, substitua os valores missing, com o valor mdio do rendimento na mesma categoria de risco. Use o valor mais provvel para preencher os valores missing. Tcnicas mais avanadas, para ambos os tipos de variveis, como modelos de predio (anlise de regresso, rvores de deciso) e tcnicas de imputao, esto tambm disponveis. Por exemplo: usando os outros atributos dos consumidores do seu arquivo de dados, voc pode construir uma rvore de deciso para predizer o valor faltante para rendimento.
41

4.

O quarto passo a reduo e transformao de dados. Um dos objetivos principais da transformao de dados converter o conjunto bruto de dados em uma forma padro de uso. Tcnicas como discretizao (converter variveis contnuas em categorizadas e, aps, em discretas), 1 a n (converte variveis categorizadas em discretas) e tcnicas de reduo de dimensionalidade (combinar vrias variveis em uma nica) so comumente usadas. Agregao, onde uma operao resumo aplicada aos dados. Por exemplo: vendas dirias podem ser agregadas para calcular as vendas mensais, anuais.

Transformao, onde os dados de um atributo so padronizados (normalizados) para cair dentro de uma faixa de valores, por exemplo, -1,0 a 1,0 ou, 0,0 a 1,0. Um mtodo de normalizao o Normalizao Min-Max. Por exemplo: suponha que os valores mnimo e mximo da varivel rendimento so R$ 12,00 e R$ 98,00, respectivamente. Desejamos transformar a varivel rendimento na faixa [0,0; 1,0]. Por este mtodo, um valor de rendimento igual a R$ 73,6, transformase em:

73 ,6 12 ,0 1,0 0,0 0,0 0,716 v 98 ,0 12 ,0


'
42

Alisamento, usada para remover valores discrepantes (anlise de regresso). Construir novas variveis a partir de um conjunto de outras variveis. Exemplo de transformao: nmeros inteiros passar para proporo; nmero inteiros grandes, fazer transformao logartmica. Muitas vezes a base de dados usada apresenta muitas variveis (centenas), porm poucas so utilizadas para a deciso, ou seja, muitas so irrelevantes ou redundantes. Deve-se ter o cuidado para que apenas as variveis irrelevantes sejam retiradas da base de dados. Na seleo de variveis o objetivo encontrar um subconjunto editvel comparvel ao conjunto original. Mtodos para selecionar subconjuntos de variveis: 1) Mtodos automticos: a) Forward stepwise; b) Backward stepwise e) Combinao de forward selection e backward elimination. 2) As rvores de deciso tambm so utilizadas para seleo de variveis. Todas as variveis que no aparecem na rvore so consideradas irrelevantes. O conjunto de variveis que aparecem na rvore formam o conjunto de variveis selecionadas. 43

A fase de minerao dos dados


1. Num processo de data mining, a linha mestre o objetivo a ser alcanado. Portanto, no devemos esquecer que temos um problema que exige uma soluo ou um objetivo a ser alcanado. Reporte-se ao exemplo do item 1 da fase de preparao dos dados. Alguns objetivos: classificao, predio, segmentao, descrio, associaes e descoberta de alteraes significativas nos dados. Para que a minerao de dados tenha sucesso, precisamos saber quais resultados ela deve produzir. Descoberta do conhecimento. Esta a fase de minerao dos dados, que caracterizada pela busca de padres de interesse em uma forma particularmente representativa ou em um conjunto dessas representaes. Esta a fase de descoberta de novas relaes,no identificveis a olho n, mas que podem ser visualizadas com tcnicas de Inteligncia Artificial e Tcnicas Estatsticas, por meio de uma anlise sistemtica e exaustiva sobre, por exemplo, os milhares de registros de clientes nos bancos de dados da empresa. Continuando com o exemplo, uma anlise preliminar sobre as sries temporais das vendas da empresa, feita globalmente para toda a rede, por regio e por ponto de venda, constatou que a queda das vendas se deu em quase todas as regies do pas com predominncia nas regies Nordeste e Norte.
44

2.

Outra anlise mais aprofundada buscou encontrar pontos comuns entre os dados das vendas de cada uma das regies, concluindo que a queda do volume de vendas das regies Norte e Nordeste se deu a partir, aproximadamente, do ms de julho, recuperando-se um pouco a partir do ms de outubro, mas ainda assim permanecendo, da para frente, em nveis mais baixos. Enquanto a queda das vendas nas regies Sudeste e Sul no foi to acentuada, porm progressiva ao longo de todo o ano. Outra nova relao descoberta foi a diminuio das vendas nos cartes de crdito da financiadora da empresa, em todas as regies do pas. Uma anlise mais aprofundada por data mining desta nova relao permitiu visualizar um elemento comum entre os clientes que deixaram de comprar no carto de crdito, a saber, um alto percentual de reclamaes desses clientes no servio de atendimento ao cliente.

3.

Anlise das relaes descobertas. Terminada a fase de minerao de dados inicia-se a fase de anlise das descobertas. Esta etapa desenvolvida pelo raciocnio do analista (especialista da rea). possvel que se retorne a alguma fase anterior para maior documentao ou interao. A questo como incorporar informao nos negcios, portanto, as anlises das relaes descobertas so parte do processo de minerao de dados.
45

Da anlise das novas descobertas pelo data mining, concluiu-se que dois fatores sobrepostos determinaram a queda das vendas. Em primeiro lugar, a ocorrncia de um inverno muito brando no ano considerado, no tendo a empresa oferecido opes de vesturio mais leve em sua rede, isto seria fundamental para as regies Norte e Nordeste. A nova relao descoberta de que as vendas nos cartes de crdito da rede caram progressivamente ao longo do ano representa o segundo fator que se sobrepe ao primeiro, piorando ainda mais as vendas nas regies Norte e Nordeste e diminuindo, menos acentuadamente, as vendas nas regies Sul e Sudeste. 4. Consolidao ou uso das relaes descobertas. Decises so tomadas de forma a utilizar da melhor forma possvel as relaes fornecidas pela minerao de dados. possvel gerar um plano de aes necessrio para viabilizar a efetiva aplicao do conhecimento gerado no problema definido na rea a qual foi proposta inicialmente. Gerao de relatrios para as partes interessadas. Verificao e resoluo de potenciais conflitos gerados pelo conhecimento obtido. Continuando com o exemplo, um possvel uso das relaes descobertas poderia ser a oferta de vesturio mais leve em conjunto com vesturio apropriado ao inverno em todas as lojas da rede nos meses de julho a setembro e no a fixao de todo o vesturio estao do ano, como fora realizado.
46

5.

Avaliao dos resultados. S aps uma avaliao criteriosa podemos realmente afirmar que as causas do problema foram sanadas ou o objetivo da empresa alcanado.
Continuando com o exemplo, sem uma anlise por data mining, a empresa teria possivelmente investido em algumas solues genricas apresentadas por cada um dos setores da empresa. Esse investimento traria retorno com o aumento de vendas, porm a real causa da evaso da clientela no teria sido resolvida e o risco de novas evases estaria sempre presente.

47

As etapas de data mining

Definio do problema ou objetivo

Anlise dos resultados

Data Mining

Aplicao das relaes descobertas

Anlise das relaes descobertas


48

Retorno
Se, aps a avaliao dos resultados, novos objetivos precisam ser definidos, ou as solues propostas no so eficientes, deve-se voltar primeira fase do processo iniciando, assim, um processo iterativo de trabalho, como de praxe na aplicao do mtodo cientfico.

49

Captulo 4
A metodologia de data mining
Este captulo est voltado minerao de dados (anlise dos dados) onde a informao resultante usada para produzir conhecimento. A minerao de dados pode ser realizada de trs diferentes formas, em funo do nvel de conhecimento que se tenha do problema estudado. I. Quando se possui um bom conhecimento sobre o campo de atuao da empresa ou alguma idia sobre que relao nova se est buscando, pode-se definir uma hiptese e verificar sua comprovao ou no comprovao por meio da metodologia de data mining denominada de teste de hipteses. Hiptese: ns pensamos sobre possveis explicaes para o comportamento observado. Os dados a serem analisados devem ser escolhidos de acordo com estas hipteses. Se nada se sabe sobre o comportamento do fenmeno, pode-se simplesmente deixar as tcnicas de data mining procurarem nos dados relaes novas existentes, e que a olho n no poderiam ser localizadas. Procura-se reconhecer padres nos dados. Este mtodo chamado de descoberta no supervisionada de relaes. Com a aplicao de um mtodo no supervisionado de minerao 50 podem surgir novas hipteses.

II.

III.

Quando se tem um nvel maior de conhecimento da rea e da relao que se deseja ajustar, procede-se com a metodologia de descoberta supervisionada de relaes ou modelagem de dados. Aqui, a tarefa explicar o valor de um determinado campo (rendimento, idade, crdito (R$)) em termos de outros campos. Selecionamos o campo objeto (target) e o computador nos mostra como estimar, classificar, predizer este campo.

Teste de Hipteses e Descoberta de Conhecimento


A abordagem de teste de hipteses tenta comprovar ou no idias preconcebidas. A descoberta de conhecimento inicia com os dados e procura nos dizer alguma coisa que realmente no conhecamos.

51

Verificao de hipteses
O especialista que analisa as relaes descobertas pode levantar alguma hiptese associada a elas, por exemplo, notando a preocupao dos consumidores de chocolate com sua esttica e sade, consumindo, assim, produtos dietticos em quantidade razovel, pensa se no tambm possvel que esses consumidores se utilizem comumente de produtos de beleza. O teste da validade de uma hiptese feita atravs da anlise dos dados que podem ser obtidos atravs de levantamentos ou experimentos.

O processo de teste de hipteses


Passos do mtodo para realizar um teste de hiptese:

1.
2. 3. 4.

Formular as hipteses (Gerar boas idias);

(Referncia: Berry & Linoff, 1997, pg. 65)

Determinar quais os dados que vo permitir que esta hiptese seja testada; Localizar os dados; Preparar os dados para a anlise (Resumo, valores inexistentes, dados textuais, etc.);

5.
6.

Construir o modelo baseado nos dados;


Avaliar se o modelo confirma ou rejeita a hiptese.
52

Comentrios sobre os passos 5 e 6.

5. Construir o modelo baseado nos dados Modelo pensado (hiptese):

Famlias com crianas matriculadas em sries mais avanadas apresentam maior probabilidade de responder a uma oferta de linha de internet
Este modelo dever ser transformado num modelo estatstico que possa ser testado com os dados reais.

6. Avaliar se o modelo confirma ou rejeita a hiptese


Depende da hiptese e do modelo. Dependendo das hipteses, e do modelo, pode ser feita atravs da interpretao de um nico valor proveniente de uma nica e simples pergunta, pode ser feito atravs da interpretao de um conjunto de regras de associao gerada pela anlise de cestas de compras (Market basket analysis), ou pela significncia da correlao encontrada por meio de um modelo de regresso. 53

Descoberta de conhecimento supervisionada


O analista poderia desejar conhecer melhor esse consumidor de chocolate, obtendo informaes sobre seu nvel scio-econmico, pois seria interessante avaliar se ele consumidor possui condies de investir em chocolates finos, importados e mais caros, alm dos nacionais. O analista, fazendo data mining nos seus dados, pode avaliar se a quantidade de consumidores deste tipo e seu poder aquisitivo compensariam que uma nova seo de chocolates importados fosse criada.

Relaes matemticas entre os dados sero ento criadas, permitindo que o analista verifique margens de lucros e previses de vendas para esses consumidores de chocolate importado em funo do seu perfil e poder aquisitivo.

A modelagem matemtica caracterizada pela presena de uma nica varivel objetivo (target field) cujo valor deve ser predito em termos de outros campos da base de dados; um conjunto fixo de categorias nas quais os registros devem ser atribudos (alocados); um relacionamento especfico que desejamos explorar.

54

Procura responder questes como:


quem mais provvel comprar um seguro? qual o lucro esperado para um novo consumidor?

Passos no processo de descoberta de conhecimento supervisionado


1. 2. 3. 4. Identificar fontes de dados disponveis. Preparar os dados para a anlise. Construir e treinar modelos. Validar o modelo.

55

1.

preciso ter dados bons para responder as questes. O ideal ter um data warehouse (dados limpos e testados). Se so de diferentes fontes, devem ser integrados. As vezes necessrio pr-classificar os dados (fraude; no fraude). Lidar com dados provenientes de diferentes (incompatveis) arquiteturas; vrias maneiras para representar a mesma coisa (F ou W para mulher); dados textuais com formato livre e dados incompletos ou nulos. Criao de novas variveis,por exemplo, ndice_obesidade=altura/peso. Dividir os dados em arquivos de treinamento, teste e validao. Treinamento: usado para construir o modelo inicial. Teste: usado para ajustar o modelo inicial para torna-lo mais geral. Verificar a sua qualidade, se o modelo vale a pena. Usado para monitorar e refinar o modelo. Exemplo: ajustar os pesos numa rede neural; verificar a poda numa rvore de deciso; resolver problemas de super treinamento. Validao: usado para avaliar a performance do modelo com dados novos (dados ainda no visto pelo modelo).

2.

56

3.

Este passo depende da tcnica a ser utilizada e ser discutida nos prximos captulos. O arquivo de treinamento usado para gerar uma explicao da varivel dependente (target) em termos de variveis independentes (inputs). Pode ser feito por uma rede neural, regresso ou rvore de deciso.
Considerando o modelo j testado, ainda no sabemos quo bem o seu desempenho com dados novos (ainda no visto). Vamos usar o modelo no arquivo de validao. A taxa de erro no arquivo de validao uma boa estimativa da taxa de erro com dados novos.

4.

57

Descoberta no supervisionada de relaes


Neste caso no existe um compromisso com qualquer relao predeterminada, representando apenas uma observao exaustiva sobre os dados de forma, quem sabe, a descobrir-se uma relao nova e til. No se faz distino entre variveis respostas (varivel objetiva, target) e preditoras. Os mtodos mais comumente utilizados so os modelos de variveis latentes, por exemplo, componentes principais e anlise fatorial; anlise de cluster (registros so agrupados se eles tem alguma coisa em comum) e cesta de compras (market basket analysis) (quais produtos vendem juntos?)

Com a aplicao da tcnica muitas relaes novas surgem. Essas relaes, so, ento, analisadas por um especialista da rea para realmente definir aquelas que so relevantes. Por exemplo:

1.
2.

Mulheres consomem mais chocolate que os homens;


Consumidores de chocolate consomem muitos produtos dietticos. Assim, o gerente do supermercado poderia organizar melhor as prateleiras do estabelecimento, colocando os dois tipos de produtos prximos.
58

Passos no processo de descoberta de conhecimento no supervisionado


1. 2. 3. 4. 5. 6. 7. Identificar fontes de dados disponveis. Preparar os dados para a anlise. Construir e treinar modelos. Validar o modelo. Aplicar o modelo para dados novos. Identificar potenciais variveis targets para a descoberta de conhecimento supervisionado. Gerar novas hipteses para testes.

59

Comentrios sobre os passos 6 e 7.


6. A anlise no supervisionada um campo frtil para gerar idias que podem ser verificadas usando mtodos diretos. Por exemplo, um resultado da anlise de cestas de compras pode levar a questes: quem est comprando combinaes particulares de produtos?, e quando as compras tendem a ser feitas?. Por exemplo, da anlise de agrupamentos, encontramos um cluster de adultos que tem visto muitos filmes de criana. Isto nos leva a suspeitar que os pais so um importante segmento da populao que vo ao cinema. Para testar esta hiptese precisamos pegar mais dados.

7.

60

Captulo 5
As tcnicas ou tarefas de data mining
Qualquer uma das trs possveis metodologias de data mining necessitam basicamente das mesmas tcnicas para a sua realizao. Este captulo d uma viso das tarefas na perspectiva dos problemas e desafios em data mining. As tcnicas so de carter genrico e podem ser implementadas por meio de ferramentas diferentes, como Inteligncia Artificial e Mtodos Estatsticos. Seis tarefas de data mining so as mais utilizadas: 1. 2. 3. Classificao Estimao Previso e Predio

4.
5. 6.

Anlise de afinidade
Anlise de agrupamento Descrio

Geralmente, num mesmo problema, so usadas vrias tcnicas. A familiaridade com as tcnicas necessrio para resolver os problemas de data mining.
61

Classificao
Associa ou classifica um item (registro) em uma ou vrias classes prdefinidas.

O ser humano est sempre classificando o que percebe sua volta:


criando classes de relaes humanas diferentes, a temos, por exemplo, colegas de trabalho, amigos, familiares, e dando a cada classe uma forma diferente de tratamento;

definindo classes sociais


No data mining so comuns as tarefas de classificao de clientes em baixo, mdio ou alto risco de emprstimo bancrio; de clientes potencialmente consumidores de um determinado produto a julgar pelo seu perfil; de transaes financeiras como legais, ilegais ou suspeitas; de aes da bolsa de valores com lucros baixos, mdios e altos.

Ferramentas mais utilizadas: Redes Neurais artificiais, rvores de deciso(CHAID, CART) Estatstica (Anlise discriminante, Regresso logstica)
62

Exemplo: Uma base de dados relativa a emprstimos pessoais. O tipo de conhecimento que se deseja extrair desses dados como identificar os muturios negligentes. Um especialista considerou que as variveis (atributos) mais representativos do conhecimento desejado so: salrio, dbito e regularidade de pagamento. Veja figura composta de 14 muturios. Cluster

Dbitos

x x x
salrios

Regresso Rede neural

x
x

t Em dia Dbito com pagamento

63

Na figura tem-se uma partio simples dos dados em duas regies distintas de classes. Caso o banco queira usar a regio de classificao para uma deciso automtica de futuros emprstimos, a deciso linear no considerada uma perfeita separao das classes.

Classificar um objeto determinar com que grupo de entidades, j classificados anteriormente, esse objeto apresenta mais semelhana

64

Estimao
Dado alguns valores de entrada (variveis explicativas) usamos a estimao para retornar (obter) um valor para alguma varivel desconhecida, tal como: rendimento, altura, saldo do carto de crdito. Estimar a probabilidade de um paciente sobreviver, dado o resultado de um conjunto de diagnsticos de exames; estimar a probabilidade de um consumidor realizar uma compra. A arte de estimar exatamente esta: determinar da melhor maneira possvel um valor mdio baseando-se em outros valores de situaes idnticas, mas nunca exatamente iguais.

Ferramentas mais utilizadas:

Redes Neurais artificiais, Algoritmos genticos, Estatstica (intervalos de confiana, intervalos de estimao (regresso)).

65

Estimar uma grandeza avali-la tendo como base casos semelhantes nos quais essa grandeza esteja presente

66

Previso e Predio
A tcnica de previso resume-se na avaliao do valor futuro de algum ndice, baseandose em dados do comportamento passado deste ndice (Modelo de srie temporal).

A tcnica de predio resume-se na avaliao de um novo registro, para uma varivel de interesse, em funo de vrias outras variveis de entrada.
Exemplo: 1) determinar se o ndice Bovespa subir ou descer amanh; 2) qual ser a populao de uma cidade daqui a 5 anos; 3) predio de quais consumidores deixaro (abandonaro) dentro dos prximos seis meses; 4) Predizer a demanda do consumo de um novo produto em funo da despesa feita.

A previso consiste na determinao do futuro de uma grandeza


Ferramentas mais utilizadas: Redes Neurais artificiais, rvores de deciso, Estatstica (Regresso linear mltipla, Regresso logstica binria).
67

Anlise de Afinidade (Associao)


(Market Basket Association Analysis)
O exemplo mais fcil o do carrinho do supermercado do qual se pode extrair muita informao sobre que produtos os consumidores compram em conjunto com grande chance.
Dos modelos obtidos da anlise de afinidade, podem-se extrair regras que regem o consumo de alguns itens.

A anlise de associao gera redes de interaes e conexes presentes nos conjuntos de dados usando as associaes item a item. Onde por associao item a item entende-se que a presena de um item implica necessariamente na presena de outro item na mesma transao.
Considere um banco de dados de compras, onde cada compra (transao) consiste de vrios artigos (itens) comprados por um consumidor. A aplicao de tcnicas de anlise de associao neste conjunto de transaes pode revelar afinidades entre uma coleo de itens. Estas afinidades entre itens so representadas por regras de associao. Uma regra expe, em forma textual, quais itens implicam a presena de outros itens.
68

O objetivo da anlise de afinidade encontrar quais produtos ou servios os consumidores buscam conjuntamente. Um mercado de vendas varejo pode dispor os produtos vendidos conjuntamente no mesmo corredor;

Um comerciante da web pode usar a anlise de afinidade para determinar o layout do seu catlogo;
Bancos e companhias telefnicas podem usar anlise de afinidade para determinar quais novos produtos oferecer para seus consumidores preferenciais.

A anlise de afinidade preocupa-se em descobrir que elementos dos eventos tm relaes no tempo
Ferramentas mais utilizadas: Regras de associao.
69

Anlise de Agrupamento
(Cluster Analysis)
Um banco coleta e mantm um grande banco de dados sobre atributos de correntistas, tais como, conta corrente, poupana, depsitos, emprstimos e carto de crdito. Baseado nestes atributos (variveis), o banco desejaria segmentar os correntistas em grupos: ativo, moderado e passivo, baseado em dados dos ltimos trs anos. A diviso de marketing usa a segmentao dos clientes para definir estratgias diferenciadas para os vrios grupos (cluster).

70

Emprstimo

xx x x x x x x x Cluster 3 Passivo

x x Cluster 1x xx Ativo x x x x Cluster 2 Moderado

Saldo conta corrente


Agrupar simplesmente classificar uma massa de dados em classes desconhecidas a priori em nmero ou forma. Uma tarefa , dadas vrias categorias ou classes conhecidas, dizer a qual delas um certo dado pertence; outra tarefa semelhante em objetivo, porm muito mais complexa, , de posse de uma massa de dados, dizer em quantas classes esses dados se distribuem e como so essas classes. Dada uma massa de dados sobre o consumo no Brasil, determinar quantas classes ou padres de comportamento consumista existem. 71

De fato pode no haver tais classes no base de dados, no sendo possvel caracterizar os grupos. Na anlise de agrupamentos, os grupos ou classes so construdos com base na semelhana entre os elementos, cabendo ao analista das classes resultantes avaliar se estas significam algo til. Exemplo de sintomas e doenas, onde vrias doenas apresentam os mesmos sintomas. A anlise de agrupamentos normalmente uma tcnica preliminar utilizada quando nada ou pouco se sabe sobre os dados, como na metodologia da descoberta no supervisionada de relaes.
Segmentao de mercado uma tpica aplicao de anlise de agrupamentos.

Agrupar , baseado em medidas de semelhana, definir quantas e quais classes existem em um conjunto de entidades.
Ferramentas mais utilizadas: Redes neurais artificiais, Estatstica (Anlise de conglomerados (Cluster Analysis)) e Algoritmos genticos. 72

Descrio
Algumas vezes o propsito na realizao de data mining descrever o que est acontecendo numa base de dados, de forma que aumente o nosso entendimento (conhecimento) sobre os consumidores, produtos. Se fizermos uma boa descrio do comportamento facilitar encontrar uma explicao para o mesmo.

73

Implementao de um protocolo de minerao de dados


Com o que j foi dito sobre as fases, os mtodos e as tcnicas de data mining, podemos esboar um protocolo geral aplicvel maioria dos casos de minerao de dados, independentemente de suas reas. Uma etapa importante para a minerao de dados a preparao dos dados. Os dados a serem utilizados no data mining precisam ser preparados, pois as ferramentas de Estatstica e Inteligncia Artificial necessitam de dados em determinados formatos, completos e, de preferncia, representativos do fenmeno em estudo. A fase de preparao envolve a seleo dos dados. Tanto a limitao da massa de dados (casos, observaes, linhas) a ser explorada quanto a reduo do nmero de variveis (campos) consideradas na anlise so fatores importantes para a eficincia e eficcia da minerao. Estes dois processos so realizados com base no conhecimento do analista ou com tcnicas estatsticas.
74

Outra etapa importante da preparao de dados a sua complementao. Num grande banco de dados comum a presena de dados faltantes por falhas de digitao, erros de preenchimento de formulrios, ou mesmo porque os registros pertencem a empresas ou pocas diferentes nas quais aquele dado em especfico no era questionado ou considerado importante. Muitas ferramentas de data mining precisam de registros completos, com todos os dados. Para complementarmos os dados podemos simplesmente assumirmos um valor padro. Outra forma melhor utilizarmos a mdia dos demais registros. Finalmente, podemos usar uma ferramenta de inteligncia artificial ou estatstica para imputao de dados. A etapa de preparao de dados pode lidar ainda com processos de eliminao de registros cujos dados paream errados ou no representativos do fenmeno em estudo, alm da eliminao de rudo que de alguma forma tenha sido adicionado ao dado. Aqui, tambm pode-se usar tcnicas estatsticas e de inteligncia artificial, como se fosse um data mining prvio ao data mining final.

75

Protocolo:
1. 2. Definio do problema a ser estudado ou o objetivo a ser alcanado Descoberta das relaes pelo uso das tcnicas de data mining 1. Nesta fase necessita-se de conhecimento das tarefas (classificao, agrupamento, predio, previso, estimao, etc.) aplicveis e das ferramentas (regresso, cluster, rvores de deciso, redes neurais artificiais,etc) capazes de realiz-las. Aps a escolha da tarefa e da ferramenta em funo do problema estudado, preciso realizar a etapa operacional de preparao dos dados Aps estas etapas inicia-se a aplicao do data mining propriamente dito e cujo resultado um conjunto de relaes novas descobertas mecanicamente.

2. 3.

76

3.

Anlise das novas relaes 1. Nesta etapa os analistas estudam (explicam) as novas relaes encontradas e seleciona aquelas relevantes Escolhidas as relaes consideradas novas e utilizveis, a prxima etapa sua aplicao, dependendo do objetivo do trabalho. Numa empresa, precisase de relaes utilizveis ou transformveis em algum lucro ou eficincia.

4.

Aplicao das novas relaes 1.

5.

Avaliao dos resultados 1. Finalmente temos a etapa de avaliao na qual os resultados da aplicao, ou explicao, das novas relaes escolhidas so contrapostos aos objetivos iniciais da primeira etapa. Eventualmente, retorna-se para a redefinio do problema.

77