Escolar Documentos
Profissional Documentos
Cultura Documentos
Introduo
O que Data Mining?
Produzir conhecimento novo escondido em grandes bases de dados
A coleta de dados (transaes bancrias, registros de compras, perfil de uso da internet, integrao das informaes de diversos sistemas, cdigo de barras, via sensores remotos (sistemas fotogrficos ou ptico-eletrnicos capazes de detectar e registrar, sob a forma de imagens ou no, o fluxo de energia radiante refletido ou emitido por objetos distantes), satlites, processamento analtico on line (OLAP), documentos), tem atingido grandes propores acarretou problema na rea do conhecimento novo ramo do conhecimento (KDD Knowledge Discovery in Databases), o qual visa otimizar e automatizar o processo de descrio das tendncias e dos padres contidos neste processo, potencialmente teis e interpretveis. 1
Os dados:
Os dados geralmente originam-se de diversas fontes, e combinando-se as informaes destas pode-se encontrar algumas coisas novas e no triviais, usuais. A necessidade por informaes melhores e rpidas, tem gerado grande interesse na construo de data warehouse capazes de trabalhar rapidamente em conjunto e fornecer as informaes necessrias de forma prtica (teis). Um conjunto de dados tpico apresenta milhares de observaes. Uma observao pode representar um consumidor, uma transao especfica, ou um chefe de famlia. Como estas informaes so utilizadas depende das questes de interesse da pesquisa. Os arquivos de dados contm informaes especficas (variveis) sobre cada observao tais como informaes demogrficas, histrico de vendas, informaes financeiras. Bases de dados: relacional, data warehouse, transacional, orientado a objetos, espaciais, sries temporais, textos, multimedia (imagem, vdeo, udio).
2
Padro:
Um evento ou combinaes de eventos numa base de dados que ocorre com mais freqncia do que esperamos. Significa que sua ocorrncia significativamente diferente do que se esperaria devido ao acaso. Padres so guiados pelos dados e geralmente refletem os prprios dados; Exemplo: se salrio < T, ento a pessoa no efetuou o pagamento pode ser um padro para uma escolha adequada de T.
teis: Representa o grau de utilidade de um padro, isto , at que ponto a descoberta ajuda a responder os objetivos inerentes ao processo de KDD. Interpretveis:
Um dos objetivos do KDD gerar padres compreensveis para os analistas na perspectiva de um melhor entendimento dos dados. Vlidos: Para dados novos ou arquivo de teste com certo grau de certeza. Novo, desconhecido:
Especialmente no sentido de interessante, no usual.
3
A extrao de conhecimento de bases de dados um processo complexo e, ainda hoje, muito dependente da experincia e do trabalho do analista (formulao do problema, preparao dos dados, anlises e interpretaes dos resultados, avaliaes). indispensvel a presena do mesmo. atribudo s mquinas a responsabilidade de manipular conjuntos de dados, procurando sempre de maneira eficaz, padres que satisfazem os problemas apresentados. Utiliza-se um conjunto de tcnicas estatsticas e de inteligncia artificial.
Data Mining se relaciona com a anlise de dados e o uso de ferramentas computacionais (softwares) na busca de caractersticas, regras e regularidades em um grande conjunto de dados.
A interdisciplinaridade da tcnica
Data mining , tambm, uma rea interdisciplinar, envolvendo banco de dados, tcnicas de estatsticas, redes neurais, de aprendizado de mquinas, de reconhecimento de padres e de visualizao de dados.
4
Estatstica
Banco de dados
Minerao de dados
Visualizao
Outras Disciplinas
Redes Neurais
Captulo 2
Observando e Aprendendo
Exemplo: um proprietrio de uma pequena loja de vinhos conhece tudo sobre vinhos, por exemplo, o tipo de uva, a regio onde a uva foi cultivada, o clima, o solo, a altitude dos parreirais, aroma, sabor, cor, o processo de fabricao. Os clientes gostam de visitar sua loja pois, tambm, aprendem muito sobre vinhos. Porm, s isto no basta, o proprietrio precisa conhece-los, como por exemplo, qual o tipo de vinho que o cliente gosta? Qual o poder aquisitivo? Assim, ele poder dar um atendimento diferenciado (um a um) aos clientes. Temos, portanto, duas necessidades:
conhecimento e aprendizado Uma pequena loja poucos clientes atendimento personalizado
Memria e Inteligncia
Na pequena empresa, o proprietrio com sua inteligncia e memria aprende, conhece o cliente.
10
11
Dados armazenados
12
Uso de tcnicas, preferencialmente automticas, de explorao de grandes quantidades de dados de forma a descobrir novos padres e relaes que, devido ao volume de dados, no seriam facilmente descobertos a olho n pelo ser humano (Carvalho, 2001).
13
Data Warehouse
Data Mining
Alguns resultados do data mining numa empresa: melhor relao entre empresa e cliente aumenta as vendas dirige as estratgias de marketing
Outros.
indispensvel a presena de um analista com conhecimento profundo da rea de estudo.
15
Motivao: O volume de dados armazenados atualmente muito grande Data mining uma tcnica aplicvel a grandes bancos de dados. Estes so necessrios para construir e treinar modelos que sero utilizados para realizar alguma tarefa de data mining. Exemplo: empresas de telefonia, cartes de crdito, bancos, televiso por assinatura, comrcio eletrnico e outros. Os dados esto sendo organizados
Com a tecnologia data warehousing os dados de vrias fontes esto sendo organizados e padronizados de forma a possibilitar sua organizao dirigida para o auxlio deciso. As tcnicas de data mining necessitam de bancos de dados limpos, padronizados e organizados.
Os recursos computacionais possuem grande capacidade Algoritmos computacionalmente intensivos (processos iterativos). Preos de memria, discos, etc. esto diminuindo. A competio empresarial exige tcnicas mais modernas de deciso
16
2. Supermercados apresentam ofertas aos clientes que se cadastram, fornecendo informaes importantes sobre suas vidas financeiras e preferncias. A partir de ento, esses dados so cruzados com suas compras ms a ms e as informaes sobre compras casadas e nvel de consumo so utilizadas para organizar as prateleiras de melhor forma a propiciar compras casadas, alm de oferecer brindes e descontos personalizados. Esses supermercados vendem suas informaes para que outras empresas faam propaganda e ofertas apropriadas para os clientes 18 cujos dados foram minerados.
3. Com dados de clientes, possvel definir hbitos de consumo e prever necessidades de outras classes sociais em outras cidades (community knowledge). Por exemplo, podemos realizar uma pesquisa como perguntar ao cliente que tipo de filmes e msicas ele gosta e, baseado nesses dados, extrapolar e classific-lo em certa categoria de consumo e preferncia. A partir da, ofertas podem ser dirigidas a ele, pois seu perfil est enquadrado pelo data mining.
19
4. Vendas cruzadas podem ser realizadas com facilidade se um banco de dados com informaes sobre o passado do cliente existir. Sabendo das necessidades e gostos do cliente, novos produtos podem ser oferecidos pela empresa, mantendo a fidelidade do cliente que no precisa ir buscar o produto em outro local.
20
5. Devido a competio empresarial, clientes mudam de empresa com facilidade. O data mining pode ser usado para verificar por que os clientes trocam uma empresa por outra e oferecer servios, vantagens e ofertas que evitam essa fuga de clientes. Com o data mining, pode-se localizar que oferta fazer a que cliente para mant-lo na empresa, ou mesmo localizar os clientes que podem sair da empresa sem representar prejuzo.
21
6. Na medicina j possvel a criao e manuteno de grandes bancos de dados com informaes sobre sintomas, resultados de exames, diagnsticos, tratamentos e curso das doenas para cada paciente. A minerao desses dados pode fornecer conhecimento novo, como, por exemplo, a relao entre algumas doenas e certos perfis profissionais, scio-culturais, hbitos pessoais e local de moradia. Essas relaes so usadas para melhor entendimento das doenas e seus tratamentos.
22
7. Com o uso de data mining na sua base de dados, voc pode construir modelos preditivos (Predictive Modeling Techniques: Regression Models, Decision Treees, Neural Networks), que mostram consumidores que esto sob risco, ou seja, esto na eminncia de mudar para uma empresa competidora. Por exemplo, empresas de telefones celulares, cartes de crditos. 8. Internet - Identificao de determinados padres em home pages, busca e agrupamento de documentos.
23
9. Marketing e comrcio - Identificao do comportamento de compra dos clientes, predio de respostas para campanhas de marketing, determinao de associaes entre itens comprados e entre caractersticas demogrficas dos clientes.
24
10. Seguros e Planos de sade - Predio de quais clientes ou grupos de clientes comprariam novas aplices de seguro, ou planos de sade, identificao de clientes/pacientes de risco, identificao de clientes ou sinistros fraudulentos, verificao de quais procedimentos mdicos e/ou odontolgicos so utilizados conjuntamente.
25
11.Setor bancrio - Estudo do comportamento do uso de cartes de crdito para determinados grupos de clientes, deteco de cartes de crdito roubados, estudo do comportamento do uso de cartes de crdito roubados, identificao de clientes fiis, deteco de correlaes escondidas entre diferentes indicadores financeiros, credit scoring e behaviour scoring (relacionados determinao do comportamento de clientes de risco).
12.Meio ambiente - determinao do impacto ambiental de instalao de fbricas em uma determinada regio, estudo de difuso de poluentes.
26
13. Crimes causas scio-econmicas e sua relao com o tipo de crime de acordo com a regio de ocorrncia. Se a ocorrncia da criminalidade est associada com locais de consumo de bebidas alcolicas, drogas.
27
1. Atravs do histrico de compradores da empresa, pode-se criar duas classes: i) pessoas que j compraram pelo menos um telefone celular e ii) pessoas que nunca compraram este tipo de aparelho.
28
Captulo 3
O Processo KDD
Historicamente, a noo de encontrar padres teis em dados em seu estado bruto tem recebido diversos nomes, inclusive descoberta de conhecimento em base de dados (KDD Knowledge Discovery in Database)
Definio: KDD a descoberta de novos conhecimentos, seja padres, tendncias, relaes, associaes, probabilidades ou fatos, que no so bvios ou de fcil identificao.
31
Essas fases possuem inmeros passos, os quais envolvem um nmero elevado de decises a serem tomadas pelo usurio, ou seja, um processo interativo. tambm um processo iterativo, pois ao longo do processo KDD, um passo ser repetido tantas vezes quantas se fizerem necessrias para que se chegue a um resultado satisfatrio.
32
Assimilao (Conhecimento)
Base de dados Dados selecionados (a analisar) Dados processados
Dados transformados
Padres
Minerao de dados
33
Preparao de dados
34
O setor de planejamento sugestionaria uma mudana no formato da rede, tornando suas lojas mais atrativas com novos layouts; O setor de vendas poderia propor um servio de mala direta com o envio de catlogos peridicos. Todas estas propostas custam muito dinheiro e possuem a caracterstica de no atacarem o problema causador da queda das vendas que, por enquanto, desconhecido por ns.
2.
O segundo passo a criao de um conjunto de dados-alvo, ou dados selecionados. Nesta fase, seleciona-se um conjunto de dados ou focaliza-se em um subconjunto de atributos (variveis) ou de instncias de dados, em que a descoberta dever ser efetuada. Certamente a seleo dos dados vai variar de acordo com os objetivos da empresa. As variveis selecionadas podem ser de dois tipos: qualitativas (categorizadas) ou quantitativas. As variveis qualitativas referem-se a uma qualidade, a um atributo e assumem valores finitos, diferem na forma, e podem ser nominais ou ordinais. As variveis qualitativas ordinais apresentam, como o prprio nome indica, um ordem entre os possveis valores, por exemplo, grau de instruo (primeiro grau, segundo grau, superior) e escore de crdito pessoal (ruim, regular, bom). Quando uma varivel qualitativa no apresentar esta ordenao, temos uma varivel nominal, por exemplo, estado civil (casado, solteiro, divorciado, desconhecido), sexo (masculino, feminino). As variveis quantitativas assumem valores
36
numricos e podem ser do tipo contnua (os possveis valores so os nmeros reais), por exemplo, receita, taxa, salrios, e discretas (os possveis valores fazem parte de um conjunto finito ou infinito numervel), por exemplo, nmero de empregados, nmero de filhos de uma famlia.
Esquematicamente, temos: ordinal Qualitativas Variveis Quantitativas discreta contnua As variveis selecionadas para data mining so denominadas de variveis ativas uma vez que elas so ativamente usadas para distinguir segmentos, fazer predies ou desenvolver outras operaes especficas de data mining. Muitas vezes, o sucesso desse processo depende da correta escolha dos dados que formam o conjunto de dados-alvo. Para isso, so usadas tcnicas, linguagens, ferramentas e comandos convencionais de bancos de dados, como o SQL. difcil fazer-se uma boa seleo das variveis de entrada sem se ter um bom conhecimento do problema em estudo.
37
nominal
3.
38
Isto pode ser feito utilizando-se uma combinao de mtodos estatsticos e tcnicas de visualizao (Anlise Exploratria de Dados)(ver captulo 10 de Diniz e Neto, 2000). Para entender os dados, no caso de variveis categorizadas, podemos construir as distribuies de freqncias dos valores e/ou utilizar ferramentas grficas, como, por exemplo, grficos de setores. No caso de variveis quantitativas, tambm podemos construir as distribuies de freqncias para entender as variveis. Uma forma de verificar a presena de dados invlidos atravs do clculo de estatsticas (valores mnimo e mximo, mdia, mediana, quartis, desvio padro amostral). O box plot e diagrama de disperso so ferramentas grficas extremamente teis no caso de variveis quantitativas. Os box plots podem ser usados para comparao de vrias distribuies, inclusive comparar mdias ou desvio padro de duas ou mais variveis, enquanto o diagrama de disperso um grfico simples, bidimensional, que representa a relao entre duas variveis contnuas. (ver captulo 10 de Diniz e Neto, 2000). Dados com erros (valores discrepantes), registros repetidos e valores faltantes (missing values) so problemas que naturalmente so resolvidos no passo pr-processamento dos dados.
39
Valores que so significativamente fora do esperado so denominados de valores discrepantes ou, em ingls, outliers. Os outliers podem indicar uma boa ou m notcia. Uma boa notcia se indicarem uma nova tendncia de resultados para as variveis em questo e uma m notcia se realmente forem dados invlidos. Um tipo comum de outlier devido a erro humano, como um registro de compra da ordem de milhes de reais. Estes registros devem ser corrigidos se valores razoveis ou vlidos esto disponveis, caso contrrio, estes registros devem ser excludos da anlise. Outro tipo de outlier criado quando alguma mudana no sistema operacional ainda no tenha sido refletida no ambiente da minerao de dados. Por exemplo, novos cdigos de produtos, que aparecero no ambiente como sendo outliers. Neste caso deve-se atualizar o sistema.
Regresso: Os valores discrepantes (outliers) podem ser substitudos atravs do ajuste de uma funo matemtica aos dados.
Dados incoerentes podem ser corrigidos manualmente usando referncias externas. Pode haver incoerncias devido a integrao dos dados, onde um determinado atributo pode receber diferentes nomes em diferentes bases de dados. Mdias mveis (pgina 110 do HAN & KAMBER)
40
Os valores missing incluem os valores que simplesmente no esto presentes no conjunto selecionado e os valores invlidos que foram eliminados durante a deteco de outliers. Os valores missing podem ocorrer devido a erros humanos, ou porque a informao no est disponvel no momento do levantamento dos dados, ou quando os dados so selecionados considerando-se diferentes origens, gerando informaes contraditrias. Uma forma de tratamento de valores missing eliminar todo o registro (toda a linha), ou coluna (campo) de observaes que contenha valores faltantes. Isto simples porm h perda de informao. A deciso de eliminar observaes ou variveis no fcil. Existem tcnicas que podem ser usadas para substituir os valores missing. Para variveis quantitativas , a mais simples, o uso da mdia. Para variveis categorizadas, pode-se utilizar um novo atributo para a varivel, como por exemplo, usar a denotao Desconhecido. Use a mdia da varivel para todas as amostras pertencentes a mesma classe. Por exemplo: numa classificao dos consumidores de acordo com o risco de crdito, substitua os valores missing, com o valor mdio do rendimento na mesma categoria de risco. Use o valor mais provvel para preencher os valores missing. Tcnicas mais avanadas, para ambos os tipos de variveis, como modelos de predio (anlise de regresso, rvores de deciso) e tcnicas de imputao, esto tambm disponveis. Por exemplo: usando os outros atributos dos consumidores do seu arquivo de dados, voc pode construir uma rvore de deciso para predizer o valor faltante para rendimento.
41
4.
O quarto passo a reduo e transformao de dados. Um dos objetivos principais da transformao de dados converter o conjunto bruto de dados em uma forma padro de uso. Tcnicas como discretizao (converter variveis contnuas em categorizadas e, aps, em discretas), 1 a n (converte variveis categorizadas em discretas) e tcnicas de reduo de dimensionalidade (combinar vrias variveis em uma nica) so comumente usadas. Agregao, onde uma operao resumo aplicada aos dados. Por exemplo: vendas dirias podem ser agregadas para calcular as vendas mensais, anuais.
Transformao, onde os dados de um atributo so padronizados (normalizados) para cair dentro de uma faixa de valores, por exemplo, -1,0 a 1,0 ou, 0,0 a 1,0. Um mtodo de normalizao o Normalizao Min-Max. Por exemplo: suponha que os valores mnimo e mximo da varivel rendimento so R$ 12,00 e R$ 98,00, respectivamente. Desejamos transformar a varivel rendimento na faixa [0,0; 1,0]. Por este mtodo, um valor de rendimento igual a R$ 73,6, transformase em:
Alisamento, usada para remover valores discrepantes (anlise de regresso). Construir novas variveis a partir de um conjunto de outras variveis. Exemplo de transformao: nmeros inteiros passar para proporo; nmero inteiros grandes, fazer transformao logartmica. Muitas vezes a base de dados usada apresenta muitas variveis (centenas), porm poucas so utilizadas para a deciso, ou seja, muitas so irrelevantes ou redundantes. Deve-se ter o cuidado para que apenas as variveis irrelevantes sejam retiradas da base de dados. Na seleo de variveis o objetivo encontrar um subconjunto editvel comparvel ao conjunto original. Mtodos para selecionar subconjuntos de variveis: 1) Mtodos automticos: a) Forward stepwise; b) Backward stepwise e) Combinao de forward selection e backward elimination. 2) As rvores de deciso tambm so utilizadas para seleo de variveis. Todas as variveis que no aparecem na rvore so consideradas irrelevantes. O conjunto de variveis que aparecem na rvore formam o conjunto de variveis selecionadas. 43
2.
Outra anlise mais aprofundada buscou encontrar pontos comuns entre os dados das vendas de cada uma das regies, concluindo que a queda do volume de vendas das regies Norte e Nordeste se deu a partir, aproximadamente, do ms de julho, recuperando-se um pouco a partir do ms de outubro, mas ainda assim permanecendo, da para frente, em nveis mais baixos. Enquanto a queda das vendas nas regies Sudeste e Sul no foi to acentuada, porm progressiva ao longo de todo o ano. Outra nova relao descoberta foi a diminuio das vendas nos cartes de crdito da financiadora da empresa, em todas as regies do pas. Uma anlise mais aprofundada por data mining desta nova relao permitiu visualizar um elemento comum entre os clientes que deixaram de comprar no carto de crdito, a saber, um alto percentual de reclamaes desses clientes no servio de atendimento ao cliente.
3.
Anlise das relaes descobertas. Terminada a fase de minerao de dados inicia-se a fase de anlise das descobertas. Esta etapa desenvolvida pelo raciocnio do analista (especialista da rea). possvel que se retorne a alguma fase anterior para maior documentao ou interao. A questo como incorporar informao nos negcios, portanto, as anlises das relaes descobertas so parte do processo de minerao de dados.
45
Da anlise das novas descobertas pelo data mining, concluiu-se que dois fatores sobrepostos determinaram a queda das vendas. Em primeiro lugar, a ocorrncia de um inverno muito brando no ano considerado, no tendo a empresa oferecido opes de vesturio mais leve em sua rede, isto seria fundamental para as regies Norte e Nordeste. A nova relao descoberta de que as vendas nos cartes de crdito da rede caram progressivamente ao longo do ano representa o segundo fator que se sobrepe ao primeiro, piorando ainda mais as vendas nas regies Norte e Nordeste e diminuindo, menos acentuadamente, as vendas nas regies Sul e Sudeste. 4. Consolidao ou uso das relaes descobertas. Decises so tomadas de forma a utilizar da melhor forma possvel as relaes fornecidas pela minerao de dados. possvel gerar um plano de aes necessrio para viabilizar a efetiva aplicao do conhecimento gerado no problema definido na rea a qual foi proposta inicialmente. Gerao de relatrios para as partes interessadas. Verificao e resoluo de potenciais conflitos gerados pelo conhecimento obtido. Continuando com o exemplo, um possvel uso das relaes descobertas poderia ser a oferta de vesturio mais leve em conjunto com vesturio apropriado ao inverno em todas as lojas da rede nos meses de julho a setembro e no a fixao de todo o vesturio estao do ano, como fora realizado.
46
5.
Avaliao dos resultados. S aps uma avaliao criteriosa podemos realmente afirmar que as causas do problema foram sanadas ou o objetivo da empresa alcanado.
Continuando com o exemplo, sem uma anlise por data mining, a empresa teria possivelmente investido em algumas solues genricas apresentadas por cada um dos setores da empresa. Esse investimento traria retorno com o aumento de vendas, porm a real causa da evaso da clientela no teria sido resolvida e o risco de novas evases estaria sempre presente.
47
Data Mining
Retorno
Se, aps a avaliao dos resultados, novos objetivos precisam ser definidos, ou as solues propostas no so eficientes, deve-se voltar primeira fase do processo iniciando, assim, um processo iterativo de trabalho, como de praxe na aplicao do mtodo cientfico.
49
Captulo 4
A metodologia de data mining
Este captulo est voltado minerao de dados (anlise dos dados) onde a informao resultante usada para produzir conhecimento. A minerao de dados pode ser realizada de trs diferentes formas, em funo do nvel de conhecimento que se tenha do problema estudado. I. Quando se possui um bom conhecimento sobre o campo de atuao da empresa ou alguma idia sobre que relao nova se est buscando, pode-se definir uma hiptese e verificar sua comprovao ou no comprovao por meio da metodologia de data mining denominada de teste de hipteses. Hiptese: ns pensamos sobre possveis explicaes para o comportamento observado. Os dados a serem analisados devem ser escolhidos de acordo com estas hipteses. Se nada se sabe sobre o comportamento do fenmeno, pode-se simplesmente deixar as tcnicas de data mining procurarem nos dados relaes novas existentes, e que a olho n no poderiam ser localizadas. Procura-se reconhecer padres nos dados. Este mtodo chamado de descoberta no supervisionada de relaes. Com a aplicao de um mtodo no supervisionado de minerao 50 podem surgir novas hipteses.
II.
III.
Quando se tem um nvel maior de conhecimento da rea e da relao que se deseja ajustar, procede-se com a metodologia de descoberta supervisionada de relaes ou modelagem de dados. Aqui, a tarefa explicar o valor de um determinado campo (rendimento, idade, crdito (R$)) em termos de outros campos. Selecionamos o campo objeto (target) e o computador nos mostra como estimar, classificar, predizer este campo.
51
Verificao de hipteses
O especialista que analisa as relaes descobertas pode levantar alguma hiptese associada a elas, por exemplo, notando a preocupao dos consumidores de chocolate com sua esttica e sade, consumindo, assim, produtos dietticos em quantidade razovel, pensa se no tambm possvel que esses consumidores se utilizem comumente de produtos de beleza. O teste da validade de uma hiptese feita atravs da anlise dos dados que podem ser obtidos atravs de levantamentos ou experimentos.
1.
2. 3. 4.
Determinar quais os dados que vo permitir que esta hiptese seja testada; Localizar os dados; Preparar os dados para a anlise (Resumo, valores inexistentes, dados textuais, etc.);
5.
6.
Famlias com crianas matriculadas em sries mais avanadas apresentam maior probabilidade de responder a uma oferta de linha de internet
Este modelo dever ser transformado num modelo estatstico que possa ser testado com os dados reais.
Relaes matemticas entre os dados sero ento criadas, permitindo que o analista verifique margens de lucros e previses de vendas para esses consumidores de chocolate importado em funo do seu perfil e poder aquisitivo.
A modelagem matemtica caracterizada pela presena de uma nica varivel objetivo (target field) cujo valor deve ser predito em termos de outros campos da base de dados; um conjunto fixo de categorias nas quais os registros devem ser atribudos (alocados); um relacionamento especfico que desejamos explorar.
54
55
1.
preciso ter dados bons para responder as questes. O ideal ter um data warehouse (dados limpos e testados). Se so de diferentes fontes, devem ser integrados. As vezes necessrio pr-classificar os dados (fraude; no fraude). Lidar com dados provenientes de diferentes (incompatveis) arquiteturas; vrias maneiras para representar a mesma coisa (F ou W para mulher); dados textuais com formato livre e dados incompletos ou nulos. Criao de novas variveis,por exemplo, ndice_obesidade=altura/peso. Dividir os dados em arquivos de treinamento, teste e validao. Treinamento: usado para construir o modelo inicial. Teste: usado para ajustar o modelo inicial para torna-lo mais geral. Verificar a sua qualidade, se o modelo vale a pena. Usado para monitorar e refinar o modelo. Exemplo: ajustar os pesos numa rede neural; verificar a poda numa rvore de deciso; resolver problemas de super treinamento. Validao: usado para avaliar a performance do modelo com dados novos (dados ainda no visto pelo modelo).
2.
56
3.
Este passo depende da tcnica a ser utilizada e ser discutida nos prximos captulos. O arquivo de treinamento usado para gerar uma explicao da varivel dependente (target) em termos de variveis independentes (inputs). Pode ser feito por uma rede neural, regresso ou rvore de deciso.
Considerando o modelo j testado, ainda no sabemos quo bem o seu desempenho com dados novos (ainda no visto). Vamos usar o modelo no arquivo de validao. A taxa de erro no arquivo de validao uma boa estimativa da taxa de erro com dados novos.
4.
57
Com a aplicao da tcnica muitas relaes novas surgem. Essas relaes, so, ento, analisadas por um especialista da rea para realmente definir aquelas que so relevantes. Por exemplo:
1.
2.
59
7.
60
Captulo 5
As tcnicas ou tarefas de data mining
Qualquer uma das trs possveis metodologias de data mining necessitam basicamente das mesmas tcnicas para a sua realizao. Este captulo d uma viso das tarefas na perspectiva dos problemas e desafios em data mining. As tcnicas so de carter genrico e podem ser implementadas por meio de ferramentas diferentes, como Inteligncia Artificial e Mtodos Estatsticos. Seis tarefas de data mining so as mais utilizadas: 1. 2. 3. Classificao Estimao Previso e Predio
4.
5. 6.
Anlise de afinidade
Anlise de agrupamento Descrio
Geralmente, num mesmo problema, so usadas vrias tcnicas. A familiaridade com as tcnicas necessrio para resolver os problemas de data mining.
61
Classificao
Associa ou classifica um item (registro) em uma ou vrias classes prdefinidas.
Ferramentas mais utilizadas: Redes Neurais artificiais, rvores de deciso(CHAID, CART) Estatstica (Anlise discriminante, Regresso logstica)
62
Exemplo: Uma base de dados relativa a emprstimos pessoais. O tipo de conhecimento que se deseja extrair desses dados como identificar os muturios negligentes. Um especialista considerou que as variveis (atributos) mais representativos do conhecimento desejado so: salrio, dbito e regularidade de pagamento. Veja figura composta de 14 muturios. Cluster
Dbitos
x x x
salrios
x
x
63
Na figura tem-se uma partio simples dos dados em duas regies distintas de classes. Caso o banco queira usar a regio de classificao para uma deciso automtica de futuros emprstimos, a deciso linear no considerada uma perfeita separao das classes.
Classificar um objeto determinar com que grupo de entidades, j classificados anteriormente, esse objeto apresenta mais semelhana
64
Estimao
Dado alguns valores de entrada (variveis explicativas) usamos a estimao para retornar (obter) um valor para alguma varivel desconhecida, tal como: rendimento, altura, saldo do carto de crdito. Estimar a probabilidade de um paciente sobreviver, dado o resultado de um conjunto de diagnsticos de exames; estimar a probabilidade de um consumidor realizar uma compra. A arte de estimar exatamente esta: determinar da melhor maneira possvel um valor mdio baseando-se em outros valores de situaes idnticas, mas nunca exatamente iguais.
Redes Neurais artificiais, Algoritmos genticos, Estatstica (intervalos de confiana, intervalos de estimao (regresso)).
65
Estimar uma grandeza avali-la tendo como base casos semelhantes nos quais essa grandeza esteja presente
66
Previso e Predio
A tcnica de previso resume-se na avaliao do valor futuro de algum ndice, baseandose em dados do comportamento passado deste ndice (Modelo de srie temporal).
A tcnica de predio resume-se na avaliao de um novo registro, para uma varivel de interesse, em funo de vrias outras variveis de entrada.
Exemplo: 1) determinar se o ndice Bovespa subir ou descer amanh; 2) qual ser a populao de uma cidade daqui a 5 anos; 3) predio de quais consumidores deixaro (abandonaro) dentro dos prximos seis meses; 4) Predizer a demanda do consumo de um novo produto em funo da despesa feita.
A anlise de associao gera redes de interaes e conexes presentes nos conjuntos de dados usando as associaes item a item. Onde por associao item a item entende-se que a presena de um item implica necessariamente na presena de outro item na mesma transao.
Considere um banco de dados de compras, onde cada compra (transao) consiste de vrios artigos (itens) comprados por um consumidor. A aplicao de tcnicas de anlise de associao neste conjunto de transaes pode revelar afinidades entre uma coleo de itens. Estas afinidades entre itens so representadas por regras de associao. Uma regra expe, em forma textual, quais itens implicam a presena de outros itens.
68
O objetivo da anlise de afinidade encontrar quais produtos ou servios os consumidores buscam conjuntamente. Um mercado de vendas varejo pode dispor os produtos vendidos conjuntamente no mesmo corredor;
Um comerciante da web pode usar a anlise de afinidade para determinar o layout do seu catlogo;
Bancos e companhias telefnicas podem usar anlise de afinidade para determinar quais novos produtos oferecer para seus consumidores preferenciais.
A anlise de afinidade preocupa-se em descobrir que elementos dos eventos tm relaes no tempo
Ferramentas mais utilizadas: Regras de associao.
69
Anlise de Agrupamento
(Cluster Analysis)
Um banco coleta e mantm um grande banco de dados sobre atributos de correntistas, tais como, conta corrente, poupana, depsitos, emprstimos e carto de crdito. Baseado nestes atributos (variveis), o banco desejaria segmentar os correntistas em grupos: ativo, moderado e passivo, baseado em dados dos ltimos trs anos. A diviso de marketing usa a segmentao dos clientes para definir estratgias diferenciadas para os vrios grupos (cluster).
70
Emprstimo
xx x x x x x x x Cluster 3 Passivo
De fato pode no haver tais classes no base de dados, no sendo possvel caracterizar os grupos. Na anlise de agrupamentos, os grupos ou classes so construdos com base na semelhana entre os elementos, cabendo ao analista das classes resultantes avaliar se estas significam algo til. Exemplo de sintomas e doenas, onde vrias doenas apresentam os mesmos sintomas. A anlise de agrupamentos normalmente uma tcnica preliminar utilizada quando nada ou pouco se sabe sobre os dados, como na metodologia da descoberta no supervisionada de relaes.
Segmentao de mercado uma tpica aplicao de anlise de agrupamentos.
Agrupar , baseado em medidas de semelhana, definir quantas e quais classes existem em um conjunto de entidades.
Ferramentas mais utilizadas: Redes neurais artificiais, Estatstica (Anlise de conglomerados (Cluster Analysis)) e Algoritmos genticos. 72
Descrio
Algumas vezes o propsito na realizao de data mining descrever o que est acontecendo numa base de dados, de forma que aumente o nosso entendimento (conhecimento) sobre os consumidores, produtos. Se fizermos uma boa descrio do comportamento facilitar encontrar uma explicao para o mesmo.
73
Outra etapa importante da preparao de dados a sua complementao. Num grande banco de dados comum a presena de dados faltantes por falhas de digitao, erros de preenchimento de formulrios, ou mesmo porque os registros pertencem a empresas ou pocas diferentes nas quais aquele dado em especfico no era questionado ou considerado importante. Muitas ferramentas de data mining precisam de registros completos, com todos os dados. Para complementarmos os dados podemos simplesmente assumirmos um valor padro. Outra forma melhor utilizarmos a mdia dos demais registros. Finalmente, podemos usar uma ferramenta de inteligncia artificial ou estatstica para imputao de dados. A etapa de preparao de dados pode lidar ainda com processos de eliminao de registros cujos dados paream errados ou no representativos do fenmeno em estudo, alm da eliminao de rudo que de alguma forma tenha sido adicionado ao dado. Aqui, tambm pode-se usar tcnicas estatsticas e de inteligncia artificial, como se fosse um data mining prvio ao data mining final.
75
Protocolo:
1. 2. Definio do problema a ser estudado ou o objetivo a ser alcanado Descoberta das relaes pelo uso das tcnicas de data mining 1. Nesta fase necessita-se de conhecimento das tarefas (classificao, agrupamento, predio, previso, estimao, etc.) aplicveis e das ferramentas (regresso, cluster, rvores de deciso, redes neurais artificiais,etc) capazes de realiz-las. Aps a escolha da tarefa e da ferramenta em funo do problema estudado, preciso realizar a etapa operacional de preparao dos dados Aps estas etapas inicia-se a aplicao do data mining propriamente dito e cujo resultado um conjunto de relaes novas descobertas mecanicamente.
2. 3.
76
3.
Anlise das novas relaes 1. Nesta etapa os analistas estudam (explicam) as novas relaes encontradas e seleciona aquelas relevantes Escolhidas as relaes consideradas novas e utilizveis, a prxima etapa sua aplicao, dependendo do objetivo do trabalho. Numa empresa, precisase de relaes utilizveis ou transformveis em algum lucro ou eficincia.
4.
5.
Avaliao dos resultados 1. Finalmente temos a etapa de avaliao na qual os resultados da aplicao, ou explicao, das novas relaes escolhidas so contrapostos aos objetivos iniciais da primeira etapa. Eventualmente, retorna-se para a redefinio do problema.
77