Você está na página 1de 14

UNIVERSIDADE PAULISTA

MINERAO DE DADOS

LUIS G. DE J. OLIVEIRA VINICIUS MARCUCI

ASSIS, 2013

SUMRIO

1. Resumo. 2. Introduo. 3. Descoberta de Conhecimento em Bases de Dados (KDD). 4. Minerao de Dados. 5. Tarefas de Minerao de Dados. 5.1 Aplicaes Prticas 5.2 Segmento de Mercado 5.3 Varejo 5.4 Mercado Financeiro 6. Classificao. 7. Concluso. 8. Referncias.

3 3 4 5 5 7 8 10 11 12 13 14

RESUMO

Entre vrias questes estratgicas que giram em torno de uma organizao, pode-se dizer que a capacidade de analisar e reagir rapidamente s mudanas impostas pelo mercado, esta diretamente relacionada capacidade de digerir as informaes e transform-las em conhecimento. A utilizao da minerao de dados pode trazer diversos benefcios as empresas e organizaes. Para isso, existem importantes tcnicas que auxiliam nesse processo, dentre as quais se destacam as regras de Classificao e Associao. Partindo dessa observao, definiu-se como objetivo geral, aplicar as tcnicas de minerao de dados a um subconjunto de dados de uma empresa varejista.

INTRODUO

Com avano na coleta e no armazenamento de dados, permitiu-se que organizaes acumulassem em base de dados uma enorme quantidade de informaes. Entretanto, a extrao de conhecimento nesses dados, tem provado ser extremamente desafiador. Normalmente, tcnicas tradicionais de anlise de dados no podem ser usadas devido ao tamanho do conjunto de dados ser muito grande. Em outras situaes a natureza no trivial dos dados significa que abordagens tradicionais no podem ser aplicadas. Diversas organizaes, por exemplo, a Wal-Mart, TAM linhas reas, IBGE e a NASA, detm em seu departamento de tecnologia bases de dados de centenas de terabytes de informaes. Sabendo-se que o armazenamento do maior volume possvel de informaes benfico para os seus processos, aceitvel deduzir que a dificuldade de interpretar e analisar esses dados so diretamente proporcionais quantidade dos mesmos.

DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS (KDD)

A minerao de dados no foi criada com objetivo de substituir as tcnicas atuais de anlise de dados. Ela utiliza como base para a maioria de seus trabalhos os experimentos da Estatstica, Inteligncia Artificial, Maquina de Estado e Banco de dados para construir seu modelo. O desejo dos pesquisadores em minerao de dados de trazer tais tcnicas existentes tem contribudo para amplitude do campo, assim como seu rpido crescimento. O termo KDD surgiu no final da dcada de 80, com objetivo de procurar conhecimento em bases de dados. Muitas so as definies para este conceito, sendo a seguinte definio a mais utilizada: KDD um processo, de vrias etapas, no trivial, interativo e iterativo, para identificao de padres compreensveis, vlidos, novos e potencialmente teis a partir de grandes conjuntos de dados (FAYYAD, 1996). Aps a realizao fases anteriores, a Minerao de Dados (Data Mining) aplicada. Essa fase a mais importante do processo de KDD, sendo nela utilizado algum algoritmo que utiliza uma determinada tcnica, e que tem como objetivo elaborar um modelo para representar um conjunto de dados. A Interpretao ou Ps-Processamento a fase que identifica, entre os padres extrados na etapa de Data Mining. Esta fase envolve todos os participantes que avaliam de forma criteriosa os resultados. importante interpretar os padres minerados, possivelmente retornando a qualquer fase anterior para novas iteraes, caso seja necessrio. A fim de apresentar o conhecimento descoberto ao usurio. Figura 1 apresenta as atividades que compem o processo de KDD.

MINERAO DE DADOS

Minerao de Dados ou Data Mining o principal processo da fase de descoberta de conhecimento em bases de dados para extrao de conhecimento, baseando-se em tcnicas da estatstica, inteligncia artificial, computao paralela, mquina de estado, ela constri um longo histrico de pesquisas relacionadas a estas reas. Procurando por padres, relacionamentos entre dados, anomalias e regras, com objetivo de encontrar informaes ocultas, que possam ser relevantes a tomada de deciso e/ou avaliao de resultados. A minerao de dados possibilita encontrar informaes teis em grandes bases de dados ou at mesmo em amostras de um subconjunto de dados. Permitindo aos analistas, gerentes uma compreenso maior da informao, antes no vista em anlises tradicionais dos sistemas transacionais. Uma das motivaes para a utilizao da minerao de dados no comrcio a grande quantidade de dados armazenados eletronicamente, os varejistas podem

juntar os dados do ponto de venda (leitores de cdigo de barras) com informaes de registros web, registros de atendimentos entre outros para lhes auxiliar a compreender melhor as necessidades de seus clientes e a tomar decises de negcio com mais informaes precisas. Em outras palavras, descobrir informaes sem uma prvia formulao de hipteses e buscar por algo no intuitivo, na verdade tornar dados sem obviedade em valiosas informaes estratgicas.

TAREFAS DE MINERAO DE DADOS

As tarefas da minerao de dados so os tipos de descoberta que se pretende realizar em uma base de dados, isto , so as informaes que se deseja extrair. Para determinar qual tarefa a ser resolvida, deve-se ter um bom conhecimento do domnio da aplicao e saber o tipo de informao que se quer obter (FAYYAD, 1996; JOHN, 1997): A denio da tcnica de minerao a ser aplicada est intimamente relacionada com a tarefa de minerao que se deseja executar, j que essa tarefa dene o relacionamento entre os dados, ou seja, o modelo. Existem diversas tarefas da minerao de dados entre elas: classicao, clusterizao, regresso e associao. Um breve resumo das tarefas mais importantes so descritos a seguir. A tarefa de associao foi desenvolvida inicialmente por Agrawal et al. (1993). E tem como objetivo principal encontrar padres do tipo XY, ou seja, o quanto X implica em Y onde X e Y so conjuntos distintos. Por exemplo, um cliente que compra o item A freqentemente compra tambm o item B. Atravs dessa tarefa pode-se estimar que um conjunto de item X possui uma tendncia a se repetir freqentemente em conjunto com um valor Y. Esta implicao avaliada atravs de dois fatores: suporte e confiana. (Agrawal e Srikant, 1994). O suporte determina a freqncia na qual uma regra aplicvel a um determinado conjunto de dados, enquanto que a confiana determina a freqncia na

qual os itens em Y aparecem em transaes que contenham X. Por exemplo, no banco de dados relacional da loja de informtica, um analise de associao encontra regras do tipo: Idade (X, 30 39) ^ renda (X, R$500,00 R$1.000) Compra (XCelular) [Suporte = 2%, Confiana = 60%] Onde X uma varivel que represente o cliente. A regra indica, que dois clientes estudados, 2% (suporte) tm entre 30 a 39 anos de idade e renda de R$500,00 a R$1.000,00 reais e compraram celular. H 60% de possibilidade (confiana) de um cliente desse grupo de idade e renda vir a comprar um celular. A tarefa de Agrupamento, tambm denominada de clusterizao ou segmentao, utilizada para dividir os dados em grupos (clusters). O objetivo que os objetos dentro de um grupo sejam semelhantes e diferentes de outros objetos de outros grupos. Quanto maior a semelhana dentro de um grupo e maior a diferena entre grupos, melhor ou mais distinto ser o agrupamento.

APLICAES PRTICAS

Segundo estimativas do The Data Warehousing Institute [TDWI, 2006], a m qualidade sobre os dados dos clientes, custa, s nos Estados Unidos, 611 bilhes de dlares por ano. A realidade que dados mal-administrados causam mais prejuzos ainda que isso. Dado a importncia de negcio atrelada administrao de dados, focando na qualidade dos mesmos, impressionante a forma causal com a qual muitas empresas encaram e administram este recurso. Neste captulo sero mostrados alguns exemplos de empresas de diferentes reas da sociedade que investiram na administrao de dados, focando na melhoria de sua qualidade e gerao de conhecimento a partir dos mesmos, e obtiveram retorno empresarial.

SEGMENTAO DE MERCADO

Um dos grandes objetivos de uma organizao conhecer seus clientes. Este conhecimento precisa ocorrer em vrios nveis, desde o tipo de produto desejado at que tipo de ofertas esto dispostos a aceitar mesmo que os produtos no sejam essenciais no momento. Tambm interessante saber o perfil mdio do consumidor, sua renda, sexo, idade, tamanho da famlia, entre outros aspectos. Com estas informaes, a empresa poder ter em estoque o que o cliente mdio mais provavelmente precise e fazer ofertas com certo grau de certeza do seu sucesso a clientes especficos. Esta forma de mercado dirigido pode atingir o extremo de uma relao individual com cada cliente medida que a empresa deseje investir em segmentaes (classificaes) sucessivas de sua clientela.Esta tpica tarefa de minerao de dados usada por grandes lojas de departamentos e administradoras de carto de crdito e se utiliza dos dados das compras dos clientes no passado recente para traar perfis de consumo. Informaes como idade, 31sexo, estado civil, salrio, moradia prpria ou alugada, bairro e cidade tambm so informaes importantes pois permitem a setorizao ainda mais fina dos clientes. Se os produtos comprados so avaliados de alguma forma quanto satisfao do cliente atravs de pesquisas por telefone ou Internet por exemplo, um quadro ainda maior pode ser traado. Em uma determinada rede de lojas, escolheu-se apenas 5 (cinco) categorias de produtos para minerar e melhorar as vendas: vesturio esportivo, aparelhos de ginstica, decorao, moblia e CD. A idia da empresa era fazer um maior direcionamento clientela quando fosse enviar catlogos e ofertas. A rede de lojas possui 3 (trs) bases de dados, contendo uma delas os dados dos clientes para fins de credirio e verificao de residncia, cheques, entre outros;outra base contendo os dados sobre produtos em estoque, seus preos e descries;e a terceira base contendo os dados sobre as compras executadas. Uma empresa de data warehouse foi contratada para unificar estes 3 (trs) bancos de dados e permitir anlises globais dos seus negcios. Aps a construo do data

warehouse, foi fcil agregar dados sobre os clientes que realizam compras de produtos das 5 (cinco) categorias. A empresa decidiu pela utilizao de redes neurais para a anlise de agrupamentos e no fundo a segmentao de mercados nada mais que uma anlise de agrupamentos. Uma mdia dos dados de todos os clientes foi realizada para efeitos de comparao com o perfil mdio dos clientes de cada agrupamento. Em mdia, os consumidores das 5 (cinco) categorias de produtos escolhidos pela rede de lojas para anlise tm 42 anos, ganham US$ 35.000,00 por ano, so em maioria (58%) do sexo feminino e 50% casados contra 35% solteiros, possuindo 40% deles casa prpria. Estes clientes gastaram em mdia no ltimo ano US$ 500,00 em vesturio esportivo, US$ 1.000,00 em equipamentos de ginstica, US$ 1.250,00 em decorao, US$ 780,00 em CD e US$ 1.100,00 em moblia.32 A rede neural criou um grupo de clientes contendo 48% do total com um perfil bastante semelhante ao perfil mdio descrito acima, com exceo de gastarem o dobro em decorao. O segundo maior grupo possui 29% dos clientes e tem 52 anos em mdia, gastando a metade que a mdia total em esportes e aproximadamente US$ 500,00 a mais da mdia em moblia. O terceiro grupo possui 20% dos clientes e consome aproximadamente o mesmo que a mdia geral com a diferena de gastar apenas um quarto da mdia em decorao. O ltimo grupo tem apenas 26 anos de idade em mdia e representa 11% do total gastando o dobro da mdia em esportes. Com base nesses resultados a empresa decidiu dividir sua mala-direta em grupos com diferentes ofertas: Em artigos de decorao para o primeiro grupo, em moblia para o segundo segmento de clientes, e em material esportivo para o quarto perfil de clientela. Certamente que os analistas de minerao de dados poderiam ter caminhado um pouco alm e procurado dividir os clientes em mais subgrupos de forma a permitir uma viso mais especfica. Porm, os quatro grupos descritos foram suficientes para as necessidades da empresa naquele momento [Carvalho, 2005].O processo de anlise de agrupamentos pode ser facilmente estendido para dividir as, aproximadamente, mil filiais da rede de lojas em todo os EUA em categorias e facilitar a distribuio de produtos, assim como a realizao de compras nos fornecedores e indstrias. Assim, ao invs de analisar o que cada uma das mil filiais

est necessitando para seus estoques e montar uma estrutura logstica enorme, podese agrupar lojas componentes de cada um dos grupos. O gerenciamento da rede de lojas fica, ento, bastante facilitado.

VAREJO

Vrios fatores podem contribuir para a necessidade de previso de vendas tais como a manuteno do cliente que no se frustra ao encontrar na loja o que deseja, o menor custo com estoques pela manuteno de estoques mais ajustados s vendas futuras, a melhor alocao de vendedores em funo da previso das vendas para o futuro perodo, entre outros. Os parmetros importantes a serem considerados quando se analisa a disponibilidade de produtos em uma loja so a capacidade de produo e distribuio da indstria produtora do item, a existncia ou no de propaganda realizada pelo produtor do item e o perodo do ano ou ms dependendo do produto tratado. Uma grande revendedora de automveis de vrios fabricantes nos seus diversos modelos observando sua perda de venda e de clientes a cada vez que no possua o desejado carro em seus estoques e, contrapondo este fato com o alto custo de manuteno de grandes estoques deste produto durvel e caro, resolveu desenvolver um sistema de previso de vendas. A empresa possua um banco de dados de vendas de carros nos ltimos 5 (cinco) anos e desejava um sistema de previso capaz de avaliar as vendas 15 dias a frente pois este era o tempo necessrio para encomenda e transporte de novos itens [Carvalho, 2005]. Alm da informao contida no banco de dados, necessrio contextualizar cada dado de venda com outras informaes como a existncia de propaganda realizada pelo fabricante, se a venda foi realizada em certos perodos do ano mais propcios compra de automveis e tambm ao fim de cada ms quando h um natural aquecimento das vendas. Como prever o futuro no nada fcil, a maior

quantidade de informao pertinente possvel deve ser considerada em qualquer metodologia. Foi escolhido pelo uso de uma rede neural. O treinamento da rede neural foi feito com dados de quatro anos e meio deixando os ltimos seis meses do perodo de 5 (cinco) anos de vendas para a testagem da capacidade de previso do sistema. O aprendizado mostrou-se eficiente tendo um erro mximo de previso em algumas semanas de 20%, porm o erro mdio se manteve dentro dos desejados 10%. Desta forma, o sistema passou a prever as vendas dos prximos 15 dias fornecendo mais tempo para a encomenda e transporte do produto. A cada quatro semanas, a rede neural era ensinada de novo, incluindo-se os dados de mais 4 (quatro) semanas ocorridas seis meses antes e testando-se o erro de previso utilizando-se sempre os ltimos 6 (seis) meses de vendas, agora incluindo as ltimas quatro semanas recentemente terminadas.

MERCADO FINANCEIRO

A empresa norte-americana LBS j h algum tempo (desde 1986) investe em tecnologia por achar que os enfoques tradicionais no gerenciamento de investimentos no fornecem resultados que superem expressivamente o lucro mdio de mercado. A empresa acredita que novas tcnicas podem capturar relaes de causa e efeito no lineares comuns no funcionamento do mercado financeiro.Com a utilizao de sistemas de previso a LBS esperava aumentar o retorno e minimizar os riscos de perda. Seu desejo era poder, baseado em sinais de hoje, prever as tendncias do mercado aps um determinado tempo, comprando e vendendo os papis corretos, nos tempos mais apropriados. A empresa tenta extrair dos dados passados e presentes alguma viso das variaes futuras. Prever o mercado financeiro no tarefa fcil, pois se no curto prazo os boatos e as guerras psicolgicas alteram preos muito rapidamente, no longo prazo ocorrem mudanas polticas nacionais e internacionais assim como catstrofes e outros fatos que alteram completamente as tendncias. As relaes micro e macro-

econmicas no so bem entendidas, sendo muito comum diferentes explicaes para eventos j ocorridos. A massa de dados a ser analisada muito grande e a evoluo das relaes com o tempo pode ser muito rpida, requerendo sistemas de anlise adaptativos. A LBS concluiu que a melhor soluo seria o uso de redes neurais. Decidiu construir uma rede neural para cada papel ao invs de uma nica rede neural para os milhares de papis existentes. Cada uma delas foi treinada com dados dos ltimos 3 (trs) meses e a cada nova semana era re-treinada. As redes neurais se mostraram muito adaptveis s flutuaes do mercado financeiro. Vrios experimentos se fizeram necessrios para a determinao das variveis importantes para a previso das tendncias de cada papel especfico. De fato, a LBS foi uma das mais importantes empresas do mercado financeiro nos EUA durante 7 (sete) anos consecutivos. Sua carteira cresceu durante este perodo de 25% a 100% ao ano e nunca houve uma perda maior que 7% durante este tempo. Se a minerao dos dados foi a responsvel por este sucesso no se pode afirmar, mas certamente alguma importncia tiveram, pois recursos considerveis foram destinados a este projeto [Carvalho, 2005].

CLASSIFICAO

A tarefa de Classificao uma tarefa da minerao de dados que associa ou classifica objetos a determinadas classes, ela busca prever uma classe de um novo dado automaticamente. Por exemplo, uma base de dados que armazena caractersticas de clientes, baseando em histricos de transaes anteriores, podemse classificar estes clientes em categorias para liberao de crdito. Um novo cliente poder ser classificado em uma das categorias definidas, de acordo com suas caractersticas.

CONCLUSO

A Minerao de Dados tornou-se uma ferramenta de apoio com papel fundamental na gesto da informao dentro das organizaes. A manipulao dos dados e a anlise das informaes de maneira tradicional tornou-se invivel devido ao grande volume de dados (coletadosdiariamente e armazenados em bases histricas). Descobrir padres implcitos e relacionamentos em repositrios que contm um grande volume de dados de forma manual, deixou de seruma opo. As tcnicas de minerao passaram a estar presentes no dia a dia. Os dados so considerados hoje como o principal ativo de um projeto de software. Isso sedeve, alm da reduo nos custos de aquisio de hardware e software, ao desenvolvimento detcnicas capazes de extrair, de forma otimizada, a informao contida, e muitas vezes implcita, nestes dados. Apesar dos bons resultados obtidos com aplicao da Minerao de Dados, os desaos ainda so muitos. Diversos problemas relativos ao uso da minerao (tais como a segurana dos dados e a privacidade dos indivduos), juntamente com o aumento na complexidade das estruturas de armazenamento, criam cenrios complexos e desaadores. Alm disso, novas tendncias como a Web Semntica, exigem que variaes dos algoritmos tradicionais sejam desenvolvidas. A Minerao de Dados atualmente caminha para uma popularizao. As ferramentas, cada vez mais amigveis e fceis de serem usadas por usurios que no sejam especialistas em minerao, desempenham um papel fundamental nesse sentido. Esta popularizao fundamental para o crescimento e a consolidao da Minerao de Dados. No resta dvida de que essa uma rea extremamente promissora e que, apesar dos resultados j obtidos, ainda tem muito para oferecer.

REFERENCIAS

FAYYAD, U. M.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. Artificial Intelligence Magazine, v. 17, n. 3, p. 3754, 1996a.

Tan, P.-N., Steinbach, M., and Kumar, V. (2005). Introduction to Data Mining. Addison Wesley, us ed edition.

[Carvalho, 2005] Lus Alfredo Vidal de Carvalho. Data Mining A Minerao de Dados no Marketing, Medicina, Economia, Engenharia e Administrao. 2005