Você está na página 1de 9

CENTRO UNIVERSITRIO DE UNIO DA VITRIA - UNIUV

Acir Dobler Junior

DATA MINING

UNIO DA VITRIA PR 2007

CENTRO UNIVERSITRIO DE UNIO DA VITRIA - UNIUV

Acir Dobler Junior

DATA MINING
Trabalho apresentado para obteno de nota para o segundo bimestre, ao quarto ano do curso de Informtica de Gesto do Centro Universitrio de Unio da Vitria - UNIUV Prof Alexandre Manoel dos Santos

UNIO DA VITRIA 2007

INTRODUCO Um ambiente de apoio tomada de decises, integrando tcnicas de data mining sobre um ambiente de data warehousing, possibilita um grande nmero de aplicaes, que j vm sendo implementadas em diversos segmentos de negcios, como manufatura, automao de pedido de remessas, varejo, gerenciamento de inventrios, financeiro, anlise de risco, transporte, gerenciamento de frotas, telecomunicao, anlise de chamadas, sade, analise de resultados, markenting, estabelecimento do perfil dos consumidores, seguros, deteco de fraude, dentre outros. Data Mining no passa de um processo de descobrir padres estatsticos significativos em grandes conjuntos de dados, que de outra maneira permaneceriam escondidos durante um exame casual. Estes podem descrever associaes imprevistas, tendncias e ralaes, que podem ser usadas para fazer predies (um fenmeno conhecido como previses). Isto atingido pela capacidade que as ferramentas de data mining tm de procurar relaes mediante os diversos atributos (ou dimenses) os dados, tornando possvel que os utilizadores finais possam colocar questes em termos relativamente vagos ou gerais, ao contrrio de ferramentas de investigao.

1 CONCEITO DE DATA MINING


O grande volume de dados disponveis cresce a cada dia e desafia a nossa capacidade de armazenamento, seleo e uso. Esta tecnologia com suas ferramentas permitem a "minerao" destes dados a fim de gerar um real valor do dado transformando-o em informao e conhecimento. Esta tecnologia formada por um conjunto de ferramentas que atravs do uso de algoritmos de aprendizado ou baseados em redes neurais e estatstica, so capazes de explorar um grande conjunto de dados, extraindo destes conhecimento na forma de hipteses e de regras. Diariamente as empresas acumulam diversos dados em seus bancos de dados, tornando-os verdadeiros tesouros de informao sobre os vrios processos e procedimentos das funes da empresa, inclusive com dados e hbitos de seus clientes, suas histrias de sucesso e fracassos. Todos estes dados podem contribuir com a empresa, sugerindo tendncias e particularidades pertinentes a ela e seu meio ambiente interno e externo, visando uma rpida ao de seus gestores. Com a gerao de informaes e conhecimentos teis para as empresas, os seus negcios podem dar mais lucratividade para as mesmas. Os recursos da Tecnologia da Informao, mais precisamente a capacidade do hardware e software disponveis podem efetuar atividades em horas, o que tradicionalmente as pessoas levariam meses. Efetivamente o DM cumpre o papel de descoberta de conhecimentos. Os sistemas tradicionais de processamento de transaes on-line (OLTP) das empresas so ferramentas capazes de manipular dados de forma rpida, segura e efetiva em bancos de dados, mas que apresentam restries para gerar informaes com anlises significativas. Estas restries so melhores trabalhadas quando as empresas se utilizam da tecnologia de DM aliada outras tecnologias, tais como, Knowledge Discovery in Databases (KDD), Database Marketing e Inteligncia de Negcios (business intelligence). A tecnologia Data Mining e seus recursos pode ser aplicada no funcionamento dos modelos de Sistemas de Informao Executivos, principalmente nos Sistemas de Informao Gerencial (SIG) e Estratgicos (SIE).

2 ETAPAS DO DATA MINING


Os passos fundamentais de uma minerao bem sucedida a partir de fontes de dados (bancos de dados, relatrios, logs de acesso, transaes, etc) efetua-se uma limpeza (consistncia, preenchimento de informaes, remoo de rudo e redundncias, etc). Disto nascem os repositrios organizados (Data Marts e Data Warehouses), que j so teis de diversas maneiras. Veja na figura 01 o processo de descoberta do conhecimento a partir de uma aplicao de Data Mining.

Figura 01 Mas a partir deles que se pode selecionar algumas colunas para atravessarem o processo de minerao. Tipicamente, este processo no o final da histria: de forma interativa e frequentemente usando visualizao grfica, um analista refina e conduz o processo at que valiosos padres apaream. Observe que todo esse processo parece indicar uma hierarquia, algo que comea em instncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado, mas muito valioso. Este um conceito importante. Encontrar padres requer que os dados brutos sejam sistematicamente "simplificados" de forma a desconsiderar aquilo que especfico e privilegiar aquilo que genrico. Faz-se isso porque no parece haver muito conhecimento a extrair de eventos isolados. Uma loja de sua rede que tenha vendido a um cliente em particular uma quantidade impressionante de um determinado produto em uma nica data pode apenas significar que esse cliente em particular procurava grande quantidade desse produto naquele exato momento. Mas isso provavelmente no indica nenhuma

tendncia de mercado. Em outras palavras, no h como explorar essa informao em particular para que no futuro a empresa lucre mais. Apenas com conhecimento genrico que isto pode ser obtido. Por essa razo devemos, em Data Mining, controlar nossa vontade de "no perder dados". Para que o processo d certo, necessrio sim desprezar os eventos particulares para s manter aquilo que genrico.

3- LOCALIZANDO PRADRES NO DATA MINING

Padres so unidades de informao que se repetem. A tarefa de localizar padres no privilgio da Minerao de dados. Nosso crebro utilizase de processos similares, pois muito do conhecimento que temos em nossa mente , de certa forma, um processo que depende da localizao de padres. Para exemplificar esses conceitos, vamos propor um breve exerccio de uma induo de regras abstratas. Nosso objetivo tentar obter alguma expresso genrica para a seguinte seqncia: Seqncia original: ABCXYABCZKABDKCABCTUABEWLABCWO Observe atentamente essa seqncia de letras e tente encontrar alguma coisa relevante. Veja algumas possibilidades: Passo 1: A primeira etapa perceber que existe uma seqncia de letras que se repete bastante. Encontramos as seqncias "AB" e "ABC" e observamos que elas ocorrem com freqncia superior das outras seqncias. Passo 2: Aps determinarmos as seqncias "ABC" e "AB", verificamos que elas segmentam o padro original em diversas unidades independentes: "ABCXY" "ABCZK" "ABDKC" "ABCTU" "ABEWL" "ABCWO"

Passo 3: Fazem-se agora indues, que geram algumas representaes genricas dessas unidades: "ABC??" "ABD??" "ABE??" e "AB???", onde '?' representa qualquer letra No final desse processo, toda a seqncia original foi substituda por regras genricas indutivas que simplificou (reduziu) a informao original a algumas expresses simples. Esta explicao um dos pontos essenciais da minerao de dados, como se pode fazer para extrair certos padres de dados brutos. Contudo, mais importante do que simplesmente obter essa reduo de informao, esse processo nos permite gerar formas de predizer futuras ocorrncias de padres.

4 TCNICAS DE MINERAO
Segue Abaixo algumas das tcnicas mais utilizadas para a minerao de dados; 4.1 Regras Caracterizadoras Obtm-se regras que caracterizam um conceito satisfeito por todos (ou pela maioria) dos exemplos disponveis. Assim, possvel descobrir formas de sumarizar certas caractersticas que podem revelar padres nos dados. Exemplos: a. Sintomas de uma doena especfica podem ser sumarizados por uma regra caracterizadora b. Gerao de regras que caracterizem quais os estudantes de graduao que se decidiram por prosseguir com uma carreira acadmica (MBA, doutorado).

4.2 Regras Discriminantes Neste caso, o que se almeja obter regras que discriminem (separem) um conceito alvo em relao a outros conceitos (classes contrastantes). Exemplo: a. Para distinguir uma doena, procura-se por regras que sumarizem as caractersticas que separam esta doena das outras. b. Tenta-se achar as regras que discriminem uma loja bem sucedida de vrias outras no to bem sucedidas. 4.3 Regras Associativas Nesta procura-se estabelecer regras que interliguem um conceito a outro. A utilidade deste procedimento muito grande, conforme pode ser visto nos exemplos abaixo: a. Achar todas as regras que tenham "coca-cola diettica" como conseqentes. Isto ir auxiliar no planejamento de lojas para vender melhor este produto (privilegiam-se os antecedentes dessas regras). b. Achar todas as regras que tenham "iogurte" no antecedente. Isto ir auxiliar na determinao do impacto nas receitas, caso este produto seja retirado das prateleiras. c. Achar todas as regras com "salsicha" no antecedente e "mostarda" no conseqente. Isto ir auxiliar na obteno de melhores regras para determinar quais os itens que devem ser vendidos em conjunto com salsichas para aumentar as vendas de mostarda. 4.4 Regras de Evoluo Temporal Aqui a preocupao detectar associaes entre itens ao longo do tempo. Descobre-se padres de compras aps um evento inicial de aquisio. Exemplos: a. Consumidor comprou um PC hoje, ir comprar um DVD-ROM em 6 meses. Isto permite que se faa uma oferta desse produto a todos os que esto nesta situao. b. Um consumidor adquiriu um videocassete, em 4 meses ter muita probabilidade de comprar uma camcorder. Faz-se uma promoo especial para estes clientes.

CONCLUSO
Data mining esta extremamente ligado ao SAD pois com os dados minerados possvel implementar uma deciso mais correta, o Data Mining vai muito alm da simples consulta a um banco de dados, no sentido de que permite aos usurios explorar e inferir informao til a partir dos dados, descobrindo relacionamentos escondidos no banco de dados. O Data Mining no o final da atividade de descoberta de conhecimentos, somente o incio.

BIBLIOGRAFIA

CARVALHO, Luis Alfredo Vidal. DATA MINING A Mineracao de dados. So Paulo: rica,2001. Data Mining, Inteligncia Artificial e Data Mining. Disponvel <http://www.utp.br/informacao/si/si_intelig%C3%AAncia%20artificial%20e %20data%20mining.htm>. Acessado em 23/06/2007. em:

Você também pode gostar