Você está na página 1de 63

unesp

Governo do Estado de Sa o Paulo Universidade Estadual Paulista

FACULDADE DE ENGENHARIA DE GUARATINGUETA

ESPECIALIZAC O EM INFORMA TICA EMPRESARIAL

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Deciso

CRISTIANO ARAUJO DIAS

GUARATINGUETA - SP BRASIL

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Deciso

CRISTIANO ARAUJO DIAS

Monografia apresentada a Faculdade de Engenharia da Universidade Estadual Paulista Campus de Guaratinguet , como parte dos requisitos para obtenc o do certificado de Especialista em Inform tica Empresarial.

Orientador: Prof. Dr. Galeno Jose de Sena

GUARATINGUETA 2002
ii

unesp

UNIVERSIDADE ESTADUAL PAULISTA CAMPUS DE GUARATINGUETA

DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS PARA APOIO A TOMADA DE DECISO


CRISTIANO ARAUJO DIAS

ESTA MONOGRAFIA FOI JULGADA ADEQUADA PARA OBTENC O DO TITULO DE ESPECIALISTA EM INFORMA TICA EMPRESARIAL APROVADO EM SUA FORMA FINAL PELA COORDENAC O DO CURSO DE ESPECIALIZAC O EM INFORMA TICA EMPRESARIAL

Prof. Dr. Edson Luiz Franc a Senne Coordenador

Banca Examinadora:
Prof. Dr. Galeno Jose de Sena Orientador UNESP/FEG

Prof. AURY DE SA LEITE

Prof. TEOFILO MIGUEL DE SOUZA

Maio de 2002
iii

DADOS CURRICULARES
CRISTIANO ARAUJO DIAS NASCIMENTO FILIAC O 28/05/1976 Canoas / RS Joel Valqui Godoi Dias Glaci Teresinha Araujo Dias Engenharia de Computac o Universidade Catolica Dom Bosco Campo Grande Mato Grosso do Sul 1996 2000

2000

iv

Aos meus pais Joel e Glaci, aos meus irm os Fabiane e Tales e a minha namorada Andreia.

AGRADECIMENTOS
Agradec o primeiramente a Deus, que me deu forc as e saude para enfrentar mais esta etapa. Em especial, agradec o aos meus pais e irm os, pela compreens o nas horas de aus ncia, pelo apoio nos momentos de duvida e paci ncia nas horas de cansac o. Aos meus mestres, pelas horas de estudo a nos dedicadas no esforc o para uma boa orientac o acad mica, em especial ao meu orientador Professor Doutor Galeno Jose de Sena.

vi

Se atribuirmos algum significado especial a um dado, este se transforma em uma informac ao (fato). Se os especialistas elaboraram uma norma (regra), a interpretac ao do confronto entre o fato e a regra constitui um conhecimento..

Alberto Sulaiman Sade

vii

SUMA RIO
LISTA DE FIGURAS ............................................................................................................x LISTA DE ABREVIATURAS..............................................................................................xi RESUMO .............................................................................................................................xii ABSTRACT ....................................................................................................................... xiii 1 2 2.1. 2.2. 2.2.1 2.2.2 2.2.3 2.2.4 2.3. 2.3.1 2.3.2 2.3.3 3 3.1. 3.1.1 3.1.2 3.1.3 3.2. 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.3. 3.4. 3.4.1 3.4.2 INTRODUC O .....................................................................................................1 MANIPULAC O DE DADOS.............................................................................4 Sistemas de Informac a o Gerencial..................................................................4 OLTP, OLAP e Data Warehouse....................................................................6 Caracterizac o ...............................................................................................6 Caracter sticas do Data Warehouse ...............................................................8 Criterios para a criac o de um data warehouse .............................................9 Processos no data warehouse.......................................................................11 Descoberta de Conhecimento em Banco de Dados (KDD) .........................12 Caracterizac o .............................................................................................12 O processo de KDD.....................................................................................13 Pesquisas correntes sobre KDD...................................................................15 DATA MINING ...................................................................................................17 Caracterizac a o ................................................................................................17 Natureza da tarefa........................................................................................17 Objetivo a ser buscado.................................................................................18 Grau de estruturac o dos dados ...................................................................18 Processo de Data Mining................................................................................19 Identificac o da Fonte de Dados .................................................................19 Preparac o dos Dados..................................................................................19 Construc o de um Modelo...........................................................................20 Avaliac o do Modelo...................................................................................21 Desdobramento do Modelo .........................................................................21 Relac a o entre Data Mining e Data Warehouse............................................21 Problemas com Data Mining .........................................................................22 Informac o limitada.....................................................................................22 Valores Perdidos..........................................................................................22
viii

3.4.3 3.5. 3.5.1 3.5.2 3.5.3 3.5.4 3.5.5 3.5.6 3.5.7 4 4.1. 4.1.1 4.1.2 4.1.3 4.1.4 4.2. 5 5.1.

Tamanho, Atualizac o e Campos Irrelevantes ............................................23 Exemplos Pr ticos de Data Mining...............................................................23 Um exemplo cl ssico - Supermercado ........................................................23 Um exemplo complexo envolvendo dados farmac uticos ..........................24 Lojas Brasileiras ..........................................................................................27 Wal-Mart .....................................................................................................28 Bank of America..........................................................................................28 Banco Itau....................................................................................................29 Outros exemplos de informac es obtidas atraves do uso de data mining ...29 SOFTWARES DE DATA MINING ..................................................................30 Mine Set ...........................................................................................................30 Como o MineSet Trabalha...........................................................................30 Iniciando o MineSet.....................................................................................31 Usando o Tool Manager ..............................................................................33 Visualizando os Dados ................................................................................35 WizRule ...........................................................................................................42 CONSIDERAC O ES FINAIS..............................................................................47 Dificuldades Encontradas ..............................................................................48

BIBLIOGRAFIA ..................................................................................................................49

ix

LISTA DE FIGURAS

FIGURA 1.1. PIR MIDE DO CONHECIMENTO ..............................................................2 FIGURA 2.1. ESQUEMA DE DATA WAREHOUSE .........................................................6 FIGURA 2.2. PROCESSO DE DESCOBERTA DE CONHECIMENTO ..........................14 FIGURA 4.1. TELA DE ABERTURA DO MINESET 3.0 DA SILICON GRAPHICS.....30 FIGURA 4.2. TOOL MANAGER .......................................................................................32 FIGURA 4.3. CAIXA DE DIA LOGO PARA CONEXO AO SERVIDOR .....................32 FIGURA 4.4. CAIXA DE DIA LOGO IMPORT DATA.....................................................33 FIGURA 4.5. TOOL MANAGER .......................................................................................34 FIGURA 4.6. SCATTER VISUALIZER .............................................................................35 FIGURA 4.7. TREE VISUALIZER.....................................................................................37 FIGURA 4.8. DETALHE DA A RVORE NO TREE VISUALIZER ..................................38 FIGURA 4.9. MAP VISUALIZER ......................................................................................40 FIGURA 4.10. ANIMAC O NO MAP VISUALIZER ......................................................41 FIGURA 4.11. TELA PRINCIPAL DO WIZRULE............................................................42 FIGURA 4.12. CONFIGURAC O DE UMA TABELA DO TIPO ASCII ........................43 FIGURA 4.13. DEFINIC O DAS LIMITAC OES DE REGRAS ......................................44 FIGURA 4.14. PROPRIEDADES DAS REGRAS..............................................................44 FIGURA 4.15. REGRAS GERADAS..................................................................................45

LISTA DE ABREVIATURAS
SI. Sistemas de Informac o. SAD. Sistema de Apoio a Decis o. OLTP. On-Line Transaction Processing (Processamento Transacional em Tempo Real).. OLAP. On-Line Analytic Processing (Processamento Anal em Tempo Real) tico DW. Data Warehouse (Depositos de Dados) KDD. Knowledge Discovery in Database (Descoberta de Conhecimento em Banco de Dados)

xi

DIAS, C.A. Descoberta de Conhecimento em Banco de Dados para Apoio Tomada de Decisao. Guaratinguet , 2002. Monografia (Especializac o em Inform tica Empresarial) Faculdade de Engenharia, Campus de Guaratinguet , Universidade Estadual Paulista.

RESUMO

A coleta de dados, seja por sistemas tradicionais, como por exemplo em transac es banc rias, registros de compras ou por metodos inovadores, como atraves da Internet, tem atingido enormes proporc es. A grande quantidade de dados assim coletados se tornou um desafio para os gerentes, cuja func o e a tomada de decises. Os metodos tradicionais de transformac o de dados em conhecimento dependem da an lise e da interpretac o pessoal dos mesmos, o que e um processo lento, caro e altamente subjetivo. Neste contexto, faz-se necess ria uma ferramenta capaz de extrair informac es uteis para o suporte a s decises, a s estrategias de marketing e a s campanhas promocionais, dentre outras. A busca por estas informac es e realizada utilizando sofisticadas tecnicas de intelig ncia artificial na an lise daqueles dados, a fim de encontrar padres e regularidades nos mesmos. A esse processo d -se o nome de Descoberta de Conhecimento em Banco de Dados (KDD Knowledge Discovery in Database). Um passo particular do KDD e aquele denominado de data mining que consiste na aplicac o de algoritmos espec ficos para a extrac o de padres a partir de bases de dados. Ao longo deste trabalho ser apresentado o cen rio onde KDD e comumente utilizado, bem como, as bases para a correta e produtiva aplicac o destas tecnicas. O conhecimento sobre a forma como os dados est o armazenados aumentam as chances de acerto na escolha das ferramentas de prospecc o. Portanto, ser trac ado um perfil das formas mais comuns de bancos de dados existentes. Para estudo e avaliac o da real viabilidade do uso do KDD em uma empresa disposta a investir na prospecc o de seus dados operacionais, foram analizados dois softwares de data mining, a saber: o MineSet e o WizRule.

Palavras-Chaves: minerac o de dados, descoberta de conhecimento, tomada de decis o.

xii

DIAS, C.A. Knowledge Discovery in Databases to Support the Decision Making. Guaratinguet , 2002. Monografia (Especializac o em Inform tica Empresarial) Faculdade de Engenharia, Campus de Guaratinguet , Universidade Estadual Paulista.

ABSTRACT

The collection of data, be it by traditional systems (bank transactions, purchase records) or by innovative methods (through the Internet), has reached enormous proportions. The large number of data became a problem for the managers, whose function is to make decisions. The traditional methods of transformation of data in knowledge depends on the manual analysis and on the interpretation of the same ones, which is a slow, expensive and highly subjective process. In this context, it is necessary a tool capable of extracting useful information the support decisions, marketing strategies, promotional campaigns and others. The search for these information is made using sophisticated techniques of artificial intelligence in the analysis of the data, in order to find patterns and rules in the same ones. This process is called Knowledge Discovery in Database (KDD). A peculiar step of KDD is called data mining that consists of the application of specific algorithms for the extraction of patterns from databases. Along this work it will be presented a scenario where KDD is commonly used, as well as, the bases for the correct and productive application of these techniques. The knowledge on the form as the data are stored, increases the chances of success in the choice of the mining tools. Therefore, it will be outlined a profile of the commonest forms of existing databases. For the study and the evaluation of the real viability of the use of KDD in an company interested in investing in the search for its operational data, two softwares of data mining have been analyzed, namely: the MineSet and the WizRule.

Key Words: data mining, knowledge discovery, decision making.


xiii

1 Introduc ao
Apesar da inform tica desempenhar um papel de import ncia incontest vel nas empresas e de conceitos como o de Sistemas de Apoio a Decis o terem sido conceitualmente propostos j no final da decada de setenta, a efic cia da informac o, que e fornecida pelos sistemas de informac o e apoio gerencial, ainda est por ser comprovada. Especialmente no que diz respeito a informac o para a alta administrac o, onde se manipulam vari veis estrategicas e problemas pouco estruturados. Diversas empresas avanc am no escuro, sem conhecer o perfil de seus clientes, quais os tipos de produtos e onde eles os adquirem. Utilizam poucas ferramentas que visem o acompanhamento do impacto de suas estrategias sobre o resultado de seus investimentos e a efic cia de suas ac es. As ferramentas de data mining podem prever futuras tend ncias e comportamentos, permitindo a essas empresas um novo processo de tomada de decis o, baseado principalmente no conhecimento acumulado, e freq entemente desprezado, contido em seus proprios bancos de dados. A mudanc a de paradigma, causada por uma conjunc o de fatores, como o grande acumulo e coleta de dados, o relativo barateamento do processamento e dos computadores, e o surgimento de novas oportunidades, como o marketing direto, trouxe um desenvolvimento mpar para as tecnicas de descoberta de conhecimento. O presente trabalho tem como principal objetivo apresentar as tecnologias existentes na rea de descoberta de conhecimento, ferramentas essas que prov m aos gerentes de negocios o tratamento adequado a informac o cotidiana das empresas em que atuam. A manipulac o de informac es por meio de processos computacionais confere aos dados brutos a propriedade de demonstrar conhecimentos outrora ocultos nos infinitos registros de dados operacionais. O cap tulo 2, intitulado Manipulac o de Dados, fornece o cen rio atual encontrado nas empresas com relac o a utilizac o da inform tica para o apoio a tomada de decis o. As grandes bases de dados fornecem uma valiosa fonte de conhecimento que pode auxiliar os gerentes e diretores, porem esses dados est o dispostos de forma incompreens vel. A busca por conhecimento oculto nesses dados e a base dessa pesquisa. O que torna poss a busca por conhecimento nessas bases de dados e principalmente vel a popularizac o da inform tica com o barateamento de hardware e evoluc o da capacidade de processamento. Aliado a isso, t m-se as novas descobertas cient ficas na rea de coleta, armazenamento e recuperac o de dados.

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

Inteligencia
Utilizac a o do conhecimento Obtenc a o de conhecimento

Conhecimento

Presente Futuro

Informac a o
Consultas a Bancos de dados Passado

Dados

Figura 1.1.: Pir mide do conhecimento. A busca por uma vantagem competitiva baseada nos dados de uma empresa n o e uma novidade. No entanto, os bancos de dados s o normalmente utilizados apenas para a coleta de informac o. As novas tecnicas de tratamento dos dados permitem tambem uma busca por conhecimento atraves do estudo dos dados afim de determinar padres, tambem chamados de modelos, que descrevam o comportamento dos dados. Fica assim determinada uma radiografia do comportamento dos clientes de um supermercado, acionistas de uma instituic o financeira e ate mesmo o comportamento de uma rede de computadores. Ainda no cap tulo 2 ser o definidos os sistemas de informac o, nicho onde a busca por conhecimento atua. Alem disto, ser o caracterizados as tecnologias de banco de dados (OLTP, OLAP e data warehouse) existentes e os passos da descoberta de conhecimento. Um dado e a estrutura fundamental sobre a qual um sistema de informac o atua. A informac ao pode ser vista como uma representac o ordenada e enxuta dos dados resultantes de uma consulta que permite a visualizac o e interpretac o dos dados. O conhecimento provem da interpretac o, geralmente pessoal, das informac es apresentadas pelo sistema de banco de dados. Intelig ncia e o bom uso do conhecimento adquirido. A pir mide do conhecimento, representada na figura 1.1, demonstra que a quantidade de dados existentes em um sistema e muito grande. J o montante de informac o e reduzido devido a dados errneos ou sem express o. Menor ainda e a quantidade de conhecimento que pode ser extra desta informac o atraves de tecnicas de do descoberta de conhecimento.

UNESP / FEG CEIE, 2002

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

O cap tulo 3, intitulado Data Mining, cont m uma definic o e as caracter sticas da tecnica de data mining que e o procedimento computacional da descoberta de conhecimento e consiste na utilizac o de algoritmos para a definic o de regras sobre os dados armazenados. O processo de data mining tambem ser detalhado, assim como a importante relac o entre data mining e data warehouse que, utilizados em conjunto, podem maximizar os resultados do processo. Alguns dos principais desafios quanto a aplicac o de data mining tambem ser o observados. Ainda nesse cap tulo, na sec o 5, ser o apresentados dois exemplos genericos da aplicac o de descoberta de conhecimento utilizando tecnicas de data mining, e alguns casos pr ticos ocorridos em empresas como a rede de supermercados Wal-Mart, o Banco Itau e as Lojas Brasileiras. Nos exemplos genericos ser mostrado o exemplo de um supermercado, enfocando as perguntas que o banco de dados referente a s vendas e estoque do estabelecimento podem responder se explorados por data mining e o exemplo de aplicac o na industria farmac utica, respondendo a perguntas sobre, por exemplo, o ndice de rejeic o por parte dos pacientes a utilizac o de combinac es de medicamentos. O cap tulo 4, intitulado Softwares de Data Mining, contem um estudo de dois softwares de data mining. O MineSet da Sillicon Graphics e o WizRule da Wiz Soft. Estes softwares auxiliam a gerac o de regras de depend ncia entre os dados e, principalmente o MineSet, na visualizac o gr fica de conjuntos de dados. No cap tulo 5, Considerac es Finais, est o as concluses e considerac es finais sobre o estudo alem dos desafios encontrados na realizac o do mesmo. No final do texto o leitor encontrar a bibliografia b sica, utilizada na realizac o deste trabalho, onde poder ser encontrado material para o aprofundamento da leitura sobre a descoberta e representac o do conhecimento.

UNESP / FEG CEIE, 2002

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

2 Manipulac ao de Dados: Sistemas de Informac ao, Armazenagem e Prospecc ao


2.1. Sistemas de Informac ao Gerencial Os Sistemas de Informac o (SI) s o conjuntos de normas e procedimentos que visam captar informac es na organizac o, apresentando a cada n vel, o que lhe cabe e tendo por objetivo subsidiar a tomada de decis o (OLIVEIRA, 1993). Os SI s o formados pela combinac o estruturada de diversos elementos, tais como, informac o, recursos humanos (referentes a pessoas que coletam, armazenam, recuperam, processam, disseminam e utilizam os dados e informac es), tecnologias de informac o (hardware e software usados no suporte ao sistema) e as pr ticas de trabalho (metodologia utilizada pelas pessoas no desempenho de suas atividades), todos organizados de forma a permitir o melhor atendimento dos objetivos da organizac o. As decises podem ser classificadas segundo um n hier rquico adotado geralmente vel pelas empresas. Esses n veis podem ser resumidos como n operacional, n t tico e n vel vel vel estrategico. Os usu rios do SI s o provenientes de todos os tr s n veis e utilizam-se do SI para alcanc ar os objetivos e as metas de suas reas funcionais. A informac o na esfera dos negocios vem representando um diferencial competitivo. Seu papel, na conjuntura atual, e bastante relevante: auxiliar a organizac o como um todo, e a cada setor de forma integrada, a alcanc ar os objetivos estrategicos do negocio. Em busca deste diferencial, as empresas, em seus planejamentos estrategicos, decidiram investir em Sistemas e Tecnologia de Informac o. Nos ultimos 20 anos, somente nos EUA, este montante atingiu cerca de um trilh o de dolares. Contudo, decidir sobre como e quanto investir em Tecnologia de Informac o, e particularmente em Sistemas de Informac o, ainda e uma tarefa dif cil. Consultores acad micos e profissionais s o questionados por gerentes sobre qual a melhor forma de avaliar a rentabilidade dos Sistemas de Informac o, demonstrando um retorno tang para os recursos dispendidos no planejar, desenvolver, implementar e operar Sistemas vel de Informac es. Os Sistemas de Apoio a Decis o (SAD ou do ingl s Decision Support Systems) e as ferramentas que apoiam esta categoria de sistemas de informac o (como o data mining) surgiram e evolu ram a n veis totalmente acess veis. Os SAD s o baseados em computador que auxiliam o processo de tomada de decis o utilizando modelos para resolver problemas n o estruturados (FREITAS, 2001).

UNESP / FEG CEIE, 2002

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

E crescente o interesse pela construc o de SAD que auxiliem os administradores a acompanhar o mercado ou consultar os diferentes assuntos de uma organizac o de forma r pida e simples, tornando mais confi vel o processo decisorio. Um dos fatores b sicos do nascimento dos SAD foi a mudanc a do modo de abordagem de um problema: passou-se de uma an lise orientada a partir dos dados e direcionada ao problema e a decis o, para uma an lise onde o ponto de partida e o tomador de decis o e o problema (LEVINE, 1989) . Deste modo, analisa-se antes o problema em seu contexto e seu ambiente, a fim de melhor compreend -lo para, ent o, caminhar-se em direc o a soluc o. Este conceito permitiu o desenvolvimento dos SAD. A quest o passa a ser a representac o dos processos pelos quais um sistema desenvolve comportamentos e a compreens o da ac o inteligente. A partir de uma situac o inicial do problema, o tomador de decis o evolui de situac o em situac o ate a soluc o. Atraves de passos sucessivos adiante e retornando a passos anteriores (de forma iterativa), vai se aproximando da soluc o. A premissa b sica para o sucesso de um sistema de informac es gerencial e a orientac o, a partir do problema e foco, na busca das perguntas corretas as quais o sistema dever responder. Isto faz parte de um processo onde o fator relevante e identificar n o o sistema mais adequado a ser desenvolvido, mas as questes mais importantes a serem respondidas. Uma vez identificadas as perguntas, a possibilidade de se construir um sistema eficaz torna-se maior. As metodologias baseadas em modelagem de dados partem de uma estruturac o de bases de dados operacionais, isto e, bases de dados geradas a partir das operac es das empresas, em direc o a estruturac o de uma base de dados gerenciais. E uma abordagem que se tem utilizado na concepc o de depositos de dados (data warehouses - DW) (STREHLO, 1996). Elas pressupem que a partir da disponibilidade de uma grande massa de dados estar o fornecendo toda a informac o gerencial necess ria. No entanto, estar o fornecendo dados em excesso e pouca informac o. Muitos gerentes de empresas acham-se perdidos e acabam por ignorar grandes quantidades de informac o por entender que elas s o excessivas. O que eles provavelmente t m e excesso de dados, muitas vezes dispon veis atraves de ferramentas sofisticadas com recursos gr ficos, mas que fornecem pouca informac o. Um sistema deste tipo parte de uma tentativa de fornecimento pleno de informac es, partindo dos dados dispon veis geradores de informac o. Tal estrategia pode acabar por fornecer apenas parte das informac es. Como n o e sempre poss esgotar todas as possibilidades de vel fornecimento de informac o, os dados que se consegue obter n o necessariamente ser o aqueles que o tomador de decis o precisa.
UNESP / FEG CEIE, 2002 5

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

2.2. OLTP, OLAP e Data Warehouse 2.2.1 Caracterizac ao Muitos dos chamados SAD t m flexibilidade, mas t m pouca din mica e pouca profundidade. E o caso dos modelos em planilha eletrnica. Atendem apenas a uma pequena parte das necessidades de apoio a decis o, limitando-se a gerac o de cen rios que correspondem a uma descric o das negociac es da empresa (KEEN, 1987). Outros sistemas possuem flexibilidade, mas n o conseguem levar informac o util a tomada de decis o. Este e o caso dos data warehouse (DW) para apoio a decis o, que geralmente n o s o alimentados segundo as necessidades dos usu rios e sim a partir da disponibilidade dos dados (STREHLO, 1996). Um DW e um banco de dados onde os dados s o armazenados com o proposito de permitir ou facilitar a futura an lise. Esta e a principal caracter stica de um DW e e seu principal proposito. O matem tico e mestre em ci ncia da computac o Bill Inmon, cunhou o termo data warehouse em 1990 com a seguinte definic o: Um (data) warehouse e uma colec ao de dados, integrados, em vari no tempo, nao vol voltados para suporte ao processo de tomada de vel teis decisao. Bancos de Dados Transacionais Tomadores de Decisa o

Data Warehouse

Figura 2.1. Esquema de Data Warehouse

A maioria dos dados que s o coletados tem o objetivo de dirigir continuamente os negocios de uma companhia. Esses tipos de dados podem ser chamados de dados operacionais. Os sistemas que usam dados operacionais s o chamados de OLTP (On-Line Transaction Processing).

UNESP / FEG CEIE, 2002

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

Um data warehouse coleciona e organiza os dados, e torna-os dispon veis para fins de an lise, dando a administrac o a possibilidade de ter acesso a s informac es sobre seu proprio negocio. Este tipo de dado pode ser chamado dado informacional. Os sistemas que trabalham com dados informacionais s o chamados de sistemas OLAP (On-line Analytic Processing). O processamento transacional em tempo real (OLTP) e atribu aos bancos de dados do convencionais, onde as principais operac es s o inserc o, remoc o, consulta e atualizac o de dados. Dessa forma, ocorre apenas a manipulac o de dados, sem nenhuma preocupac o em fazer uma an lise desses dados. O processamento anal tico em tempo real (OLAP) e um conjunto de tecnologias projetadas para suportar an lise e consultas que d o um retrato da situac o da empresa em determinado instante. Tem por finalidade melhorar a qualidade dos dados utilizados pelos sistemas de apoio a decis o fornecendo comparac es, tabelas, an lises e projec es para analistas e gerentes que necessitam n o somente dos dados em sua forma normal, mas de informac es em forma estrategica. As principais diferenc as entre os processamentos OLTP e OLAP est na forma como os dados s o tratados: 1. Quanto ao tipo de banco de dados utilizado; 2. Quanto a an lise dos dados; 3. Quanto ao tratamento do tempo com relac o aos dados, ou seja, de forma individual ou de forma global. 4. Quanto a dimens o tempo de como os dados est o relacionados; 5. Quanto ao numero de registros tratados; 6. Quanto a orientac o dos dados para a organizac o. Do ponto de vista do OLTP, o banco de dados relacional e o tipo de banco utilizado, enquanto no processamento OLAP o banco de dados e multidimensional, uma vez que consultas SQL em bancos de dados relacionais causam insatisfac o quanto ao tempo de resposta. Esta diferenc a ocorre devido a forma como os dados s o vistos pelos dois tipos de processamento. Nos sistemas OLTP os dados s o analisados individualmente, n o h preocupac o quanto ao que esse dado representa como informac o para a organizac o. A unica relev ncia e o sucesso da transac o efetuada com o dado. De outro modo, os sistemas OLAP preocupam-se diretamente com a an lise dos dados que a empresa possui. Esses n o est o voltados para o processamento operacional da empresa, mas sim para a extrac o de dados de diferentes bases para que a alta ger ncia possa tomar as decises estrategicas organizacionais. As ferramentas OLAP buscam extrair informac es da base de dados da empresa para auxiliar o
UNESP / FEG CEIE, 2002 7

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

planejamento estrategico da organizac o, elas recuperam os dados da base operacional da empresa e os apresenta de forma sumarizada ao administrador. Com relac o a dimens o tempo, as ferramentas OLTP preocupam-se apenas com o presente, com o momento corrente, o momento em que a transac o e efetuada sobre os dados, ao passo que o processamento anal tico volta-se para a busca de dados historicos armazenados pelo processamento operacional. A dimens o tempo e de relevante import ncia para ferramentas OLAP, uma vez que v rias infer ncias podem ser feitas sobre os dados organizacionais, tais como comparac o de vendas por ano, semestres, trimestres, meses, semanas, dias e ate horas. O tratamento de registros pelas ferramentas OLTP e efetuado um por vez, ou seja, apenas no momento da inserc o, exclus o ou alterac o do registro. J com as ferramentas OLAP, o tratamento e feito sobre v rios registros, para que ent o seja poss tratar esses dados como vel informac o. A orientac o dos dados da empresa possui rumos completamente distintos no que diz respeito ao processamento transacional e ao processamento anal tico. Quanto a orientac o, as ferramentas OLTP est o diretamente ligadas ao n operacional da empresa. As operac es s o vel sempre sobre os dados, mas nunca de forma a analisar esses dados. Os dados n o s o visualizados como informac o, mas sim como elementos isolados. As ferramentas OLAP, ao contr rio, est o intimamente relacionadas com n estrategico da organizac o. Isso se deve ao vel fato de que essas ferramentas buscam os dados da base operacional, agrupam esses dados de acordo com a solicitac o ou an lise requerida pela administrac o da empresa e ent o transformam esses dados em informac o para os gestores. 2.2.2 Caracter sticas do Data Warehouse Geralmente quatro caracter sticas descrevem um data warehouse (SRIVASTAVA, 1999): 1. Organizac o por assunto; 2. Integrac o entre dados; 3. Presenc a de dados historicos; 4. Aus ncia de volatilidade. 1. Organizac o por assunto: Os dados s o organizados por assunto ao inves de serem organizados por aplicac o. Assim, uma empresa que usa DW organiza seus dados por clientes, pr mios, reclamac es, ao inves de organizar por produtos diferentes. 2. Integrac o entre dados: Quando os dados residem em muitas aplicac es distintas em um ambiente operacional, a codificac o dos dados e freq entemente inconsistente. Por exemplo,

UNESP / FEG CEIE, 2002

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

em uma aplicac o o sexo pode ser representado por m ou f enquanto em outra por 0 ou 1. Quando os dados s o movidos para um DW, eles assumem uma codificac o consistente, por exemplo, dados de sexo s o todos transformados em m ou f. 3. Presenc a de dados historicos: O DW deve manter um espac o para armazenamento de dados historicos de cinco a dez anos ou mais que ser o usados para comparac es, tend ncias e prevenc es. Estes dados n o s o alterados. 4. Aus ncia de volatilidade: Os dados em um DW n o s o vol teis, ou seja, uma vez que sejam armazenados, os dados n o s o alterados ou atualizados de forma alguma, podendo somente ser acessados e carregados novos dados. 2.2.3 Crite rios para a criac ao de um data warehouse 2.2.3.1 Performance de carregamento DW requer carregamento com incremento de novos dados em uma base periodica dentro de per odos de tempo curto, o desempenho do processo de carga deve ser medido em centenas de milhes de filas e gigabytes por hora e n o deve artificialmente constranger o volume de dados requeridos pela aplicac o da empresa. 2.2.3.2 Processamento de Carga Diversos pontos devem ser observados no carregamento de dados novos ou atualizados no data warehouse incluindo converses de dados, filtragem, reformatac o, checagem de integridade, armazenamento f sico, indexac o e atualizac o de metadados. Estes passos devem ser executados como uma unica unidade de trabalho. 2.2.3.3 Qualidade de administraca o de dados A troca para administrac o baseada em fatos exige uma alta qualidade dos dados. O DW deve assegurar consist ncia local, consist ncia global, e integridade referencial apesar das fontes n o serem sempre confi veis e dos bancos serem volumosos. Para o carregamento e preparac o alguns passos s o necess rios mas n o suficientes. 2.2.3.4 Escalabilidade O tamanho dos DW est o crescendo em taxas surpreendentes. Hoje eles variam em geral, de alguns megabytes a centenas de gigabytes, embora DW com terabytes de informac o j sejam comuns. Deve suportar administrac o modular e paralela. Deve suportar, tambem,

UNESP / FEG CEIE, 2002

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

dispositivos de armazenamento de massa como disco optico e dispositivos de Administrac o de Armazenamento Hier rquicos. 2.2.3.5 Escalabilidade para grande nu mero de usu rios simultneos O acesso aos dados do warehouse n o deve ser restrito a uma elite de usu rios apenas. O servidor de banco de dados deve suportar centenas ou milhares de usu rios simult neos mantendo o desempenho das consultas aceit vel. 2.2.3.6 Redes de Data Warehouse Data warehouses raramente existem isoladamente. Sistemas com multiplos DW cooperam em uma rede maior. O servidor deve incluir ferramentas que coordenem o movimento de subconjuntos de dados entre os depositorios. Os usu rios devem ser capazes de olhar e trabalhar com os multiplos sistemas de um unica m quina cliente. Os gerentes de warehouse devem gerenciar e administrar a rede de uma unica localizac o f sica. 2.2.3.7 Administraca o de warehouse A escala muito grande e natureza c clica do DW exigem facilidades administrativas e flexibilidade. O banco de dados deve prover controles para implementar limites de recurso para alocar custos de volta para os usu rios, e priorizac o de consultas para enviar dados que atendam as necessidades de diferentes classes de usu rio e atividades. O sistema tambem deve prover a localizac o e refinamento de carga de trabalho de modo que recursos de sistemas possam ser aperfeic oados para m ximo desempenho de processamento. 2.2.3.8 An lise dimensional integrada O poder de vises multidimensionais e aceito amplamente, e apoio dimensional deve ser inerente ao sistema para prover um maior desempenho para as ferramentas OLAP relacionais. O sistema deve suportar r pida criac o. Tambem deve prover as ferramentas de manutenc o para automatizar a criac o de agregados de pre-computac o (relatorios). O c lculo din mico de relatorios deve ser consistente com as iterativas necessidades de desempenho. 2.2.3.9 Funcionalidade de consultas avancadas Os usu rios finais requerem c lculos anal ticos avanc ados, an lise seq encial e comparativa, e acesso consistente para detalhar e resumir dados. Usando SQL em um ambiente de ferramentas gr ficas (janelas, mouse) muitas vezes pode n o ser pr tico ou ate mesmo ser

UNESP / FEG CEIE, 2002

10

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

imposs vel. O sistema deve prover um conjunto completo de operac es anal ticas incluindo operac es seq enciais e estat sticas. 2.2.4 Processos no data warehouse A primeira fase do data warehousing (processo de criac o e manipulac o de DW) e a separac o da informac o operacional atual para preservar a seguranc a e integridade das aplicac es OLTP. O banco de dados resultante pode consumir centenas de gigabytes ou ate alguns terabytes de espac o de discos r gidos, o que requer tecnicas eficientes para armazenamento e recuperac o de quantias volumosas de informac o. Geralmente as empresas optam por sistemas de processamento paralelo para garantir a velocidade de processamento adequada a aplicac o. O DW recebe dados de uma variedade heterog nea de bancos de dados. Os dados devem, portanto, ser transformados antes de serem recebidos pelo warehouse store - o software baseado em um modelo e que realiza a gravac o dos dados no DW. A transformac o dos dados e o tr nsito dos dados dos diversos bancos de dados OLAP para o armazem de dados s o executados sempre que uma atualizac o para os dados for requerida. Assim, deve haver uma forma automatizada para a administrac o e execuc o destas func es. As informac es que descrevem o modelo e a definic o dos elementos da fonte de dados s o chamados de Elementos Metadados. O metadado e o meio pelo qual o usu rio final encontra e entende os dados no DW e deve conter a estrutura dos dados, o algoritmo que foi usado para a obtenc o dos metadados e a cartografia do ambiente operacional para o DW. A limpeza ou refinamento dos dados e um aspecto importante para a criac o de um eficiente data warehouse. Consiste na remoc o de certos aspectos dos dados operacionais como informac o de transac es mal sucedidas, duplicidades e erros na entrada de dados (como a falta de algum campo de dado ou a entrada de valores absurdos). Eliminam-se tambem informac es de baixo n tais como informac es de clientes que n o apresentam relev vel ncia para a aplicac o (numero de telefone, naturalidade, etc.) que apenas causariam aumento no tempo de consultas. Estando os dados refinados, eles s o ent o transferidos para o sistema DW que e tipicamente um grande banco de dados de alto desempenho. Poder de processamento e um aspecto importante para o DW devido a complexidade envolvida no processamento de querys (consultas) e tambem devido a quantidade de dados que geralmente se pretende armazenar.

UNESP / FEG CEIE, 2002

11

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

2.3. Descoberta de Conhecimento em Banco de Dados (KDD) 2.3.1 Caracterizac ao A habilidade humana para analisar e entender conjuntos de dados volumosos fica aquem da habilidade de colher e armazenar dados. Uma gerac o de novas tecnicas computacionais e ferramentas e exigida para suportar a extrac o de conhecimento util a partir de volumes rapidamente crescentes de dados. Estas tecnicas e ferramentas s o o assunto do campo emergente de descoberta de conhecimento em bancos de dados (KDD - Knowledge Discovery in Database) e data mining. O termo KDD refere-se ao processo global de descobrir conhecimento util de dados. data mining e um passo particular neste processo formado por algoritmos espec ficos para extrair padres (modelos) de dados. Os passos adicionais no processo KDD, como preparac o de dados, selec o de dados, limpeza de dados, incorporac o de conhecimento anterior apropriado, e interpretac o formal dos resultados de minerac o asseguram a viabilidade da extrac o de conhecimento util que e derivado dos dados. Uma aplicac o imprudente de metodos de data mining pode ser uma atividade perigosa que conduza a descoberta de padres incorretos ou sem sentido (AGRAWAL, 1996). Historicamente, a noc o de encontrar padres uteis em dados em seu estado bruto tem recebido diversos nomes, inclusive extrac o de conhecimento de informac o, coleta de informac o, arqueologia de dados ou padronizac o de dados (AMARAL, 2001). Esse processo surgiu em 1989 para encontrar o conhecimento existente em uma base de dados e enfatizar o alto n das aplicac es dos metodos de prospecc o de dados. vel O crescente interesse por explorac o e prospecc o de dados culminou com a certeza de que os especialistas desta rea nem sempre estavam em concord ncia com os especialistas de reas afins. Para resolver essa discord ncia, foi organizada uma serie de workshops sobre o processo KDD nos anos de 1989, 1991, 1993 e 1994. Com o aumento do interesse, realizou-se em 1995, na cidade de Montreal no Canad , a primeira Confer ncia Internacional de Prospecc o de Dados (First International Conference on Knowledge Discovery and Data Mining), realizada durante a 14 Confer ncia Internacional de Intelig ncia Artificial (IJCAI-95). Segundo (FRAWLEY, 1991), KDD e um processo n o trivial de identificac o v lida do padr o dos dados. E um processo novo, potencialmente util e fundamentalmente compreens vel. O KDD evoluiu, e continua evoluindo, da intersec o de pesquisa em campos tais como bancos de dados, aprendizado de m quinas, reconhecimento de padres, estat sticas, intelig ncia artificial, aquisic o de conhecimento para sistemas especialistas, visualizac o de dados,
UNESP / FEG CEIE, 2002 12

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

descoberta de m quina, descoberta cient fica, recuperac o de informac o, e computac o de altodesempenho. Os sistemas de software KDD incorporam teorias, algoritmos, e metodos de todos estes campos. KDD enfoca o processo global de descoberta de conhecimento de dados, incluindo como os dados s o armazenados (data warehouse) e acessados; como algoritmos podem ser escalados para conjuntos de dados volumosos e ainda poder rodar eficazmente; como resultados podem ser interpretados e visualizados; e como a interac o global homem-m quina pode ser modelada e suportada. KDD coloca uma nfase especial em achar padres compreens veis que podem ser interpretados como conhecimento util ou interessante. 2.3.2 O processo de KDD O termo processo implica que existem v rios passos envolvendo preparac o de dados, procura por padres, avaliac o de conhecimento e refinamento. Todos estes passos s o interativos e iterativos (BERRY, 2000), ou seja, dependem da constante interfer ncia de um tecnico especialista e se repetem de acordo com a necessidade. 1. Conhecimento do dom nio da aplicac a o: inclui o conhecimento relevante anterior e as metas da aplicac o, ou seja, a identificac o do problema. Este passo utiliza o dom do especialista para identificar problemas importantes e os nio itens necess rios para resolv -los. Entretanto, e importante que esta etapa seja realizada em conjunto com um engenheiro de conhecimento. 2. Criac a o de um Banco de Dados alvo: definir o local de armazenamento e selecionar um conjunto de dados ou dar nfase para um subconjunto de dados nos quais o descobrimento ser realizado. 3. Pr-processamento: inclui operac es b sicas como remover ru 1 ou dos subcamadas, se necess rio, coletando informac o necess ria para modelar, decidindo estrategias para manusear (tratar) campos onde nota-se facilmente que n o influenciam na soluc o das perguntas que se deseja responder. 4. Transformac a o de dados e projec a o: inclui encontrar formas pr ticas para se representar dados, dependendo da meta do processo e o uso de reduc o dimension vel e metodos de transformac o para reduzir o numero efetivo de vari veis que deve ser levado em considerac o; ou encontrar representac es invari veis para os dados.

Ru referem-se a dados que provavelmente contenham erros de digitac o ou valores absurdos. dos

UNESP / FEG CEIE, 2002

13

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

Selec o Pre-Processamento dados Dados alvo Dados preprocessados Dados transformados padres conhecimento Transformac o

Data Mining

Interpretac o

Figura 2.2. Processo de Descoberta de Conhecimento

5. Data mining: inclui a decis o do proposito do modelo derivado do algoritmo de data mining (Como por exemplo: sumarizac o, classificac o, regress o e modularizac o). Alem dessa decis o e necess rio selecionar metodos para serem usados na procura por padres nos dados, bem como decidir quais modelos e par metros podem ser apropriados, determinando um metodo de data mining particular a ser aplicado. 6. Interpretac a o: inclui a interpretac o dos padres descobertos e o poss vel retorno a algum passo anterior, alem de uma poss visualizac o dos padres vel extra dos, removendo aqueles redundantes ou irrelevantes e traduzindo os uteis em termos compreendidos pelos usu rios. 7. Utilizac a o do conhecimento obtido: inclui a necessidade de incorporar este conhecimento, para melhora de performance do sistema, adotando ac es baseadas no conhecimento, ou simplesmente documentando e reportando este conhecimento para grupos interessados.

UNESP / FEG CEIE, 2002

14

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

2.3.3 Pesquisas correntes sobre KDD Atualmente as pesquisas e desafios das aplicac es em KDD, incluem : (1) grandes conjuntos de dados e alta dimensionalidade, (2) interac o com o usu rio e conhecimento anterior adquirido, (3) dados perdidos, (4) gerenciamento de mudanc as de vari veis e conhecimento, (5) integrac o e (6) multim e dados orientados a objeto, que ser o descritas a seguir: dia 2.3.3.1 Grandes conjuntos de dados e alta dimensionalidade Bancos de dados de v rios gigabytes com milhes de registros e grande numero de campos s o comuns. Estes bancos de dados criam grandes espac os durante a busca e aumentam as chances do algoritmo de data mining encontrar um modelo que n o seja genericamente v lido. Poss veis soluc es incluem algoritmos muito eficientes, amostragem, metodos de aproximac o, tecnicas de reduc o da dimensionalidade, e incorporac o de conhecimentos adquiridos anteriormente. 2.3.3.2 Interaca o com o usu rio e conhecimento anteriormente adquirido Um analista normalmente n o e um especialista em KDD mas uma pessoa respons vel por perceber o sentido nos dados usando as tecnicas de KDD. Sendo o KDD por definic o interativo e iterativo, e um desafio criar uma alta performance, um ambiente de resposta r pida que tambem ajude os usu rios na selec o formal das ferramentas apropriadas e tecnicas para alcanc ar seus objetivos. H a necessidade de uma maior nfase na interac o homem-computador e menor nfase na automac o total com o objetivo de dar suporte a ambos, especialistas e usu rios novatos. Muitos dos atuais metodos e ferramentas de KDD n o s o realmente interativos e n o incorporam facilmente os conhecimentos previamente adquiridos sobre o problema estudado, exceto em casos simples. O uso do dom do conhecimento e importante nio em todos os passos do processo de KDD. 2.3.3.3 Dados perdidos Este problema e especialmente encontrado em bancos de dados de negocios. Atributos importantes podem ser perdidos se a base de dados n o foi criada tendo em vista a poss vel descoberta de conhecimento. Dados perdidos podem resultar de erros do operador, sistemas reais (dados n o preenchidos pelo vendedor durante uma transac o) e falhas de medidas, ou de uma revis o do processo de aquisic o de dados ao longo do tempo, como por exemplo, novas vari veis s o inclu das, mas eram consideradas sem import ncia poucos meses atr s. Poss veis

UNESP / FEG CEIE, 2002

15

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

soluc es incluem estrategias sofisticadas de estat stica para identificar vari veis escondidas e depend ncias. 2.3.3.4 Gerenciamento de mudancas de vari veis e conhecimento R pidas mudanc as de dados podem fazer conhecimentos previamente adquiridos tornarem-se inuteis. Alem disso, as vari veis medidas numa determinada aplicac o de banco de dados podem ser modificadas, apagadas, ou aumentadas com novas medidas ao longo do tempo. Poss veis soluc es incluem metodos incrementais para atualizar os modelos e tratar mudanc as como uma oportunidade de descoberta, usando isto como uma sugest o para procurar por novos modelos de mudanc a. 2.3.3.5 Integraca o Um sistema de descoberta isolado pode n o ser muito util. Integrac es t picas incluem integrac o com um Sistema de Gerenciamento de Banco de Dados (por exemplo, via uma interface de consulta), integrac o com planilhas eletrnicas e ferramentas de visualizac o. Ambientes de forte integrac o homem-computador como esboc ado pelo processo de KDD permitem tanto a descoberta humana assistida por computador como a descoberta computacional assistida por humanos. O desenvolvimento de ferramentas para visualizac o, interpretac o e an lise de modelos descobertos e de extrema import ncia. Tal ambiente interativo pode habilitar soluc es pr ticas para v rios problemas da vida real com um custo de tempo mais acess vel comparado aos resultados obtidos por humanos ou computadores operando individualmente. Existe uma oportunidade potencial e um desafio em desenvolver tecnicas para integrar as ferramentas OLAP da comunidade de base de dados e as ferramentas de data mining das comunidades de aprendizado de m quina e estat stica. 2.3.3.6 Multimdia e dados orientados a objetos Uma significante tend ncia e que os bancos de dados contenham n o somente numeros, mas grande quantidade de dados incomuns (n o-numericos, n o-textuais, geometricos, e gr ficos) e dados multim (texto falado de forma livre e imagens digitalizadas, v e dados dia deo de udio). Esses tipos de dados est o em grande parte alem do escopo da atual tecnologia de KDD.

UNESP / FEG CEIE, 2002

16

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

3 Data Mining
3.1. Caracterizac ao A proposta de data mining e de descobrir padres em dados de forma que esse conhecimento seja aplicado para a soluc o de problemas. O termo data mining pode causar um certo desconforto, dada a ampla gama de sentidos em que o mesmo pode ser usado. Soluc es t picas de problemas por data mining incluem: 1. Detecc o de fraudes; 2. Baterias de an lises; 3. Segmentac o de mercado (classificac o de tipos de clientes); 4. Melhoramento de procedimentos operacionais; 5. Melhoramento de servic os; 6. An lise de mercado. Exemplos de aplicac es ser o apresentados a seguir. Uma empresa de varejo interessada em oferecer a melhor oferta para seus consumidores regulares. A receita federal pesquisando transac es fraudulentas em remessas de moeda estrangeira. A an lise de credito de um banco de varejo, decidindo quais clientes devem receber a proxima mala direta de um novo financiamento. A classificac o de clientes de uma operadora de telefonia, sugerindo qual plano se adequa melhor a cada um deles. Devido a exist ncia de diversificadas atividades onde se aplica data mining, existe uma certa dificuldade na classificac o e definic o e ainda maior na aplicac o destas tecnologias. Segundo Michael Berry (BERRY, 2000), uma alternativa para a classificac o dos sistemas de data mining e separa-los em tr s dimenses: Natureza da tarefa; Objetivo a ser buscado; Grau de estruturac o dos dados.

Classificando o sistema em cada uma das tr s dimenses pode-se agrupar sistemas parecidos e aplicar algoritmos e procedimentos similares. 3.1.1 Natureza da tarefa A natureza da tarefa pode ser dividida em quatro classes: classificac o, predic o, segmentac o e descric o.

UNESP / FEG CEIE, 2002

17

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

Uma tarefa de classificac o consiste em associar um item a uma classe dentre diversas opc es pre-definidas. A tarefa do analista passa a ser de selecionar qual classe melhor representa cada registro. Por exemplo, ao se deparar com uma base de dados de ve culos, em que cada registro contem os atributos de cor, peso, combust vel, numero de portas, cilindradas e numero de marchas, classificar cada ve culo em esporte, utilit rio ou passeio. Predic o pode ser definida como a tarefa de preencher um valor de registro baseado em outros atributos conhecidos. Como exemplo de um modelo de predic o, pode-se construir um modelo para estimar a probabilidade de um cliente deixar de utilizar certo servic o baseado em seu perfil atual de uso. A segmentac o pode ser comparada a uma tarefa de classificac o porem sem a exist ncia de classes pre-definidas. O objetivo de uma tarefa de segmentac o consiste em agrupar registros semelhantes e separar registros diferentes. Ao se trabalhar com grandes bases de dados, e comum que padres concorrentes se cancelem ao se observar todo o conjunto de dados em um mesmo momento. Fragmentando a totalidade dos dados em diversas sub-bases de dados oferece ao analista as condic es prop cias a identificac o de novas informac es. A aplicac o de data mining pode tambem ser utilizada para a descric o dos dados. Tecnicas de visualizac o podem trazer ao analista percepc es diferentes das que s o vistas em tabelas ou relatorios de dados. 3.1.2 Objetivo a ser buscado Existem basicamente dois tipos de objetivos na aplicac o das tecnicas de minerac o de dados: a produc o de um modelo ou a produc o de informac o. Em uma tarefa de predic o, geralmente espera-se gerar um modelo, ou seja, definir regras para os conjuntos de dados, de forma que aplicado a dados distintos daqueles usados para a criac o do modelo, tenha-se um classificador autom tico. Em tarefas descritivas, busca-se informac o que oferec a novas perspectivas ao se analisar os dados. 3.1.3 Grau de estruturac ao dos dados Dados estruturados s o os arquivos de banco de dados, as tabelas, ou seja, estruturas fixas com conteudo uniforme. Dados desestruturados s o arquivos do tipo texto ou imagem e podem ser usados em projetos que t m por objetivo a identificac o de padres ou formas.

UNESP / FEG CEIE, 2002

18

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

3.2. Processo de Data Mining Esta sec o introduz as tarefas espec ficas envolvidas no processo de descoberta de conhecimento. O processo e iterativo e volta comumente para fases anteriores com o objetivo de descobrir novos padres e de melhorar a compreens o dos dados. Os passos do processo de data mining s o os seguintes: 1. Identificac o da fonte de dados; 2. Preparac o dos dados; 3. Construc o de um modelo; 4. Avaliac o do modelo; 5. Desdobramento do modelo. 3.2.1 Identificac ao da Fonte de Dados A tarefa de identificar os dados comec a com a decis o sobre que dados ser o necess rios para se resolver um problema. Por exemplo, previses sobre o comportamento dos clientes s o freq entemente uma meta necess ria. Pensando em termos de um problema, o investigador tem que identificar os dados necess rios para uma soluc o e outras poss veis fontes de dados. Os dados podem estar em uma dif localizac o ou em um formato desconhecido. s cil vezes h alguns bancos de dados iniciais que podem ser incompat veis com novas bases de dados. Muitas vezes, se os dados est o escassos ou incompletos, pode ser preciso mais dados. A forma na qual os existente. 3.2.2 Preparac ao dos Dados Os dados muitas vezes, necessitam de modificac es antes de ser trabalhados ou minerados. Esse passo e geralmente chamado de Cleaning. Especificamente, os desafios seguintes s o comuns: 1. Os dados podem estar em um formato incompat com a representac o do vel software de data mining que ser utilizado. 2. Dados podem estar mal escritos ou escritos erroneamente, ou ate mesmo ter valores incompletos, ou errneos. 3. Descric es de campo podem estar obscuras ou confusas, ou podem significar coisas diferentes que dependem da fonte. Por exemplo, data de ordem pode significar a data em que a ordem foi enviada, carimbada, recebida, ou teclada. novos dados ser o colecionados depende do formato da base de dados

UNESP / FEG CEIE, 2002

19

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

4. Dados podem estar obsoletos; por exemplo, os clientes podem ter mudado de enderec o. 5. Ate mesmo dados bastante claros podem necessitar de uma transformac o anterior para que sejam satisfatorios para minerac o ou visualizac o. A transformac o pode melhorar em muito o desempenho do modelo. Se fosse o caso de analisar dados de uma companhia telefnica, por exemplo, poderia ser encontrada a taxa de ligac o a longa dist ncia (vendas dividido pelos minutos totais usados) e determinada uma previs o melhor do comportamento do cliente do que o estudo dos dados separadamente. Transformac es de dados est o no corac o do desenvolvimento de um modelo de data mining. Os dados podem ser transformados de diversas maneiras: 1. Somando colunas, normalmente aplicando uma formula matem tica para os dados existentes, criando assim um novo campo. 2. Removendo colunas que n o s o pertinentes, s o redundantes, ou cont m campos obvios e desinteressantes. 3. Filtrando o banco de dados em uma express o booleana usando valores de uma coluna para influenciar o modelo ou a visualizac o. Por exemplo, e poss vel visualizar apenas as regras mais fortes ou os segmentos de clientes mais lucrativos. 4. Dados agregados, agrupando registros, e achando a soma, m ximo, m nimo, ou valores comuns. 5. Testando os dados para adquirir um subconjunto casual de dados (por porcentagem ou contagem). 6. Aplicando um classificador, regressor, ou agrupando outros modelos que foram criados previamente. A preparac o dos dados pode ser em muito amenizada ao se aplicar data mining em um data warehouse. Toda e qualquer transformac o que os dados necessitem podem ser ou j est o realizadas dentro do proprio sistema DW, aumentando em muito a performance do sistema. De outro modo, a aplicac o de data mining em bases de dados desestruturadas exige um esforc o computacional imenso, apesar de ser perfeitamente poss vel. 3.2.3 Construc ao de um Modelo Durante o processo de data mining, ser constru um modelo que e constitu das do do regras que descrevem os dados analisados no banco. Isso e feito automaticamente atraves de dados anal ticos e de algoritmos de minerac o de dados. E poss utilizar todos os dados de que vel

UNESP / FEG CEIE, 2002

20

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

dispomos para a construc o do modelo, ou pode-se reservar uma amostra dos dados para futuros testes de precis o do modelo. Estas escolhas n o so influenciam o modo como a visualizac o e apresentada como tambem as decises que o algoritmo toma na construc o do classificador. 3.2.4 Avaliac ao do Modelo Avaliar a precis o de um modelo refina sua compreens o e sua utilidade. Algumas estrategias, principalmente a de rvore de Decis o e a de rvore de Opc o, avaliam diferentes partes do modelo e tem uma representac o visual f cil dessa avaliac o. 3.2.5 Desdobramento do Modelo Um modelo pode ser desdobrado para ser aplicado a novos dados. Outra base de dados pode dar lugar ao surgimento de novas perguntas, trazendo um refinamento adicional a s descobertas. Um bom exemplo e o do modelo criado para determinar as causas pelas quais clientes estavam dispostos a deixar de optar pelos servic os de uma companhia. Poderiam ser avaliados registros de clientes pelo modelo para identificar os clientes espec ficos que provavelmente recusariam o servic o. A estes clientes poderiam ser oferecidas opc es para incentiv -los a manter contrato com a companhia. 3.3. Relac ao entre Data Mining e Data Warehouse Existe uma relac o simbolica entre a atividade de data mining e data warehouse. Os DW organizam os dados para um efetivo processo de data mining, porem, a prospecc o de dados pode ser aplicada onde n o exista nenhum DW, mas este aumenta em muito as chances do sucesso do processo de prospecc o. Cada uma das caracter sticas dos DW, que incluem dados integrados, dados detalhados e resumidos, dados historicos e metadados, melhoram o desempenho e o resultado da prospecc o do processo de data mining. Dados integrados permitem ao minerador visualizar de forma r pida e f cil os dados. Na aus ncia de integrac o entre os dados, o agente minerador (tecnico humano) necessitaria de uma grande quantidade de tempo para condicionar e refinar os dados antes do processo de data mining. Chaves precisariam ser reconstitu das, dados codificados necessitariam de revis o e estruturas de dados deveriam ser padronizadas. Os DW s o integrados e t m todas essas tarefas e muitas outras j realizadas e portanto, o agente minerador pode se concentrar integralmente nos algoritmos de data mining.

UNESP / FEG CEIE, 2002

21

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

Dados detalhados s o necess rios quando o agente minerador deseja examinar os dados de forma mais granular. Algumas vezes o n de explorac o dos dados requer a an lise vel cuidadosa destes dados, mas geralmente os dados resumidos asseguram que uma previa j foi feita e evitam muito processamento desnecess rio e repetitivo. Dados historicos s o importantes porque grande quantidade de informac es fica implicitamente armazenada. Trabalhar somente com informac es atuais pode impedir que se detecte tend ncias e padres de comportamento ao longo do tempo. Informac es historicas s o cruciais para se entender o condicionamento dos negocios. Metadados ajudam a descrever n o o conteudo dos dados, mas o contexto das informac es. medida em que a informac o passa a ser examinada, o contexto passa a ser mais importante do que o conteudo, revelando explicac es a respeito do significado dos dados. 3.4. Problemas com Data Mining Sistemas de data mining impem diversos problemas no seu incremento pois os bancos de dados geralmente apresentam tend ncia a serem din micos, incompletos, grandes e repletos de informac es irrelevantes. Alguns destes problemas s o discutidos a seguir. 3.4.1 Informac ao limitada Um banco de dados geralmente e projetado para propositos diferentes do data mining e em muitos casos as propriedades ou atributos que simplificariam a tarefa de aprendizado n o est o presentes e nem podem ser requisitadas do mundo real (adicionadas ao banco). Dados sem conclus o causam problemas quando alguns atributos essenciais sobre o dom da aplicac o nio n o est o presentes nos dados, o que torna imposs descobrir conhecimento significativo vel sobre tal aplicac o. Por exemplo, n o se pode usar minerac o de dados para diagnosticar mal ria de um banco de dados de pacientes, se esse banco n o contem um campo determinando a contagem de celulas no sangue de cada paciente. 3.4.2 Valores Perdidos Grandes bases de dados normalmente est o repletas de erros originados da modelagem de dados inconsistentes ou de sistemas aplicativos mal concebidos. Nesse cen rio n o se pode assumir que os dados aqui contidos sejam confi veis. Erros no valor de atributos ou informac o de classe s o conhecidos como ru dos. E obviamente desej vel a eliminac o de qualquer ru da do informac o a ser classificada pois eles afetam a precis o das regras e padres gerados. Dados inv lidos podem ser tratados atraves de sistemas de descoberta de v rios modos:

UNESP / FEG CEIE, 2002

22

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

Desconsiderando os atributos ruidosos de cada registro; Omitindo os registros que cont m dados inv lidos; Deduzindo valores inv lidos a partir de valores conhecidos (predic o); Tratando os valores inv lidos como um valor especial; Calculando uma media sobre os valores inv lidos.

3.4.3 Tamanho, Atualizac ao e Campos Irrelevantes Os bancos de dados costumam ser din micos haja vista que seus conteudos prov m de transac es efetuadas e com isso informac es s o somadas, modificadas e removidas constantemente. O problema na perspectiva de data mining est na forma de garantir que as regras est o atualizadas e consistentes com a informac o mais atual. O sistema de aprendizado tem que ser sens a passagem do tempo, pois alguns dados variam. O sistema de descoberta vel sempre e afetado pela atualizac o dos dados. 3.5. Exemplos Prticos de Data Mining 3.5.1 Um exemplo clssico - Supermercado Considerando um exemplo de um supermercado que usa scanners de codigo de barras no caixa de compras. O sistema de computadores e quem identifica o nome e prec o do produto e atualiza a lista de estoque. Com isso, existe base para o gerente ordenar o reabastecimento das prateleiras. Geralmente esse e um dos unicos propositos a que se prestam esses dados e apos algum tempo eles ser o descartados. Entretanto, esses conjuntos de dados possuem muitas informac es valiosas que podem ser utilizadas para outros propositos alem daquele para o qual foram originalmente coletados. Estas informac es podem ser usadas para se providenciar resumos de vendas, para estudar as prefer ncias dos clientes, para conhecer quais itens ou combinac es de itens devem ser colocados a venda ou simplesmente para adquirir diversos tipos de informac es de marketing. Nesse contexto, a aplicac o de um sistema de data mining pode apontar modelos tais como: Quais itens s o freq entemente comprados em combinac o (por exemplo, cereais e leite; mostarda, p o e salsicha; fralda e comida para recem-nascido)? Quais itens s o freq entemente adquiridos numa compra em torno de R$ 100,00?

UNESP / FEG CEIE, 2002

23

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

Quais itens s o freq entemente comprados por fam (uma fam pode ser lias lia identificada atraves dos tipos de certos produtos que s o tipicamente adquiridos por crianc as)?

Quais itens s o freq entemente comprados por pessoas fazendo pequenas compras?

Obviamente, correlac es como uma relac o entre compradores de fraldas e comida para beb e bem menos interessante, do ponto de vista da descoberta de conhecimento, do que uma correlac o entre produtos derivados do leite e anti cidos. Modelos que sejam realmente interessantes normalmente se preocupam com relac es que sejam totalmente inesperadas. 3.5.2 Um exemplo complexo envolvendo dados farmac uticos Para um exemplo mais complexo envolvendo modelos mais interessantes, pode-se examinar a prospecc o de dados num ambiente farmac utico (IGCE, 1998). A identificac o e quantificac o dos seguintes tipos e informac o podem ser extremamente uteis para pacientes, f sicos, farmac uticos, organizac es de saude, companhias de seguro, investidores, advogados, fabricantes de remedios ou companhias de teste de novos medicamentos. Interac o entre remedios prescritos pela medicina convencional. Interac o entre medicina convencional e medicina natural. Interac o entre qualquer tipo de medicamento e v rios alimentos, vitaminas, bebidas e suplementos minerais. Caracter sticas comuns entre certos grupos de drogas e alimentos ou bebidas. Distinguir caracter sticas entre certos grupos de drogas (isto e, para algumas pessoas, certos medicamentos podem produzir reac es que n o ocorram para outro grupo de pessoas). Interac es question veis baseadas em evid ncias bem limitadas, mas as quais podem ser de grande interesse (por exemplo, poucos usu rios de um grupo de centenas de pessoas, apresentaram reac es incomuns resultantes da combinac o de algumas caracter sticas). Determinar que grupos de pacientes provavelmente apresentam riscos quando usam um medicamento em particular. Analisando o tamanho das bases de dados que dever o ser examinadas, existe provavelmente um impasse entre a precis o das informac es e o tempo de processamento. Algumas tecnicas e testes de significado podem ser satisfatorios para identificar algumas das relac es mais comuns. Contudo, relac es incomuns podem requerer um tempo substancial de
UNESP / FEG CEIE, 2002 24

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

busca. A efic cia da busca depende da import ncia da consulta (por exemplo, ameac a de vida ou simples curiosidade), a estrutura indexada usada (modelo de banco de dados), e o n de vel detalhamento fornecido na consulta. O real desafio da minerac o de dados se torna vis vel quando o usu rio fornece apenas uma quantia m nima de informac o. Por exemplo, na procura por poss veis efeitos colaterais (n o necessariamente informados na literatura dos produtos do fabricante) envolvendo alimentos e qualquer tipo ou marca de anti cido. Nota-se que existem milhares de remedios dispon veis, e que quase todos eles (anti cidos, aspirina, xarope contra tosse, remedios para o corac o) podem ter numerosos efeitos colaterais, em pequena ou grande escala. Os seguintes fatos s o relevantes: A maioria dos medicamentos interage com alimentos, bebidas, atividades f sicas, outros medicamentos, etc. Algumas interac es s o menores, algumas s o serias e algumas s o letais. Algumas s o comuns, Algumas s o incomuns e algumas ocorrem somente sobre uma situac o muito espec fica em certos tipos de pacientes. Alguns medicamentos demonstram poucos efeitos colaterais conhecidos. E de not vel import ncia se o medicamento tem estado dispon por decadas, se ele vel tem tido muitos usu rios, e se todos os efeitos colaterais existentes tem sido informados. Problemas com os dados, tais como aus ncia de informac o ou informac es contraditorias, fazem com que a minerac o de dados se torne mais dif cil. Alguns medicamentos causam milhares de efeitos colaterais, mas cada efeito colateral pode envolver apenas uma pequena percentagem de usu rios. Algumas dessas estat sticas s o documentadas pelos fabricantes e podem incluir uma probabilidade de ocorr ncia. Novos efeitos colaterais s o est o sendo constantemente informados, especialmente para medicamentos que est o dispon veis apenas h alguns anos. O uso prolongado pode afetar pacientes de diferentes formas. Relativamente a novos medicamentos, esta informac o pode n o estar dispon vel, mas pode ser adicionada a base de dados a qualquer momento. A efic cia de muitos medicamentos se deteriora com o passar do tempo. Por influ ncia do armazenamento, alguns medicamentos perdem sua efic cia rapidamente (algumas semanas para nitroglicerina, por exemplo). Alguns medicamentos precisam ser mantidos armazenados sob condic es restritas

UNESP / FEG CEIE, 2002

25

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

(refrigerados, mantidos em lugar fresco, seco, bem lacrado). Tambem, alguns medicamentos podem causar serios danos para o organismo interno se usados depois da data de validade (tetraciclina, por exemplo). Muitas pessoas tomam muitos remedios. Quando combinados com h bitos dieteticos, idade, peso. A detecc o de modelos utilizando tecnicas de busca exaustiva torna-se invi vel. Pessoas respondem de modos diferentes para diferentes dosagens. Estat sticas de uso e venda est o dispon veis. N o existem dois usu rios que se comportem da mesma forma. Usu rios podem ser divididos em classe, tais como, homens, mulheres, crianc as, adolescentes, adultos, idosos, gr vidas, vegetarianos, fumantes, diabeticos, atletas, etc. Cada qual com sua signific ncia. Pacientes t m dietas variadas. Muitos medicamentos s o afetados por dietas. Muitos dos novos medicamentos tem sido inadequados ou insuficientemente testados. De fato, alguns dos melhores testes de dados v m de usu rios de medicamentos assim que esses aparec em em farm cias ou em qualquer lugar de venda. Isto significa que os dados est o sendo constantemente atualizados. Isso significa que anos de aquisic o de dados podem requerer apenas uma pequena base de teste num curto per de tempo. odo E poss vel que as companhias farmac uticas examinem todas as poss veis interac es entre novos medicamentos antes de libera-los para a venda. Perfis de pacientes, embora largamente incompletos ou polu dos por informac es irrelevantes, s o inestim veis na minerac o de informac es farmac uticas. Uma interface com o usu rio pode ser designada (desenhada ou projetada) para captar todas as informac es deste usu rio (por exemplo, sexo, idade, alimentos consumidos, reac es informadas, dosagem, durac o do uso). Baseado na informac o nas bases de dados e nos dados relevantes colhidos dos usu rios, uma lista de advert ncias ou reac es conhecidas (acompanhadas por suas respectivas probabilidades) deve ser informada. Ferramentas eficientes e efetivas de minerac o de dados necessitam ser desenvolvidas para sondar as informac es relevantes contidas nas bases de dados. O perfil do usu rio (annimo) deve ser registrado junto com qualquer reac o adversa informada pelo paciente. Essas correlac es podem ser informadas

UNESP / FEG CEIE, 2002

26

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

no futuro. Com o passar do tempo, as bases de dados ir o tornar-se muito maiores, e interac es entre dados para medicamentos existentes ir o tornar-se mais completas. O montante de informac es farmac uticas existentes (propriedades farmacologicas, dosagens, contra-indicac es, advert ncias) e enorme. Contudo, este fato reflete o numero de medicamentos no mercado, ao inves de informac es em abund ncia e detalhadas sobre cada produto. Um dos maiores problemas com dados farmac uticos est na falta de informac o. Por exemplo, um comiss rio do FDA (Administrac o Federal de Medicamentos dos EUA) estimou que somente 1% dos acontecimentos importantes s o informados. Medo de lit pode ser um gio fator contribuinte, porem, muitas das pessoas que se preocupam com a saude, n o tem tempo para preencher relatorios de poss veis reac es adversas a droga. Alem disso, e caro e consome tempo das companhias farmac uticas executar um trabalho completo de coleta de dados, especialmente quando a maioria das informac es n o e requerida por lei. N o obstante, espera-se um grande crescimento na quantia de dados sobre produtos farmac uticos num futuro previs devido em grande parte ao crescimento da informatizac o e vel, a propria consci ncia dos pacientes e consumidores. Informac es trazidas (via Internet) por trabalhadores da rea medica podem facilmente ser colhidas. Coleta de dados em hospitais n o e dif e essa informac o e de alta qualidade desde que tais instituic es tenham dietas adequadas cil, para seus pacientes e mantenham registros precisos dos tratamentos, testes laboratoriais, e administrac o das prescric es medicas. A popularidade da Internet torna relativamente f cil aos consumidores, voluntariamente preencher e enviar perfis detalhados de si proprios. Concluindo, existem provavelmente muitas fontes de informac es relevantes, criando assim um abundante, mas valioso, depositorio de dados. 3.5.3 Lojas Brasileiras Ate meados de 1997, a rede varejista Lojas Brasileiras sofria com a dificuldade de dispor em suas prateleiras todos os 51.000 produtos que mantinha em seu cat logo. O problema era meramente de espac o f sico em suas lojas. Depois de um processo de automac o que teve um custo de aproximadamente um milh o de dolares, a cadeia de lojas, que contava na epoca com setenta lojas espalhadas por todo o Brasil, descobriu que muitas dessas mercadorias n o rendiam quase nenhum retorno em vendas. Entre os itens de pouca venda estavam guarda-chuvas, sombrinhas e malhas de l . O motivo, descoberto mais tarde, era que tais produtos se

encontravam expostos em lojas do nordeste, onde chuva e frio s o raros. Outra descoberta foi o

UNESP / FEG CEIE, 2002

27

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

fato de estarem sendo vendidas batedeiras com voltagem de 110 Volts em Santa Catarina e no Rio Grande do Sul, onde a voltagem padr o e de 220 Volts. Nos dias atuais o grupo mantem 14.000 itens em exposic o nas lojas. Em uma unica operac o, foram eliminados 37.000 produtos. Seus executivos utilizaram o data mining. Com base em relatorios a respeito dos h bitos de consumo dos clientes, seus hobbies e informac es sobre suas transac es comerciais e financeiras foi poss trac ar associac es que revelaram vel grandes nichos de mercado. Em conjunto foi utilizado um banco de dados baseado em data warehouse, modelado sobre as informac es transacionais do conjunto das lojas da rede. 3.5.4 Wal-Mart O caso mais divulgado pela m de utilizac o de data mining por uma empresa e o da dia cadeia americana de supermercados Wal-Mart. Seus executivos identificaram um h bito curioso dos consumidores. Ao procurar eventuais relac es entre o volume de vendas e os dias da semana, o software de data mining identificou que, nas sextas-feiras, as vendas de cervejas cresciam na mesma proporc o que as de fraldas. Uma investigac o detalhada revelou que, ao comprar fraldas para seus beb s, os pais aproveitavam para abastecer o estoque de cerveja para o final de semana. 3.5.5 Bank of America A detecc o de fraudes e uma das aplicac es mais visadas pelos gerentes que procuram por soluc es em data mining. Diversos bancos recorrem a esse recurso para avaliar a credibilidade de seus clientes. Perfis s o trac ados com o intuito de oferecer facilidades e servic os a clientes com maior possibilidade de retorno, alem de aplicar limites de aplicac es para clientes considerados negligentes. O Bank of America usou essas tecnicas para selecionar entre seus trinta e seis milhes de clientes aqueles com menor risco de n o pagarem um emprestimo. A partir desses relatorios, foi poss criar uma campanha de marketing oferecendo linhas de credito para os correntistas vel cujos filhos tivessem entre 18 e 21 anos e, portanto, se interessassem por um emprestimo em dinheiro para auxiliar os filhos na compra de um automovel, uma casa propria ou arcar com os gastos da faculdade. Em menos de tr s anos o banco obteve um lucro de trinta milhes de dolares tendo um numero muito abaixo do normal de clientes com problemas no acerto do emprestimo.

UNESP / FEG CEIE, 2002

28

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

3.5.6 Banco Itau O banco Itau e uma empresa pioneira no Brasil no uso de data warehouse e data mining. Era comum o envio de mais de um milh o de malas diretas via correio para todos os correntistas com ofertas de servic os dos mais diversos. A correspond ncia era direcionada a todos os correntistas, mas no m ximo 2% deles respondiam a s promoc es. Hoje o banco mantem informac o sobre toda a movimentac o financeira de mais de tr s milhes de clientes e, atraves da minerac o dessa base de dados, e poss que as cartas sejam vel direcionadas apenas a queles clientes que demonstram maior chance de responder a oferta. A taxa de retorno aumentou de 2% para 30% e houve uma economia de aproximadamente 80% nas despesas com servic os de correio. 3.5.7 Outros exemplos de informac oes obtidas atrave s do uso de data mining Uma rede varejista americana descobriu, com base na minerac o dos dados contidos em sua informac o coletada em um armazem de dados, que a venda de col rios sofre um not vel aumento nas vesperas de feriados. O motivo dessa procura ainda e ignorado, mas a informac o foi mais tarde comprovada atraves das vendas nos feriados seguintes. As lojas passaram a contar com estoques extra do produto, preparando-se para os feriados.

UNESP / FEG CEIE, 2002

29

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

4 Softwares de Data Mining


4.1. Mine Set O software MineSet e formado por um conjunto de ferramentas integradas, que permitam a realizac o de minerac o e visualizac o de dados contidos em um banco de dados ou arquivos de texto com um formato espec fico. Essas ferramentas aplicam as tecnicas de data mining para garimpar os dados e mostrar os resultados de forma gr fica, de tal forma que permita ao usu rio uma melhor visualizac o, compreens o e com isso descoberta de informac es ocultas contidas nestes dados. Este software foi desenvolvido pela empresa americana Silicon Graphics e est atualmente na sua vers o 3.0. Para a realizac o deste projeto de pesquisa, o MineSet foi adquirido diretamente a partir do site (http://www.sgi.com). na Internet da Silicon Graphics

Figura 4.1. Tela de abertura do MineSet 3.0 da Silicon Graphics

4.1.1 Como o MineSet Trabalha O MineSet trabalha em um sistema cliente/servidor, sendo que o processo servidor pode ser executado na propria m quina do cliente. Obviamente se o processo servidor estiver em um servidor f sico (uma m quina normalmente muito mais poderosa) o trabalho de processamento ser menos exaustivo. A vers o testada no projeto e executada no sistema operacional Windows 98 e Windows ME, existindo tambem a vers o para Linux, que pode ser obtida a partir do mesmo web site. As

UNESP / FEG CEIE, 2002

30

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

exig ncias em n de hardware para que o software seja utilizado de maneira eficiente s o de vel uma m quina veloz (m nimo 500Mhz de velocidade do processador), memoria RAM de 128 Megabytes e monitor com resoluc o de 1024 por 768 pixels. Um computador respeitando essas especificac es pode ser usado como cliente e servidor, apresentando resultados satisfatorios de desempenho para estudos, embora esteja abaixo da capacidade para uma aplicac o profissional. O Data Mover e o processo que e lanc ado pelo cliente e roda no servidor. Esse processo e o respons vel pelo acesso ao banco de dados e tambem por executar transformac es, operac es de minerac o e gera os arquivos de visualizac o. Estes arquivos de visualizac o s o transferidos ent o ao cliente. O Tool Manager e o processo que e executado no cliente e prov a interface do programa (GUI), com a qual o usu rio faz a maioria das interac es com o MineSet. E atraves do Tool Manager (Figura 4.2) que o usu rio especifica a base de dados a ser trabalhada, o conjunto de transformac es a serem aplicadas, as ferramentas de minerac o e visualizac o usadas e como salvar os resultados do trabalho. Uma vez tendo completado estas especificac es, o Tool Manager envia essas informac es ao processo servidor Data Mover. Como os dados a serem analisados podem existir em arquivos de diferentes tipos (extenses), o MineSet l uma configurac o em um arquivo (com extens o .schema) que contem informac es sobre a tabela e o nome de um outro arquivo (com extens o .data) onde os dados realmente se encontram. Se a tabela de dados e do tipo Paradox, Dbase, arquivo de texto, etc, o Data Mover executa uma consulta e adquire um novo arquivo com uma base de dados compat com o software (.data). Ou seja, o MineSet cria uma imagem vel do banco de dados e trabalha os dados a partir dessa imagem. 4.1.2 Iniciando o MineSet O primeiro passo a seguir, apos iniciar o MineSet, e conect -lo a um servidor. Para isso usamos o menu File do Tool Manager e em seguida o submenu Connect to Server. Na caixa de di logo (Figura 4.3) digita-se o enderec o do servidor, login e senha do usu rio ou marca-se a opc o This machine as current user para executar os processos do servidor na m quina do cliente.

UNESP / FEG CEIE, 2002

31

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

Figura 4.2. Tool Manager

Figura 4.3. Caixa de dilogo para conexao ao servidor

O proximo passo e importar a base de dados. Acessando o menu File e o submenu Import Data, temos a caixa de di logo da Figura 4.4. Deve ser especificado o tipo de arquivo que ser importado para que o MineSet recorra ao arquivo de configurac o adequado (.schema). Em seguida se localiza o arquivo de dados que se deseja trabalhar. O MineSet salva um arquivo de
UNESP / FEG CEIE, 2002 32

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

dados (.data) com uma copia adequada da tabela e um arquivo de configurac o (.schema), ambos no servidor. Da proxima vez que o cliente executar o MineSet, ele automaticamente abrir o ultimo arquivo de configurac o utilizado.

Figura 4.4. Caixa de dilogo Import Data com destaque aos tipos de arquivos suportados pelo MineSet

4.1.3 Usando o Tool Manager A tela do Tool Manager est dividida em tr s paineis principais: Data Transformations, Data Destinations e Status. O painel Data Transformations mostra as colunas que est o sendo utilizadas no momento (Current Columns) e possui diversas ferramentas para as transformac es dessas colunas, tais como remoc o de colunas, mudanc a de nome e tipo dos dados das colunas, discretizac o, agregac o e adic o de colunas. Possui tambem botes que permitem voltar uma transformac o que foi executada (table history) e posteriormente excluir as transformac es (Current view is:).

UNESP / FEG CEIE, 2002

33

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

O painel Data Destination permite a escolha entre as ferramentas de visualizac o (Viz Tools), minerac o (Mining Tools) ou alterar as configurac es de gravac o dos arquivos com resultados (Data File). O painel de Status mostra informac es sobre as ac es do processo DataMover, e algumas vezes resultados de processamentos realizados, tais como porcentagens e falhas no processo. O Tool Manager conta tambem com uma tela que oferece um acesso mais r pido e f cil a s transformac es realizadas. E a History of Operations View (Figura 4.5) que apresenta um gr fico com o historico das operac es executadas (esquerda) e a caixa de di logo que foi apresentada ao usu rio durante a operac o. No exemplo, a operac o selecionada foi a aplicac o de um filtro. A caixa de di logo de filtro e ent o mostrada (a direita) para que as configurac es do filtro sejam modificadas.

Figura 4.5. Tool Manager mostrando o hist rico das transformac oes

UNESP / FEG CEIE, 2002

34

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

4.1.4 Visualizando os Dados O ponto alto do MineSet 3.0 e a sua capacidade de representar os dados analisados em excelentes gr ficos que se aproveitam da capacidade que o ser humano tem de abstrair e entender a informac o disposta na forma de esquemas (representac es gr ficas). 4.1.4.1 Scatter Visualizer (Grfico de dispersao) O MineSet oferece diversas ferramentas de visualizac o de dados que ajudam no entendimento dos dados, aproveitando-se da capacidade do ser humano de abstrac o de gr ficos e cores. O Scatter e Splat Visualizers s o semelhantes, com a distinc o de que o Scatter Visualizer mostra dados como uma serie de entidades individuais, enquanto o Splat Visualizer mostra agregac es de pontos de dados que aparecem como nuvens opacas e colorem uma imagem tridimensional.

Figura 4.6. Scatter Visualizer

O Scatter Visualizer permite que o usu rio examine o comportamento dos dados atraves de diferentes dimenses. Os dados s o mostrados em uma malha representando ate tr s dimenses. Dimenses extras podem ser mapeadas para os tamanhos, cores e rotulo de cada entidade mostrada, e mais duas dimenses independentes podem ser associadas como dimenses

UNESP / FEG CEIE, 2002

35

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

din micas. Um slider pode ser utilizado para selecionar valores espec ficos ao longo dessas dimenses, ou um caminho pode ser trac ado atraves dessas dimenses para fazer animac es a partir do gr fico. Durante a travessia do caminho ocorrem mudanc as na tela que refletem as variac es das vari veis independentes. Esta visualizac o e indicada quando o numero de pontos de dados e inferior a 50.000, ou quando algum processo foi executado de forma que os dados sejam reduzidos a um conjunto de agregac es. A ferramenta de visualizac o Scatter Visualizer mostra em uma perspectiva tridimensional os dados organizados no Arquivo de Dados e que ser o interpretados pelo Arquivo de Configurac o. Os dados ser o mostrados em um espac o delimitado por no m ximo tr s eixos de coordenadas. O Scatter Visualizer suporta os seguintes tipos de dados: numeros inteiros, pontos flutuantes, cadeias de caracteres e data. A ferramenta tambem aceita matrizes de tamanho fixo. O Arquivo de Dados possui extens o .data. O Arquivo de Configurac o possui a extens o .scatterviz. Elementos do Scatter Visualizer: A sentenc a axis faz com que uma vari vel seja utilizada como um eixo em 3D. O valor das vari veis determina onde as entidades s o posicionadas nos eixos. A sentenc a entity descreve um tamanho, cor e rotulo para entidades. Opc es especificas s o obtidas quando o bot o Tool Option e pressionado. A sentenc a sumary especifica associac o de informac o a ser calculada para todos os dados definidos pela posic o do slider. Esta sentenc a e utilizada para colorir a janela de desenho no painel de controle da animac o. A sentenc a slider identifica uma coluna a ser utilizada como uma dimens o do slider. Esta sentenc a e utilizada em visualizac es com animac es. A ferramenta de visualizac o Splat Visualizer permite ao usu rio analisar visualmente relac es existentes entre diversas vari veis tanto estaticamente como em animac es. Este tipo de visualizador de dados e recomendado para base de dados com muitos registros. Os dados s o mostrados em uma perspectiva tridimensional. Tais dados est o organizados no Arquivo de Dados e ser o interpretados pelo Arquivo de Configurac o. Os dados ser o mostrados espacialmente delimitados por no m ximo tr s eixos de coordenadas. O Splat Visualizer suporta os seguintes tipos de dados: numero inteiro, ponto flutuante, cadeia de caracteres, caractere e data. A ferramenta tambem aceita matrizes de tamanho fixo. O Arquivo de Dados possui extens o .data. O Arquivo de Configurac o possui a extens o .splatviz. Elementos do Splat Visualizer:

UNESP / FEG CEIE, 2002

36

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

Possui a sentenc as axis, sumary e slider com as mesmas caracter sticas do Scatter Visualizer juntamente com as sentenc as color e opacity. A sentenc a opacity descreve como uma coluna e mapeada para a opacidade das nuvens. A sentenc a color descreve como os valores s o mapeados para as cores. Se nenhum mapeamento e realizado, o efeito e monocrom tico.

4.1.4.2 Tree Visualizer O Tree Visualizer possibilita que o usu rio visualize os dados em uma forma hier rquica, ou melhor, em uma abstrac o em rvore com raiz, nos filhos e nos folhas. A visualizac o e feita criando-se os Arquivos de Dados e de Configurac o.

Figura 4.7. Tree Visualizer

A hierarquia dos dados contidos no Arquivo de Dados e definida atraves do Arquivo de Configurac o. Esta forma de abstrac o e muito util para a visualizac o de dados que possuem natureza hier rquica. Esta ferramenta visualizac o prov uma capacidade interativa tal que permite examinar as relac es entre dados em diferentes n veis. Por exemplo, o Tree Visualizer pode ser usado para examinar a linha de produtos de uma companhia, mostrando graficamente a contribuic o de cada produto para o rendimento total da companhia. Cada ramo da rvore mostra informac o em um n de detalhes crescente, fragmentando os rendimentos por linhas de vel produtos e, eventualmente, por produtos individuais.

UNESP / FEG CEIE, 2002

37

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

Um outro exemplo da utilizac o do Tree Visualizer seria o de explorar os rendimentos das vendas de uma empresa, mostrando um total de vendas da companhia nacionalmente, bem como os subtotais nas regies e nos demais n veis. As capacidades de filtragem e buscas do Tree Visualizer permitem que o usu rio focalize um elemento espec fico dos dados e realize consultas espec ficas.

Figura 4.8. Detalhe da rvore no Tree Visualizer

O Tree Visualizer tambem e usado para verificar os resultados do Classificador de A rvores de Decis o, com cada decis o sendo representada por um no separado na rvore. Cada no mostra tambem barras que ilustram como o classificador classifica os dados com base nas decises acima daquele ponto. O Tree Visualizer suporta os seguintes tipos de dados: numero inteiro, ponto flutuante, cadeia de caracteres, caractere e data. A ferramenta tambem aceita matrizes de tamanhos fixos e vari veis e matrizes enumeradas. O Arquivo de Dados possui extens o .data. O Arquivo de Configurac o possui a extens o .treeviz. Elementos do Tree Visualizer: A sentenc a key bars especifica a chave que ser utilizada para selecionar as barras de cada no na hierarquia. Apenas uma unica chave pode ser utilizada, e esta chave deve ser diferente da chave da sentenc a levels. A sentenc a levels define a hierarquia dos dados. E usada para dividir os dados em mais hierarquias, podendo-se especificar tantos n veis de hierarquias quanto forem necess rios.

UNESP / FEG CEIE, 2002

38

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

A sentenc a height bars descreve como as colunas s o mapeadas nas alturas dos objetos visuais. Esta sentenc a possui v rias cl usulas: - .normalize, que determina o maior valor para a altura de um objeto e normaliza os outros em func o desta altura; - .max, e utilizada com a cl usula normalize para definir a maior altura permitida; - .scale, se as cl usulas normalize e max n o forem usadas, a cl usula scale pode escalonar os valores das alturas dos objetos; - .filter, que filtra os objetos visuais baseado na altura dos mesmos; - .legend, que define significados para os mapeamentos feitos.

A sentenc a height disks usado para especificar as alturas que os discos representam. Discos opcionais s o colocados nas mesmas localizac es que as barras, sendo uteis quando seus atributos possuem a mesma unidade de medida (por exemplo, vendas atuais e vendas do ultimo ano).

A sentenc a height base especifica como a altura da base e calculada. A sentenc a color descreve como os valores s o mapeados para as cores. Esta sentenc a possui as seguintes cl usulas: - .color naming, que segue as convenc es do X Window System para nomes de cores; - .vari vel color, que e especificada para ser mapeada em uma cor; - .key, ao inves da vari vel anterior pode-se utilizar uma chave; - .colors, que especifica as cores que ser o usadas; - .scale, permite associac o de valores a uma variedade cont de cores; nua - .legend, que cria uma legenda para as cores.

A sentenc a color disks e usada para especificar o que as cores de discos representam. Pode-se nomear as cores especificas atraves do bot o Tool Options ou permitir que o MineSet nomeie automaticamente. Esta opc o so tem efeito se o disk heigth for especificado.

A sentenc a color bases e usada para especificar o que as cores b sicas representam. Possui opc es para agregar o atributo a cada n utilizando o vel bot o Tool Options.

A sentenc a e usada para ordenar os nos pelos valores do atributo selecionado.

UNESP / FEG CEIE, 2002

39

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

4.1.4.3 Map Visualizer O Map Visualizer permite ao usu rio visualizar os relacionamentos existentes entre os dados em reas correlatas, de forma geogr fica. Por exemplo, o usu rio pode visualizar diferentes reas de um pa mostrando o impacto relativo de um programa de marketing. Ainda, s, existem capacidades que permitem ao usu rio focalizar certas regies e realizar uma an lise mais detalhada em elementos geogr ficos menores.

Figura 4.9. Map Visualizer

Por exemplo, pode ser analisado como um ou mais produtos est o sendo vendidos em reas geogr ficas diferentes. Uma propriedade poderosa de animac o, unida com a capacidade de conectar diferentes vises do mesmo dado ou dados relacionados, permite uma comparac o r pida e an lises diferenciadas. Esta ferramenta permite que o usu rio examine visualmente padres nos dados que s o dif ceis de se detectar quando os dados s o mostrados em uma forma tabular bidimensional. O aplicativo Map Visualizer permite que o usu rio visualize dados que est o relacionados em um espac o geogr fico como pa estado, cidade, terreno e outros. s, Esta ferramenta de visualizac o mostra em uma perspectiva tridimensional os dados organizados no Arquivo de Dados e definidos no Arquivo de Configurac o. Os dados s o mostrados como objetos em um formato geometrico definido no Arquivo GFX. Tais objetos s o mostrados em uma hierarquia definida no Arquivo de Hierarquia. O Map Visualizer suporta os seguintes tipos de dados: numero inteiro, ponto flutuante, cadeia de caracteres, caractere e data. A ferramenta tambem aceita os tipos de dados matrizes de tamanhos fixos. O Arquivo de Dados possui extens o .data. O Arquivo de Configurac o possui a extens o .mapviz.

UNESP / FEG CEIE, 2002

40

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

O Map Visualizer ajuda o usu rio a visualizar espacialmente dados relacionados. Alem de dinamicamente navegar por esta imagem apresentada geograficamente, pode-se visualizar de cima para baixo e adquirir uma avaliac o, como tambem usar animac o para observar como os dados se posicionam por uma ou duas dimenses independentes. Uma dimens o independente e qualquer atributo como idade ou ano que pode variar independentemente de outra coluna. O painel de animac o aparece a direita da janela principal somente quando o conjunto de dados contem dimenses independentes.

Figura 4.10. Animac ao no Map Visualizer

Em alguns casos os dados devem ser preparados e agregados de forma que se obtenha um menor conjunto de dados para a devida distribuic o pelo mapa geogr fico. Elementos do Map Visualizer: A sentenc a entity especifica a entidade a ser manipulada. A sentenc a geography no Tool Option especifica como os objetos gr ficos s o desenhados na janela principal. A sentenc a slider identifica uma chave para ser utilizada como uma dimens o da imagem. A chave pode ser utilizada para realizar animac es. A sentenc a height descreve como as colunas de dados (campos) s o mapeadas em relac o aos objetos gr ficos. A sentenc a color descreve as cores que s o mapeadas para cada valor.

UNESP / FEG CEIE, 2002

41

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

A sentenc a message no Tool Option especifica a mensagem que ser mostrada quando um objeto for selecionado. A sintaxe e muito parecida com a sentenc a printf da linguagem C (printf(Mensagem de explicac ao )).

A sentenc a execute no Tool Option permite que se execute um comando do shell do sistema operacional atraves de um duplo click com o mouse num objeto da tela.

4.2. WizRule O WizRule e um software de auditoria, descric o e limpeza de dados que, de forma autom tica, revela todas as regras que modelam a base de dados e indica os casos de desvio encontrados com relac o ao conjunto de regras geradas. Criado pela empresa WizSoft, pode ser adquirido atraves de download a partir do site da empresa na internet (www.wizsoft.com). O programa gera relatorios que descrevem a base de dados atraves de regras, dentre elas, regras do tipo se A ent o B, regras matem ticas e erros ortogr ficos de nomes e valores. Pode tambem calcular o n de incerteza de cada desvio evitando assim os casos em que um vel registro e considerado um desvio a regra.

Figura 4.11. Tela principal do WizRule

Pode-se determinar o numero m nimo de ocorr ncias de um caso para que ele seja considerado uma regra. Tambem e permitido determinar os tipos de regras que o programa deve procurar.

UNESP / FEG CEIE, 2002

42

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

A tela inicial do WizRule e apresentada na figura 4.11 e nela e permitido escolher a base de dados que ser trabalhada. O software pode manipular arquivos de texto ASCII, dBase, MS Access, ODBC e OLE DB. A base em quest o e escolhida em uma caixa de listagem que abre a caixa de dialogo para a escolha do arquivo. Escolhido o arquivo, uma janela para a configurac o do arquivo do tipo espec fico ser aberta para a definic o de detalhes quanto a s colunas da tabela. Essa tabela e ilustrada na figura 4.12 onde foi escolhido um arquivo do tipo ASCII com os campos de tamanho fixo e tendo a primeira linha como cabec alho da tabela.

Figura 4.12. Configurac ao de uma tabela do tipo ASCII

Estando a base de dados definida e configurada, pode-se iniciar as configurac es adequadas para iniciar o processo de procura por regras. O software oferece algumas opc es para que se evite o retorno de regras j conhecidas ou sem sentido. Pode-se, por exemplo, eliminar alguns campos que n o tenham influ ncia sobre a pergunta que se tenta responder.

UNESP / FEG CEIE, 2002

43

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

Figura 4.13. Definic ao das limitac oes de regras

A figura 4.13 representa a tela do programa apos a escolha e configurac o da base de dados que ser tratada. Por exemplo, em um banco de dados sobre as transac es de uma rede de lojas, pode-se procurar apenas por regras que definam o porte das lojas atraves da an lise dos demais campos. Para isso, ignoram-se as regras que definem os demais campos, marcando-os na opc o Ignore then . Dessa forma, as regras determinadas pelo WizRule ser o somente aquelas que resultem em algum valor do tamanho da loja. Para evitar que um campo qualquer seja analisado pode-se marcar, alem da opc o Ignore then , tambem a opc o Ignore if . Dessa forma, nenhuma regra ser encontrada contendo este campo. Campos nulos s o ignorados a n o ser aqueles cuja a opc o Analyze if Empty esteja selecionada.

Figura 4.14. Propriedades das regras

UNESP / FEG CEIE, 2002

44

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

A definic o do numero m nimo de casos ocorridos para que uma regra seja gerada e definido na guia Rule Type, como mostrado na figura 4.14. Na mesma tela, e definida a categoria de regra que se deseja encontrar (se..ent o, matem tica ou erros de escrita ou valores). Com essas definic es m nimas j e poss acionar o algor vel tmo que listar as regras.

Figura 4.15. Regras geradas

As regras s o visualizadas na forma textual e de f cil compreens o como mostrado na figura 4.15. Na maioria dos casos, as regras geradas ser o do tipo se..ent o como o exemplo: If PRODUTO is Hat and ME S starts with J Then COR is White Rule's probability: 0,950 The rule exists in 72 records. Significance Level: Error probability is almost 0.002 Neste caso foi detectado que se o produto for chapeu e o m s iniciar pela letra J, ent o a cor do chapeu ser branca. Essa regra foi encontrada em 220 dos 780 registros da base de dados de exemplo. A probabilidade da regra e de 95%, ou seja, apenas 5% dos chapeus vendidos em junho e julho n o eram brancos. Existem 72 casos que confirmam essa regra. E a probabilidade de essa regra estar errada e de apenas 0,2%. Uma regra matem tica aparecer na forma:

UNESP / FEG CEIE, 2002

45

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

A=B*C Where: A = Total B = Quantity C = Unit Price Rule s Accuracy Level: 0.99 The rule exists in 152 records Esse tipo de regra simplesmente descobre relac es matem ticas existentes entre os diversos campos da tabela. Essas regras geralmente j s o conhecidas ou ate impostas na criac o do banco de dados, mas alguma nova relac o pode ser encontrada e surpreender o analista. Regras de erro de escrita aparecem da seguinte forma: The value Jacket appears 52 times in the Produto field. There are 2 case(s) containing similar value(s) O software afirma que o produto Jacket aparece 52 vezes na tabela, e existem duas ocorr ncias de valores similares. Esses valores provavelmente ser o erros de digitac o, por aparecerem em numero bastante reduzido, porem a conclus o depende da intervenc o de um agente humano que verifique a veracidade da regra.

UNESP / FEG CEIE, 2002

46

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

5 Considerac o es Finais
As tecnologias para armazenamento de informac o s o t o comuns quanto numerosas. Junta-se a isso, a vontade dos empreendedores de extrair o m ximo de vantagem de suas informac es. Esses elementos tornam a minerac o de dados e a busca de conhecimento a partir de banco de dados uma rea de conhecimento em crescente expans o nos dias de hoje. Ser raro, em um futuro proximo, uma empresa que n o invista nas tecnologias do conhecimento. A busca pelo conhecimento nunca foi f cil. A utilizac o de equipamentos, computadores e de tecnicas avanc adas de intelig ncia artificial n o substituem as habilidades abstratas humanas na interpretac o de qualquer tipo de informac o. Os softwares de minerac o de dados auxiliam em muito e minimizam o trabalho exaustivo do homem na an lise de imensas quantidades de dados, tornando a informac o mais clara e a busca pelo conhecimento mais f cil. No campo de apoio a decis o, data mining utilizado de forma consciente em conjunto por gerentes e engenheiros da informac o resulta em vasta gama de novos e totalmente inesperados conhecimentos que n o seriam de forma alguma localizados por qualquer uma das partes isoladamente. Gerentes t m o conhecimento sobre o dia-a-dia e o universo de suas atividades, mas n o e vi vel que analisem toda a informac o colhida em suas atividades. Engenheiros da informac o costumam trabalhar dados e transform -los da forma que lhes convem para torn -los mais amistosos. O data mining realiza o trabalho pesado e exaustivo que seria imposs a qualquer agente humano ou ao menos n o poderia ser realizado em tempo vel h bil. Pode-se dizer com relativa confianc a que e f cil comec ar um projeto de data mining, a dificuldade est em finaliz -lo de acordo com as expectativas. As promessas geradas, no in cio de um projeto, pela utilizac o de novas tecnologias que podem resolver problemas tradicionalmente dif ceis, podem ser mal interpretadas ao se avaliar a expectativa de um novo projeto. Dificuldades com a extrac o dos dados, preparac o dos mesmos, validac o dos dados extra dos e a alocac o de recursos no cliente, freq entemente s o subestimadas durante o planejamento dos cronogramas para a execuc o dos projetos. As atividades de obtenc o e limpeza dos dados geralmente consomem mais da metade do tempo dedicado ao trabalho.

UNESP / FEG CEIE, 2002

47

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

5.1. Dificuldades Encontradas Algumas dificuldades foram encontradas durante a realizac o do presente trabalho, das quais vale citar: Dificuldade de obtenc o de softwares de minerac o de dados, pois s o softwares que geralmente exigem grande capacidade de processamento alem de se apresentarem na forma de sharewares, verses com diversas limitac es tanto com relac o a s operac es que podem ser realizadas como com relac o ao tempo de uso. A bibliografia na rea de descoberta de conhecimento limita-se a relatorios e artigos geralmente publicados em revistas, alem de muitas das informac es encontradas divergirem entre si. Livros s o poucos e de prec os elevados, dificultando o acesso. Empresas geralmente se ressentem em disponibilizar qualquer tipo de informac o sobre suas atividades gerenciais ligadas a marketing e competitividade, o que inviabilizou uma pesquisa aprofundada sobre a realidade da utilizac o de KDD entre empresas nacionais.

UNESP / FEG CEIE, 2002

48

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

BIBLIOGRAFIA
(AGRAWAL, 1996) Agrawal, R., et al. Fast Discovery of Association Rules. In: Advances in Knowledge Discovery and Data Mining, Mento Park, AAAI Press, 1996. (AMARAL, 2001) Amaral, F. C., Data Mining Tecnicas e Aplicac es para o Marketing, Ed. Berkeley Brasil, 2001. (BERRY, 2000) Berry, M. and Linoff, G., Mastering Data Mining Art and Science of Customer Relationship Management, Ed. Wiley, 2000. (CHATTERJEE, 1991) Chatterjee, A. and Segev, A., Data Manipulation in Heterogeneous Databases, Sigmod Record, Vol. 20, n. 4, December of 1991. (DAVENPORT, 1990) Davenport, T. H. and Short, J. E., The New Industrial Engineering: Information Technology and Business Process Redesign, Sloan Management Review, v. 31, n. 4, 1990. (FAYYAD, 1996) Fayyad, U., From Data Mining to Knowledge Discovery: an overview, AAAI Press, 1996. (FRAWLEY, 1991) Frawley, W., Piatetsky-Shapiro, G. and Matheus, C., Knowledge Discovery in Databases: An overview, AAAI Press, 1991 (FREITAS, 2001) Freitas, O. G. e Rodrigues, A. M., Sistema de Apoio a Decis o Usando a Tecnologia Data Mining, CBComp 2001. (GOEBEL, 1999) Goebel, M. and Gruenwald, L., A Sourvey of Data Mining and Knowledge Discovery Software Tools, ACM Sigkdd, v. 1, n. 1, June of 1999. (IGCE, 1998) http://www.igce.unesp.br/igce/grad/computacao/cintiab/datamine (INMOM, 1992) Inmom, W. H., Building the Data Warehouse, John Wiley and Sons, 1992. (INMOM, 1994) Inmom, W. H. and Hackathorn, R. D., Using the Data Warehouse, John Wiley and Sons, 1994. (INMOM, 1997) Inmom, W. H., Como Construir Data Warehouse, Rio de Janeiro, Ed. Campos, 1997. (KEEN, 1978) Keen, G. W. and Scott, M. S., Decision Support Systems: An Organizational Perspective, MA: Addison-Wesley, 1978. (KEEN, 1987) Keen, G. W., Decision Support Systems: The Next Decade, Decision Supports Systems Review, n. 3, 1987. (LEVINE, 1989) Levine, A. L. and Pomerol, J. C., Sistemas Interativos de Apoio a Decis o e Sistemas Especialistas, Ed. Herm 1989. s,

UNESP / FEG CEIE, 2002

49

Descoberta de Conhecimento em Banco de Dados para Apoio a Tomada de Decisa o

(OLIVEIRA, 1993) Oliveira, D. R., Sistemas de Informac es Gerenciais: estrategicas, t ticas, operacionais, Ed. Atlas S o Paulo, 1993. (SRIVASTAVA, 1999) Srivastava, J. and Chen, P. Y., Warehouse Creation A Potential Roadblock to Data Warehousing, IEEE Transaction on Knowledge and Data Engineering, Vol. 11, n 1, 1999. (STREHLO, 1996) Strehlo, K., Data Warehousing: Avoid Planned Obsolence, Datamation Review, Janeiro de 1996.

UNESP / FEG CEIE, 2002

50