Você está na página 1de 42

Sumrio

3 5 7 11 13 19 23 27 31 35

Apresentao Programao de estudos O poder da Informao e do Conhecimento nas Organizaes Sistemas de Informao Classificao dos Sistemas de Informao Inteligncia nos Negcios Data Warehouse Descoberta de conhecimento / Minerao de dados em Bases de Dados O Processo de KDD Tcnicas de Minerao de Dados

Business Intelligence

Copyright UnisulVirtual 2009 Nenhuma parte desta publicao pode ser reproduzida por qualquer meio sem a prvia autorizao desta instituio. Edio Caderno didtico Professor Conteudista
Glaucio Adriano Fontana

Coordenao do Curso de Especializao em Gerncia de Projetos de Tecnologia da Informao


Vera Regina Niedersberg Schuhmacher

Design Instrucional
Silvana Souza da Cruz Clasen

Projeto Grfico e Capa


Equipe Design Visual

Diagramao
Anne Cristyne Pereira

Reviso
B2B

Apresentao

Este caderno didtico faz parte da disciplina Business Intelligence. Nas unidades on-line da disciplina, voc encontra o cronograma de estudos, assim como os demais textos, materiais e atividades de aprendizagem que se integram leitura deste caderno didtico. Sugerimos que voc imprima os textos indicados nas unidades on-line e os anexe a este caderno didtico. Assim, voc ter em um nico local os materiais indicados para leitura, facilitando, inclusive, a realizao da avaliao presencial da disciplina. No decorrer deste caderno, voc encontrar alguns espaos em branco. Aproveite-os para fazer anotaes e questionamentos sobre os textos, assim como as respectivas snteses. So exerccios extremamente importantes para a consolidao do seu aprendizado. Aproveite ao mximo este e tambm os outros materiais didticos do seu curso. O sucesso da sua aprendizagem depende principalmente de voc. Bom estudo e sucesso! Equipe UnisulVirtual

Business Intelligence

Programao de estudos
Unidades Objetivos de aprendizagem
Conhecer a proposta da disciplina.

Leituras bsicas
Plano de ensino Cronograma Apresentao da disciplina pelo professor conteudista

Localizao EVA EVA EVA Web aula

Incio
Apresentao da disciplina

1
O poder da Informao e do Conhecimento nas Organizaes

Compreender o papel da informao e do conhecimento como facilitadores para a tomada de decises e planejamento em organizaes. Entender em que mbito a tecnologia contribui no processo de tomada de decises. Diferenciar sistemas de informao dentro de um ambiente organizacional.

Seo 1 - Gesto de Conhecimento

Caderno didtico e EVA Texto on-line Caderno didtico Caderno didtico EVA - Web aula

Seo 2 - Sistemas de Informao Seo 3 - Classificao dos Sistemas de Informao Seo 4 - Relacionando os Sistemas de Informao Seo 1 - O que BI?

2
Colocando Inteligncia nos Negcios

Assimilar conceitos bsicos de Business Intelligence. Analisar a arquitetura bsica de um sistema de BI e suas partes. Refletir sobre aplicaes de BI em diferentes meios.

Caderno didtico e EVA Texto on-line EVA Web aula

Seo 2 - Web aula: Arquitetura Bsica de BI Seo 3 - Inteligncia ponto.com Seo 4 - Estudos de Caso: Aplicando BI

EVA Texto on-line EVA Texto on-line


continua

Business Intelligence

Unidades

Objetivos de aprendizagem
Compreender a construo e funcionamento dos Data Warehouses, como suporte ao armazenamento das informaes das organizaes. Identificar as principais caractersticas de um DW Entender o que modelagem (multi)dimensional.

Leituras bsicas
Seo 1 - Caractersticas fundamentais de um DW

Localizao Caderno didtico e EVA Texto on-line EVA Texto on-line EVA Web aula

3
Data Warehouse

Seo 2 - Sistemas EIS e Data Warehouse Seo 3 Modelando Dimensionalmente

4
Fases do Business Intelligence

Compreender as fases do processo de descoberta de conhecimento em volume de dados. Conhecer tcnicas de Minerao existentes e aplicveis em um sistema de BI.

Seo 1 - Descobrir Conhecimento

Caderno didtico e EVA Texto on-line Caderno didtico Caderno didtico EVA Web aula

Seo 2 - O processo de KDD

Seo 3 - Tcnicas de Minerao de Dados Seo 4 - Web aula: Prevendo informaes

FIM
Encerramento da disciplina

Finalizar os estudos da disciplina.

Para concluir o estudo Referncias

EVA EVA

Ps-graduao

O poder da Informao e do Conhecimento nas Organizaes


Glaucio Adriano Fontana

Gerenciar informao da melhor forma pressupe ferramental para tal. A Tecnologia de Informao e Comunicao constitui estes meios. Segundo Marcovitch (1996), Tecnologia da Informao (TI) pode ser entendida como o complexo tecnolgico que envolve computadores, software, redes de comunicao eletrnica pblica e privada, rede digital de servios de telecomunicaes, protocolos de transmisso de dados e outros servios. A TI tem sido considerada como um fator importante para potencializar o desenvolvimento dos processos produtivos e da gesto das organizaes. O avano acelerado das tecnologias de informao e comunicao modificou as relaes socioculturais e o modo como percebemos e entendemos o mundo. As organizaes, que se beneficiam de tecnologia da informao e sistemas de informao para melhor gerenciar seus negcios, no so inclumes, desta forma, a essas mudanas. A Informao tratada, manipulada e gerenciada pelas tecnologias de informao tida como a principal matria-prima de qualquer organizao. A informao valiosa se for pertinente situao, fornecida no tempo certo, para as pessoas certas e de forma no complexa demais para ser entendida. Deve ser clara, concisa, precisa, completa e de custo compatvel. Atualmente, a informao se constitui em um dos principais patrimnios de uma empresa. Podese afirmar que o sucesso das organizaes, qualquer que seja o seu porte ou ramo de atividade, depende, cada vez mais, de informaes. Dados incluem os itens que representam fatos, textos, grficos, imagens estticas, sons, etc. So sinais que no foram processados, correlacionados, integrados, avaliados ou interpretados de qualquer forma, representando, segundo Maas (1999, p. 64), a expresso em estado bruto e no interpretada de um fato. DAVENPORT apud REZENDE (2003) cita que os dados podem ser descritos atravs de representaes em funo de forma e estrutura, podendo ser armazenados e manipulados em um computador e processados por ele, uma vez que se referem a observaes sobre o estado do mundo e estas, por sua vez, podem ser feitas por pessoas ou por tecnologia.

Uma vez que os dados so processados, interpretados, dentro de um contexto em que exprime significado, obtm-se a informao, como se constata na afirmao de Gordon e Gordon (2006), definem-se dados como fatos, valores, observaes e medidas que no esto contextualizadas ou organizadas. Define-se, portanto, informao como dados processados dados que foram organizados e interpretados e possivelmente formatados, filtrados, analisados e resumidos. J o conhecimento pode ser conceituado como sendo um argumento ou explicao que interpreta um conjunto de informaes e acrescenta semntica informao. Trata-se de conceitos e raciocnios lgicos, essencialmente abstratos, que interligam e do significado a fatos concretos. Envolve hipteses, teses, teorias e leis. Dentro de aparatos tecnolgicos, podemos ainda entender conhecimento como regras estabelecidas e armazenadas que podem agregar mais conhecimento ou gerar mais informao.

Conceitos
Dados: so fatos puros ou descries bsicas de coisas, eventos, atividades e transaes que so capturados, registrados, armazenados e classificados. Informao: um conjunto de fatos (dados) organizados de modo a fazer sentido para o destinatrio. As informaes nascem a partir dos dados processados. Conhecimento: Consiste em informaes organizadas e processadas para transmitir discernimento, experincias, aprendizagem acumulada ou habilidade, se aplicvel a um problema ou processo empresarial atual.

Oliveira (2000, p. 36) faz uma distino simples e profcua:


Inicialmente deve-se distinguir dado de informao. O que distingue dado ou um conjunto de dados de informao, a qual auxilia no processo decisrio, o conhecimento que ela propicia ao tomador de deciso. Dado qualquer elemento identificado em sua forma bruta que por si s no conduz a uma compreenso de determinado fato ou situao. Portanto, o executivo deve obter o conhecimento a partir do dado transformado, o que lhe propicia um processo dinmico ou um elemento de ao; esta situao dinmica permite ao executivo posicionar-se diante de um problema ou situao qualquer. Informao o dado trabalhado que permite tomar decises.

Ps-graduao

Gesto de Conhecimento
A Gesto do conhecimento tem trs pilares ou trs Cs que compreendem Consultar, Compartilhar e Colaborar. Vale ressaltar que Criar (que poderia ser pensado como o quarto C) est contido nos pilares Compartilhar e Colaborar, desde que, para compartilhar e/ou colaborar, necessrio que ocorra antes a criao. Esses trs pilares atuam de maneira transversal, exigindo a atuao em trs dimenses: Ferramentas (ou mecanismos), Cultura e Capital Humano (SILVA FILHO, 2006). Gesto do conhecimento envolve uma reviso dos processos, polticas e tecnologias da empresa a partir de uma melhor compreenso do capital intelectual da empresa e dos fluxos mais importantes relacionados criao, identificao, organizao, disseminao e uso de conhecimento estratgico para a organizao. Vantagens competitivas se do por intermdio de melhor uso dos ativos do conhecimento, como marcas, patentes, inovao, conhecimento tcito dos colaboradores da empresa e reutilizao de conhecimento visando melhor produtividade (BATISTA, 2003). Estes dois ltimos itens, em especial, levam a imaginar questes relativas estruturao deste conhecimento. Formas de se modelar conhecimento tcito, no estruturado, oriundo de pessoas, e de que maneira reusar este conhecimento. Propostas que indicariam web semntica para tal.
Figueiredo (2006) apud Abreu (2006) diz que a Gesto do Conhecimento no a chegada e sim a viagem, no sentido de que o caminho importa tanto quanto o destino e, ainda, reafirma que o conceito muito mais uma conquista do que uma aquisio.

O termo gesto de conhecimento em corporaes tido como um modelo de gesto que intenciona alavancar, multiplicar e gerar riquezas a partir do capital intelectual e do conhecimento da organizao. Pode ser tido como um conjunto de tcnicas, posturas e condutas dedicadas ao zelo do saber organizacional. Vrios autores apresentam conceitos, de modo a tornar a explicitao abrangente, mas de modo a serem comuns em um ponto: conhecimento como sendo capital. O Gartner Group (1998 apud CARVALHO, 2009), por sua vez, define o seguinte:
A administrao do conhecimento colhe e partilha bens intelectuais visando obter resultados timos em termos da produtividade e capacidade de inovao das empresas. um processo que envolve gerar, coletar, assimilar e aproveitar o conhecimento, de modo a gerar uma empresa mais inteligente e competitiva. Este enfoque valoriza o compartilhamento, fundamental para a informao ser assimilada como conhecimento.

Business Intelligence

10

Neste contexto, Silva Filho (2006) observa que dispor de mecanismos que facilitem o acesso informao constitui um aspecto chave nas empresas. Artefatos de informao, compreendendo todo o conjunto de informaes que a empresa detm, precisam estar acessveis e integrados de modo a minimizar qualquer esforo para sua obteno. Quanto mais rpido os profissionais de uma organizao conseguem acessar as informaes que necessitam para a realizao de suas atividades, maior ser sua produtividade, alm de poder implicar em novas oportunidades de negcios.

Referncias
BATISTA, Emerson. Sistemas de Informao. So Paulo: Saraiva, 2003. CARVALHO, Helio. Gesto do Conhecimento e Inteligncia Competitiva: Sistemas Complementares. Disponvel em: <http://www.pg.utfpr.edu.br/ppgep/Ebook/ ARTIGOS2005/E-book%202006_artigo%2055.pdf>. Acesso em julho de 2009. CARVALHO, Rodrigo Baroni. Aplicaes de Softwares de Gesto do Conhecimento. Belo Horizonte: Programa de Ps Graduao em Cincia da Informao da UFMG, 2000. 144p. GORDON, Steven R.; GORDON, Judith. Sistemas de Informao: uma abordagem gerencial. 3. ed. Rio de Janeiro: LTC, 2006 MAAS, Antonio Vico. Administrao de Sistemas de Informao. So Paulo: rica, 1999. MARCOVITCH, Jacques. Tecnologia da Informao e Estratgia Empresarial. So Paulo: Futura, 1996. OLIVEIRA, Djalma P. Rebouas de. Sistemas de Informaes Gerenciais: estratgicas, tticas, operacionais. 6. ed. So Paulo: Atlas, 1999. REZENDE, Denis A. e ABREU, Aline F. Tecnologia da Informao Aplicada a Sistemas de Informaes Empresariais: o papel estratgico da informao e dos sistemas de informao nas empresas. So Paulo: Atlas, 2000. SILVA FILHO, A. Gesto do Conhecimento: Sobre a Importncia da Extrao da Informao. Revista Espao Acadmico. 2006. SILVA FILHO, Antnio M. Os trs pilares da gesto do Conhecimento. Disponvel em: http://www.espacoacademico.com.br/058/58silvafilho.htm. Acesso em: agosto de 2009.

Ps-graduao

11

Sistemas de Informao
Glaucio Adriano Fontana

Os sistemas de informao consistem no conjunto de componentes interrelacionados trabalhando juntos para coletar, recuperar, processar, armazenar e distribuir informaes com a finalidade de facilitar o planejamento, o controle, a coordenao, a anlise e o processo decisrio em empresas. Os sistemas de informao tm evoludo tanto em importncia para as organizaes, quanto em tecnologia. Os sistemas de arquivamento manual podem satisfazer muitas necessidades para organizar e recuperar informaes, mas atravs destes torna-se lenta e difcil a tarefa de recuperar grandes quantidades de informao, bem como coletar e transmiti-las de grandes distncias. Os sistemas de informao computadorizados, por sua vez, facilitam o acesso aos dados em um nico local, suportando rpidas e repetidas pesquisas de dados, permitindo tambm recuperar informaes de mltiplos locais quase sempre instantaneamente. Com a crescente competitividade entre as organizaes, a tecnologia da informao ganha valor fundamental para as estratgias de administrao. As organizaes que almejam diferenciais competitivos, para conquistar mercados e obter vantagens, precisam conhecer as tendncias, desejos e anseios destes mercados, o que somente poder ser realizado atravs de um eficiente sistema de informao (LAUDON; LAUDON, 2001). Decises podem ser estruturadas, quando possuem procedimentos bem definidos e documentados; no estruturadas, quando h bastante subjetividade de julgamento e avaliao; ou ainda semiestruturadas, quando hbridas em relao aos tipos referidos. Desta maneira, diferentes SI so necessrios, a pensar inclusive pelo ambiente dinmico em que esto inseridos, leia-se mercado que exige respostas rpidas em funo de suas necessidades e mudanas. A interpretao, atravs dos dados, sobre o que realmente os clientes, os concorrentes e outros atores do ambiente interno e externo esto querendo dizer, mesmo que de forma indireta, auxilia os gestores a monitorar o desempenho da empresa, possibilitando aos mesmos adotar medidas efetivas para melhorar seus produtos e processos, bem como utilizar informaes sobre as melhores prticas

12

de outras empresas, estabelecendo assim um padro de desempenho de alto nvel para essa empresa (GORDON; GORDON, 2006). Maas (1999) define o sistema de informao como o conjunto interdependente das pessoas, das estruturas da organizao, das tecnologias de informao (hardware e software), dos procedimentos e mtodos que deveria permitir empresa dispor, no tempo desejado, das informaes de que necessita (ou necessitar) para seu funcionamento atual e para sua evoluo. Percebe-se a importncia do item pessoas, tanto como trabalhadores de informao e conhecimento como usurios destes, abrangendo, portanto, alm de tecnologias e um ambiente (organizao), o componente humano. Os sistemas de informao influenciam diretamente o modo como os gestores decidem, planejam e, em muitos casos, determinam como e quais produtos e servios so produzidos. Atualmente, podem ajudar as empresas a ampliar seu alcance a mercados distantes, oferecer novos produtos e servios, reformar tarefas e fluxos de trabalho e at mesmo mudar profundamente a maneira de conduzir negcios (LAUDON; LAUDON, 2001). Este o principal papel para os sistemas de informao, ou seja, sua aplicao em problemas que se relacionam vantagem competitiva de uma empresa. Eles tm importncia estratgica, uma vez que se concentram em resolver problemas relacionados tanto ao desenvolvimento da empresa a mdio e longo prazo, quanto a sua sobrevivncia. Tais problemas podem significar a criao ou inovao em novos produtos e servios, o estabelecimento de novas relaes com clientes e fornecedores ou a descoberta de meios mais efetivos de administrar as atividades da empresa. (BIO, 1996).

Referncias
BIO, Srgio Rodrigues. Sistemas de Informao: Um Enfoque Gerencial. So Paulo: Atlas, 1996. GORDON, Steven R.; GORDON, Judith. Sistemas de Informao: uma abordagem gerencial. 3. ed. Rio de Janeiro: LTC, 2006. LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de Informao Gerenciais: administrando a empresa digital. So Paulo: Prentice Hall, 2001. MAAS, Antonio Vico. Administrao de Sistemas de Informao. So Paulo: rica, 1999.

Ps-graduao

13

Classificao dos Sistemas de Informao


Glaucio Adriano Fontana

Os sistemas de informao nas empresas podem ser classificados de muitas maneiras, representando diferentes possibilidades de uso. Uma classificao, apresentada por Laudon e Laudon (2001) feita por meio dos nveis hierrquicos aos quais os sistemas de informao do suporte: operacional, gerencial ou estratgico. Os Sistemas de Nvel Operacional so direcionados ao suporte das atividades fim da empresa, acompanhando a rotina, indicando o nvel das vendas, compras, fluxo de caixa, emisso de notas fiscais. Esses sistemas esto ligados diretamente s operaes e ao dia a dia, e so denominados Sistemas de Informaes Transacionais (SIT), formando a base de informaes para os Sistemas de Informaes Gerenciais (SIG) e Sistemas de Apoio Deciso (SAD). Os Sistemas de Nvel Gerencial so direcionados ao controle e monitoramento das atividades relacionadas ao nvel operacional, indicando simulaes de cenrios estruturados, sendo um sistema direcionado a mdia gerncia, e podem ser divididos em dois tipos de sistemas: os Sistemas de Informaes Gerenciais (SIG), que so destinados ao suporte de atividades, agregando dados internos e apresentando resumos das transaes operacionais, permitindo acompanhar o andamento e comparar desempenhos e os Sistemas de Apoio Deciso (SAD), direcionados a apoiar a deciso em situaes no rotineiras e semiestruturadas. Os Sistemas de Nvel Estratgico so direcionados para situaes e decises no estruturadas, tais como: tendncia, posicionamento da empresa, mudanas no ambiente interno ou externo, e so classificados como Sistemas de Suporte aos Executivos (SSE), com base na comunicao e utilizao de informaes externas (LAUDON; LAUDON, 2001).

14

Tipos de Sistemas de Informao


As organizaes utilizam vrios tipos de Sistemas de Informao porque estes possuem funes diferentes, embora possam funcionar em conjunto, suportando uns aos outros, isto , fornecendo informaes entre si. Os sistemas foram classificados de acordo com seus objetivos e tipos de informaes que manipulam, e podem ser classificados em mais de um tipo. Loh (2009) classifica os principais sistemas de informao existentes:

Sistemas de Informao Transacionais (SPTs)


Os sistemas de informao transacionais so os mais simples e os mais comuns nas organizaes. Eles apoiam as funes operacionais da organizao, aquelas realizadas no dia a dia. Por isto, so facilmente identificados no nvel operacional da organizao. (fechamento de um pedido, matrcula de um aluno, emisso de uma receita mdica, dar baixa no estoque, emitir uma nota fiscal, etc.). Geralmente, so os primeiros a serem implantados, apesar de esta no ser necessariamente uma regra. A razo que so os mais fceis e baratos de serem implementados (ou adquiridos), alm de darem origem aos sistemas mais avanados (gerenciais e de apoio deciso). As informaes tm de ser reunidas e armazenadas de alguma maneira! Estes sistemas tm por objetivo processar dados, isto , fazer clculos, armazenar e recuperar dados (consultas simples), ordenar e apresentar de forma simples dados para os usurios. Seu benefcio principal a agilizao nas rotinas e tarefas, incluindo documentao rpida e eficiente, busca acelerada de informaes e clculos rpidos e precisos. Outros benefcios podem ser conseguidos com este tipo de sistema, como, por exemplo, confiabilidade, reduo de pessoal e custos e melhor comunicao (interna entre setores ou externa com clientes e fornecedores). Incluem-se entre eles: sistemas de cadastro em geral (incluso, excluso, alterao e consulta), como de clientes, produtos e fornecedores; os sistemas de contabilidade (contas a pagar e a receber, balanos, fluxo de caixa, etc.); sistemas de vendas e distribuio (pedidos, entregas), folha de pagamento, controle de estoque. Dois casos especiais de SIs rotineiros, de acordo com Loh (2009), so: os sistemas de gesto empresarial (ERP): responsveis por administrar, automatizar ou apoiar todos os processos de uma organizao de forma integrada; e

Ps-graduao

15

os sistemas de automao comercial: que incluem apoio s vendas, estoque e contabilidade, com uso de terminais pontodevenda (PDV) e centrais automatizadas, como se v em supermercados e lojas em geral. No mercado, hoje, existem inmeros pacotes de software prontos (j implementados) para serem adquiridos, a preos bem acessveis, o que pode ser mais vantajoso do que desenvolver o software por conta prpria ou com terceiros.

Sistemas de Informaes Gerenciais (SIGs ou MIS Management Information Systems) e Sistemas de Informao Executiva (SIE ou EIS Enterprise Information Systems)
Como o prprio nome diz, os SIGs surgiram com o intuito de auxiliar gerentes em suas funes. Com o passar do tempo, este tipo de sistema acabou sendo usado por qualquer funcionrio que tome decises. Eles atuam como um espelho de um setor, dando uma ideia das atividades sumarizadas de um departamento. O objetivo de um SIG fornecer informaes para a tomada de decises, ou seja, so sistemas que fornecem relatrios. O usurio deve solicitar de alguma forma (escolha por menus, uso de comandos, etc.) a informao que necessita e o SIG procura tal informao em seus registros e a apresenta da melhor maneira possvel ao usurio. Esta maneira pode ser textual (relatrios descritivos), por planilhas ou de modo grfico. Este ltimo caso o preferido pelos administradores, pois oferece mais informaes em menor espao (uma figura vale por mil palavras), atravs de grficos. importante que o relatrio tenha o nvel de detalhe adequado ao usurio: no pode ser muito detalhado ou extenso de modo a facilitar o uso do gestor. O resumo em abundncia deve ser evitado para no correr riscos de omisso de detalhes importantes para a tomada de deciso. Os SIGs aparecem nos 3 nveis da pirmide administrativa (estratgico, ttico e operacional), sempre que houver alguma deciso sendo tomada (LOH, 2009). Um caso especial de SIG so os EIS (Executive Information Systems), que possibilitam diferentes vises dos dados de uma organizao, atravs de operaes tipo zoom. Por exemplo, em uma empresa que fabrica produtos de beleza, pode-se ver a produo por filial ou por regio ou ento analisar em detalhe o desempenho de cada gerente de produo (zoom in). Por outro lado, pode-se verificar a produo por produto especfico ou por categorias de produto.

Business Intelligence

16

Os EIS, do ponto de vista segmentado: Coleta: Os dados so coletados de fontes internas e externas. Processamento: Programas que disponibilizam resumos, grficos de modo a transformar a mesa do executivo em um centro de controle. Disponibilizam tambm meios de comunicao para comentar decises com outros executivos. Armazenamento: Os dados armazenados devem espelhar a situao atual e as tendncias. Distribuio: Geram relatrios e grficos que permitem ter o controle e tomar decises. Feedback: Permite obter relatrios que indicam desvios dos objetivos.

Sistemas de Apoio Deciso (SADs ou DSS Decision Support Systems)


Um SAD recebe, como entrada, alternativas para soluo de um problema e devolve as consequncias para cada alternativa. Assim, o administrador pode avaliar qual a melhor alternativa. O SAD no decide qual a melhor deciso, nem indica que alternativas existem. A diferena para o SIG que um SAD interativo (o usurio pode entrar com vrias alternativas) e ainda avalia as alternativas atravs de tcnicas de what-if (= e se eu fizer isto, o que acontecer tipo de anlise que testa mudana das variveis e suas consequncias), tais como projeo e regresso. Em Loh (2009) dado um exemplo: qual o preo final de um produto? Para responder esta pergunta, podemos utilizar as seguintes frmulas: Lucro = receitas total despesas eceitas = quantidade vendida X preo final R reo final = custo unitrio X margem de lucro P Total despesas = custo de produo + despesas gerais Custo de produo = quantidade produzida X custo unitrio quantidade produzida
A quantidade produzida igual quantidade vendida.

SADs podem ser SADGs, isto , Sistemas de Apoio Deciso de Grupos, onde a interao primordial ou ainda bem-vinda, como na funo de automatizar e centralizar opinies de vrios membros de um grupo com uma tarefa em comum.

Ps-graduao

17

Sistemas Especialistas, Expert Support Systems (ESS) ou Sistemas Especialistas de Suporte (SES)
Com o crescimento da Inteligncia Artificial, est se tornando comum em bibliografias mais recentes de sistemas de informao abordar os sistemas especialistas.

Conceito
Sistemas especialistas so sistemas que empregam o conhecimento humano para resolver problemas que requeiram conhecimentos especficos de um especialista.

De maneira simples, estes sistemas organizam o conhecimento advindo de um especialista em uma base de conhecimento, ou regras que podem ser recuperadas para auxiliar na tomada de deciso para resoluo de um determinado problema. So bastante utilizados em problemas onde temos vrias escolhas e precisamos de um apoio de informao para recomendar uma melhor soluo. Outros campos de aplicao so diagnose de doenas (humanas, de animais, plantas) e, de maneira geral, em sistemas que necessitem o apoio automatizado informao, o que os torna atrativos inclusive em organizaes que trabalham com informao e conhecimento. Dentre os principais benefcios de utilizao dos Sistemas Especialistas, alm de manipular com conhecimento em mquina de maneira palatvel e de preservar o conhecimento de especialistas, citam-se: Criao de repositrio de conhecimento; Crescimento de produtividade e qualidade; Habilidade de resolver problemas complexos, ainda que em domnios estreitos; Flexibilidade e modularidade; Certa credibilidade; Habilidade de trabalhar com informaes incompletas ou incertas; Fornecimento de treinamento.

Business Intelligence

18

Referncias
LAUDON, Kenneth C.; LAUDON, Jane P. Sistemas de Informao Gerenciais: administrando a empresa digital. So Paulo: Prentice Hall, 2001. LOH, Stanley. Material das disciplinas de Sistemas de Informao e Data Mining. Disponvel em <atlas.ucpel.tche.br/~loh/>. Acesso em: julho de 2009.

Ps-graduao

19

Inteligncia nos Negcios


Glaucio Adriano Fontana

As constantes mudanas nas relaes econmicas afetam substancialmente a administrao das organizaes, que so obrigadas a buscar meios para garantir sua sobrevivncia, melhorarem o desempenho empresarial e, com isso, promover seu crescimento em mercados cada vez mais competitivos. Ao afetarem o ambiente empresarial, essas mudanas fazem as organizaes repensarem sua estrutura para se adaptar s novas exigncias do mercado (GORDON; GORDON, 2006). Ainda conforme Gordon e Gordon (2006), a TI permite que as pessoas, grupos e organizaes faam a gesto de suas informaes de maneira eficiente. A capacidade da TI de melhorar a qualidade e a disponibilidade de informaes e conhecimentos importantes para a empresa e seus clientes e fornecedores; alm de oferecer oportunidades sem precedentes para melhoria dos processos internos e dos servios prestados ao consumidor final, deve-se ao fato de que Avanos significativos na tecnologia de informao tornaram possvel obter, gerir e usar quantidades enormes de informao a um custo relativamente baixo (GORDON; GORDON, 2006, p.5). Nesse contexto, entre os recursos tecnolgicos, a Tecnologia da Informao (TI) tem sido considerada como um fator importante para potencializar o desenvolvimento dos processos produtivos e da gesto das organizaes. Aplicar inteligncia a negcios no sinnimo de TI, como vastamente confundido, mas significa que a primeira no vive sem a segunda. Segundo Crtes (2002), Business Intelligence um conjunto de conceitos e metodologias que visa apoiar a tomada de decises nos negcios a partir da transformao do dado em informao e da informao em conhecimento. Para Almeida et al. (1999), BI objetiva usar os dados da organizao para apoiar decises bem informadas, facilitando o acesso e a anlise de dados e possibilitando a descoberta de novas oportunidades.

20

De acordo com Sharma e Gupta (2004) apud Sell (2006), implantaes bemsucedidas de solues de BI proveem uma viso integrada do negcio, estendem as capacidades analticas dos usurios e impulsionam a formao de expertise nas organizaes. O foco de solues de BI facilitar o entendimento do negcio das organizaes, fornecendo a todos os nveis das organizaes informaes relevantes sobre suas operaes internas e o ambiente externo, incluindo clientes e competidores, parceiros e fornecedores (SELL, 2006). O ambiente externo inclui ainda variveis independentes que possam impactar no negcio, como tecnologia, leis e economia mundial, entre outros (BROHMAN et al., 2000 apud SELL 2006). A evoluo das solues de BI est relacionada com a evoluo do papel dos sistemas de informao nas organizaes. Inicialmente, nos anos 70 e at meados dos anos 80, solues de processamento e impresso de relatrios em lote dominavam a cena do processo de apoio deciso. Os usurios tinham ento que trabalhar sobre extensos relatrios para extrair elementos bsicos de informao. Com a proliferao dos terminais de acesso aos mainframes, o acesso aos relatrios digitais foi disseminado, mas o acesso informao era dificultado devido complexidade dos sistemas da poca. A segunda fase dos sistemas de apoio deciso marcada pelo surgimento do Data Warehouse (DW), repositrios de dados integrados e preparados para o apoio deciso, que, em conjunto com a evoluo das ferramentas analticas, ofereceu performance e poder analtico para o nvel ttico e executivo nas organizaes (INMON, 2002; KIMBALL et al., 1998). A terceira fase corresponde ao surgimento do BI. Segundo Almeida et al.(1999) apud Sell (2006), o foco do DW estava muito orientado tecnologia de consolidao dos dados. Ainda segundo os autores, as vantagens de projetos de BI em relao aos de DW so: solues de BI no so orientadas unicamente aplicao de tecnologia de informao de ltima gerao, mas tambm ao fornecimento de solues que integram pacotes verticais de aplicativos e metodologias para diversos segmentos de negcio; o foco das solues de BI est no acesso e na distribuio de informao para o apoio deciso; e solues de BI suportam o acesso a todos os dados da organizao, estruturados e no estruturados, e no somente aos armazenados no DW, existe um foco na independncia. A seguir so introduzidos os principais componentes de solues de BI.

Ps-graduao

21

Componentes de uma Arquitetura Tpica de BI


A arquitetura tpica de solues de BI possui trs componentes, conforme ilustrado na Figura 1.

Figura 1 - Arquitetura tpica de uma soluo Business Intelligence Fonte: Sell (2006)

So os componentes (SELL 2006): ETL (Extrao, Transformao e Carga de Dados): conjunto de aplicativos e ferramentas, que fazem a coleta de dados nos repositrios da organizao, procedem com a limpeza e transformao para enfim carregar o DW (BRACKET, 1996; INMON, 1997; KIMBALL et al., 1998); data warehouse: repositrio de dados integrado e no voltil, onde so armazenados os dados transformados pelo mdulo ETL. Esse repositrio dever suportar as demandas analticas das ferramentas de apoio deciso e os aplicativos de extrao de conhecimento (INMON, 1997; KIMBALL et al., 1998); rea de apresentao: diz respeito ao conjunto de instrumentos que sero utilizados pelos usurios na organizao para navegar no DW. Esses instrumentos correspondem a relatrios previamente configurados, aplicativos para confeco de relatrios, ferramentas OLAP (On-line Analytical Processing), ferramentas de Data Mining (minerao de dados), entre outras.

Business Intelligence

22

Referncias
GORDON, Steven R.; GORDON, Judith. Sistemas de Informao: uma abordagem gerencial. 3. ed. Rio de Janeiro: LTC, 2006 INMON, W. H.. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p. KIMBALL, Ralph. Data warehouse toolkit. So Paulo: Makron Books, 1998. 379 p. SELL, Denilson. Uma arquitetura para business intelligence baseada em tecnologias semnticas para suporte a aplicaes analticas. 2006. Tese (Doutorado) - Universidade Federal de Santa Catarina, Centro Tecnolgico. Programa de Ps-Graduao em Engenharia de Produo, Florianpolis, 2006.

Ps-graduao

23

Data Warehouse
Glaucio Adriano Fontana

Data Warehouse (DW) um conjunto de dados orientado por assuntos, no voltil, varivel com o tempo e integrado, criado para dar suporte deciso. Isto , direcionar a viso do negcio da empresa, de maneira no modificvel, como nos bancos de dados transacionais, pois neste nterim dados passados so histricos, variveis no tempo, sincronizados e integrados, necessrios ao pensamento estratgico e tomada de decises (CIELO, 2008; INMON, 2001). Em um exemplo simples e claro: A empresa X possui um cliente chamado Joo que solteiro. Joo realizou diversas compras de cerveja e macarro durante dois anos. Ento ele se casou, na base de dados, Joo agora casado. E ele passou a comprar fraldas. Uma anlise nesse BD dos produtos comprados por um cliente iria nos informar que Joo, casado, compra cerveja, macarro, refrigerante e fraldas. O fato de ele ter mudado seu perfil de compra aps o casamento no seria registrado pelo banco de dados transacional, logo, seria informao perdida que poderia ser muito melhor aproveitada pela organizao. O DW permite ter uma base de dados integrada e histrica para anlise dos dados e isso pode e deve se tornar um diferencial competitivo para as empresas. Tendo uma ferramenta desse porte na mo, o executivo pode decidir com muito mais eficincia e eficcia. As decises sero embasadas em fatos e no em intuies, podero ser descobertos novos mercados, novas oportunidades, novos produtos, podem-se criar relaes melhores com clientes, por exemplo, conhecendo hbitos mais a fundo e com mais detalhes do que se poderia imaginar. A orientao por assunto, conforme Cielo (2008), nada mais do que o direcionamento que se d da viso que ser disponibilizada, do negcio da empresa, por exemplo: em uma empresa de telecom, o principal assunto o cliente, e esses clientes podem ser residenciais, empresas, telefonia pblica, etc. Ento, quando um arquiteto de Warehouse for desenhar o modelo do mesmo, deve levar em considerao essas premissas e dividir as vises de acordo com o que o decisor quer ver. Observe que tudo girar em torno dos assuntos, seja qual for a viso que se quer ter, ou seja, a viso financeira da empresa tambm girar em torno disso, seja a inadimplncia, o faturamento, a lucratividade, etc.

24

A volatilidade refere-se ao Warehouse no sofrer modificaes como nos sistemas tradicionais, por exemplo: no sistema de faturamento de uma empresa, todos os dias h incluses e alteraes de novos clientes, novos produtos e consumo. J no Warehouse, acontecem somente cargas de dados e consultas, ou seja, falando tecnicamente, h somente selects e inserts, e no h updates. Existem basicamente duas operaes, a carga e a consulta, nada mais que isso (CIELO, 2008). Varivel com o tempo uma caracterstica mpar no Warehouse. Ele sempre retrata a situao que estamos analisando em um determinado ponto do tempo. Cielo (2008) utiliza uma interessante analogia com fotografias:
Pegue uma fotografia sua, quando recm nascido, depois, pegue outra quando voc tinha 5 anos, e compare. Com certeza muitas modificaes ocorreram, mas ela retrata exatamente a sua situao naquele exato momento do tempo, e isso acontece da mesma forma com o Data Warehouse. Ns guardamos fotografias dos assuntos em determinados pontos do tempo, e com isso possvel poder traar uma anlise histrica e comparativa entre os fatos.

A integrao talvez seja a parte mais importante desse processo, pois ela ser responsvel por sincronizar os dados de todos os sistemas existentes na empresa e coloc-los no mesmo padro. Como sabemos, o Warehouse extrai dados de vrios sistemas da empresa e, em alguns casos, dados externos, como a cotao do dlar. Porm, geralmente os dados no esto padronizados, devido aos problemas que citamos acima e necessrio integrar antes de carregarmos no DW. Um exemplo clssico o do sexo, onde em um sistema esse dado est guardado no formato M para masculino e F para feminino, j no outro, o mesmo dado est guardado como 0 para masculino e 1 para feminino. Isso geraria um grande problema na hora da anlise, porm na fase de ETL (Extrao, Transformao e Carga), isso tudo vira uma coisa s, ou seja, todos os formatos so convertidos em um nico padro, que decidido com o usurio final e ento carregado no Warehouse.

Ps-graduao

25

Referncias
ANGELONI, Maria Terezinha. Organizaes do conhecimento: infra-estrutura, pessoas e tecnologias. So Paulo: Saraiva, 2008. 363 p. BONOMO, Peeter. Construo de Data Warehouse (DW) e Data Mart (DM). Artigo on line. Disponvel em <http://imasters.uol.com.br/artigo/11178> Acesso em: julho de 2009. CIELO, Iv. Data Warehouse como diferencial competitivo. Artigo on line. Disponvel em <http://www.always.com.br/site2005/internet_clip07.html> Acesso em: julho de 2008. INMON, W. H.; TERDEMAN, R. H.; IMHOFF, Claudia. Data Warehousing: como transformar informaes em oportunidades de negcios. So Paulo: Berkeley, 2001. 266 p. INMON, W. H.. Como construir o Data Warehouse. Rio de Janeiro: Campus, 1997. 388 p. KIMBALL, Ralph. Data warehouse toolkit. So Paulo: Makron Books, 1998. 379 p.

Business Intelligence

27

Descoberta de conhecimento / Minerao de dados em Bases de Dados


Glaucio Adriano Fontana

As tecnologias para armazenamento de informao so to comuns quanto numerosas. Junta-se a isso a vontade dos empreendedores de extrair o mximo de vantagem de suas informaes. Esses elementos tornam a minerao de dados e a busca de conhecimento a partir de banco de dados uma rea de conhecimento em crescente expanso nos dias de hoje. Ser raro, em um futuro prximo, uma empresa ou organizao que no invista nas tecnologias do conhecimento. Segundo Navega (2002), talvez a definio mais importante de Data Mining ou Minerao de Dados tenha sido elaborada por Fayyad et al. (1996) apud Navega (2002), [...] o processo no-trivial de identificar, em dados, padres vlidos, novos, potencialmente teis e ultimamente compreensveis. Navega (2002) expe ainda que este processo vale-se de diversos algoritmos (muitos deles desenvolvidos recentemente), que processam os dados e encontram esses padres vlidos, novos e valiosos. preciso ressaltar um detalhe que costuma passar despercebido na literatura, embora os algoritmos atuais sejam capazes de descobrir padres vlidos e novos, ainda no temos uma soluo eficaz para determinar padres valiosos. Por essa razo, o Data Mining ainda requer uma interao muito forte com analistas humanos, que so, em ltima instncia, os principais responsveis pela determinao do valor dos padres encontrados. Alm disso, a conduo (direcionamento) da explorao de dados tambm tarefa fundamentalmente confiada a analistas humanos, um aspecto que no pode ser desprezado em nenhum projeto que queira ser bem sucedido. Data Mining parte de um processo maior de conhecimento denominado Knowledge Discovery in Database (KDD).

28

Conceito
KDD consiste, fundamentalmente, na estruturao do banco de dados; na seleo, preparao e pr-processamento dos dados; na transformao, adequao e reduo da dimensionalidade dos dados; no processo de Data Mining; e nas anlises, assimilaes, interpretaes e uso do conhecimento extrado do banco de dados, atravs do processo de Data Mining.

As tarefas de minerao de dados (ou processo de descoberta de conhecimento em bancos de dados KDD - Knowledge Discovery in Database) auxiliam este processo de aquisio de conhecimento. Diversos algoritmos de minerao existem e cada um possui uma particularidade e aplicao. As tarefas concernentes ao processo de KDD incluem dificuldades com a extrao, preparao e validao dos dados extrados e a alocao de recursos no cliente e, frequentemente, so subestimadas durante o planejamento dos cronogramas para a execuo dos projetos. As atividades de obteno e limpeza dos dados geralmente consomem mais da metade do tempo dedicado ao trabalho. Em se tratando de regras de classificao (uma das tcnicas de minerao de dados que se prope a agrupar conjuntos de padres semelhantes para anlise), a maioria das ferramentas de data mining se reporta a problemas de classificao que atentam a encontrar regras que particionam dados em conjuntos disjuntos. Aplicaes incluem aprovao de crdito, determinao de perfil de clientes, etc. Por exemplo, se h um registro de vendas de produtos em um supermercado, pode-se particionar conjuntos de produtos como altamente lucrativos, na mdia ou no lucrativos, baseando-se no lucro da rede e volume de vendas. Isto , se a tecnologia corrente em bancos de dados no puder acomodar diretamente a histria das vendas, no se poder deduzir a evoluo da lucratividade de itens individuais.

Descobrir Conhecimento
A grande quantidade de dados existentes em bancos de dados ou via Internet tornou-se um desafio para as pessoas cuja funo a tomada de deciso. Os mtodos tradicionais de transformao de dados em conhecimento dependem da anlise e da interpretao pessoal dos mesmos, o que um processo lento, caro e altamente subjetivo.

Ps-graduao

29

Neste contexto, faz-se necessria uma metodologia capaz de extrair informaes teis para o suporte s decises, estratgias de marketing e campanhas promocionais, dentre outras. A busca por estas informaes realizada utilizandose sofisticadas tcnicas na anlise daqueles dados, a fim de encontrar padres e regularidades nos mesmos. A esse processo d-se o nome de Descoberta de Conhecimento em Banco de Dados (REZENDE, 2004). Embora muitos autores usem o termo minerao de dados (data mining) como sendo um passo particular do KDD, que consiste na aplicao de algoritmos especficos para a extrao de padres a partir das bases de dados, neste texto, o qual est baseado em vrios autores e em concordncia com vrios deles, trataremos os termos KDD e minerao de dados como sinnimos. As ferramentas de data mining podem prever futuras tendncias e comportamentos, permitindo s empresas um novo processo de tomada de deciso, baseado principalmente no conhecimento acumulado e, frequentemente, deixado de lado, contido em seus prprios bancos de dados. Um dado a estrutura fundamental sobre a qual um sistema de informao atua. A informao pode ser vista como uma representao ordenada e enxuta dos dados resultantes de uma consulta que permite a visualizao e interpretao dos dados. O conhecimento provm da interpretao das informaes apresentadas pelo sistema de banco de dados.

Referncias
AGRAWAL, R.; SRIKANT, R. Mining Sequential Patterns. Proceedings of Eleventh International Conf on Data Engineering. 1995. ARAGO, Pedro O. Um estudo sobre conceitos e tcnicas de minerao de dados. 2008. Monografia (Graduao em Tecnologia)-Faculdade de Tecnologia de So Paulo, So Paulo, 2008. BERGER, Gideon et al. Discovering Unexpected Patterns in Temporal Data using Temporal Logic; Temporal Databases - Research and Practice. Heidelberg: Ed Springer-Verlag, 1998. CARVALHO, Juliano et al. Utilizao de tcnicas de datamining para reconhecimento de caracteres manuscritos. Universidade Federal da Paraba, 2000. FAYYAD, Usama M; PIATESTSKY-SHAPIRO, Gregory; SMYTH, Padhraic; UTHURUSAMY, Ramasamy.Advance. Knowledge Discovery and Data Mining. 1996.

Business Intelligence

30

LOH, Stanley. Material das disciplinas de Sistemas de Informao e Data Mining. Disponvel em: <atlas.ucpel.tche.br/~loh/>. Acesso em julho de 2009. NAVEGA, Sergio. Princpios do DataMining. Cenadem 2002, Anais do Infoimagem, 2002. Disponvel em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso em: setembro de 2009. REZENDE, Solange. Sistemas Inteligentes; Fundamentos e aplicaes. So Paulo: Ed. Manole, 2003.

Ps-graduao

31

O Processo de KDD
Glaucio Adriano Fontana

O termo processo implica que existem vrios passos envolvendo preparao de dados, procura por padres, avaliao de conhecimento e refinamento. Todos estes passos so interativos e iterativos, ou seja, dependem da constante interferncia de um tcnico especialista e se repetem de acordo com a necessidade, segundo Sanchez e Hirata (2004).
1. Conhecimento do domnio da aplicao: inclui o conhecimento relevante

anterior e as metas da aplicao, ou seja, a identificao do problema. Este passo utiliza o domnio do especialista para identificar problemas importantes e os itens necessrios para resolv-los. Entretanto, importante que esta etapa seja realizada em conjunto com um engenheiro de conhecimento.
2. Criao de um banco de dados alvo: definir o local de armazenamento e

selecionar um conjunto de dados ou dar nfase para um subconjunto de dados nos quais o descobrimento ser realizado.
3. Pr-processamento: inclui operaes bsicas, como remover rudos

ou subcamadas, se necessrio, coletando informao para modelar, decidindo estratgias para manusear (tratar) campos, onde se nota facilmente que no influenciam na soluo das perguntas que se deseja responder. a fase mais trabalhosa e frequentemente a mais demorada de todo o processo.
4. Transformao de dados e projeo: consiste em encontrar formas prticas

para representao dos dados, dependendo da meta do processo e o uso de reduo de dimenses e mtodos de transformao para diminuir o nmero efetivo de variveis que deve ser levado em considerao; ou encontrar representaes invariveis para os dados.
5. Minerao de dados (Data Mining): A fase que muitas vezes d nome ao

processo de KDD inclui a deciso do propsito do modelo derivado do algoritmo de minerao. Alm dessa deciso, necessrio selecionar mtodos para serem usados na procura por padres nos dados, bem como decidir quais modelos e parmetros podem ser apropriados,

32

determinando um mtodo de minerao particular a ser aplicado. Referem-se a dados que provavelmente contenham erros de digitao ou valores absurdos.
6. Interpretao: inclui a interpretao dos padres descobertos e o possvel

retorno a algum passo anterior, alm de uma possvel visualizao dos padres extrados, removendo aqueles redundantes ou irrelevantes e traduzindo os teis em termos compreendidos pelos usurios.
7. Utilizao do conhecimento obtido: inclui a necessidade de incorporar este

conhecimento para melhora de performance do sistema, adotando aes baseadas no conhecimento, ou simplesmente documentando e reportando este conhecimento para grupos interessados.

Figura 1 - Fases do Processo de KDD Fonte: http://conteudo.imasters.uol.com.br/10229/fases_mineracao.jpg

Problemas envolvidos na minerao de dados


Sanchez e Hirata (2004) discorrem sobre alguns dos principais problemas enfrentados pelo processo de KDD:
Informao limitada: um banco de dados geralmente projetado para propsitos

Ps-graduao

33

diferentes de minerao de dados e, em muitos casos, as propriedades ou atributos que simplificariam a tarefa de aprendizado no esto presentes e nem podem ser requisitados do mundo real (adicionadas ao banco). Dados sem concluso causam problemas quando alguns atributos essenciais sobre o domnio da aplicao no esto presentes nos dados, o que torna impossvel descobrir conhecimento significativo.
Valores perdidos: grandes bases de dados normalmente esto repletas de erros

originados da modelagem, de dados inconsistentes ou de sistemas aplicativos mal concebidos. Nesse cenrio no se pode assumir que os dados aqui contidos sejam confiveis. Erros no valor de atributos ou informao de classe so conhecidos como rudos. obviamente desejvel a eliminao de qualquer rudo da informao a ser classificada, pois eles afetam a preciso das regras e padres gerados. Dados invlidos podem ser tratados atravs de sistemas de descoberta de vrios modos.
Tamanho da atualizao e campos irrelevantes: os bancos de dados costumam ser

dinmicos, dado que seus contedos provem de transaes efetuadas e, com isso, informaes so somadas, modificadas e removidas constantemente. O problema na perspectiva de minerao de dados est na forma de garantir que as regras estejam sempre atualizadas e consistentes com a informao mais atual constante na base de dados. O sistema de aprendizado tem de ser sensvel passagem do tempo, pois alguns dados variam. O sistema de descoberta sempre afetado pela atualizao dos dados.
Eficincia e escalabilidade: para extrair informao de modo eficaz a partir de um

banco de dados de grande porte, o algoritmo de minerao deve ser eficiente e escalvel, ou seja, o tempo de execuo do algoritmo deve ser previsvel e aceitvel em grandes bancos de dados. Algoritmos de ordem de complexidade exponencial ou mesmo de alta ordem polinomial no tero uso prtico.
Diferentes fontes de dados: a grande variedade de redes locais e wide-area, incluindo

a Internet, conectam muitas fontes de dados de enormes e heterogneos bancos de dados. Efetuar o processo de minerao em ambiente de diferentes fontes de dados, formatados ou no, com diversos significados semnticos, ainda mais complexo. Por outro lado, a minerao pode ajudar a quebrar a barreira do alto nvel de regularidade nos dados em bancos heterogneos, o que dificilmente seria possvel atravs de sistemas de simples consulta. Ainda, o enorme tamanho dos bancos, a abrangente distribuio dos dados e a complexidade computacional de alguns mtodos de minerao, motivam o desenvolvimento de algoritmos paralelos e distribudos de minerao de dados.

Business Intelligence

34

Variedade dos objetos: hoje em dia os bancos de dados armazenam tipos de

dados e estruturas cada vez mais complexos. No so mais apenas valores numricos e strings que constituem os registros dos bancos de dados, mas sim dados orientados a objetos, hipertexto, multimdia, sons, imagens, vdeos, mapas geogrficos, dados temporais e espaciais e outros objetos que possuem operaes mais complexas do que as informaes mais rudimentares de anos atrs.

Referncias
AGRAWAL, R.; SRIKANT, R. Mining Sequential Patterns. Proceedings of Eleventh International Conf on Data Engineering. 1995. ARAGO, Pedro O. Um estudo sobre conceitos e tcnicas de minerao de dados. 2008. Monografia (Graduao em Tecnologia)-Faculdade de Tecnologia de So Paulo, So Paulo, 2008. BERGER, Gideon et al. Discovering Unexpected Patterns in Temporal Data using Temporal Logic; Temporal Databases - Research and Practice. Heidelberg: Ed Springer-Verlag, 1998. CARVALHO, Juliano et al. Utilizao de tcnicas de datamining para reconhecimento de caracteres manuscritos. Universidade Federal da Paraba, 2000. FAYYAD, Usama M; PIATESTSKY-SHAPIRO, Gregory; SMYTH, Padhraic; UTHURUSAMY, Ramasamy.Advance. Knowledge Discovery and Data Mining. 1996. LOH, Stanley. Material das disciplinas de Sistemas de Informao e Data Mining. Disponvel em: <atlas.ucpel.tche.br/~loh/>. Acesso em: julho de 2009. NAVEGA, Sergio. Princpios do DataMining. Cenadem 2002, Anais do Infoimagem, 2002. Disponvel em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso em: setembro de 2009. REZENDE, Solange. Sistemas Inteligentes Fundamentos e aplicaes. So Paulo: Ed. Manole, 2003.

Ps-graduao

35

Tcnicas de Minerao de Dados


Glaucio Adriano Fontana

Muitas so as tcnicas utilizadas de minerao de dados para os mais variados fins, as mais utilizadas so:
Classificao de dados (data classification): Consiste no processo de

encontrar propriedades comuns e um determinado conjunto de objetos de um banco de dados e classific-los em diferentes classes, de acordo com um modelo de classificao. Para construir um modelo de classificao, um banco de dados de exemplo definido como o conjunto de treinamento, onde cada tupla consiste em um conjunto de mltiplos atributos comuns das tuplas de um grande banco de dados e, adicionalmente, cada tupla contm um rtulo marcado com a identificao de uma classe conhecida associada a ela. O objetivo da classificao de dados primeiro analisar o conjunto de treinamento e desenvolver uma apurada descrio ou modelo para futuros testes com os dados de um grande banco de dados. Os passos bsicos so: definio de um conjunto de exemplos conhecidos (treinamento); treinamento sobre esse conjunto; gerar regras de classificao ou descrio.
Clusterizao: Instintivamente as pessoas visualizam os dados

segmentados em grupos discretos, como, por exemplo, tipos de plantas ou animais. Na criao desses grupos discretos pode-se notar a similaridade dos objetos em cada grupo. Enquanto a anlise de grupos frequentemente feita de modo manual em pequenos conjuntos de dados, para grandes conjuntos um processo automtico de clusterizao (dataclustering) atravs da tecnologia de minerao de dados mais eficiente. Em adio, os cenrios existentes so muito similares, tornando-os competitivos, requerendo a utilizao de algoritmos complexos, que determinem a segmentao mais apropriada. Nesse mtodo de minerao, considerado do tipo diviso e conquista, o algoritmo deve criar as classes atravs da produo de parties do banco de dados em conjuntos de tuplas. Essa partio feita de modo que tuplas com valores de atributos semelhantes, ou seja, propriedades de interesse comuns sejam reunidas dentro de uma mesma classe.

36

Estimativa: Estimar algum ndice determinar seu valor mais provvel diante de dados de outros ndices semelhantes sobre os quais se tem conhecimento. Suponha que se deseja saber o gasto de famlias cariocas com lazer e que para isso existam ndices de gastos de famlias paulistanas com lazer em funo da faixa etria e padro sociocultural. No sabemos exatamente quanto as famlias cariocas gastam com lazer, mas podemos estimar, baseados nos dados das famlias paulistanas. Certamente esta estimativa pode nos levar a erros, uma vez que Rio de Janeiro e So Paulo so cidades com geografias diferentes e oferecem diferentes opes de lazer a seus frequentadores. A arte de estimar exatamente esta: determinar da melhor forma possvel um valor, baseando-se em outros valores de situaes idnticas, mas nunca exatamente iguais. Previso: Resume-se na avaliao do valor futuro de algum ndice, baseando-se em dados de comportamento passado a este ndice. A previso pode incluir tarefas como: se o ndice da bolsa de valores X ir subir ou descer amanh, quanto o valor da bolsa ir variar, qual ser a populao de uma cidade Y daqui a dez anos, entre outras. O nico meio de verificarmos se uma previso foi bem feita aguardar o acontecimento do fato e conferir se ela se verificou ou no. Regras de associao: Determinam que fatos ocorrem simultaneamente com probabilidade razovel de co-ocorrncia, ou que itens em uma massa de dados esto presentes juntos (correlao). Vendas casadas ou anlise de um carrinho de supermercado para ver quais itens os clientes compram conjuntamente so exemplos desta tcnica. Uma regra de associao definida como: Se X ento Y ou X Y, onde X e Y so conjuntos de itens e X Y = . Diz-se que X o antecedente da regra, enquanto que Y o consequente da mesma. Um algoritmo baseado em regras de associao consiste em descobrir esse tipo de regra entre os dados preparados para a garimpagem. Medidas estatsticas revelam a frequncia de uma regra no universo dos dados garimpados.

Exemplificando algumas tcnicas


Para clarificar o entendimento de como funcionariam tcnicas de minerao de dados aplicadas sobre uma massa de dados, seja ela proveniente de informaes de um DW, de um banco de dados transacional ou da Web (webmining), so demonstrados dois exemplos de regras de associao e de clusterizao, mostrando como se pode descobrir nova informao e assumi-la como regra, isto , conhecimento.

Ps-graduao

37

Utilizando Regras de Associao para venda casada


Pense em uma cadeia de lojas de farmcias. Deseja-se saber quais produtos desencadeiam a compra de outros. Por exemplo, ao encontrar a seguinte associao {mercrio, gaze, esparadrapo} {algodo} (0,78), significando que 78% dos clientes que compram mercrio, gaze, esparadrapo tambm compram algodo, o gerente de uma farmcia pode veicular campanhas publicitrias utilizando estes produtos, disp-los em lugares prximos na prateleira, entender o porqu de uma possvel queda nas vendas de alguns dos produtos, entre outras concluses. Muitos algoritmos foram desenvolvidos com o objetivo de descobrir regras de associao. Desses, o mais utilizado o Apriori, sendo que os demais, ou so extenses deste ou o utilizam (AGRAWAL, 1995 apud CARVALHO, 2001) O algoritmo Apriori realiza a garimpagem em dois passos: gerao e poda. No primeiro, feita uma varredura sobre o arquivo, a fim de gerar todos os conjuntos de combinaes de valores de colunas que aparecem no arquivo. No segundo, so considerados apenas aqueles conjuntos que aparecem no arquivo com uma frequncia no menor que um valor mnimo pr-fixado, so os chamados grandes conjuntos. A medida da frequncia de um conjunto X de valores chamada de suporte, assim definido: N de registros que contm os elementos do conjunto X N total de registros do arquivo

Suporte (X) =

E o fator de confiana da regra dado por:

Confiana (R) =

N de registros com X e Y N de registros com X

Na seguinte tabela exemplificando um espao amostral de dez registros, considera-se 1 para produto comprado por cada cliente.

Business Intelligence

38

Tabela 1 - Transaes de vendas a clientes


Transao Gaze Esparadrapo Mercrio

1 2 3 4 5 6 7 8 9 10
Fonte: Carvalho (2001).

1 1 1 1 1 1 1 1 0 1

1 1 1 1 1 1 0 1 1 1

0 0 1 1 1 1 1 1 1 1

E considerando-se um grau de confiana mnimo de 0,80, os clculos denotaram as seguintes relaes vlidas (com grau de confiana superior ao mnimo): Tabela 2 - Regras com confiana maior que o mnimo
Regra
{Gaze}=Esparadrapo {Esparadrapo}=Gaze {Gaze}=Mercrio {Mercrio}=Gaze {Esparadrapo}=Mercrio {Mercrio}= Esparadrapo {Gaze, Esparadrapo}=Mercrio {Gaze, Mercrio}= Esparadrapo {Esparadrapo, Mercrio}=Gaze
Fonte: Carvalho (2001).

Fator de confiana
0,88 0,88 0,77 0,87 0,77 0,87 0,75 0,85 0,85

Quem leva mercrio tambm leva gaze? Vale comentar aqui que esta relao nem sempre comutativa. Veja as linhas 3 e 4 da tabela. Ela contm valores diferentes e regras invlidas e vlidas, respectivamente, simplesmente modificando a ordem dos produtos, como precedente e consequente. Como voc pode notar, pode-se confiar que quem leva mercrio, leva gaze (87% dos clientes), mas est abaixo do limiar afirmar que quem leva gaze, leva mercrio. O precedente normalmente ser

Ps-graduao

39

o carro-chefe das vendas, ele chamar o cliente para dentro do estabelecimento e o far consumir mais.

Criando classes Clusterizando


Fazer grupos e procurar caractersticas em comum entre vrios itens e aproximar os semelhantes o que se chama Clusterizar. Esta tcnica, muitas vezes, uma das primeiras etapas dentro de um processo de Data Mining, j que identifica grupos de registros correlatos. Um cluster um agrupamento de itens que so similares a outros itens dentro do mesmo agrupamento e diferentes de outros itens em outros agrupamentos (HAN; KAMBER, 2006 apud ARAGO, 2008). Podemos, ento, definir a anlise de cluster, ou clusterizao, como um processo que permite agrupar itens, de forma a maximizar a similaridade dentro da mesma classe e minimizar a similaridade entre as classes. Para medir a similaridade entre itens, a anlise de cluster se baseia na proximidade entre os valores de seus atributos. Mapeando cada atributo em uma coordenada unidimensional, itens compostos por m atributos podem ser representados como pontos em um espao euclidiano m-dimensional. A distncia euclidiana entre dois pontos p = (p1, p2,, pm) e q = (q1, q2,, qm) definida como:

O exemplo abaixo, apresentado por Arago (2008), considera o conjunto e renda representando pessoas, conforme a tabela 3. A partir dos valores dos atributos destes itens, podemos formar o grfico bidimensional apresentado na figura 2, em que cada ponto representa um item (ou pessoa). Os crculos representam os clusters ou agrupamentos mais prximos, como um algoritmo de clusterizao faria.

Business Intelligence

40

Tabela 3 Valores dos atributos Idade


5 27 42 29 18 22 31 39 20 10 6 46 40 42 39

Renda
0 3,000 5,000 3,500 500 1,000 3,200 4,600 800 0 0 4,500 1,500 1,000 1,200
Figura 2 Grfico bidimensional Fonte: Arago (2008).

Fonte: Arago (2008).

Para usar esses clusters como classes, precisamos antes identific-los e nome-los adequadamente. Por exemplo: C1: Crianas. Nesse clusters temos apenas crianas, que no podem trabalhar, portanto, sua renda nula. C2: Jovens Iniciando a Carreira. Nesse clusters temos pessoas com idade prxima da idade mnima para poder trabalhar e, como provavelmente no possuem formao superior nem experincia, estas tm uma renda relativamente baixa. C3: Profissionais com Curso Superior. Nesse clusters temos pessoas que j tm experincia e pelo patamar salarial provavelmente tambm possuem formao superior. C4: Altos Executivos. Nesse clusters temos pessoas de certa idade que, para ter uma renda to alta em tal faixa etria, provavelmente fazem parte de alto escalo gerencial. C5: Profissionais sem Curso Superior. Nesse clusters temos pessoas de certa idade que, por terem uma renda relativamente baixa, provavelmente no possuem curso superior.

Ps-graduao

41

A identificao e nomeao acima so apenas aproximadas e ilustrativas, contribuindo para o entendimento didtico, e j possuem interpretao mais em cima. Aps a identificao e nomeao dos clusterss (ou classes), podemos associar a cada item sua respectiva classe, de acordo com o resultado da clusterizao e usar esses dados como exemplos de treinamento para um algoritmo de classificao. Pensar em agrupar pode ser muito til se quisermos, por exemplo, conhecer diferenas entre hbitos de consumo de diferentes clientes em uma loja que vende diferentes produtos. Sazonalidade de compras, qual produto determinado cliente leva e quem mais compra este produto, e onde vivem esses clientes com gostos e comportamento semelhantes. Talvez seja interessante abrir uma filial prxima a eles, no? Criando classes, estamos prospectando negcios.

Referncias
AGRAWAL, R.; SRIKANT, R. Mining Sequential Patterns. Proceedings of Eleventh International Conf on Data Engineering. 1995. ARAGO, Pedro O. Um estudo sobre conceitos e tcnicas de minerao de dados. 2008. Monografia (Graduao em Tecnologia)-Faculdade de Tecnologia de So Paulo, So Paulo, 2008. BERGER, Gideon et al. Discovering Unexpected Patterns in Temporal Data using Temporal Logic; Temporal Databases - Research and Practice. Heidelberg: Ed Springer-Verlag, 1998. CARVALHO, Juliano et al. Utilizao de tcnicas de datamining para reconhecimento de caracteres manuscritos. Universidade Federal da Paraba, 2000. FAYYAD, Usama M; PIATESTSKY-SHAPIRO, Gregory; SMYTH, Padhraic; UTHURUSAMY, Ramasamy.Advance. Knowledge Discovery and Data Mining. 1996. LOH, Stanley. Material das disciplinas de Sistemas de Informao e Data Mining. Disponvel em: <atlas.ucpel.tche.br/~loh/>. Acesso em julho de 2009. NAVEGA, Sergio. Princpios do DataMining. Cenadem 2002, Anais do Infoimagem, 2002. Disponvel em: <http://www.intelliwise.com/reports/i2002.htm>. Acesso realizado em setembro de 2009. REZENDE, Solange. Sistemas Inteligentes Fundamentos e aplicaes. So Paulo: Ed. Manole, 2003.

Business Intelligence

Você também pode gostar