Você está na página 1de 20

CURSO DE PÓS-GRADUAÇÃO LATO SENSU

Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________
Atividades Avaliativas Prezado Cursista, Seja bem-vindo à disciplina “Tópicos Avançados de Banco de Dados”! Esta disciplina é de 40 horas de estudos que serão desenvolvidos nestas próximas semanas. Espero que nesse período eu possa auxiliá-lo em sua caminhada acadêmica. Estarei a sua disposição para orientá-lo no que for preciso. Você poderá encaminhar perguntas, tirar dúvidas e propor sugestões sempre que achar necessário, utilizando o e-mail informado no ambiente virtual. Suas mensagens serão respondidas o mais breve possível. A agenda da disciplina, com as datas de início e término das atividades e de entrega de cada um dos trabalhos, está disponível na plataforma. Organize-se para cumprir os prazos. Sua avaliação versará sobre os assuntos abordados nas duas unidades, conforme descrito a seguir nas atividades avaliativas — disponibilizadas também na plataforma — além da prova presencial que será realizada em data a ser agendada e informada posteriormente. O valor total das atividades desta disciplina é de 4,0 pontos. Os outros 6,0 pontos relacionam-se ao valor da prova presencial a ser realizada oportunamente. A média será obtida somando as notas dos trabalhos com a nota da prova. Lembro que a média mínima para aprovação nesta disciplina é 7,0 que você poderá obter nas atividades avaliativas (até 4,0 pontos) e na prova presencial (até 6,0 pontos). Sendo assim, sugiro que você se esforce ao máximo para obter a pontuação total dos trabalhos. Ressalto que os prazos para entrega das atividades serão cumpridos. Portanto, não deixe acumular as leituras nem os trabalhos. Caso consiga realizar as atividades antes do prazo determinado, você poderá encaminhá-las para apreciação e, se houver necessidade de reformulação, você receberá mensagem de retorno com as devidas orientações. As atividades que forem entregues após o prazo não poderão ser refeitas. Ao longo do curso serão indicadas leituras complementares – livros, artigos, textos, visita à sites — que serão disponibilizadas na plataforma. É muito importante que você, aluno de pós-graduação, forme uma boa biblioteca para o desenvolvimento de seus estudos e aperfeiçoamento de suas atividades profissionais. Isso ajudará na elaboração da sua monografia. Bom trabalho!

SGAS 603 conj. C - CEP: 70.200-630 - Brasília/DF - Tel. (61) 3218-8331 www.posead.com.br - academico@posead.com.br

CURSO DE PÓS-GRADUAÇÃO LATO SENSU

Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________
Atividades Avaliativas
Atividade Ferramenta Especificação da atividade Valor Prazo de entrega

1

Memorial e E-mail para o tutor ou postagem pelo correio. Memorial e E-mail para o tutor ou postagem pelo correio

Após a leitura da Unidade I, registre no Memorial e poste no ambiente as respostas referente ao questionário 1.

2,0

2ª semana após o início da disciplina . 3ª semana após o início da disciplina .

2

Após a leitura das Unidade II e III, registre no Memorial e envie por email ao tutor as respostas referente ao questionário 2.

2,0

TOTAL Verifique a data de remessa do questionário na Agenda.

4,0

SGAS 603 conj. C - CEP: 70.200-630 - Brasília/DF - Tel. (61) 3218-8331 www.posead.com.br - academico@posead.com.br

SGAS 603 conj. registrando e justificando suas opiniões sobre as responsabilidades do DBA em relação a: . Tarefa: elaborar um texto. .200-630 .Gerenciamento de Espaço em Disco. porque ele é o responsável por manter a integridade dos dados da organização. concessão de segurança. papéis (roles).Backup e Recovery.Modelagem de Dados.Políticas e procedimentos de segurança (criando usuários. Dentro deste contexto.Como Funciona o Google? .. o papel do Administrador de Banco de Dados cresce de importância. Para subsidiar seu trabalho. A correção da atividade será de acordo com a matriz abaixo.posead. bloqueio de conta e controle de acesso individualizado) O trabalho deverá ser registrado na Matriz de atividade individual que segue ao final.com.Brasília/DF .as principais responsabilidades de um DBA No capítulo 1 você conheceu um pouco dos aspectos de segurança de banco de dados.com. . (61) 3218-8331 www.CEP: 70. C .br . gerenciamento de senhas. .Instalação do Banco de Dados. Leia os textos: .Tel.academico@posead. .br .Estudo de Caso da Brasil Telecom.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Atividade 1 .Criação do Banco de Dados.. . O objetivo desta atividade é identificar as principais responsabilidades de um DBA em relação à segurança de um banco de dados corporativo.

A utilização de Sistemas de Informação tornou possível a expansão das atividades de negócio das organizações. Para subsidiar seu trabalho.academico@posead.200-630 . C . SGAS 603 conj. considerando os objetivos a seguir.posead.br .CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Atividade 2 ..a adoção de Sistemas de Apoio à Decisão A Tecnologia da Informação criou diferenciais competitivos importantes para as empresas.Auxílio do processo de tomada de decisões III .Vantagem Competitiva IV .Tel.com.O que é Data Mining? Tarefa: elaborar um texto. O objetivo desta atividade é identificar as principais motivações que os gestores encontram para a adoção de Sistemas de Apoio à Decisão.CEP: 70.Marketing.com.Brasília/DF .br . registrando e justificando suas opiniões sobre como um Sistema de Apoio à Decisão pode impactar os negócios nas organizações.Sobrevivência da organização O trabalho deverá ser registrado na Matriz de atividade individual que segue ao final.Excelência operacional II . sistemas de apoio à decisão e banco de dados . A correção da atividade será de acordo com a matriz abaixo. Leia os textos: .. I . (61) 3218-8331 www. principalmente pela automatização de processos de negócio.

200-630 .posead.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Matriz de atividade individual Disciplina: TAD Título: Aluno: Introdução Atividade: Justificativa Desenvolvimento Conclusão Referências bibliográficas SGAS 603 conj. C .com.academico@posead.br .CEP: 70. (61) 3218-8331 www.Tel.Brasília/DF .com.br .

com.25 0 0.125 0.125 0.125 0.25 0 0.posead. Bibliografia O trabalho apresenta bibliografia.Tel.25 SGAS 603 conj.125 0.com. aproximando teoria e prática. fatos.125 0. Coerência com as orientações O trabalho responde às questões propostas pelo enunciado da atividade.25 0 0.25 0 a 1 ponto 0 0. desenvolvimento e conclusão.25 0 0. Clareza As ideias são apresentadas de forma clara. (61) 3218-8331 www. Embasamento no conteúdo A argumentação é sustentada por ideias presentes no conteúdo da disciplina e eventuais debates em sala de aula.125 0.Brasília/DF . sem incoerências.25 0 0.200-630 .CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Grade de correção da Atividade individual (AI) (0 a 2 pontos) Forma Estrutura O texto apresenta introdução/justificativa.br .br . dados ou experiências pessoais.25 0 0. Correção gramatical O texto não apresenta erros ortográficos ou gramaticais segundo a norma culta. Conteúdo Linha de raciocínio O trabalho segue uma linha de raciocínio lógico-matemática ou lógico-argumentativa definida. Exemplificação O texto apresenta exemplos.CEP: 70.125 0.academico@posead. C .125 0. 0 a 1 ponto 0 0.

Na verdade o que foi citado já é feito há anos por bancos de dados não estruturados. seu vizinho. Um bom buscador é bastante abrangente. e as palavras mais frequentes e suas respectivas frequências são todas incluídas na ficha daquela página (cada página é como um livro a ser catalogado). Mas então onde está o segredo do Google? Até aí não há nada demais. Por exemplo. A coisa toda é feita de forma organizada.com. e assim por diante? Pois bem. A vantagem do banco de dados sobre o fichário é que o ordenamento pode ser por um número imensamente maior de características. o nome. vale esclarecer que o Google não é dono de nenhum grande mistério tecnológico. certamente. Para fazer isso de forma eficiente. um componente desconectado da Web inteira foi explorada. Uma boa página inicial é a de um índice como o Yahoo (www. Uma maneira de entender isso é que cada palavra tem uma lista com os endereços das páginas que a contêm. sua paciência não aguenta esperar duas horas para uma busca ser respondida. SGAS 603 conj. O mais importante.Brasília/DF . quer que algo relacionado ao assunto apareça e provavelmente ficará decepcionado se não aparecer. procura atender a esses três requisitos. como autor ou título. a partir de uma página inicial.academico@posead. E responde à busca rápido. Não que a primeira página seja a de Ronaldo. outra por ano de publicação. desenvolveram uma tecnologia interessante. E na ficha de cada palavra são colocados códigos que se relacionam com as páginas que contém aquela palavra. leigos em ciência da computação.CEP: 70. Todo buscador. Ao mesmo tempo. Portanto o crawler. um para ordenar por autor. Os nomes técnicos para estas duas atividades são crawling e scoring.br . você espera que os primeiros linques que apareçam sejam sobre o Ronaldinho Gaúcho ou sobre Ronaldo Fenômeno. E além disso tudo.233 seja a primeira com Ronaldo. assim como o da maioria dos buscadores é feito através de programas de computador que vão seguindo todos os links de uma página. se você procurar por “Ronaldo” no Google Brasil.com) . o Google cria uma ficha de biblioteca. programa que faz o engatinhamento. tem que ser reiniciado com uma página em japonês. o jogador de futebol. Mas. vamos entender melhor como ele funciona. outra por editora.com. e que vamos entender um pouco melhor a seguir. o endereço da página é anotado na ficha. todas as outras páginas para as quais a página linca também são guardadas. (61) 3218-8331 www. e ao mesmo tempo lista as respostas na ordem que o maior número de pessoas espera. se você coloca “World Champion 2002”.200-630 .posead. então sabe já como um banco de dados funciona. onde cada palavra que existe na Web aparece uma vez. O endereço da página. e acumulando as informações das páginas visitadas. Quando você digita a sua busca na caixinha do Google.yahoo. Os dados são agrupados em tabelas (as gavetas do fichário). Para cada página visitada. e o endereço de todas as páginas para as quais a página “linca” são anotados. As palavras da página que estão no dicionário global tem suas frequências contadas. passando pelo Yahoo. Quando você digita uma palavra e clica em buscar. tudo que precisa ser feito é imprimir na tela as listas de endereços de todas as palavras que você pediu. outra por título de livros.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Como o Google funciona Muitos amigos meus.Tel. Mas como falei do Google. de maneira que ao final do processo. e ordenados de acordo com palavras-chave. o próprio dicionário global é emendado caso alguma palavra nova seja encontrada. é pouco usual um índice em inglês levar a descobrir páginas em alfabetos não ocidentais. e na verdade de qualquer buscador. o que o Google faz é acumular cada página da Web num banco de dados. Finalmente. um dicionário global é criado (o famoso dicionário reverso ou índice reverso). O Google é basicamente um banco de dados inteligente. O segredo do Google. O crawling do Google. está em duas coisas: como ele faz para encontrar todas páginas da Grande Rede e como ele decide a ordem em que vai listar os resultados.233. C .br . Já imaginou se sua biblioteca tivesse que ter trinta tipos de fichários. Se você já usou o fichário da biblioteca do seu colégio. pelo Ask Jeeves e até o Cadê. Outra página inicial deve ser fornecida para explorar outros componentes desconectados. do Google ao MSN Search. Qual a receita mágica que determina as páginas que o Google deve responder quando você faz a sua busca? Em primeiro lugar. e a resposta de posição 1. o software traz todas as fichas cujo conteúdo casam com sua busca. me pediram uma explicação sucinta e sem jargões de como o Google funciona. Por exemplo.

mesmo sem ser relacionado ao assunto ou para vender um livro específico de mágica. Como medir reputação? A ideia é simples: se páginas com muita reputação apontam para você. um esquema simplista como este pode ser facilmente burlado. o melhor é calcular a fração do total de páginas visitadas que cada página aparece. se seu nome for muito incomum (muito mesmo). provavelmente iriam levar anos para se concluir o cálculo. então você tem muita reputação.Tel. Uma enxugada no dicionário global é feita. Para concluir. e o Google vai te indexar. suponha que a Web tem só 3 páginas. Se a probabilidade é alta. Matematicamente isso é feito usando teoria dos grafos. com indivíduos criando páginas que tenham milhões de vezes a palavra “mágica”.academico@posead.br . é montar um usuário aleatório (um random browser ou monkey browser). Tudo isso já era conhecido em teoria dos grafos. Após muito longo tempo (provavelmente após centenas de bilhões de cliques) você pode calcular a reputação de cada página com uma fórmula simples: conte o número de vezes que a página foi visitada pelo monkey browser. e o que os dois jovens de Stanford fizeram com a ajuda de seus professores foi incorporar isto a busca na Web. quando uma busca é feita. é simplesmente pela frequência com que a palavra buscada aparece na página. Suponha que o monkey browser viajou por cem páginas usando o método aleatório e visitou A trinta vezes. Você só precisa saber a estrutura de linques do conjunto de páginas (que página liga com quem). a mesma que você usa para colorir mapas-múndi com o mínimo de cores possíveis. É uma propriedade hereditária. O processo é feito indefinidamente. e hoje demora bem mais que um mês – o Google tem um gigantesco banco de dados com informações concisas da página. C . A maneira como esse usuário funciona é a seguinte: ele começa de uma página inicial e escolhe aleatoriamente um link a ser clicado. importância da palavra num contexto dado por alguma fórmula simples pré-programada. Mas como medir a reputação de uma página na Web. Uma maneira natural de ordenar as páginas. Portanto agora você já sabe os principais segredos do Google.200-630 .com. Se seu nome for muito incomum. O que destacou o Google das outras máquinas de busca existentes foi a idéia de fazer um crawling mais completo que todo mundo. SGAS 603 conj. numa época em que ninguém se dispunha a fazer isso. A pontuação do Google soma aos pontos tradicionais (como frequência da palavra.Brasília/DF . então sua página é importante. a frequência do seu nome aumenta.CEP: 70. Felizmente. (61) 3218-8331 www. O Google usa uma ideia de pontos por autoridade (relevance scoring). Para normalizar a pontuação.com. você não será indexado pelo Google. Uma interpretação bacana do seu score de relevância normalizado desta forma é que ele é simplesmente a chance de um monkey browser ir parar na sua página. e a receita da reputação entrando como parte da pontuação da página. Infelizmente. Ele segue para a página clicada e repete o processo. E uma das suas aplicações anteriores foi resolver problemas como calcular as frequências de vibração na corda do seu violão ou a chance de se ganhar em pôquer. como um erro de tipografia esdrúxulo. solução de engenheiro. Então a reputação de A é simplesmente 30/100 (ou seja.br . como por exemplo preposições. e para remover palavras infrequentes demais. afinal precisariam fazer bilhões de visitas para se ter um número confiável (a Web tem bilhões de páginas).0). uma página que contenha a palavra mil vezes.).3 de 1.posead. se você busca por “mágica”. Talvez tenha sido a grande sacada da dupla Brin & Page ao projetar seu buscador. é provavelmente mais importante do que uma que contem a palavra somente dez vezes. 0. Por isso.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Ao fim do processo de crawling – que há uns dez anos atrás demorava cerca de uma semana para visitar a Web inteira. A. para remover palavras frequentes demais. e pode seguir para descobrir truques para aparecer no topo da lista. tem mais de 100 anos. Só para deixar a coisa mais simples. mas você cometer um ato que te põe nas capas de vários jornais. Por exemplo. etc. uma pontuação dada por reputação. B e C. um último detalhe: se o Google realmente precisasse lançar macacos aleatórios para calcular a pontuação. se você não sabe a reputação de ninguém a priori? Um jeito simples. Cada buscador tem então a sua receita mágica para contrabalançar este tipo de problema. O próximo passo é então como o scoring do Google é feito. O algoritmo é bastante antigo. existe uma maneira eficiente de calcular essas probabilidades sem fazer visita alguma.

estamos publicando um estudo de caso. modelado para abranger toda a corporação. sendo que cada área queria ter o seu e eles foram se disseminando.Tel. A partir desse momento começaram a surgir os Data Marts. devido a dificuldade de gerar esses relatórios e a alta concorrência desses sistemas. (61) 3218-8331 www. SGAS 603 conj.digestivocultural. onde a principal finalidade fosse a de atender todas as demandas de dados de todos os Data Marts que fossem surgir daquele momento em diante. porém todos. nos bancos DB2 e Adabas. integrada. Todos eles utilizavam as técnicas de modelagem star schema e não havia ferramenta de ETL e EIS. contabilidade e controladoria. C .posead.asp?codigo=1867>.CEP: 70. Decidiu-se então que a melhor forma de facilitar o acesso e a busca dessas informações era a construção de ambientes analíticos desenhados especificamente para gerar os relatórios gerenciais. Cada um tinha suas particularidades. com tecnologia de ponta. A tecnologia utilizada era o Oracle 8i como banco. 2011. Acesso em: 04 FEV.br . cobrança e faturamento. Estudo de caso da Brasil Telecom Devido a inúmeros pedidos de nossos visitantes e leitores. histórica e principalmente de fácil acesso.academico@posead.com. atendiam áreas estratégicas da empresa.0. Disponível em: <http://www. sendo que os primeiros foram os de tráfego.br .com. pois os principais sistemas rodavam em mainframe. Como em toda grande empresa. Por isso iniciou-se um movimento de construção de um Data Warehouse Corporativo. as coisas ficavam bastante complicadas. Ram. Como o Google funciona. alguns Data Marts buscavam os mesmos dados porém de fontes diferentes. as gerências Brasil Telecom sentiam a necessidade de ter informações gerenciais de uma maneira rápida. sendo muito difícil a recuperação dessas informações. sendo que em alguns casos causavam problemas. Mas no andar das implementações começaram a surgir algumas dificuldades como a falta de padronização dos bancos.com/colunistas/coluna.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Fonte RAJAGOPAL. Em primeiro lugar iremos descrever o cenário que encontramos quando chegamos e o que foi feito para o Warehouse tornar-se um sucesso. com Unix como sistema operacional e a ferramenta de front end sendo utilizada pelos usuários finais era o Business Objects 5. Mas nesse caso.200-630 .Brasília/DF . Como a busca por informações era bastante intensa os Data Marts viraram febre na empresa. e em alguns casos bastante isolados o Microstrategy 6. devidamente autorizado e de um projeto de sucesso que tivemos a oportunidade participar.

e na área crítica do projeto que nada mais é do que o front end.CEP: 70. Tudo isso é extraído da plataforma alta. nada mais é do que o Essbase da Hyperion empacotado pela IBM.com.Tel. Um ponto que chama a atenção é o volume de dados que é manipulado nas cargas.br . foi implementada a tecnologia MOLAP. foi contratada a consultoria da antiga Andersen Consulting atualmente Accenture. Information Catalog como ferramenta de metadados. o Sync Sort como apoio ao ETL. chegamos facilmente ao volume de terabytes armazenados. Bem. sendo o DB2 Olap Server o banco e o Hyperion Analyser como ferramenta de acesso a esse banco. por dia armazenadas no warehouse. Transformação e Carga).academico@posead. foi implementada uma solução híbrida. onde predominam os ambientes DB2 e Adabas. Partindo do princípio que cada registro contenha 200 bytes. (61) 3218-8331 www. fazendo o sort do arquivos. Como Bill Inmon já falava no seu livro Data Warehousing. O DB2 Olap Server. será SGAS 603 conj. O projeto foi homologado há 3 meses e os Data Marts sendo bastante utilizados. por sua vez alimenta os Data Marts que são muito utilizados por seus usuários. Já se o usuário for buscar informações de um nível de maior detalhe. sendo esse. sendo que esse último é voltado exclusivamente para web. O papel dessa empresa foi o de levantar.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Iniciado esse processo. Curiosamente no jornal Gazeta Mercantil do dia 19/11/2001 apontou um aumento na receita da Brasil Telecom no último trimestre de 21%. esse foi um overview de um projeto de sucesso que tivemos a felicidade de atuar. Esses Data Marts transformaram-se nas visões dos usuários sobre os assuntos em questão e que atende grande parte do departamento de marketing.Brasília/DF . também da Business Objects. Nós fizemos a parte de administração e manutenção dos Data Marts antigos e fizemos o planejamento e implementação de toda estrutura ROLAP do Data Warehouse Corporativo. foi ele o escolhido para começar a implementação. ele utilizará o Business Objects client server ou o Web Intelligence. Para informações mais agregadas e de um nível de acesso mais gerencial. desenhado exclusivamente para armazenar e recuperar grandes volumes de dados com boa performance. Imagine uma empresa com aproximadamente 15 milhões de clientes onde cada um faz em média 5 chamadas telefônicas diárias. o DB2 EEE como banco. o Data Warehouse passou a funcionar na arquitetura toda da IBM. A arquitetura desenhada constituiu-se basicamente da seguinte forma: Ao contrário do modelo anterior usando-se o Oracle. replicações eventuais e backups. sendo utilizado o ETI como ferramenta de ETL (Extração. Nisso não estão computados os índices. C .200-630 . numa empresa de telecom o principal enfoque sempre é dado ao departamento de marketing. Isso é igual a aproximadamente 75 milhões de chamadas.com. que mostrou-se bastante acertada. transformado numa área de stage em DB2 EEE e depois carregado definitivamente no Data Warehouse Corporativo e esse. isso tudo levou cerca de 18 meses. devido a gerenciar melhor a competitividade da empresa e o relacionamento com o cliente. modelar e desenhar a arquitetura do Data Warehouse.br . Tudo isso rodando na plataforma UNIX. em média.posead.

sistema que modela o processo de decisão bem estruturado da mente humana.com. As aplicações de software destinadas a facilitar a recuperação dos dados armazenados em um banco de dados são variadas e apresentam-se nas mais diversas necessidades de seus gerentes.CEP: 70. podem ser identificadas: .200-630 . SGAS 603 conj. Incluem também a possibilidade de testes hipotéticos em situações de mercado.l.academico@posead. (61) 3218-8331 www. Por exemplo: 54 é um dado coletado por intermédio de consulta (a instrumentos ou algo similar).Brasília/DF . são o fator dominante para a tomada de decisão do gerente de marketing. As atualizações de seus status devem ser frequentes. temos a formalização: Dado + Conhecimento = Informação. por sua vez. bem como do seu tempo de resposta. sistemas de apoio à decisão e banco de dados Dado é a expressão bruta de um evento. Uma vez coletados. A função do banco de dados é armazenar os dados de forma que os mesmos tenham características de persistência. de uma medida. que apresenta resultados em diferentes níveis de “habilidade” ao reunir portfólios de ações. A informação. principalmente para o uso destes gerentes. Estudo de caso da Brasil Telecom. os aplicativos mais utilizados enquadram-se nos DSS (Decision Support System) . trazendo a facilidade de tomar a decisão pelo usuário. e estejam disponíveis quando acessados pelos usuários. Fonte CIELO.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ coincidência? O certo é que ela está entre as três maiores do ramo no Brasil e também é a primeira na lista de investimento em ações no segmento de telefonia fixa. partindo do pressuposto de que o mesmo tenha conhecimento do problema a ser analisado e resolvido. Marketing. O usuário cria um cenário com objetos que eram sujeitos a um conjunto de comportamentos predefinidos e aplica-os ao DSS. [S. auxiliando na descoberta de tendências desconhecidas de mercado. é a abstração de um fato ou de algo que se deseja manter a seu respeito. Os DSS incluem o gerenciamento dos sistemas de informação da organização por traduzir os dados em relatórios .Tel. permitindo que os mesmos modelem uma situação em particular. Estas características dos dados que compõem a informação são cruciais e. aliados à necessidade da sua consulta em formato livre. através do mapeamento e correlação dos dados. fornecendo uma concepção mais elevada a respeito do que se fala ou se quer apresentar. Ivã Rafael.n.Sistemas de Apoio à Decisão – que são os sistemas informatizados que permitem o processamento analítico on-line para a tomada de decisão com o gerente de marketing. ou seja. 54 quilos é a informação que temos ao combinar dado com o conhecimento. em escalas de necessidades.são um sistema que se enquadra em uma filosofia especialista.padrão. por exemplo. C .br .].: s.posead. confiabilidade. presteza.A tecnologia DSS é usada principalmente para situações de modelagem recentes e exclusivas que requerem que o usuário simule o comportamento de algum problema do mundo real. aplicando aquele processo de raciocínio à situação do mundo real. traduzindo-os em informações úteis ao trabalho dos gerentes de marketing. Deste modo. peso é um conhecimento que se tem a respeito de aferir a massa gravitacional de algo que se apresenta em uma abstração. de previsão de vendas para o próximo período. Porém.com. Aplicações como OLAP (On Line Analytical Processing) – Analisador de Processos On Line . vem a ser o resultado da aplicação de um conhecimento predefinido sobre o dado. como. de modo a conceber informação confiável e com presteza. Algumas das características gerais de um sistema de apoio à decisão.br . os dados de uma pesquisa são introduzidos em um sistema de informação destinado a dar suporte às futuras decisões.

. . C .com. primeiro um domínio de solução é especificado.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ . .Possibilitar que os dados sejam pré-agrupados de modo a aprimorar o desempenho em tempo de execução. como.posead. um sistema de suporte de decisão financeira irá requerer que o usuário compreenda o conceito de um Beta de ação.Lida com problemas que têm um domínio ou área de soluções aceitáveis. . Em geral. Assim. uma vez que apresentam características desejáveis ao seu uso conjunto com DSS no auxílio à tomada de decisões.Um DSS usa fontes de dados externas.Brasília/DF .Requerem que o usuário compreenda completamente o problema a ser resolvido. por exemplo.br .Justificativa profissional clara para o Projeto: definir os benefícios que podem ser medidos. Beta é um termo usado para medir co-variância de uma ação individual com o comportamento do mercado como um todo. com uma resposta à consulta estimulando outra consulta – já que a finalidade de consulta ad hoc é permitir consulta de formato livre para informações de decisão e ser essencial o tempo de resposta. ao contrário de sistemas especialistas. um usuário seria incapaz de utilizar de forma eficiente um sistema de suporte à decisão. para um problema.br . Por exemplo. podendo variar o conteúdo do portfólio e visualizar os resultados on-line.Conforme os usuários reúnem informações para sua decisão. . os armazéns de dados devem apresentar características inerentes ao seu uso. (61) 3218-8331 www. com criação de visões dos dados relevantes. Além destas características. . por exemplo: .academico@posead. um DSS pode exigir classificação de clientes através de seu código nacional de pessoas jurídicas ou endereços de cliente através das associações comerciais. O primeiro é através de servidores de “nicho”. .com. que tomam decisões pelo usuário. em horários fora do expediente. Sem uma compreensão dos conceitos. definindo um ambiente que simule o comportamento daquele ambiente sob condições de mudança. porque armazéns são caros. então o usuário trabalha para criar modelos para alcançar o estado do objetivo desejado. Fica claro que o cerne de uma tomada de decisão dependerá muito do projeto e dos dados que foram coletados e da forma em que se apresentam. Os bancos de dados mais utilizados em conjunto aos sistemas de apoio à decisão pelos gerentes de marketing são os multidimensionais. Por exemplo. um bom projeto de armazenagem de dados deve incluir: .Tel. . fazem solicitações repetidas ao banco de dados online.Os DSS tomam a decisão com o usuário. ad hoc. os DSS permitem a criação de cenários “e se”. Muitos gerentes de armazéns carregam estes dados externos para um armazém central. Deste modo. ao contrário de sistemas especialistas. e o projeto deve conseguir medir os benefícios. coletar todas as características que são conhecidas a respeito de um assunto a partir de todas as fontes de dados dentro da organização.200-630 . que usam uma arquitetura proprietária para modelar bancos de dados multidimensionais.CEP: 70.Apresentar a facilidade de consultas interativas. O segundo caminho é fornecer front-ends multidimensionais que gerenciem o mapeamento entre os bancos de dados relacionais e a representação multidimensional dos dados. SGAS 603 conj. para tomada de decisões in time. com flexibilidade suficiente para gerenciar consultas espontâneas através de um grupo de usuários. donde muitas ciladas podem paralisá-lo. que geralmente produzem uma resposta única. através de dois métodos. finita. ou seja.Permitir que dados sejam orientados ao assunto.Staff adequadamente treinado: porque o armazém envolve muitas novas tecnologias e o staff deve estar treinado e confortável com as novas ferramentas.Devem permitir a consulta somente para a leitura.

Privacidade do assunto assegurada: a reunião de dados a partir de muitas fontes pode levar a violações de privacidade.com. fica sempre uma dúvida sobre como um sistema é capaz de obter esse tipo de relação.Escolha das ferramentas corretas: muitos projetos são desviados por hipervalorização por parte do vendedor.Brasília/DF . .CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ . deve-se tomar cuidado para criar um gerente de metadados (dados que definem outros dados) que assegure definições comuns e alteração de registros de definições de dados históricos. In:______. Essa já é uma vantagem suficientemente importante para justificar todo o processo.pdf>. O Que É Data Mining? Data Mining é uma das novidades da Ciência da Computação que veio para ficar.uniandrade. . No restante deste artigo vamos observar alguns conceitos que podem esclarecer essas dúvidas. e os usuários finais devem compreender a arquitetura de forma que estejam cientes das limitações de seus armazéns. Marketing. Fonte WILDAUER. é essencial tentar aproveitar o máximo possível desse investimento.200-630 . Disponível em: <http://www. (61) 3218-8331 www. por exemplo. principalmente pelo espaço disponível para dados (gigabytes).CEP: 70. Talvez a forma mais nobre de se utilizar esses vastos repositórios seja tentar descobrir se há algum conhecimento escondido neles. SGAS 603 conj. embora essa ideia básica seja facilmente compreensível. Contudo. .academico@posead.br . Um banco de dados de transações comerciais pode.posead.Tel.com. conter diversos registros indicando produtos que são comprados em conjunto. Marketing e banco de dados a contribuição da informação nas decisões de marketing. . C . sistemas de apoio à decisão e banco de dados.Modelagem adequada dos dados e teste de estresse: o modelo deve ser avaliado e o estresse testado de forma que o sistema acabado seja executado em níveis aceitáveis. levando a diversos divórcios. Egon Walter. que rotula inadequadamente seus produtos como sendo para aplicações de armazém.Segurança da qualidade e coerência dos dados: já que armazéns lidam com dados históricos de uma variedade de fontes.Planejamento adequado da infraestrutura: uma nova infraestrutura deve ser projetada para gerenciar comunicação entre fontes de dados. Quando se descobre isso se pode estabelecer estratégias para otimizar os resultados financeiros da empresa. Com a geração de um volume cada vez maior de informação.Intimação do envolvimento do usuário final: o sistema deve ser flexível para endereçar alterações de exigências de usuário final. Um bom exemplo é a cadeia de hotéis que objetivava clientes frequentes do hotel e enviava um cupom de usuário frequente para seus endereços residenciais. O ideal é iniciar com um “protótipo” e depois evoluir continuadamente.br .br/publicacoes/revista/03/art05.O armazém começa pequeno e depois evolui: alguns projetos fracassam definindo um escopo muito extenso para o projeto. . O staff deve ser educado para uso dos computadores ora instalados. ou exagera na funcionalidade de suas ferramentas. . Algumas esposas interceptavam estas correspondências.

Disto nascem os repositórios organizados (Data Marts e Data Warehouses). etc) efetuase uma limpeza (consistência.br . Groth (1998) e Han.Brasília/DF .br . Os Passos do Data Mining A literatura sobre o assunto trata com mais detalhes todos os passos necessários ao Data Mining. Por essa razão.com. por exemplo. a condução (direcionamento) da exploração de dados é também tarefa fundamentalmente confiada a analistas humanos. Para o escopo do que pretendemos neste artigo é suficiente apresentar os passos fundamentais de uma mineração bem sucedida (veja figura à direita). em última instância. novos. potencialmente úteis e ultimamente compreensíveis" Esse processo vale-se de diversos algoritmos (muitos deles desenvolvidos recentemente) que processam os dados e encontram esses "padrões válidos.com. C .o processo não trivial de identificar. SGAS 603 conj. (61) 3218-8331 www. 1996): ".posead. relatórios. que são. novos e valiosos".CEP: 70. transações. Além disso. que já são úteis de diversas maneiras. em dados. remoção de ruído e redundâncias.academico@posead.Tel. É preciso ressaltar um detalhe que costuma passar despercebido na literatura: embora os algoritmos atuais sejam capazes de descobrir padrões "válidos e novos". Veja.. um aspecto que não pode ser desprezado em nenhum projeto que queira ser bem sucedido. Chen & Yu (1996). etc). preenchimento de informações. A partir de fontes de dados (bancos de dados.. padrões válidos. Data Mining ainda requer uma interação muito forte com analistas humanos. logs de acesso.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Talvez a definição mais importante de Data Mining[1] tenha sido elaborada por Usama Fayyad (Fayyad et al. ainda não temos uma solução eficaz para determinar padrões valiosos. os principais responsáveis pela determinação do valor dos padrões encontrados[2].200-630 .

Faz-se isso porque não parece haver muito conhecimento a extrair de eventos isolados. Tipicamente. Dos Dados à Sabedoria Assim como um organismo vivo. Para que o processo dê certo. mas muito valioso. não há como explorar essa informação em particular para que no futuro a empresa lucre mais.200-630 . um analista refina e conduz o processo até que valiosos padrões apareçam.com.academico@posead. Observe que todo esse processo parece indicar uma hierarquia. as empresas recebem informação do meio ambiente e também atuam sobre ele. é necessário sim desprezar os eventos particulares para só manter aquilo que é genérico. O fundamental a se perceber neste diagrama é a sensível redução de volume que ocorre cada vez que subimos de nível.CEP: 70.com. SGAS 603 conj.posead. O diagrama à esquerda apresenta a tradicional pirâmide da informação. Por essa razão devemos.br .CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Mas é a partir deles que se pode selecionar algumas colunas para atravessarem o processo de mineração.Brasília/DF . onde se pode notar o natural aumento de abstração conforme subimos de nível. este processo não é o final da história: de forma interativa e frequentemente usando visualização gráfica. Uma loja de sua rede que tenha vendido a um cliente em particular uma quantidade impressionante de um determinado produto em uma única data pode apenas significar que esse cliente em particular procurava grande quantidade desse produto naquele exato momento. Este é um dos conceitos importantes para nós neste artigo: encontrar padrões requer que os dados brutos sejam sistematicamente "simplificados" de forma a desconsiderar aquilo que é específico e privilegiar aquilo que é genérico. Traduzido para uma empresa atual. (61) 3218-8331 www. Apenas com conhecimento genérico é que isto pode ser obtido. em Data Mining. esse diagrama fica como apresentado abaixo. controlar nossa vontade de "não perder dados". é necessário distinguir vários níveis de informação.br .Tel. C . Essa redução de volume é uma natural consequência do processo de abstração. algo que começa em instâncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado. Mas isso provavelmente não indica nenhuma tendência de mercado. Durante essas atividades. Em outras palavras.

para só conservar a essência da informação.Brasília/DF .com. Este ponto é importante: como acabamos de ver.com. Passo 2: Após determinarmos as sequências "ABC" e "AB". muito do que se estuda sobre o cérebro humano também pode nos auxiliar a entender o que deve ser feito para localizar padrões. Encontramos as sequências "AB" e "ABC" e observamos que elas ocorrem com frequência superior à das outras sequências. (61) 3218-8331 www. Nosso cérebro utiliza-se de processos similares. Na próxima seção vamos ver este processo um pouco mais de perto. proponho um breve exercício de uma indução de regras abstratas[4]. pois muito do conhecimento que temos em nossas mentes é.200-630 . de certa forma. Mas o que é mesmo localizar padrões? O que é indução? Para exemplificar esses conceitos.CEP: 70. um processo que depende da localização de padrões[3]. O processo de Data Mining localiza padrões através da judiciosa aplicação de processos de generalização. é necessário "perder" um pouco dos dados. A tarefa de localizar padrões não é privilégio do Data Mining. verificamos que elas segmentam o padrão original em diversas unidades independentes: "ABCXY" "ABCZK" SGAS 603 conj.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Abstrair. algo que é conhecido como indução. para ser genérico. C .academico@posead.br . é representar uma informação através de correspondentes simbólicos e genéricos.Tel. ou então são sequências de informações que dispõe de uma estrutura que se repete. no sentido que usamos aqui. Nosso objetivo é tentar obter alguma expressão genérica para a seguinte sequência: Sequência original: ABCXYABCZKABDKCABCTUABEWLABCWO Observe atentamente essa sequência de letras e tente encontrar alguma coisa relevante. Localizando Padrões Padrões são unidades de informação que se repetem. Veja algumas possibilidades: Passo 1: A primeira etapa é perceber que existe uma sequência de letras que se repete bastante.posead. Por essa razão.br .

Por isso vamos usar uma representação mais próxima da realidade. então você acaba de conhecer um dos pontos essenciais do Data Mining: como se pode fazer para extrair certos padrões de dados brutos. Lembre-se das expressões abstratas genéricas que obtivemos na seção anterior. que toda vez que alguém comprou pão. "ABC??" "ABD??" "ABE??" onde '?' representa qualquer letra No final desse processo. mais importante do que simplesmente obter essa redução (compressão) de informação. pois assim estaríamos facilitando a aquisição conjunta desses dois produtos. significar "aquisição de leite". É o que faremos a seguir. a letra 'A' poderia significar "aquisição de pão" em uma transação de supermercado. Uma dessas expressões nos diz que toda vez que encontramos a sequência "AB". Este é exatamente o ponto onde este processo começa a mostrar o seu valor. Indução Orientada a Atributos SGAS 603 conj. Um Exemplo Prático Existem muitas técnicas utilizadas pelo Data Mining.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ "ABDKC" "ABCTU" "ABEWL" "ABCWO" Passo 3: Fazem-se agora genéricas dessas unidades: induções. A letra 'C' é um indicador de que o leite que foi adquirido é do tipo desnatado. esse processo nos permite gerar formas de predizer futuras ocorrências de padrões.Tel. A letra 'B' poderia. C . Contudo.posead. Esses dois atributos estão associados e isto foi revelado pelo processo de descoberta de padrões.academico@posead. Imagine que a letra 'A' esteja representando um item qualquer de um registro comercial. Por exemplo.CEP: 70. Nesta forma abstrata ainda pode ficar difícil de perceber a relevância deste resultado. também comprou leite. (61) 3218-8331 www. Se você compreendeu esta explicação até aqui. podemos inferir que iremos encontrar mais três caracteres e isto completaria um "padrão". bastando continuar nossa exploração da indução. Mas a coisa pode ir além disso.com. Mitchell 1997). Esta associação já nos fará pensar em colocar "leite" e "pão" mais próximos um do outro no supermercado.br . Vamos observar aqui apenas um pequeno exemplo prático do que podemos utilizar. por exemplo.200-630 .Brasília/DF . É interessante notar que a obtenção de uma regra com as letras "AB" quer dizer. na prática. muitas delas desenvolvidas na disciplina Aprendizado de Máquina (Machine Learning.br . que geram algumas representações e "AB???". por exemplo.com. toda a sequência original foi substituída por regras genéricas indutivas[5] que simplificou (reduziu) a informação original a algumas expressões simples. veja.

Mais Técnicas Introduzimos os exemplos anteriores apenas para dar uma ideia do tipo de pensamento que está por trás da mineração de dados. pode-se dizer que pão e leite estão associados (implicam) na aquisição de manteiga: Pão.Brasília/DF . Fizemos uma indução orientada a atributos.Tel. fica fácil imaginar uma disposição nas prateleiras do supermercado para incentivar ainda mais este hábito[7]. já não sabemos mais o que é manteiga e o que é margarina. substituímos uma série de valores distintos (mas similares) por um nome só. Qual a vantagem de assim proceder? Basta codificar nossa sequência original substituindo a letra V em todos os lugares devidos. é possível descobrir formas de sumarizar certas características que podem revelar padrões nos dados. Assim fica essa sequência transformada: ABCVYABCVKABDKCABCVUABEWLABCVO Daqui. entre outras coisas. Parece que poderíamos tentar unificar todas essas letras através de um único conceito. e o lado da direita de Consequente. a expressão "ABCV". (61) 3218-8331 www. Vamos agora ver algumas outras técnicas que se utilizam de princípios similares. Leite) é chamado de Antecedente. que significaria "manteiga/margarina".com. De posse desta regra.br .200-630 . Leite Þ Manteiga O lado da esquerda desta expressão (Pão. Em linguagem mais lógica. Assim.com. Faz-se certas induções e descobre-se alguns padrões. A letra 'T' poderia significar "margarina". Exemplos: SGAS 603 conj.br .academico@posead. Introduzimos a letra 'V'. e a letra 'Z' signifique "manteiga com sal". uma ideia que resuma uma característica essencial de todos esses itens. que nos irá revelar de pronto algo muito interessante: A maioria dos usuários que adquiriram pão e leite desnatado também adquiriram manteiga ou margarina.posead. Após essa transformação. suponha que a letra X queira dizer "manteiga sem sal".CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ Continuando com nosso exemplo acima. nosso sistema de Data Mining irá extrair.CEP: 70. ou "coisas que passamos no pão" [6]. Observe que ao fazer isso estamos perdendo um pouco das características dos dados originais. Regras Caracterizadoras Obtém-se regras que caracterizam um conceito satisfeito por todos (ou pela maioria) dos exemplos disponíveis. Essa perda de informação é fundamental na indução e é um dos fatores que permite o aparecimento de padrões mais gerais. C .

o que se almeja é obter regras que discriminem (separem) um conceito alvo em relação a outros conceitos (classes contrastantes).posead. C . Faz-se uma promoção especial para estes clientes. minha principal missão foi introduzir um pouco do pensamento que está por trás do Data Mining. Regras Associativas Este é o caso que analisamos anteriormente. doutorado). Exemplo: a. Isto irá auxiliar na obtenção de melhores regras para determinar quais os itens que devem ser vendidos em conjunto com salsichas para aumentar as vendas de mostarda. Descobrese padrões de compras após um evento inicial de aquisição.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ a. a.CEP: 70. Tenta-se achar as regras que discriminem uma loja bem sucedida de várias outras não tão bem sucedidas. Para distinguir uma doença. Obviamente. irá comprar um Tablet em seis meses. Conclusões No breve espaço deste artigo. procura-se por regras que sumarizem as características que separam esta doença das outras. b. b. Isto irá auxiliar no planejamento de lojas para vender melhor este produto (privilegiam-se os antecedentes dessas regras). a. A utilidade deste procedimento é muito grande. Um consumidor adquiriu um equipamento de DVD.br . ainda há muito a se falar SGAS 603 conj. Achar todas as regras que tenham "iogurte" no antecedente. Isto irá auxiliar na determinação do impacto nas receitas. c.Brasília/DF .200-630 . (61) 3218-8331 www. Sintomas de uma doença específica podem ser sumarizados por uma regra caracterizadora b.com.br . conforme pode ser visto nos exemplos abaixo: Achar todas as regras que tenham "coca-cola dietética" como consequentes. b. Achar todas as regras com "salsicha" no antecedente e "mostarda" no consequente.Tel. Regras Discriminantes Neste caso. caso este produto seja retirado das prateleiras. Regras de Evolução Temporal Aqui a preocupação é detectar associações entre itens ao longo do tempo. Isto permite que se faça uma oferta desse produto a todos os que estão nesta situação.academico@posead. Geração de regras que caracterizem quais os estudantes de graduação que se decidiram por prosseguir com uma carreira acadêmica (MBA. em quatro meses terá muita probabilidade de comprar uma BluRay.com. Aqui se procura estabelecer regras que interliguem um conceito a outro. Exemplos: Consumidor comprou um Netbook hoje.

etc). É importante ressaltar também que o Data Mining não é o final da atividade de descoberta de conhecimentos.CURSO DE PÓS-GRADUAÇÃO LATO SENSU Disciplina: TÓPICOS AVANÇADOS DE BANCO DE DADOS ________________________________________________________ sobre o assunto (clustering. métodos genéticos.CEP: 70.posead. roll up/drill down. É imprescindível (ao menos com a tecnologia atual) dispor de analistas capacitados que saibam interagir com os sistemas de forma a conduzi-los para uma extração de padrões úteis e relevantes.br .200-630 . SGAS 603 conj.Tel. mas é tão somente o início. redes neurais.Brasília/DF .com.com.academico@posead. mineração em textos. C . (61) 3218-8331 www. mas é importante notar que em praticamente todos esses casos o que se deseja é descobrir padrões em volumes de dados.br .