O documento fornece uma visão sintética do Data Management Body of Knowledge (DMBOK), comentando suas 10 áreas de conhecimento principais. Apresenta a governança de dados, dividida em planejamento e controle, e discute o planejamento, incluindo entender as necessidades estratégicas de dados, desenvolver a estratégia de dados e estabelecer a estrutura organizacional para a gestão dos dados.
Descrição original:
Título original
Uma Visao Sintetica e Comentada Do Dmbok Fumsoft Carlos Barbieri - BH, Janeiro de 2013, Versão 01
O documento fornece uma visão sintética do Data Management Body of Knowledge (DMBOK), comentando suas 10 áreas de conhecimento principais. Apresenta a governança de dados, dividida em planejamento e controle, e discute o planejamento, incluindo entender as necessidades estratégicas de dados, desenvolver a estratégia de dados e estabelecer a estrutura organizacional para a gestão dos dados.
O documento fornece uma visão sintética do Data Management Body of Knowledge (DMBOK), comentando suas 10 áreas de conhecimento principais. Apresenta a governança de dados, dividida em planejamento e controle, e discute o planejamento, incluindo entender as necessidades estratégicas de dados, desenvolver a estratégia de dados e estabelecer a estrutura organizacional para a gestão dos dados.
Editorao Pedro Ivo Brando (FUMSOFT) Renata Ferreira (FUMSOFT)
Projeto grfico Gracielle Santos (FUMSOFT)
As informaes contidas neste trabalho podem ser reproduzidas desde que citada a fonte.
Outras informaes podem ser obtidas pelo e-mail qualidade@fumsoft.org.br
Fumsoft Av. Afonso Pena, 4.000, 3 andar - bairro Cruzeiro CEP: 30.130-009 - Belo Horizonte/MG Tel.: (31) 3281-1148 www.fumsoft.org.br Barbieri, Carlos. Uma viso sinttica e comentada do Data Management Body of Knowledge (DMBOK). Fumsoft - Belo Horizonte, 2013. 4
UMA VISO SINTTICA E COMENTADA DO DMBOK
SUMRIO
1. UMA VISO SINTTICA E COMENTADA DO DMBOK ................................................. 5 1.1. Governana de dados .............................................................................................. 7 1.1.1. Planejamento da gesto de dados ............................................................................ 7 1.1.2. Controle da gesto de dados .................................................................................. 10 1.2. Gesto da arquitetura de dados ............................................................................ 11 1.3. Desenvolvimento de dados .................................................................................. 14 1.4. Gesto de operaes de dados ............................................................................. 17 1.5. Gesto da segurana de dados .............................................................................. 21 1.6. Gesto de dados mestres e de referncia .............................................................. 24 1.7. Gesto de data warehousing e business intelligence .............................................. 29 1.8. Gesto de documentos e contedo ....................................................................... 31 1.8.1. Gerncia de Documentos e de Registros ................................................................ 31 1.8.2. Gerncia de Contedo ........................................................................................... 33 1.9. Gesto de metadados ........................................................................................... 35 1.10. Gesto de qualidade de dados ............................................................................... 39 2. CONCLUSES ........................................................................................................ 43 3. REFERNCIAS BIBLIOGRFICAS .............................................................................. 45
5
UMA VISO SINTTICA E COMENTADA DO DMBOK
1. UMA VISO SINTTICA E COMENTADA DO DMBOK
O objetivo desse trabalho fornecer uma viso sinttica sobre os corpos de conhecimentos do Data Management Body of Knowledge (DMBOK), adicionando aspectos prticos sobre gesto de dados desenvolvidos pelo autor nesta rea por mais de 40 anos. Esse trabalho no tem a pretenso de substituir o documento DMBOK original, e intenciona servir somente de um guia mais rpido e comentado sobre as prticas daqueles corpos de conhecimentos. Para detalhes completos de contedo e de referncias, os documentos DMBOK, tanto o original, quanto a sua edio brasileira, devero ser consultados. Esse trabalho surgiu nos cursos de ps-graduao ministrados pelo autor, originado da necessidade de se ter um texto menor e acessvel aos alunos que ainda no dispunham (ou no dispem) das referncias originais. Alm disso, incorpora comentrios correlatos, percepes e vises do autor sobre o tema, que podem servir para o entendimento das interpretaes realizadas sobre a pesquisa realizada pela Data Management Association (Dama) Brasil e pela Fumsoft, abordando a gesto estratgica de dados. A Gesto de Dados (no ingls, Data Management ou DM), conforme o DMBOK (2009), visa controlar e alavancar eficazmente o uso dos ativos de dados e sua misso e objetivos so atender e exceder s necessidades de informao de todos os envolvidos (stakeholders) da empresa em termos de disponibilidade, segurana e qualidade. uma responsabilidade tanto do setor de Tecnologia da Informao de uma empresa quanto de seus clientes internos e externos e envolve desde a alta direo, que utiliza dados na gerao de informaes estratgicas, at profissionais de nvel operacional, que muitas vezes so responsveis pela coleta e produo dos dados. O DMBOK (2009) estrutura o processo de DM por meio de funes e atividades e est distribudo por dez reas de conhecimento, conforme apresentado na Figura 1, a seguir. 6
UMA VISO SINTTICA E COMENTADA DO DMBOK
Figura 1 - reas de conhecimento na Gesto de Dados, segundo o DMBOK
Governana de dados Gerncia da Arquitetura de dados Desenvolvimento de dados Gesto de operaes de bancos de dados Gesto de Segurana de dados Gesto de Dados mestres e de Referncia Gesto de Data Warehousing e BI Gesto de Documentos e contedo Gesto de Metadados Gesto de Qualidade de dados
7
UMA VISO SINTTICA E COMENTADA DO DMBOK
1.1. Governana de dados
A definio de Governana de Dados (GD) ampla e plural. um conceito em evoluo, que envolve o cruzamento de diversas disciplinas, com foco em qualidade de dados, passando por avaliao, gerncia, melhoria, monitorao de seu uso, alm de aspectos de segurana e privacidade associados a eles. Para tal, as empresas devero definir objetivos organizacionais e processos institucionalizados, que devero ser implementados dentro do equilbrio fundamental entre TI e reas de negcios. Atravs da GD, as empresas hoje tambm definem mecanismos para analisar os processos que se abastecem de ou produzem os dados, criando um sentido maior de qualidade conjunta entre esses dois elementos seminais (dados e processos) e contribuindo para a valorizao desses ativos, atravs do pleno conhecimento da cadeia produtiva de informao e conhecimentos. Segundo o DMBOK (2009), a Governana de Dados se divide em duas atividades macro, Planejamento e Controle da Gesto dos Dados, etc.
1.1.1. Planejamento da gesto de dados O objetivo : Entender as necessidades estratgicas de dados da empresa. Desenvolver e manter uma estratgia de dados. Estabelecer unidades organizacionais e papis voltadas para dados. Identificar os Data Stewards. Estabelecer as camadas de GD e de data stewards. Desenvolver e aprovar Polticas, Padres e Procedimentos de dados. Revisar e aprovar a Arquitetura de Dados. Planejar e patrocinar Projetos e Servios de Gesto de Dados. Estimar o valor dos Ativos de Dados e custos associados (Riscos).
A viso sinttica : a. Entender as necessidades estratgicas de dados: 8
UMA VISO SINTTICA E COMENTADA DO DMBOK
Entender a estratgia e os dados necessrios para apoi-la. So evidentes questes como: Para onde vou (em temos de negcios), como vou, quando vou? Que dados sero necessrios nesse caminho? Como obt-los, como mant-los? Como garantir a sua qualidade? Que reas sero prioritrias no tratamento dos dados, baseado nas estratgias de negcios? Para que segmentos vamos caminhar? Big Data, sentiment analysis via redes sociais, etc.? b. Desenvolver e manter a estratgia de dados: Instanciar as aes para a obteno dos dados, sua manuteno, sua qualidade, baseado nas necessidades estratgicas identificadas anteriormente. c. Estabelecer unidades organizacionais e papis para essas atividades de dados Estruturas in-business (data stewards), estruturas in-TI (AD, DBA, etc.), estruturas tticas (CDO, DMO, gerencia os data stewards) e estruturas estratgicas (Comit de GD, que define regras, tira dvidas, resolve impasses, etc.). d. Identificar os Data Stewards Sero os responsveis, dentro da rea de negcios, pelo controle e uso dos dados. Nos usurios, seriam figuras com amplo domnio de conhecimento desses assuntos. Tomaro conta daquele recurso, sero os responsveis (liability) e gerenciaro o seu uso. e. Estabelecer as estruturas organizacionais (camadas) para Gesto de Dados e de data stewards Enquanto no item c h uma viso mais genrica, aqui h uma viso mais detalhe. Envolve Membros do Comit de GD, principais Data Stewards, principais componentes do DMO, entre outros. Para as funes in-business, definir as reas prioritrias (em funo da estratgia) que devero ter os seus stewards (gestores de dados). H vrias proposies possveis de estruturas para GD. Abaixo, na figura 2, uma das proposies com as camadas e suas principais atribuies: 9
UMA VISO SINTTICA E COMENTADA DO DMBOK
Figura 2 - Uma possvel estruturao das camadas de GD
f. Desenvolver e aprovar polticas, padres e procedimentos de gesto e governana de dados. Aqui encontramos trs dos Ps da GD. Polticas so as regras maiores, definidas em consenso com reas envolvidas, todas aprovadas pelo Comit e divulgadas. As polticas balizam as grandes direes. Padres regulam formas de nomes, documentos, layouts, entre outros. Procedimentos so detalhes especficos de como fazer certas atividades e que se juntam a descries de processos que sero desenvolvidos. g. Revisar e aprovar a arquitetura de dados: Envolve analisar a arquitetura de dados, formada em nveis conceituais gradativamente detalhados (assuntos, entidades de negcios, entidades de dados, relacionamentos, principais atributos, etc.) e mostrando a sua conexo com outras arquiteturas, como de negcios, de sistema, de processos, de tecnologia, entre outros. Observar que h um processo (corpo de conhecimento) focado em arquitetura. h. Planejar e patrocinar projetos e servios da Gesto de dados: Definir os projetos mais prioritrios para se comear a implementao dos conceitos de GD. Podem ser melhorias na integrao de dados, na definio de arquiteturas, na segurana, 10
UMA VISO SINTTICA E COMENTADA DO DMBOK
em foco de dados no estruturados, em qualidade, entre outros. Sero definidos de acordo com as prioridades estratgicas dos negcios. i. Estimar o valor dos ativos de dados e custos associados: Trabalhar pelo custo negativo (riscos em imagem/reputao, compliance, etc.). Trabalhar em valorao relativa dos dados com relao aos outros recursos de um projeto e na aferio de valores que os competidores dariam por aqueles recursos de dados.
1.1.2. Controle da gesto de dados
O objetivo : Supervisionar as camadas/estruturas e papis envolvidos com dados. Coordenar as atividades de Governana de Dados. Gerenciar e resolver conflitos sobre dados. Monitorar e garantir aderncia a aspectos regulatrios (no que tange a dados). Monitorar e garantir a aplicao e conformidade s Polticas, Padres Procedimentos e Arquitetura. Supervisionar projetos e servios relativos Gerncia de Dados. Comunicar e promover os valores dos ativos de dados.
Viso sinttica: Nesse ponto, a ideia justamente o controle do funcionamento da estrutura definida anteriormente: Envolve coordenar as atividades de GD, supervisionar as estruturas definidas para as atividades de dados, gerenciar conflitos, entre outros.
11
UMA VISO SINTTICA E COMENTADA DO DMBOK
1.2. Gesto da arquitetura de dados
Segundo o DMBOK (2009), o objetivo da Gesto da Arquitetura de Dados : Entender as necessidades de informao da empresa. Aqui aparece uma variante com relao outra j mencionada anteriormente (Gesto de Dados). O foco aqui na necessidade de informaes, ou seja, algo mais elaborado e focado em negcios e derivado do anterior. Desenvolver e manter o modelo corporativo de dados (MCD). Analisar e alinhar o MCD com outros modelos de negcios. Definir e manter uma arquitetura de tecnologia de Dados. Definir e manter uma arquitetura de integrao de dados. Definir e manter uma arquitetura de Data Warehousing e de Business Intelligence. Definir e manter uma taxonomia e padres de nomes (namespaces) de dados para a empresa. Definir e manter uma arquitetura de Metadados.
A viso sinttica : a. Entender as necessidades de informaes da empresa: Levantar as informaes, criando vises de dados por reas/assuntos (subject areas). Envolve a criao da viso de dados necessrios em variados nveis de abstrao. Os dois primeiros so focos da viso corporativa e os trs ltimos esto dentro da viso de aplicaes: Modelo de Entidades de negcios por subject area, numa viso de alto nvel, com meno das principais Entidades de Negcios daquele domnio. Modelo conceitual de dados: Um pouco mais detalhado que o anterior, contemplando vises de relacionamentos e dos principais atributos envolvidos. Modelo lgico de dados: Viso mais detalhada que a anterior, contemplando as Entidades de Dados, com seus relacionamentos e seus atributos, normalizados, numa viso relacional. Modelo Fsico, com uma viso de implementao, dentro da restrio do SGBD/tecnologia. 12
UMA VISO SINTTICA E COMENTADA DO DMBOK
Viso do implementador, com aspectos relacionados com SQL/DDL, Views, etc. ou de implementaes pelos SGBD ou FMS (Hadoop, NOSQL), entre outros.
b. Desenvolver e manter o modelo de dados corporativo: Envolve a manuteno dos dois nveis anteriormente definidos, em funo do desenvolvimento dos modelos da aplicao. O grande objetivo manter a coerncia do significado dos dados (Entidades, relacionamentos) para toda a empresa. Aqui comea uma parte da definio semntica das Entidades de Negcios, com extenses semnticas de classificao e agregao, se necessrio. c. Analisar e compatibilizar o MCD com outros modelos da empresa: Aqui ao grande foco manter a coerncia entre o modelo de negcios da empresa (como grande balizador) e os modelos de dados, modelos de processos, modelos de sistemas/aplicaes, modelo de tecnologia e modelo de organizao. Isso significa que uma Entidade de Negcios (modelo conceitual de dados) ser criada, atualizada, mantida e eliminada por processos implementados em sistemas, apoiados em tecnologia e sob a responsabilidade de reas (organizao). o dado se integrando nas vrias dimenses da empresa. d. Definir e manter a arquitetura de tecnologia de dados: Envolve um framework que contemple os elementos de tecnologias que compem o domnio de dados da empresa. Por exemplo, os SGBDs tradicionais, os SGBDs envolvidos em projetos de ERP, que podem ser diferentes, outros tipos de softwares usados para tratamento de Big Data, como Hadoop e NoSQL, utilitrios desses componentes, ferramentas de modelagem de dados, ferramentas de qualidade e de profiling de dados, ferramentas de metadados, como dicionrios, catlogos, glossrios, entre outros. Tudo que tangencia a tecnologia que se usa para dados. e. Definir e manter a arquitetura de integrao de dados: Envolve uma viso acerca das ferramentas e solues de integrao de dados. Inclui o envolvimento dos sistemas/aplicativos onde os dados so gerados, transformados, consumidos, eliminados, dentro do conceito de data lineage (linhagem de dados). Linhagem de dados uma espcie de viso dos dados, desde a sua origem, observando o seu ciclo de vida. Dessa forma, essa recomendao do DMBOK inclui sistemas e informaes e envolve papis que fazem manipulaes (CRUD) de dados e suas transformaes a fim de torn-los adequados ao uso da empresa. f. Definir e manter a arquitetura de DW e BI: 13
UMA VISO SINTTICA E COMENTADA DO DMBOK
No fundo um detalhamento dos itens anteriores, com foco em Business Intelligence e Data Warehousing. Envolve as estruturas de armazenamento (DW, Dmarts, ODS), camadas de transformao e integrao (ETL) e camadas de consumo de informaes (Relatrios, OLAP, dashboards, estudos de inferncia por tcnicas de analytics, data mining, etc.). g. Definir e manter taxonomias e nomes (namespaces) como padres corporativos: Envolve a estruturao de taxonomias como, por exemplo, representaes abstratas de classes/subclasses, heranas, ou composio e agregao, estendendo a semntica definida nos modelos conceituais e aprimorando o seu entendimento. uma forma de se entender os dados do ponto de vista mais de suas classificaes hierrquicas e de relacionamentos semnticos. Com relao aos nomes (namespaces), envolve a definio de termos padres que objetivam a consistncia dos elementos entre os modelos da empresa. h. Definir e manter uma arquitetura de metadados: Envolve a definio do fluxo de metadados, a integrao entre os variados tipos de depsitos de metadados (catlogos, dicionrios, glossrios, etc.). Sugere a gerncia sobre como os metadados so criados nas suas fontes, controlados, integrados e acessados. Visa a garantir a coerncia na referncia semntica dos metadados, em todos os nveis (dados no ambiente negocial, transacional e tambm dado no ambiente analtico de BI) e em todas as suas fontes.
14
UMA VISO SINTTICA E COMENTADA DO DMBOK
1.3. Desenvolvimento de dados
O objetivo do Desenvolvimento de Dados, de acordo com o DMBOK (2009), projetar, implementar e manter solues que satisfaam as necessidades de dados da empresa. Compreende as atividades focadas em dados dentro do ciclo de desenvolvimento do sistema, incluindo a modelagem de dados, anlise de requisitos de dados e projeto, implantao e manuteno de bancos de dados. A sua estrutura : Modelagem de dados, anlise e projeto de solues: Analisar os requisitos de informao. Desenvolver e manter modelos conceituais de dados. Desenvolver e manter modelos lgicos de dados. Desenvolver e manter modelos fsicos de dados. Projeto detalhado de dados: Projetar(desenhar) os Bancos de dados fsicos. Projetar(desenhar) os produtos de informao necessrios. Projetar (desenhar) servios de acesso aos dados. Projetar (desenhar) os servios de integrao de dados. Gerncia de qualidade dos modelos de dados e dos projetos derivados: Desenvolver padres para modelagem de dados e projetos. Revisar (auditar) a qualidade dos modelos de dados e dos projetos de bancos de dados. Gerenciar versionamento e integrao de modelos de dados. Implementao de dados: Implementar, desenvolver e testar alteraes em bancos de dados. Criar e manter dados para ambientes de testes. Migrar e converter dados. Construir e testar produtos de informao. Construir e testar servios de acesso a dados. Validar requisitos de informao. Preparar para a implementao (da parte) dos dados. 15
UMA VISO SINTTICA E COMENTADA DO DMBOK
A viso sinttica : a. Modelagem de dados, anlise e projeto da soluo: Os itens analisar os requisitos de informao, desenvolver/manter modelos conceituais/modelos lgicos e modelos fsicos so parte do processo tradicional de desenvolvimento de aplicaes e dizem respeito ao levantamento dos requisitos (de dados e de sistemas), com o intuito de desenvolver os modelos necessrios compreenso das necessidades de informaes da soluo em projeto. Essa abstrao de dados construda em vrios nveis, indo da viso conceitual (entidades, relacionamentos, alguns atributos), lgica (entidades, relacionamentos, atributos, com maior nvel de detalhe e aspectos de normalizao, domnios, chaves, etc.), fsica (detalhamento da abstrao anterior, com incorporao de aspectos associados a ndices, campos nulos, formas de armazenamento em coerncia com o SGBD a ser usado, etc.). Como qualquer proposio, o DMBOK no sugere nenhuma abordagem especfica, devendo a empresa centrar no o qu est sendo sugerido e no no como. b. Projeto detalhado de dados: Projetar os Bancos de Dados fsicos se relaciona com colocar as estruturas de BD de acordo com as caractersticas do SGBD em questo. Significa se preocupar com aspectos de performance, armazenamento, particionamento de dados, colunas calculadas definidas como armazenadas, entre outros. Projetar (desenhar) os produtos de informao merece uma observao anterior: Produto de informao significa tudo aqui que se pode extrair direta ou indiretamente de bancos de dados (Relatrios operacionais, gerenciais, cubos, dashboards, scorecard, sadas na forma de documentos XML, portal, dados para integrao com outros aplicativos, etc.). Assim, esse item foca nos projetos das sadas desejadas do sistema. Os servios de acesso aos dados podem ser entendidos como a disposio com que os SGBDs se encontram numa arquitetura ou topologia. Podem ser servidores linkados, acesso por Servios (SOA), Message Broker (servios assncronos de mensagens), dispositivos tipo ODBC, JDBC, arquitetura de bancos distribudos, como replicao, parties, distribuio, camadas de ETL que fazem leitura de bancos de dados, entre outros. Projetar os servios de integrao de dados representa a preservao de certos conceitos fundamentais do ambiente transacional, como ACID (Atomicidade, Consistncia, Isolamento e Durabilidade) (ELMASRI, 2000). Os conceitos de Atomicidade esto associados a mecanismos ou servios que garantem a execuo conjunta ou integrada de comandos sob o mesmo escopo transacional, sacramentando todas as aes ou desfazendo-as completamente. A consistncia um conceito que garante os estados de consistncia inicial 16
UMA VISO SINTTICA E COMENTADA DO DMBOK
ou final dos dados alterados pela transao. Os servios de isolamento garantem que as transaes executadas em paralelo no sofrero ou interferiro nas outras, simulando um ambiente exclusivo de recursos, quando na realidade eles so compartilhados. O conceito de durabilidade se expressa nos servios que garantem a manuteno do estado alcanado pela transao, depois que ela foi terminada, mesmo que ainda alguma intercorrncia possa afetar os dados atualizados por ela. Alm disso, tambm devem ser considerados os conceitos de integrao numa viso mais ampla. Envolve, dessa forma, a definio de camadas de integrao, como ETL, de persistncia, etc.; e do uso de Stored Procedures, como camada de aes essenciais de dados como ADD, MOD e DEL de linhas /registros. c. Gerncia da qualidade do modelo de dados e do projeto de Bancos de Dados: Envolve a definio e verificao de padres a serem usados nos modelos, incluindo nomes de entidades, de atributos, de relacionamentos, simbologias de entidades, relacionamentos, atributos, cardinalidade, entre outros. A reviso a verificao dessas aderncias feitas por trabalhos de QA (Quality Assurance) ou por revises por pares (VER/VAL), garantindo a compatibilidade entre os requisitos iniciais (de dados) e os elementos implementados. Inclui tambm a gerncia de versionamento, parte da gerncia de configurao, garantindo a integridade de modelos, com controles de versionamento, controles de alteraes (quem fez, porque, quando, e o que?), entre outros. d. A implementao de dados: Est diretamente associada com o desenvolvimento, implementao e testes (das partes de dados), dentro do contexto geral de teste dos sistemas. Os testes se referem aos elementos definidos anteriormente (Bancos de Dados e outros produtos de dados, servios de dados, integrao de dados, etc.). O conceito de validao de requisitos de dados aplicado aqui com a avaliao dos pontos levantados na forma de requisitos (de informao) e a anlise de sua devida transformao em produtos do sistema. Tambm se relaciona com migrao, preparao e converso de dados dentro do contexto do projeto, incluindo aspectos de implantao.
17
UMA VISO SINTTICA E COMENTADA DO DMBOK
1.4. Gesto de operaes de dados
O objetivo da Gesto de Operaes de Dados, segundo o DMBOK (2009) planejar, controlar a apoiar os ativos de dados ao longo do seu ciclo de vida, indo desde a criao e aquisio (obteno) at o arquivamento final (archiving) e eliminao (purge). A estrutura : Suporte a Bancos de dados: Implementar e controlar ambientes de Bancos de Dados Obter dados originados de fontes externas. Planejar para Recuperao de dados (Recovery). Realizar Backup e Recovery de Bancos de Dados. Estabelecer nveis de servios relacionados performance de Bancos de Dados. Monitorar e ajustar aspectos de performance de Bancos de Dados. Planejar a reteno de dados. Arquivar, reter e eliminar dados. Suportar aspectos de Bancos de Dados especializados. Gerncia de tecnologia de dados: Entender os requisitos tecnolgicos de dados. Definir arquiteturas tecnolgicas de dados, j mencionada anteriormente na funo Gerncia da Arquitetura de dados como Definir e manter uma arquitetura de Bancos de Dados. Avaliar tecnologias de dados. Instalar e administrar tecnologias de dados. Controlar e acompanhar aspectos de licenas de tecnologia de dados. Suportar o uso e as dvidas (pendncias) sobre tecnologia de dados.
A viso sinttica : a. Suporte a bancos de dados: 18
UMA VISO SINTTICA E COMENTADA DO DMBOK
Implementar e controlar ambientes de Bancos de Dados: significa ter controles sobre os possveis diversos ambientes de SGBDs da empresa, suas vrias instncias, tanto de SGBD quanto de tecnologias correlatas, gerncia e conhecimento de parmetros e afinamento de SGBD e correlatos, controle de sua conectividade (com outros SGBD em ambientes distribudos, ou com outras camadas), ajuste e afinamento de outras camadas correlatas que dialogam com o SGBD e controle do ambiente de data storage usado pelos SGBDs e produtos correlatos. Obter dados originados de fontes externas: Controle de aquisio dos dados obtidos de fontes externas (na forma de CD, DVD, EDI, XML, RSS, etc.), como vem (licenciados ou contratos) de onde vem (fontes), com qual periodicidade chegam, dados de contrato com fornecedores, SLA com o fornecedor, entre outros; e registro no modelo lgico/conceitual de dados. Planejar para recuperao de dados (recovery): Planejamento das atividades de backup e recovery, com definio de procedimentos, periodicidades, tipos de backups (integral, incremental), tipos de mdia destino, SLA definido para tempos mximos de recuperao, tipos de perdas, tipos de recuperao, tipos de arquivos a serem resguardados (BD, Logs, cpias lgicas, cpias fsicas, etc.). Realizar Backup e Recovery de Bancos de Dados: Instanciao do plano definido acima, com a criao das backups, logs de transaes, estratgias de imagens em discos RAID, etc. Estabelecer nveis de servios relacionados performance de Bancos de dados: SLA definido para a tempo de resposta de BD, de algumas transaes chaves, de jobs batchs de apoio, como ETL, de tempo de recuperao de BD, de interrupes fsicas, lgicas, etc. Monitorar e ajustar aspectos de performance de Bancos de Dados: Realizar acompanhamento proativo (preventivamente) e reativo (aps incidentes). Envolve aspectos de gerncia de tempo de resposta ao usurio, provenientes das mais variadas causas-raiz (problemas de codificao de SQL, comandos, falhas de projetos de bancos, ausncia de indexaes corretas, problemas provenientes de desatualizao de estatsticas usadas pelo otimizador de pesquisas, etc.). Associado a conceitos de processos do ITIL, MPS-SV, entre outros, para controle de incidentes e problemas. Planejar a reteno de dados: Planejar a forma, tempo e tipo de reteno, transferncia para mdias secundrias e de eliminao de dados, de acordo com polticas de Governana de dados e/ou aspectos regulatrios. 19
UMA VISO SINTTICA E COMENTADA DO DMBOK
Arquivar, reter e eliminar dados: Instanciao do Plano de reteno de dados definido anteriormente. Suportar aspectos de Bancos de Dados especializados: Entender que hoje h uma grande variedade de sistemas gerenciadores de bancos de dados e de FMS (File Management Systems), cada qual disponvel para certos tipos de necessidades: OODBMS (SGBD para Bancos orientados a objetos), XML, NOSQL (para dados semi ou no estruturados), Hadoop/Map Reduce para armazenamentos de petavolumes, Bancos de dados de armazenamentos dimensionais, entre outros. Para detalhes sobre Bancos de Dados NoSQL veja (SADALAGE, 2014).
b. Gerncia de Tecnologia de Dados: Entender os requisitos tecnolgicos de dados: Como em qualquer soluo a ser desenvolvida, entender primeiramente o problema posto, quais as limitaes das tecnologias colocadas e existentes, quais os requisitos especficos de HDW para aquela tecnologia de dados, quais os requisitos de sistema operacional, os de conectividade, as habilidades do peopleware envolvido, as implicaes de custo e se h equivalentes no domnio de softwares livres. Definir arquiteturas tecnolgicas de dados (j mencionadas anteriormente na funo Gerncia da Arquitetura de dados como Definir e manter uma arquitetura de Bancos de Dados): Significa que tipo de software ser necessrio em cada camada relacionada com dados: BD Convencionais, BD especiais (Georreferenciados, XML, NOSQL para big data, FMS, Bancos de Dados multidimensionais, etc.) e que outras camadas so necessrias: integrao, ferramentas de modelagem, BI, ETL, virtualizao de servidores, suites de testes, camadas para gerao de dados, entre outros. Avaliar tecnologias de dados: Inclui a anlise de alternativas tecnolgicas de dados. Isso pode ser feita por um processo de Gerncia de Deciso (GDE), no modelo MPS.BR ou DAR (CMMI), envolvendo a definio de critrios e pesos para a melhor opo, benchmarks, visitas, provas de conceito, etc. Instalar e administrar tecnologias de dados: Na realidade, a instanciao dos dois ltimos itens anteriormente discutidos. Controlar e acompanhar aspectos de licenas de tecnologia de dados: Considerar a importncia do controle de licenas de uso de SGBD, de ferramentas de BI, de ferramentas de integrao, de geradores de relatrios, 20
UMA VISO SINTTICA E COMENTADA DO DMBOK
de cubos, de mining, entre outros; visando preservar aspectos legais e de controle de custo. Suportar o uso e as dvidas (pendncias) sobre tecnologia de dados: Aqui esto concentradas as aes de apoio, suporte e resoluo de incidentes associados camada de dados, com processos, por exemplo, do modelo ITIL, ou MPS-SV, com detalhamento de nveis de apoio. Passa tambm pela escolha adequada e pelo treinamento ministrado visando utilizao daquela tecnologia de dados.
21
UMA VISO SINTTICA E COMENTADA DO DMBOK
1.5. Gesto da segurana de dados
Segundo o DMBOK (2009), o objetivo da gesto da segurana de dados planejar, desenvolver e executar as polticas de segurana e procedimentos a fim de prover a adequada autenticao, acesso e auditoria de dados e informaes. A estrutura : Entender as necessidades de segurana de dados e os requisitos regulatrios associados. Definir Poltica de segurana de dados. Definir Padres de segurana de dados. Definir Procedimentos e controles de segurana de dados. Gerenciar usurios, passwords e membros de grupos de usurios. Gerenciar vises e permisses de acesso aos dados. Monitorar autenticao de usurios e comportamento de acesso. Classificar o grau de confidencialidade das informaes. Auditar a segurana dos dados.
A viso sinttica : a. Entender as necessidades de segurana de dados e os requisitos regulatrios associados: Os requisitos regulatrios normalmente esto associados com modelos do tipo SOX, Basilia-II, Clerp-Act of Australia, etc. b. Definir poltica de segurana de dados: So as regras e diretrizes maiores que devem ser seguidas pela empresa, em termos de segurana da informao. So normalmente definidas por administradores de segurana juntamente com gestores de dados e auditores de segurana externa ou interna. Dever ser aprovada pelo Conselho de Governana de Dados (GD). c. Definir padres de segurana de dados: Os padres de segurana gravitam em torno de: padres de senhas, grupos de usurios, padres de criptografia, guia para acessos externos, protocolos de transmisso pela internet, requisitos de documentao das informaes de segurana, padres de acesso remoto, 22
UMA VISO SINTTICA E COMENTADA DO DMBOK
procedimentos para relato de incidentes de segurana, padres de armazenamento e acesso de dados para portveis e descarte (eliminao) desses tipos de equipamentos. d. Definir procedimentos e controles de segurana de dados: Significa, para o DMBOK, estabelecer um grau de detalhe sobre as diversas atividades, tanto de planejamento, operao quanto de controle da gesto de segurana de dados. e. Gerenciar usurios, passwords e membros de grupos de usurios: Analisar os diversos usurios, passwords, grupos de usurios, privilgios de usurios e/ou de grupos, tendo uma fotografia correta dessas entidades e de suas modificaes no contexto da segurana de dados. f. Gerenciar vises e permisses de acesso aos dados: Envolve a aplicao dos conceitos de opt in e opt out, ou seja, as atividades de se garantir privacidade e segurana de dados por conceder especificamente permisses, atravs de definies explcitas (opt in) ou por se restringir aes especficas, dentro de um leque amplo de alternativas concedido por default (opt out). Tambm os conceitos de vises (views) de bancos de dados so elementos considerados nesse ponto. g. Monitorar autenticao de usurios e comportamento de acesso: Representa o acompanhamento dos acessos, com a observao de comportamentos atpicos ou de riscos, que devero ser reportados aos envolvidos. Isso alimenta as futuras alteraes de planos, projetos e polticas de segurana de dados. Alguns tipos de dados mais sensveis podero ser monitorados em tempo real, com possibilidade de alertas e mensagens para administradores, gestores, imediatamente ao seu acontecimento. h. Classificar o grau de confidencialidade das informaes: Classificar o grau de confidencialidade, definindo hierarquias como: informao para acesso geral (todos podem ver); informaes somente para uso interno (somente colaboradores podem acessar as informaes que podero ser mostradas ou discutidas no mbito externo da empresa, porm no copiadas); informaes confidenciais (no devem ser compartilhadas por toda empresa); informaes confidenciais restritas (somente aberta para certos colaboradores previamente identificados com o status devem saber); informaes confidenciais registradas (poucos tm acesso e h a estrita necessidade de assinatura de documento de responsabilidade pelo seu uso ou conhecimento). i. Auditar a segurana dos dados: Objetiva a realizao de sesses de auditoria com o propsito de analisar, validar, aconselhar e recomendar polticas, padres e atividades relacionadas gerncia de 23
UMA VISO SINTTICA E COMENTADA DO DMBOK
segurana de dados. Pode ser interna ou externa, porm feitas por pessoas sem nenhum envolvimento nos processos em auditoria.
24
UMA VISO SINTTICA E COMENTADA DO DMBOK
1.6. Gesto de dados mestres e de referncia
O objetivo da Gesto de dados mestres e de referncia planejar, implementar e controlar atividades para garantir consistncia de dados Mestres e de Referncia. Os dados Mestres so os dados fundamentais de uma empresa e envolvem clientes, fornecedores, colaboradores, contas, locais, entre outros. Os dados de Referncia so dados relacionados com cdigos, como estado, pas, status de um pedido, entre outros, e servem como elementos para categorizar/classificar outros dados. (DMBOK, 2009). Os dois Mestres e Referncias servem como input para os dados transacionais: Num pedido, por exemplo, que representa um dado do tipo Transacional (normalmente associado a uma data) voc tem dados Mestres (clientes e produtos entregues, vendedor envolvido, etc.), dados de Referncia, como o status do pedido, CEP padro do fornecedor, entre outros, e no conjunto formam os dados Transacionais do Pedido. Essa classificao de tipos de dados est mais detalhada adiante. A estrutura : Entender as necessidades de integrao de dados Mestres e de Referncia. Identificar Fontes e contribuintes (contributors) de dados Mestre e de Referncia. Traar a linhagem do dado, para identificar a suas Fontes originais e temporrias (BD, FMS, processo, rea organizacional, pessoas, papis/indivduos envolvidos). Definir e manter a arquitetura de integrao de dados. Implementar solues de gerncia de Dados Mestres e de Referncia. Definir e manter regras de match para os dados replicados. Definir os Golden Records. Definir e manter hierarquias e afiliaes (conceitos de MDM). Planejar e implementar integraes das novas fontes de dados. Replicar e distribuir Dados Mestres e de Referncia. Gerenciar alteraes de Dados Mestres e de Referncia.
Algumas consideraes iniciais: Os dados, h muito, so usados por diferentes reas dentro de uma empresa, de formas tambm diferentes. As reas de Venda, Fornecedores, Manufatura, etc. veem os dados de Vendas, por exemplo, de forma diferente, cada uma com uma viso ou conjunto de atributos especficos, algumas inclusive com definies diferentes para a mesma entidade ou informao. 25
UMA VISO SINTTICA E COMENTADA DO DMBOK
Os dados podem ser vistos como enquadradas dentro de trs tipos: Os Mestres, os de Referncia e os Transacionais: Os mestres so aqueles dados centrais da empresa, com certa caracterstica de imutabilidade. Representam entidades de negcios vitais da empresa, como cliente, fornecedores, empregados, locais, entre outros. Os dados Mestres so de domnios mais amplos, com variaes semnticas como pessoas (Fsica, Jurdica), locais, elementos geogrficos, etc. Os dados de referncia representam elementos com caractersticas mais voltadas para codificao de valores, como cdigo e descrio, por exemplo. Servem para categorizar outros dados. Representam tipos de dados que servem de referncia para algum contexto, como CEP, cdigos geogrficos (cidade, estado, etc.), cdigos contbeis, lista de valores de certos domnios, entre outros. Uma das reas onde so muito usados na Sade. Os cdigos internacionais de doena (CID) e os cdigos de tratamentos (Current Procedural Terminology - CPT) so fundamentais nas estatsticas e estudos de doenas e as aes realizadas de tratamento. O CID est na verso 9, com a previso da incorporao do CID-10 para outubro de 2013. Os dados de referncia possuem relacionamento entre eles (o atributo cdigo-CEP e o atributo descrio-Local) e entre si (cdigos entre eles-CEPs da mesma raiz). Outro exemplo: Considere a trinca cod-produto, desc-produto, cod-produto-pai. Esses elementos representam uma referncia de cdigo para descrio e uma relao de hierarquia de cod- produto-pai para cdigo-produto. Os dados de referncia tendem a ser mais imutveis, pois representam codificaes que tendem a permanecer. Ambos (dados mestres e dados de referncia) so insumos para a produo de dados tipos transacionais. Por exemplo, um cliente comprando produtos em locais da minha empresa, gera transao de compras (que podem ter os seus dados prprios, como data, tipo de desconto daquela compra, etc.). Os dados Mestres e de Referncia devem ser geridos pela empresa de forma centralizada, envolvendo os gestores de dados da(s) rea(s) afim(ins). Sua gerncia envolve a criao, integrao, manuteno uso e descarte. Contempla tambm a definio das verses abrangentes (que englobem todos os seus atributos) e, preferencialmente nicas, que representem a verdade dos dados (golden records). Buscam, na essncia, a entidade com seus atributos e valores mais ntegros, atuais e associados ao negcio. Os DMR (Dados Mestres e de Referncias) so implementados por diversas ferramentas como ETL, integrao de dados, ODS (Operational Data Store) para armazenamento das verses nicas, ferramentas de profiling e cleasing, para a descoberta de duplicatas, entre outras. 26
UMA VISO SINTTICA E COMENTADA DO DMBOK
Os dados mestres podem ser classificados em alguns domnios: partes (parties), que representam organizaes, indivduos, seus papis, como clientes, empregados, fornecedores, vendedores, entre outros. Na viso de segurana podem ser: cidados, testemunhas, vtimas. No domnio sade podem ser: clientes, provedores de servios, estes classificados em mdicos, convnios, etc. No domnio educao, podem ser: aluno, professor, inspetor, diretor, etc. H dados Mestres tambm nos domnios de clientes, ambiente financeiro, produtos ou servios e localizao, dentre outros. A viso sinttica segundo o DMBOK : a. Entender as necessidades de integrao de dados Mestres e de Referncia: Significa ter os devidos controles para compatibilizar os dados que esto replicados e usados em diferentes sistemas/aplicativos. Normalmente as causas-raiz de problemas de qualidade de dados revelam esse aspecto. A soluo Master Data management (MDM) complexa e, como tal, exige soluo gradativa e incremental. A sugesto entender a necessidade e o uso daquele dado em estudo, nas diversas aplicaes/sistema da empresa. b. Identificar Fontes e contribuintes (contributors) de dados Mestre e de Referncia: Depois de entendido, importante traar a linhagem do dado, para identificar a suas fontes originais e temporrias (BD, FMS, processo, rea organizacional, pessoas, papis/indivduos envolvidos). c. Definir e manter a arquitetura de integrao de dados: J mencionada anteriormente na funo Gerncia da Arquitetura de dados como Definir e manter uma arquitetura de integrao de dados, a arquitetura de soluo de MDM passa por topologias parecidas com as de Bancos de dados distribudos e/ou replicados e busca evitar o aparecimento de silos de dados ou arquivos isolados e personalizados para atender aplicaes especficas. d. Implementar solues de gerncia de Dados Mestres e de Referncia: Passa por definio de solues que permitam o uso compartilhado do dado Mestre ou de Referncia, na sua forma golden record por variadas aplicaes OLTP ou de BI, mantendo a sua integridade. As topologias devem permitir leituras diretas dos DM (dados mestres ou de referncia) ou o seu uso em sistemas atravs de replicaes controladas (sncronas ou assncronas). e. Definir e manter regras de match para os dados replicados: 27
UMA VISO SINTTICA E COMENTADA DO DMBOK
Trabalhar padres para que se possa identificar duas ocorrncias como sendo do mesmo objeto. Conforme citado anteriormente, dois registros de cliente com nome Carlos Barbieri so considerados o mesmo objeto (Carlos Barbieri)? Tal atividade passa por tcnicas de identificao de elementos duplicados, atravs de regras de inferncia de similaridade, por tcnicas de eliminao de duplicao de registros iguais e por tcnicas de consolidao que podem ser: Match-merge: Essas tcnicas consistem no batimento (match) das vrias ocorrncias multiplicadas e a produo de um registro abrangente que as represente. Match-Link: Tcnicas que definem um registro, com apontadores para outros, sem consolidao fsica em um nico elemento.
f. Definir os Golden Records: Golden Records significa o conceito de fonte nica, ntegra e confivel, que procura garantir a verdade sobre os dados. Por exemplo, um nico cadastro lgico de clientes, formado por informaes advindas de vrias fontes fsicas. g. Definir e manter hierarquias e afiliaes (conceitos de MDM): As hierarquias e afiliaes complementam as informaes de relacionamentos dos dados Mestres, mostrando, por exemplo, dois registros mestres de clientes, relacionados como Todo-Parte (um cliente parte de um outro cliente, ou seja faz parte do mesmo grupo, ou afiliada, ou seja tem um relacionamento com a outra empresa). Tambm h o relacionamento conhecido como um tipo de. As duas classificaes de dados so muito aplicadas no conceito de objetos (Todo-Parte ou composio e agregao) e ( um tipo de definindo tipos e subtipos), adotados em Modelagem de Classes e objetos. h. Planejar e implementar integraes das novas fontes de dados: Nesse ponto, o DMBOK se preocupa com a chegada de novas fontes de dados que devero ser integradas ao ambiente j existente. Isso envolve: analisar as requisies feitas de integrao, a complexidade e custo de sua integrao e avaliar a qualidade dos dados entrantes. i. Replicar e distribuir Dados Mestres e de Referncia: Esse ponto versa sobre a arquitetura definida para a soluo de MDM implementada. Poder ser via bancos distribudos, ou atravs de replicaes. j. Gerenciar alteraes de Dados Mestres e de Referncia: 28
UMA VISO SINTTICA E COMENTADA DO DMBOK
Esse ponto, de crucial importncia, dever ser considerado com cuidado, pois os dados do ambiente MDM estaro compartilhados e as suas alteraes implicam controles mais rigorosos, a fim de evitar impactos e rupturas em sistemas em funcionamento. Passa por: criar e receber pedidos de alterao, identificar reas interessadas; avaliar impactos em funo da solicitao, aceitar ou rejeitar a solicitao ou transferir a deciso para o mbito da Governana de Dados (GD), comunicar a deciso s partes interessadas, realizar as mudanas, caso aprovada, comunicar as partes interessadas acerca das mudanas. A Figura 3 mostra uma classificao de dados, contemplando DMR (Dados Mestres e Referenciais) e outros dados como histricos, temporrios e condicionais, enquadrados em dimenses origem, forma, definio e gnese.
Figura 3 - Classificao de Dados
29
UMA VISO SINTTICA E COMENTADA DO DMBOK
1.7. Gesto de data warehousing e business intelligence:
O objetivo da Gesto de data warehousing (DW) e business intelligence (BI) (DMBOK, 2009) planejar, implementar e controlar processos para prover dados de suporte deciso e apoio a colaboradores envolvidos em produo de relatrios, consultas e anlises. A estrutura : Entender as necessidades de informaes analticas (BI). Definir e manter a arquitetura de DW e de BI (j mencionada anteriormente na funo Gerncia da Arquitetura de dados como Definir e manter uma arquitetura de DW e de BI). Implementar os DW e DataMarts. Implementar as ferramentas de BI e de Interface para usurios. Processar os dados para o ambiente de BI. Monitorar e ajustar os processos de DW. Monitorar e ajustar as atividades e aspectos de performance de BI.
A viso sinttica : a. Entender as necessidades de informaes analticas (BI): Os requisitos de BI so revestidos de certas diferenas quando comparados com os requisitos tradicionais de sistemas transacionais. O fornecedor de requisitos, que vocaliza as necessidades e os problemas de BI pertence a outro patamar gerencial, normalmente na camada mais ttica e estratgica. Isso demanda uma observao mais apurada sobre as necessidades e problemas (requisitos de negcios e de usurios), alm de tcnicas mais efetivas de comprometimento das partes, como prottipos, provas de conceito, entre outros. O levantamento das necessidades de negcios sugere a captura de metadados (significado dos dados, dos processamentos, de indicadores, etc.). Nesse momento, importante a observao comparativa dos dados demandados contra os dados existentes. b. Definir e manter a arquitetura de DW e de BI: Passa pelas diferentes alternativa de escolas: Viso de EDW (Bill Inmonn) e de DMarts evolutivos e integrados (Ralph Kimball), com todos os elementos que formam uma arquitetura de DW e BI: sistemas transacionais fomentadores dos dados, camada de ETL, camada de armazenamento com DataWarehouse, DataMarts, ODS,etc, camada de ferramentas para produo de informaes, camada de profiling e cleansing dos dados, etc. 30
UMA VISO SINTTICA E COMENTADA DO DMBOK
c. Implementar os DW e Data Marts: Nesta atividade o DMBOK foca na materializao gradativa de DW e BI, em projetos evolutivos e integrados. d. Implementar as ferramentas de BI e de interface: Passa pelos tipos de ferramentas necessrios para se alcanar os objetivos. So ferramentas de dashboards, ferramentas de visualizao de dados, ferramentas de relatrios, OLAPs (de cubos), de anlise preditiva/mining, entre outros, que formaro o arsenal de aplicativos para atender as necessidades de informao da empresa. e. Processar os dados para o ambiente de BI: Relaciona-se com as atividades de ETL (Extrao, Transformao e Carga) de dados, atividades de cleansing e integrao de dados, considerando reas intermedirias, como staging, depsitos intermedirios como ODS, etc. f. Monitorar e ajustar os processos de DW: Passa pelos processos de monitorao de performance de bancos dos dados que compem a estrutura do DW, processos de backup/recovery, processos de archiving, etc. g. Monitorar e ajustar as atividade e aspectos de performance de BI: Passa por atividades de monitorao de tempos de respostas de aplicativos de BI, nmero de usurios de BI por unidade de tempo, entre outros. Esses dois ltimos elementos interferem diretamente no SLA de servios de BI.
31
UMA VISO SINTTICA E COMENTADA DO DMBOK
1.8. Gesto de documentos e contedo:
O objetivo planejar, implementar e controlar atividades para armazenar, proteger e acessar dados encontrados em arquivos eletrnicos e registros fsicos (texto, grficos, imagens, udio e vdeo), ou seja, o foco em dados no estruturados, no armazenados em sistemas relacionais (DMBOK, 2009). H duas grandes subfunes: Gerncia de Documentos e de Registros e Gerncia de Contedo. A estrutura de atividades desta funo e suas subfunes descrita abaixo: Gerncia de Documentos e de Registros Planejar a gerncia de Documentos e de Registros; Implementar Sistemas de Gerncia para Aquisio, Armazenamento, Acesso e controle de Documentos e Registros; Backup e Recuperao de Documentos e Registros; Reteno e eliminao de Documentos e Registros; Auditar a Gerncia de Documentos e Registros. Gerncia de Contedo Definir e manter taxonomia corporativa para documentos e contedo (J mencionada anteriormente na funo Gerncia da Arquitetura de dados como Definir e manter uma taxonomia e padres de nomes (namespaces) de dados para a empresa); Documentar/indexar Metadados sobre informaes de Contedo; Prover acesso e recuperao de Contedos; Estabelecer Governana sobre qualidade de Contedos.
1.8.1. Gerncia de Documentos e de Registros:
Essa gerncia se fundamenta em dois pilares: o primeiro fala sobre a Gerncia do documento em si e o outro fala do seu contedo. O primeiro se preocupa com o documento como se fora um objeto e o outro com a sua estruturao e contedo. O conceito de Big Data, que envolve os diferentes tipos de dados semi ou no estruturados, no foi (ainda) contemplado diretamente no DMBOK, devendo ser foco das prximas verses do modelo. Esse corpo de conhecimento, embora no explicite o termo Big Data, trata 32
UMA VISO SINTTICA E COMENTADA DO DMBOK
fundamentalmente dos dados no estruturados (DNE) como: arquivos (em formato no relacional), grficos, imagens, textos, relatrios, formulrios, vdeo, som, entre outros. Os novos tipos de dados como posts de Linkedin, posts de Facebook, etiquetas de RFID, dados biomtricos e dados gerados por comunicao mquina-mquina (M2M), como monitorao de pacientes, medidores inteligentes de energia eltrica, dados de localizao (GPS), etc. no foram diretamente considerados nesse contexto, embora a sua governana se revista dos mesmos conceitos. Esses dados (DNE) constituem cerca de mais de 70% dos dados existentes hoje num ambiente corporativo e, portanto, passam a merecer a ateno, at porque muitas regulaes oficiais assim exigem. Aspectos regulatrios como Sarbannes Oxley (SOX), E-Discovery amendments to Federal rule of civil procedures, Canada Bills 190, dentre outros, so exigncias presentes em muitos segmentos da indstria. A viso sinttica : a. Planejar a gerncia de documentos e registros: Nesta atividade o DMBOK foca nos processos, tcnicas e tecnologias que visam o controle e a organizao dos documentos e registros, quer seja em meio eletrnico ou papel. Nesta ponto devem ser considerados o planejamento dos diferentes sistemas de controle de documentos e registros: sistemas de bibliotecas, sistemas de controle de emails, sistemas de controle de documentos na forma eletrnica ou em microficha. Devem ser planejados os seguintes pontos: armazenamento, integridade, segurana, qualidade do contedo, formas de indexao e de acesso e guias gerais para a sua gerncia. O planejamento deve considerar aspectos dos vrios pontos do ciclo de vida do documento, da sua criao ao descarte/eliminao, passando pela sua classificao (taxonomia), indexao, arquivamento e uso e recuperao. O planejamento passa tambm pela definio das polticas e procedimentos para esses diversos momentos do ciclo de vida do documento, bem como pela definio das unidades organizacionais (UO) que devero ser as suas gestoras (stewards). Essas polticas devero, entre outros pontos, definir aspectos de responsabilidade dos gestores, polticas de reteno em conformidade com as regulaes existentes, aspectos de circulao e distribuio interna e externa, entre outros. b. Implementar sistemas de gerncia para aquisio, armazenamento, acesso e controle: Aqui o DMBOK est focando na implementao de sistemas de software que apoiem esses pontos. Passa por sistemas de Gerncia de Contedo (ECM), com documentos criados via eletrnica, scanner ou OCR. Devem permitir facilidades de indexao por palavras chaves ou por elementos do contedo (aqui as duas partes desse processo DMBOK se encontram). Dever haver metadados que bem caracterizem aqueles documentos, como data de criao, data de reviso, nome do criador/responsvel, entre outros. As referncias bibliogrficas, 33
UMA VISO SINTTICA E COMENTADA DO DMBOK
associadas eventualmente ao documento formam uma parte de suas informaes estruturadas. O sistema dever permitir o controle de versionamento de documentos, com garantia de GCO (configurao), via check-in e check-out e comparaes de verses, alm de possibilidade de entendimento do seu fluxo (work flow dos documentos). As facilidades para pesquisa devero contemplar palavras chaves, buscas via drill-down, etc. c. Backup e recuperao dos documentos e registros: Aqui o foco na manuteno da integridade dos documentos, com um plano de risco associado s suas eventuais perdas. O plano de backup/recovery aponta aspectos de frequncia de cpia, alternativas de backup passivas, como cold-site, ou ativas, como hot- site, alm de polticas e procedimentos para mitigao. d. Reteno e eliminao de documentos: Aqui o foco nos aspectos de reteno dos dados no ambiente principal at serem transferidos para uma mdia secundria. Devero ser considerados aspectos legais, fiscais e valores histricos do documento. Um ponto importante a ser considerado a garantia da compatibilidade do documento com relao verso do sistema de gerncia e do sistema operacional onde este funciona. Isso importante no caso de recuperaes de documentos que ao serem trazidos para o ambiente atual de software, podem apresentar problemas de compatibilidade de verso. Aspectos de privacidade e de reteno de dados pessoais tambm devem ser considerados neste item. e. Auditar a Gerncia de Documentos e Registros: Envolve aspectos de controle, visando aplicao das polticas, procedimentos e regras definidas pela Governana dos dados. Envolve periodicidade de auditorias e observao de vrios aspectos, como: local de armazenamento, confiabilidade, preciso, classificao e indexao, acesso e recuperao, mtodos de eliminao (disposition), segurana e confidencialidade, percepo e entendimento organizacional sobre a gerncia de documentos, entre outros.
1.8.2. Gerncia de Contedo:
Esta gerncia est relacionada cincia da informao e a gerncia de conhecimentos e trata fundamentalmente de aspectos de entendimento e classificao de contedos de documentos, via aplicao de conceitos de taxonomia. No fundo, prover uma forma de documentao e entendimento da arquitetura de contedo atravs de elementos constituintes, relacionamentos (links), atributos e instncias. So normalmente estruturadas 34
UMA VISO SINTTICA E COMENTADA DO DMBOK
via uma viso ontolgica (conhecimento de ser ou entes), com taxonomias da seguinte forma: achatada (com os elementos listados em sequncia, sem uma estruturao entre eles), hierrquica (com uma organizao dos elementos apresentando certa forma de subordinao), na forma de facets ou estrelas (com os elementos dispostos numa forma de radial, dispostos em torno de um ponto central, como comumente encontrado nos mapas mentais) e de rede (misturando a hierarquia com facets). A gerncia de contedo tambm foca nos aspectos de indexao e documentao dos metadados, visando facilidade de se localizar e identificar certo documento. Quando se fala de dados no estruturados (DNE), h que se considerar o aspecto caracterstico de diversidade desses elementos, buscando-se solues mais evoludas para tal. Muitas delas, agora que esto sendo desenvolvidas, como indexao de arquivos de udio, de imagens (nesse caso, considerando cores, formas, texturas, disposio de elementos, etc.), reconhecimentos faciais, entre outros. Uma vez definidos os mecanismos de indexao e recuperao, teremos as facilidades para prover acesso e recuperao. O DMBOK (2009) tambm foca no estabelecimento de governana sobre esses tipos de dados no estruturados. O tema sobre a governana desses novos ativos j comea a ser discutido e ser, certamente, includo nas prximas verses do modelo DMBOK. At l, muito j se diz e escreve sobre isso, numa nova capa denominada Big Data Governance. O livro mais recente que toca no tema, de Sunil Soares e se chama Big Data Governance: an emerging imperative, lanado em novembro de 2012. O foco justamente a adoo e adaptao da Governana de dados, digamos tradicional, para ser aplicada na Governana de Big Data.
35
UMA VISO SINTTICA E COMENTADA DO DMBOK
1.9. Gesto de metadados:
O objetivo planejar, implementar e controlar atividades que viabilizem um fcil acesso aos metadados integrados e de qualidade (DMBOK, 2009). A estrutura de atividades desta funo descrita abaixo: Entender os requisitos de Metadados. Definir a arquitetura de Metadados. Desenvolver e manter os padres de Metadados. Implementar um ambiente gerenciado de Metadados. Criar e manter Metadados. Integrar Metadados. Gerenciar Repositrios de Metadados. Distribuir e entregar Metadados. Consulta, Relatrios e Anlises sobre Metadados.
A viso sinttica : a. Entender os requisitos de metadados: De incio importante entender o que so os metadados, alm da definio clich de dados sobre os dados. Os metadados esto para os dados assim como os dados esto para as coisas/entidades colocadas sob os processos de um sistema computadorizado. Por exemplo, os objetos, os eventos, as transaes e os relacionamentos so as coisas controladas num computador, atravs de sistemas. Assim, os dados definem esses objetos, da mesma forma como os metadados definem os dados. Assim, a gerncia de metadados um processo que controla a sua criao (quando se define, se entende e se documenta aquilo que est sendo objeto do processo), o seu armazenamento (se estrutura, se carrega e se cuida para que seja acessado com facilidade e rapidez), a integrao (quando dois ou mais metadados sobre o mesmo o objeto, diferentemente definidos em tempos distintos, por unidades organizacionais distintas, no esto consistentes) e o seu controle (quando se procura mant-los com qualidade e sobre os quais se define mtricas, no sentido de que no se controla aquilo que no se mede). Um conceito simples e metafrico de metadado aquela plaquinha que fica ao lado dos rechauds, nos restaurantes de comida quilo, indicando o nome do prato, detalhes da sua 36
UMA VISO SINTTICA E COMENTADA DO DMBOK
composio complementar, a sua localizao. Tambm quando se pensa num catlogo de biblioteca, entende-se com sentido mais computacional o conceito de metadados, ou seja, aqueles elementos que ajudam a entender os objetos, a sua composio, o seu relacionamento, a sua localizao, entre outros. O porqu de se gerenciar os metadados? Os metadados aumentam o valor da informao estratgica lhe dando expresso, detalhes, conhecimentos. Isso reduz, de certa forma, o custo do aprendizado, pois as informaes sobre os dados esto sempre mais claras. Isso tambm reduz o tempo gasto na busca pelo entendimento de certos objetos, regras, frmulas, traduzindo em maior efetividade no seu uso, ou no desenvolvimento de sistemas em torno ou que usam aquele conceito. Assim, os metadados melhoram a comunicao entre a rea de negcios e a rea que processa a informao (TI). Uma razovel gerncia de metadados reduz a redundncia acerca daquele conceito, minimizando erros de interpretao que podem ser transformados em falhas graves de sistemas ou produtos. b. Arquitetura de metadados: Como a arquitetura dos dados, a de metadados tambm pode ser centralizada ou descentralizada, dependendo de como os repositrios (DD, Catlogos, etc.) de metadados esto dispostos. Normalmente, os produtos de desenvolvimento de software tm um catlogo prprio (ferramentas Case, SGBD) ou uma rea especfica onde eles so mantidos. A arquitetura tenta colocar ordem nessa disperso. A centralizada impe as vantagens de um controle mais rigoroso e de menor conflito, visando criao de uma estrutura nica e consolidadora. Tem como desvantagem, por outro, o trabalho de se consolidar os metadados oriundos de vrias fontes para coloc-los num nico depsito. A descentralizada tem a vantagem de se economizar nos gastos de integrao, no havendo persistncia centralizada, porm com um custo de busca integrada, em vrios depsitos, para se resolver as consultas solicitadas. Uma arquitetura mista envolve a parte da descentralizao, com as buscas dinmicas e outra parte de definio centralizada no catlogo nico, onde so colocadas outras definies de metadados, acrescidas aos existentes, para se ajustar adequadamente as definies de negcios da empresa. c. Desenvolver e manter padres de metadados: Os metadados so basicamente de dois tipos: negcios e tcnicos. Os metadados de negcios tem o objetivo de documentar os elementos de negcios, centrando num patamar mais conceitual. Envolvem definies de processos de negcios, sistemas, aplicaes e aplicativos, regras de negcios, formas de clculos, algoritmos, linhagem de dados, modelos conceituais e lgicos de dados, aspectos de qualidade de dados e de conceitos de gestores de (meta) dados e das unidades organizacionais responsveis por eles. Os metadados do ambiente negocial tambm envolvem regras de CRUD de dados, definio de owners de 37
UMA VISO SINTTICA E COMENTADA DO DMBOK
dados (UO responsveis por eles), regras de compartilhamento de dados, papis e definies sobre os gestores de dados, reas de assunto, entre outros. Um ponto emergente sobre metadados a sua definio para DNE, resultante do fenmeno Big Data. Sua viso particular sugere a definio de metadados descritivos (definio, catlogos, etc.), metadados estruturais (formato de udio, vdeo, email, XML, etc.) e metadados administrativos (direitos de acesso, planos de integrao, etc.). H padres formais definidos para os metadados. Os principais so: Case Definition Interchange Facility (CDIF), usado para facilitar a troca de metadados entre ferramentas de desenvolvimento, Dublin Core Metadata Initiative (DCMI), ISO-11179, que versa sobre definio de padres e especificaes para elementos de dados, e Common Warehouse Metadata Model (CWM). H tambm sugestes de mtricas para se controlar os metadados, como, por exemplo: cobertura de metadados (MD) existentes no escopo desejado (nmero de objetos j definidos com MD/nmero de objetos estimados no domnio em anlise). Tambm o grau de cobertura de documentao dos MD (o quanto, em cobertura, os MD esto documentados, sugerindo a completude de sua definio). d. Implementar um ambiente de metadados: A implementao de um ambiente de metadados dever ser revestida de todo cuidado, devendo-se optar por uma abordagem evolutiva e incremental, com estabelecimento de pilotos para verificar conceitos, aderncias e adeses. e. Outros pontos do processo: O desafio de se criar e manter metadados muito grande. Da a ainda baixa incidncia de implementao nas empresas. Normalmente se tem modelos isolados oriundos das ferramentas adquiridas, sendo a sua integrao um dos grandes desafios. A devida definio de uma arquitetura funcional, prtica e que mostre retornos o grande lance da gesto de metadados. A instanciao dessa gerncia se dar pelo gerenciamento adequado dos diversos repositrios, que possam produzir, distribuir e entregar os metadados na forma de consultas, relatrios e anlise, no momento exigido e com a devida consistncia. Os desafios de metadados so (quase) os mesmos que sempre enfrentamos na rea de dados. Alis, no poderia ser diferente, pois estamos falando dos dados sobre os dados. Um problema, na sua meta referncia. Os metadados tcnicos j esto mais associados a elementos de desenvolvimento e implementao, como BD, atributos, modelos fsicos de dados, tabelas, campos, triggers, aspectos de armazenamento (storage), padres de acesso, frequncia e tempo de execuo de relatrios e consultas, entre outros. H tambm, dentro dos metadados tcnicos, uma viso mais operacional, que envolve: necessidades de recursos relativos operao de TI; informaes sobre movimentaes de dados (ETL, por exemplo), como transformaes e erros; sistemas fontes e targets; frequncia de jobs, erros de schedule; dados sobre 38
UMA VISO SINTTICA E COMENTADA DO DMBOK
backups e recovery; informaes de controles de auditoria, regras de arquivamento e reteno de dados, entre outros. A Gesto de Metadados se mostra, h muito tempo, como a parte da gesto estratgica de dados com maiores lacunas, dentre todas. Os metadados podem ser considerados como um dos temas mais falados e menos implementados no mundo dos dados. O metadado como aquela placa que identifica comida a quilo, que fica ao lado dos rechauds. Sem a perfeita identificao dos pratos oferecidos, voc no sabe o que est consumindo. Poucas empresas se preocupam com uma arquitetura de metadados, afora aqueles que so produzidos automaticamente pelos SGBDs para abrigar informaes fsicas sobre tabelas, campos, ndices, triggers, entre outros. Mas isso muito pouco, e nesse particular a Gesto Estratgica de Dados ter muito trabalho pela frente. Algumas empresas, na busca do resgate dos dados e de seus metadados escondidos no ambiente legado, tm adotado tcnicas de engenharia reversa, visando o seu levantamento. A Figura 4 mostra, esquematicamente, um fluxo simplificado usando essa abordagem.
Figura 4 - Engenharia reversa para resgate de dados e metadados
39
UMA VISO SINTTICA E COMENTADA DO DMBOK
1.10. Gesto de qualidade de dados
O objetivo planejar, implementar e controlar atividades que apliquem tcnicas de gerncia de qualidade de dados para medir, avaliar, melhorar e garantir a adequao dos dados ao seu uso pretendido. A estrutura de atividade desta funo : Desenvolver e promover aspectos de conscientizao sobre Qualidade de Dados. Definir requisitos de Qualidade de Dados. Estabelecer processos de profiling, anlise e avaliao de Qualidade de Dados. Definir mtricas para Qualidade de Dados. Definir regras de negcios para Qualidade de Dados. Testar e validar os requisitos de Qualidade de Dados. Definir e avaliar nveis de servios de Qualidade de Dados. Medir e monitorar continuamente a Qualidade de Dados. Gerenciar as pendncias de Qualidade de Dados. Corrigir os defeitos de Qualidade de Dados. Projetar e implementar procedimentos operacionais de Gerncia de Qualidade de Dados. Monitorar os procedimentos operacionais e a performance da Gerncia de Qualidade de Dados.
A viso sinttica : a. Desenvolver e promover aspectos de conscientizao sobre Qualidade de dados: Aqui a grande questo vender a importncia da qualidade de dados nas empresas. preciso difundir a importncia dos conceitos, seja por mecanismos diretos ou indiretos. Os diretos seriam atravs de palestras, consultorias ou assemelhados. Os meios indiretos so atravs de exemplos acerca dos efeitos negativos da qualidade de dados nas empresas. No fundo, a ideia mostrar arranhes na reputao, problemas com normas regulatrias, entre outros. Mostrar tambm que o problema no (somente) do domnio da TI, mas principalmente um problema da esfera de negcios. A qualidade de dados deve ser um dos 40
UMA VISO SINTTICA E COMENTADA DO DMBOK
elementos fundamentais do arco da Governana de Dados da empresa, que define poltica, padres, procedimentos, papis, programas e projetos dentre outros itens do seu escopo, visando tratar e preservar ao ativo dado. A realizao de um trabalho inicial de profiling dos dados mais importantes da empresa, mostrando os resultados preocupantes com relao qualidade dos dados algo a ser fortemente pensado, pois serve como start-up para todo o processo de convencimento material sobre os problemas de dados. b. Definir requisitos de Qualidade de Dados: Os requisitos de qualidade de dados so definidos diretamente em funo das necessidades da empresa. H que se pensar nos processos crticos da empresa, suas regras de negcios, seus dados consumidos e produzidos e o impacto da qualidade dos dados na sua execuo, tanto como input quanto output. Esse o incio de tudo. Os requisitos de qualidade de dados passam por vrios domnios, que podem variar de acordo com os autores. O mostrado pelo DMBOK : Preciso (accuracy) ou como as coisas/entidades da vida real esto corretamente representadas. Completude (completeness): O quo completos esto os dados (todos os atributos? Faltam alguns? Todos os essenciais? Alguns acessrios?) exigidos na execuo daquele processo de negcio. Consistncia (consistency): Se refere integridade cruzada entre duas ou mais fontes que armazenam o mesmo dado. H coerncia entre esses dados que habitam fontes diferentes? A coerncia existe no mesmo contexto ou em contextos diferentes? Atualidade (currency): O quanto os dados esto atualizados e representam o estado corrente e mais atual. Preciso numrica (accuracy): Representao de valores no grau de preciso necessria, como casas decimais para dados numricos. Disponibilidade (availability): O dado disponibilizado no momento de sua necessidade? Unicidade (uniquiness): O fato de haver representao nica de certa entidade, sem ambiguidade ou sentidos diferentes.
c. Estabelecer processos de profiling, anlise e avaliao de Qualidade de Dados: Refere-se necessria fotografia inicial do estado dos dados de certa(s) rea(s) de assunto ou domnio(s) da empresa. Deve ser uma das primeiras aes para se estabelecer as baselines dos processos de melhoria de qualidade de dados da empresa. Permite criar as primeiras mtricas e a definio dos objetivos a serem alcanados em funo delas. como se fosse a analise laboratorial solicitada por um mdico para melhor diagnosticar o estado do paciente e iniciar o seu tratamento. 41
UMA VISO SINTTICA E COMENTADA DO DMBOK
d. Definir mtricas para Qualidade de Dados: As mtricas devero ser definidas para a avaliao do estado atual e da evoluo dos tratamentos de qualidade dos dados. As mtricas, como todas as medidas definidas em processos de qualidade devero: Ser atreladas a objetivos bem definidos. Responder a questes associadas a esses objetivos. Ser medidas definidas com clareza, que apontem elementos quantificveis associveis a objetivos de negcios, com formulaes claras (como medir), valores definidos para anlise (como analisar), com faixas aceitveis e no aceitveis (como interpretar), plano de aes no caso de discrepncias, frequncia de medio (quando medir), entre outros. e. Definir regras de negcios para Qualidade de Dados: Implica na anlise das regras de negcios fundamentais dos processos e na descoberta dos dados que podem implicar em eventuais quebras de conformidade delas. Esses dados devero ser observados na sua qualidade justamente para garantir a conformidade da regra com o processo. Por exemplo, a regra de negcios que define que nenhum colaborador com oito horas dirias de turno de trabalho poder ganhar menos que o salrio mnimo. Um campo de um arquivo enviado ao INSS contendo um valor abaixo desse estabelecido implica numa quebra de conformidade do processo (admisso, por exemplo), com as regras de negcios definidas. f. Testar e validar os requisitos de Qualidade de Dados: Nesse ponto, o DMBOK sugere que haja processo de verificao inicial (data profiling, por exemplo) e verificao constante e recorrente, a fim de que os dados sejam sempre avaliados nos seus domnios de qualidade. g. Definir e avaliar nveis de servios de Qualidade de Dados: Nesse item, sugerida a definio de nveis de servios de qualidade de dados, o que dever ser garantido por medies e verificaes constantes. Os nveis de SLA so o compromisso firmado sobre qualidade da rea gestora dos dados com os seus usurios. Os itens subsequentes, relativos a medir e monitorar continuamente, gerenciar as pendncias e corrigir os defeitos so consequncias diretas desse compromisso de nvel de servios. h. Projetar e implementar procedimentos operacionais de Gerncia de Qualidade de dados e monitorar os procedimentos operacionais e a performance da Gerncia de Qualidade de Dados: 42
UMA VISO SINTTICA E COMENTADA DO DMBOK
So, no fundo, a materializao do processo de Garantia de Qualidade dos Dados. Todo processo dever ser constantemente avaliado a fim de se obter melhorias nos seus procedimentos, polticas e resultados.
43
UMA VISO SINTTICA E COMENTADA DO DMBOK
2. CONCLUSES
H, hoje no mercado, diversos frameworks sobre Governana de Dados, conforme discutidos no Blog do Barbi (Carlos Barbieri), em posts ao longo de 2012. O framework da Dama certamente o mais completo e detalhado, pois envolve a Governana de Dados e todas as reas associadas a ela. A trajetria de uma empresa em direo Gesto de Dados (Data Management) requer muitos cuidados, exatamente pelas caractersticas fludas deste elemento dentro da empresa, no bastando somente a adoo de um framework de referncia. A Fumsoft, por meio de seu setor de Qualidade, o qual coordeno, adquiriu ao longo desses ltimos dez anos, uma slida experincia em implementaes de processos, cuja tnica do desafio essencialmente a mesma exigida em empresas que queiram melhorar a sua gesto de dados. preciso haver uma forte mudana cultural. H que se buscar uma maturidade gradativa de dados, da mesma forma com que as empresas buscam a maturidade em processos, trilhando os caminhos do MPS.BR e/ou CMMI. No livro BI2 - Modelagem e Qualidade (Barbieri, 2011) foram apresentados e discutidos modelos de maturidade de dados, alguns dos quais centrados nas prticas consagradas de maturidade de software. Na ltima edio da Data Management Conference Latin America (DMC Latam), em agosto de 2012, foi apresentada uma viso sobre nveis de maturidade em dados, conforme a Figura 5.
Figura 5 - Camadas de maturidade em dados 44
UMA VISO SINTTICA E COMENTADA DO DMBOK
Alm da maturidade, as empresas pretendentes a desenvolver aes de gesto de dados devero ter o claro entendimento dos passos desse caminho. No curso de ps-graduao na PUC-MG, desenvolvemos com os alunos, na forma de comunicao visual de ideias, os conceitos fundamentais de Governana e Gesto de Dados, sintetizados nos nove Ps, conforme a Figura 6. Pense neles e veja em que camada de maturidade a sua empresa se encontra. Bom desafio!
Figura 6 - Nove Ps da Gesto e Governana de Dados
45
UMA VISO SINTTICA E COMENTADA DO DMBOK
3. REFERNCIAS BIBLIOGRFICAS
BARBIERI, C. BI2 Business Intelligence - Modelagem e Qualidade. Elsevier, 2011. BARBIERI, C. Posts sobre Governana de Dados, Big Data, entre outros. Disponvel em http://blogdobarbi.blogspot.com DMBOK. MOSLEY, M. ; BRACKETT, M.; EARLEY, S. HENDERSON, D. DAMA Guia para o corpo de conhecimento em gerenciamento de dados. Technics Publications, verso brasileira 2012. DMBOK. MOSLEY, M.; BRACKETT, M.; EARLEY, S.; HENDERSON, D. The DAMA Guide to The Data Management Body of Knowledge: DAMA - DMBOK Guide. 1. ed. Estados Unidos: Technics Publications, 2009. ELMASRI. R. ; NAVATHE. S. Fundamental of Data Base Systems: Addison Wesley, 2000. SADALAGE P.; FOWLER, M. NoSQL Distilled: A Brief Guide to the Emerging World of Polyglot Persistence. Addison-Wesley, 2013. SERPRO. Modelo Global de dados - Integrao de dados e processos. Disponvel em http:// http://modeloglobaldados.serpro.gov.br/. Acesso em 22 de junho de 2012. SOARES, S. Big Data Governance: An Emerging Imperative. Mc Press, 2012. SOFTEX - ASSOCIAO PARA PROMOO DA EXCELNCIA DO SOFTWARE BRASILEIRO. MPS.BR Guia de Implementao Parte 5: Fundamentao para Implementao do Nvel C do MR-MPS:2009, 2009. Disponvel em: http://www.softex.br