Você está na página 1de 6

Data Warehouse a experincia da ANVISA

Camilo Mussi, Denis Murahovschi, Giliana Bettni, Luiz Gustavo Kratz Assessoria da Presidncia, Agncia Nacional de Vigilncia Sanitria (ANVISA), Brasil
Resumo - O contexto em que se vive atualmente demanda das organizaes uma capacidade de analisar, planejar e reagir rapidamente para poder acompanhar ou superar as exigncias dos clientes. A todo o momento, uma grande quantidade de informaes, sobre os mais variados aspectos dos negcios da empresa, gerada, armazenada, passando a fazer parte da base de conhecimento. Entretanto, esses dados esto espalhados por vrios sistemas de difcil integrao, sem qualidade e indisponveis para os gerentes e altos executivos que so os tomadores de decises estratgicas das organizaes. Para suprir essa deficincia surgiu o Data Warehouse (DW), que se constitui de um conjunto de arquiteturas e/ou sistemas de informao orientados a assunto que existem em plataformas segregadas do ambiente transacional, manipulando grande volume de dados, principalmente histricos, e do origem a consultas invariavelmente no previsveis, que tem por objetivo dar suporte a esses processos. O objetivo desse trabalho apresentar como foi implementada esta tecnologia na Agncia Nacional de Vigilncia Sanitria (ANVISA), os principais conceitos e questes envolvidas, procurando enfatizar a importncia de sua utilizao para garantir agilidade e segurana na tomada de deciso na rea da Sade, definindo o caminho a ser desenvolvido desde a modelagem at a implantao de um DW. Palavras-chave: Data Warehouse, Sistemas de Apoio Deciso, Sistemas de Informaes Executivas. Abstract - O contexto em que se vive atualmente demanda das organizaes uma capacidade de analisar, planejar e reagir rapidamente para poder acompanhar ou superar as exigncias dos clientes. A todo o momento, uma grande quantidade de informaes, sobre os mais variados aspectos dos negcios da empresa, gerada, armazenada, passando a fazer parte da base de conhecimento. Entretanto, esses dados esto espalhados por vrios sistemas de difcil integrao, sem qualidade e indisponveis para os gerentes e altos executivos que so os tomadores de decises estratgicas das organizaes. Para suprir essa deficincia surgiu o Data Warehouse (DW), que se constitui de um conjunto de arquiteturas e/ou sistemas de informao orientados a assunto que existem em plataformas segregadas do ambiente transacional, manipulando grande volume de dados, principalmente histricos, e do origem a consultas invariavelmente no previsveis, que tem por objetivo dar suporte a esses processos. O objetivo desse trabalho apresentar como foi implementada esta tecnologia na Agncia Nacional de Vigilncia Sanitria (ANVISA), os principais conceitos e questes envolvidas, procurando enfatizar a importncia de sua utilizao para garantir agilidade e segurana na tomada de deciso na rea da Sade, definindo o caminho a ser desenvolvido desde a modelagem at a implantao de um DW. Key-words: Data Warehouse, Decision Support Systems, Executive Information Systems.

Introduo
O contexto em que se vive atualmente demanda das organizaes uma capacidade de analisar, planejar e reagir rapidamente para poder acompanhar ou superar as exigncias dos clientes e ameaa da concorrncia. Para que isto acontea, necessrio que a organizao tenha disponvel, quando necessrio, as informaes que constituem a base para obteno de vantagens competitivas e maior fidelidade dos clientes. As inovaes tecnolgicas que esto chegando ao mercado permitem que as informaes que iro garantir a supremacia da

organizao nesse novo mercado sejam manipuladas a nvel global e num grande volume. A todo o momento uma grande quantidade de informaes, sobre os mais variados aspectos dos negcios da empresa, gerada e armazenada, passando a fazer parte da base de conhecimento. Entretanto, esses dados esto, geralmente, espalhados por vrios sistemas, de difcil integrao, sem qualidade e indisponveis para os gerentes e altos executivos que so os tomadores de decises estratgicas das organizaes. Para suprir essa deficincia surgiu o Data Warehouse (DW), que se constitui de um conjunto de arquiteturas e/ou sistemas de informao

orientados a assunto que existem em plataformas segregadas do ambiente transacional, manipulando grande volume de dados, principalmente histricos, e do origem a consultas (read-only) invariavelmente no previsveis, que tem por objetivo dar suporte a esses processos, segundo W. H. Inmon [1]. Nesse sentido, considerando a importncia da informao em subsidiar tomada de deciso, est sendo implantado um Data Warehouse para avaliao das reas de atuao da Agncia Nacional de Vigilncia Sanitria (ANVISA). A ANVISA uma autarquia sob regime especial, ou seja, uma agncia reguladora caracterizada pela independncia administrativa, autonomia financeira e estabilidade de seus dirigentes durante o perodo de mandato, vinculada ao Ministrio da Sade. A finalidade institucional da Agncia promover a proteo da sade da populao por intermdio do controle sanitrio da produo e da comercializao de produtos e servios submetidos vigilncia sanitria, inclusive dos ambientes, dos processos, dos insumos e das tecnologias a eles relacionados. Alm disso, exerce o controle de portos, aeroportos e fronteiras e a interlocuo junto ao Ministrio das Relaes Exteriores e instituies estrangeiras para tratar de assuntos internacionais na rea de vigilncia sanitria. Os sistemas operacionais existentes esto atendendo a ANVISA de forma satisfatria, porm, esse atendimento direcionado aos usurios operacionais. Os mdulos gerenciais dos sistemas existentes no atendem as demandas de informaes no estruturadas para a tomada de deciso. Essas demandas so constantes e, na maioria das vezes, no possvel atender dentro da expectativa em relao ao prazo. Em muitos casos, quando a demanda atendida, a deciso j tem sido tomada com a informao que o usurio dispunha. Em outros, aps analisar o resultado, o usurio solicita modificaes no mesmo, gerando nova demanda a qual passa a concorrer com outras que j esto na fila, enfim, no se consegue atender bem os clientes tomadores de deciso.

Metodologia
Em meados de 2002, para resolver este problema, a ANVISA tomou a deciso de adotar a tecnologia de Data Warehouse (DW). Comeou ento o desenvolvimento de um prottipo em uma rea escolhida, levando-se em conta a complexidade e a importncia da mesma para a misso da ANVISA, que foi a Avaliao de Servios de Sade.

Novos temas foram desenvolvidos, posteriormente, no DW, como Recursos Humanos, Arrecadao e outros. A ANVISA tem desenvolvido o DW de forma corporativa e incremental. O fato que o DW se tornou a soluo proposta para apoiar o processo decisrio na instituio. As principais fontes de dados do DW so os sistemas transacionais ou On-Line Transaction Processing (OLTP) que atendem aos usurios da ANVISA e do Ministrio da Sade. Esses sistemas possuem bases de dados relacionadas com o assunto de interesse e que esto disponveis para os processos de extrao, transformao e carga (ETC). A integrao de vrias fontes feita por meio do compartilhamento do significado dos dados. uma caracterstica que permite que informaes de fontes distintas possam ser vinculadas entre si e apresentadas com significado correto, lado a lado, no mesmo relatrio. No caso do Tema Avaliao de Servios de Sade, a principal fonte de dados externos o DATASUS, por meio dos diversos sistemas existentes. A metodologia de desenvolvimento do DW baseada na proposta por Kimball [2] do ciclo de desenvolvimento do DW. Para a infra-estrutura de DW, foram adquiridos equipamentos com grande rea de disco para armazenar o volume de dados e com processadores paralelos para proporcionar melhores tempos de resposta. Os processos de extrao e de transformao so executados utilizando solues prprias da ANVISA, por meio de ferramenta de programao, portanto, a Staging rea, para transformar e integrar os dados operacionais antes de serem carregadas para o DW, comea no prprio ambiente operacional. Os arquivos resultantes desses processos de extrao e transformao, no ambiente operacional, so transportados para a plataforma onde se encontra o DW. Aps o processo de transporte, ocorrem ainda processos de transformao onde os dados sofrem as ltimas alteraes e so carregados no DW, por meio das ferramentas do Sistema Gerenciador de Banco de Dados Oracle. Os dados do DW esto armazenados ao nvel de granularidade mais atmico possvel e de forma corporativa incremental. A modelagem dos dados multidimensional, na viso estrela (star schema), documentada com o Software Power Designer. As principais questes observadas na modelagem, para que as consultas no produzissem resultados incorretos, foram:

Atributos semi-aditivos e no aditivos: Uma operao no aditiva, como o clculo da margem bruta, pode ser computada em qualquer plano da tabela de fatos, lembrando-se de calcular o quociente das somas, no a soma dos quocientes. Em outras palavras, o resultado deve ser a diviso das somas e no o inverso. Uma operao semi-aditiva no pode ser adicionada ao longo de todas as dimenses da tabela de fatos, deve-se limitar com isso a operao s dimenses vlidas. Dimenses descaracterizadas: Nmeros de controle de documentos, como nmeros de autorizaes ou nmeros de controle, normalmente so representados como dimenses descaracterizadas (isto , chaves de dimenso sem uma tabela correspondente) em tabelas de fatos em que o gro da tabela o documento propriamente dito ou uma linha de item do documento. Dimenses derivadas que suportam agregados: extremamente importante construir tabelas de fatos derivadas (resumidas) em vrios nveis superiores de detalhe para melhorar o desempenho das consultas, que de outra forma apresentariam um grande nmero de registros. Existem muitas formas de agregados no DW, sendo as mais comuns: a. Cumulativa simples: as transaes dirias so transportadas do ambiente operacional e resumidas em forma de registros no DW. O resumo pode ser feito por qualquer rea de interesse, segundo a qual o DW esteja organizado. b. Resumo rotativo: os dados passam do ambiente operacional para o DW como mencionado anteriormente. A diferena est na forma como agregado. Por exemplo, nesta estrutura, nos primeiros sete dias da semana a atividade resumida em sete posies dirias. No oitavo dia, as sete posies dirias so acumuladas e colocadas na primeira posio semanal. No final do ms, as posies semanais so acumuladas e colocadas na primeira posio mensal. No final do ano, as posies mensais so acumuladas, e a primeira posio anual carregada. Existem vantagens e desvantagens nesta abordagem com relao a anterior: Os dados podem ser processados para encontrar o ponto mais alto, mais baixo, a mdia, e assim por diante. A primeira e a ltima ocorrncia de dados podem ser dispostas em um bloco. Dados de determinados tipos, inseridos nos limites de diversos parmetros, podem ser mensurados.

Dados vlidos em relao a um determinado momento podem ser dispostos em um bloco. Os dados mais antigos e os mais recentes podem ser dispostos em um bloco. c. Dimenses grandes: no se devem desmembrar as dimenses, mesmo que elas sejam extensas, pois poder causar um desempenho limitado. A melhor abordagem para rastrear modificaes nessas tabelas subdividi-las em minidimenses compostas por pequenos conjuntos de atributos estruturados para conter um nmero limitado de valores. d. Dimenses de modificao lenta: o DW deve representar de forma concreta o histrico passado, por isso no se pode considerar que as entidades no se modificam ao longo do tempo. Entretanto, a soluo no ser incluir tudo na tabela de fatos ou tornar cada dimenso dependente no tempo. Em vez disso, deve-se explorar o fato de que a maioria das dimenses constante ao longo do tempo e que se pode preservar uma estrutura dimensional independente, incluindo relativamente poucas adies para capturar o aspecto temporal das modificaes. Essas dimenses praticamente constantes so chamadas de dimenses de modificao lenta. Existem trs opes de modificao destas dimenses, cada uma delas resultando em um diferente nvel de rastreamento de modificaes ao longo do tempo: Substituir os valores antigos dos registros da dimenso e, portanto, perder a capacidade de rastrear o histrico passado. Adicionar um registro dimenso, contendo os novos valores do atributo no momento da mudana, para segmentar o histrico entre a descrio antiga e a nova descrio com muita preciso. Criar novos campos atuais no registro original da dimenso para incluir os novos valores do atributo, mantendo tambm seus valores originais, permitindo dessa forma descrever o histrico anterior e o posterior mudana tanto em relao aos valores originais do atributo quanto aos valores atuais. e. Tabela de fatos sem fatos: alguns processos que so representados no DW produzem tabelas de fatos semelhantes s tabelas que foram construdas, mas que no contm fatos mensurveis. So chamadas de tabelas de fatos sem fatos. As duas principais variaes dessas tabelas so tabelas de rastreamento de eventos e tabelas de cobertura. Os eventos so geralmente modelados por uma tabela de fatos contendo algumas chaves, cada qual representando uma dimenso do evento, freqentemente no esto associadas a fatos numricos bvios. As tabelas de

cobertura so, freqentemente, tabelas de eventos que no ocorreram e, de modo geral, no contm fatos assim como as tabelas de rastreamento de eventos. Para acessar os dados do DW e realizar suas anlises, os usurios finais utilizam a ferramenta On-Line Analytical Processing (OLAP) da Microstrategy. Os resumos e agregaes so disponibilizados para acesso pelos usurios finais no mesmo ambiente do DW corporativo, podendo o usurio acessar, at mesmo, os dados mais atmicos, obedecendo abrangncia do Tema. Durante a implementao do DW foram identificadas as seguintes dificuldades: Falta de envolvimento/comprometimento de profissionais, com os perfis necessrios. Para o desenvolvimento de um projeto de DW, imprescindvel que a equipe designada para o trabalho, alm de estar envolvida e comprometida com o resultado deste trabalho, rena, tambm, o domnio completo dos seguintes pontos: Conhecimento de modelagem multidimensional; Conhecimento do negcio do cliente; Conhecimento das necessidades do cliente; Conhecimento das bases e sistemas de origem (sistemas legados) esta dificuldade fez com que houvesse uma troca completa da equipe que iniciou o projeto, trazendo um atraso na implantao do DW; Falta de delimitao de um escopo para a primeira verso do projeto. O cliente tende a querer todas os dados existentes nos sistemas legados (fontes), desde a primeira verso. Isso, geralmente aumenta a complexidade do modelo, gerando dificuldade na utilizao pelos usurios, o que leva ao desnimo e abandono, deixando a impresso de que DW muito complicado e difcil de ser usado no se terminava o primeiro projeto porque no se sabia onde este era finalizado; Falta de uma previso oramentria compatvel com o projeto a aquisio de equipamentos e software dependia de verba a ser alocada. Conforme a metodologia adotada, foram executados 11 (onze) processos para que fosse possvel extrair os dados do banco de dados de produo e envi-los para o DW. O conjunto desses processos chamado, por Ralph Kimball [2], de Sistemas de Extrao de Dados de Produo (SEDP) e so: 1. Extrao primria; 2. Identificao dos registros modificados; 3. Generalizao de chaves para dimenses em modificaes; 4. Transformao em imagens de registros de carga;

5. Migrao do sistema legado para o sistema DW; 6. Classificao e construo de agregados; 7. Generalizao de chaves para agregados; 8. Carregamento; 9. Processamento de excees; 10. Garantia de qualidade e 11. Publicao. Foi necessria a criao de rotinas de carga para atender determinadas situaes que ocorreram. A catalogao dos sistemas de produo que alimentam o DW de suma importncia para identificao precisa da extrao primria dos dados. Pode-se dizer que o processo de limpeza e transformao dos dados que foram carregados no DW serviu para corrigir algumas imperfeies contidas nas bases de dados transacionais, a fim de fornecer ao usurio do sistema analtico dados concisos e com uma qualidade que permitisse uma tomada de deciso baseada em valores mais prximos dos reais. Idealmente, pode-se imaginar que o dado deveria apenas ser convertido para padronizao de medidas, porm existem valores incorretos nas bases de dados transacionais, os quais no podem ser propagados, principalmente no momento em que sero analisados, muitas vezes comparativamente. Como exemplo, existem campos de preenchimento obrigatrio, com valores que no existem na tabela relacionada, como Municpio. Existem campos preenchidos, como o de Nascidos Vivos, que previsto ser preenchido quando existe o nascimento de crianas, mas esto preenchidos para indivduos do sexo masculino. Alm disso, a limpeza necessria porque os dados normalmente advm de uma fonte muitas vezes desconhecida, concebida h muito tempo, contendo muito lixo e inconsistncia, porque o interesse de cada usurio ao preencher os dados relativos a qualquer assunto especfico a este. Por isso, nessa fase do DW, fez-se a limpeza dos dados, para haver compatibilidade entre os mesmos. O processo de limpeza no estar completo sem que se possam livrar os dados de problemas que, por algum motivo, passaram despercebidos nos sistemas de origem, tais como: cdigos invlidos e preenchimento de vrios campos com valores incompatveis entre si. A prpria modelagem do sistema transacional pode conter pontos fracos que permitam, por assim dizer, a existncia de dados inconsistentes, os quais podem e devem ser filtrados antes da carga no DW.

Pode-se e encontraram-se dados com os seguintes problemas: Diferenas de unidades: campos de idade dos pacientes em anos ou em meses, sendo necessrio converter todas as medidas para qualquer uma das duas (ou todas em anos, ou todas em meses) ou, mantendo-as, entender como devem ser trabalhadas; Diferenas de preciso: alguns valores representados, por exemplo, com duas casas decimais em uma tabela e com quatro casas decimais em outra tabela, cabendo ao administrador do DW definir qual a preciso desejada; Diferenas de cdigos ou expresses: em campos que so codificados nos sistemas transacionais a fim de reduzir o espao de armazenamento, agilizar e padronizar a entrada de dados, para que no existam valores iguais com significados diferentes; Diferenas de granularidade: o caso de um campo que totalize as horas despendidas para realizar uma determinada tarefa, como reunies realizadas num ms que pode ser confundido com outro campo que totalize as horas gastas com reunies numa semana, no sendo possvel utilizar estes campos para realizar comparaes ou totalizaes sem as devidas converses; Diferenas de abstrao: no caso do campo de telefone ser armazenado com o DDD separado dos nmeros normais em uma fonte enquanto que em outra fonte estes nmeros esto combinados em um s campo. Normalmente as aes de correo das anomalias encontradas no se deram automaticamente com uma rotina especfica, at porque isto poderia ter sido feito j na prpria base transacional. O que se procurou solucionar as pendncias caso a caso, tentando corrigir inclusive a base original. O processo de transformao de dados no DW ocorreu porque as origens dos dados so de sistemas diferentes, sendo necessrio padronizar os diferentes formatos. Por exemplo: em alguns sistemas a informao sobre o sexo do cliente pode estar armazenada no seguinte formato: M para Masculino e F para Feminino. Porm, em algum outro sistema pode estar armazenado como H para Masculino e M para Feminino e assim sucessivamente. Quando esses dados forem carregados para o DW, deve-se ter uma padronizao deles, ou seja, quando o usurio for consultar o DW, ele no pode ver informaes iguais em formatos diferentes [1]. A carga dos dados foi feita a partir de um sistema de banco de dados temporrio, no qual os

dados j passaram pelo processo de limpeza e integrao (transformao). As tabelas que so atualizadas no sistema de DW foram montadas utilizando-se agregaes, sumarizaes e ordenaes dos dados. A velocidade de carga influencia de forma drstica na performance do sistema. Muitas vezes so excludos os ndices de ordenao das tabelas com a finalidade de reduzir a quantidade de controles a serem monitorados pelo Sistema Gerenciador de Banco de Dados (SGBD), reconstruindo-as posteriormente, aps a concluso da carga. A todo o momento so realizadas alteraes nas bases de dados transacionais. Estas modificaes, incluses de novos registros ou cadastro de novos dados, devem ser atualizadas para o DW a fim de que este esteja condizente com a atualidade das fontes de origem. Esta periodicidade deve ser determinada levando-se em conta o volume de dados e a necessidade dos usurios, podendo ser diria, semanal, mensal ou qualquer outro perodo determinado.

Resultados
Os estudos realizados at o presente momento mostram que possvel, a partir do DW implantado, no Tema Avaliao em Servios de Sade, executarem-se diversos relatrios gerenciais, com a especificidade de cada usurio, para que este possa tomar a melhor deciso. Existem dados relativos a Internaes Hospitalares (AIH) desde janeiro de 2000 at dois meses anteriores ao atual. Em relao a Autorizaes de Procedimentos de Alta Complexidade (APAC) existem dados desde janeiro de 1998 at um ms anterior ao atual e, em relao ao Cadastro Nacional de Estabelecimentos de Sade (CNES), os dados so atualizados semanalmente. Todos estes dados podem ser cruzados em inmeros relatrios. Podem-se executar relatrios gerenciais sobre qualquer uma das seguintes dimenses (pontos de vista do usurio), combinadas de qualquer modo, em relao, por exemplo, a AIH: Hospital; Municpio do Hospital; Unidade da Federao do Hospital; Natureza do Hospital; Tipo de AH; Especialidade; Carter da Internao; Procedimento Solicitado; Procedimento Realizado; Diagnstico Principal;

Diagnstico Secundrio; Motivo de Cobrana; Tipo de UTI; Sexo; Nacionalidade; Municpio do Paciente; Unidade da Federao do Paciente; Idade de Internao do Paciente; Idade de Sada do Paciente; Data de Internao; Data de Sada; Data de Emisso e outras. Pode-se tambm cruzar com dados do CNES, como: Fluxo de clientela; Equipamentos; Nveis de Hierarquia; Municpio do Paciente; Tipo de Unidade; Atendimento Prestado; Leitos; Servios Especializados; Habilitaes e outras. Tambm dados da APAC podem ser utilizados. Os valores, a partir das dimenses anteriores, que podem ser visualizados so: Quantidade de AIHs; Idade mdia, mxima ou mnima (de internao e sada); Total de bitos; Total de nascidos vivos; Total de sadas; Total por qualquer uma das dimenses; e diversos outros.

Discusso e Concluses
A implantao da tecnologia de Data Warehouse, em uma instituio de sade, de qualquer porte, possibilita a busca e interpretao de informaes armazenadas, garantindo maior acuricidade nas tomadas de deciso; permite estabelecer uma aproximao integrada e colaborativa para capturar, criar, organizar e usar todos os ativos de informao de uma empresa; consegue antecipar as mudanas bruscas no mercado; conhecer o negcio; ter uma viso clara sobre novos negcios; auxilia na implementao de novas ferramentas gerenciais; ter conhecimento sobre novas tecnologias, produtos ou servios que possam afetar direta e indiretamente o seu negcio. Deve-se atentar para os possveis erros na implantao de um DW que, segundo o Data Warehousing Institute [3] so: 1. Comear o projeto com o tipo errado de patrocnio;

2. Gerar expectativas que no podem ser satisfeitas, frustrando os executivos quando da utilizao do DW; 3. Dizer: Isto vai ajudar os gerentes a tomar decises melhores e outras informaes politicamente ingnuas; 4. Carregar o DW com informaes s porque estavam disponveis; 5. Falhar no objetivo de acrescentar valor ao dada por meio de mecanismos de desnormalizao, categorizao e navegao assistida; 6. Escolher um gerente que seja voltado para a tecnologia e no para o usurio; 7. Focalizar em dados tradicionais internos orientados a registro e ignorar o valor potencial de dados textuais, imagem, som, vdeo e dados externos; 8. Fornecer dados com definies confusas e sobrepostas; 9. Acreditar nas promessas de desempenho, capacidade e escalabilidade dos vendedores de produtos e 10. Usar o DW como justificativa para modelagem de dados e uso de ferramentas case. A ANVISA pode e prope-se a disponibilizar, a todos os rgos interessados, o modelo de dados que implantou e que possibilitar, aos usurios, neste primeiro momento, da AIH, APAC e CNES partir de um ponto mais avanado visando implantar um sistema de suporte deciso, utilizando a tecnologia de um DW. Este trabalho serve tambm para despertar o interesse para a rea de suporte deciso, uma rea que pode e deve disponibilizar as informaes necessrias, consolidadas e, principalmente, em tempo hbil aos tomadores de deciso.

Referncias
[1] Inmon, W.H. (1997), Como Construir o Data Warehouse, Rio de Janeiro: Campus. [2] Kimbal, Ralph (1998), Data Warehouse Toolkit, Rio de Janeiro: Makron Books. [3] Singh, H. S. (2001), Data Warehouse: conceitos, tecnologias, implantao e gerenciamento, Rio de Janeiro: Makron Books.

Contato
Camilo Mussi (61) camilo.mussi@anvisa.gov.br 448-1129 -