Escolar Documentos
Profissional Documentos
Cultura Documentos
Informática em Saúde
Base de Dados em Saúde
Atualizado para 5ª edição por
Prof. Dr. LD. Ivan Torres Pisa
Profª. Ma. Josceli Maria Tenório
Autores da 4ª edição
Prof. Dr. LD. Ivan Torres Pisa
Prof. Dr. Fábio Oliveira Teixeira
10
Tipos de informação 11
15
Gestão do conhecimento 16
24
45
* Colaboraram com esse material em suas versões anteriores Frederico Molina Cohrs (Departamento de Medicina Preventiva EPM UNIFESP), Prof. Dr. Domingos Alves (Departamento de Medicina Social, Faculdade de
Medicina de Ribeirão Preto, USP), Adilmo Henrique do Nascimento e Ricardo Takazu Hatae, pós-graduandos no Programa de Pós-graduação em Gestão e Informática em Saúde EPM UNIFESP. Colaborou com essa versão
Fernando Sequeira Sousa, pesquisador em informática em saúde.A todos os colaboradores nossos mais sinceros agradecimentos.
Introdução
Os objetivos desta disciplina incluem apresentar uma contextualização conceitual referente à
formação e análise de bases de dados em saúde, incluindo conceitos e tópicos sobre:
• tipos de informação,
• gestão do conhecimento, e
• mineração de dados;
Também vamos apresentar algumas bases de dados do Sistema Único de Saúde (SUS), incluin-
do uma descrição do DATASUS, sistemas e aplicativos do SUS, dados ambulatoriais, cadastros
nacionais, dados epidemiológicos, dados financeiros, dados hospitalares, dados estruturantes,
eventos vitais, dados sociais, regulação, tabulação de dados do SUS, e integração dos sistemas
SUS. Incluímos também no material conceitos e experiências sobre a iniciativa de dados aber-
tos em saúde, incluindo a iniciativa linked open data (LOD), informação inter-relacionada na
saúde e redes sociais como bases de dados em saúde.
Pretendemos com essa disciplina promover no aluno uma visão crítica sobre a utilização e
análise de bases de dados da saúde em suas diferentes vertentes, mas com ênfase nos dados
públicos, por meio de discussões conceituais, comparação de técnicas, resolução de exercícios
e participação em atividades colaborativas
3
Capítulo 1
Bases de dados em saúde
Esta década pertence aos modelos distribuídos; não aos modelos cen-
tralizados. À colaboração, e não ao controle. E aos pequenos dados, e
não ao big data. A verdadeira oportunidade não está nas grandes bases
de dados, mas sim em muitos pequenos dados, descentralizados, que
não se entendem.
Ao realizarmos uma busca na web usando como sentença-chave o título desta disciplina,
“bases de dados em saúde”, observamos um fato curioso é que, até certo ponto, pode confundir
o pesquisador. Os resultados podem ser descritos como sendo de cinco naturezas distintas:
as quatro primeiras relativamente bem conhecidas por profissionais e gestores em saúde, e a
quinta natureza, mais recente e inovadora, sobre a concepção de bases de dados em saúde.
Um primeiro conjunto de resultados diz respeito a bases de dados para pesquisas bibliográficas
e tipicamente aponta para portais web nos quais podemos encontrar referências sobre tópicos
em saúde de maneira sistemática, como bibliotecas virtuais em saúde. Alguns exemplos dessas
bases são PubMed (ncbi.nlm.nih.gov/pubmed), Scielo (scielo.br) e Lilacs (lilacs.bvsalud.org).
Nesse caso o resultado mostrado pelo buscador web efetivamente se refere a bases bibliográficas
de dados, contendo informações diversas sobre literatura técnico-científica sobre saúde
e, assim, sendo muito úteis quando se quer fazer uma revisão bibliográfica sobre um tema
específico em saúde.
Um segundo conjunto de resultados se refere aos dados de saúde propriamente ditos, ou seja,
ao banco ou repositório de dados específicos de uma situação de saúde. Esses dados, em geral
populacionais (referentes à situação de saúde de uma população), podem tratar de morbidade,
demografia, cenários ambientais, serviços de saúde, hospitais etc. Eles podem ter diferentes
níveis de abrangência, como nacional, estadual, municipal ou até coletados para se descrever
uma situação de saúde em microrregiões dentro de um município. Podem ainda ser específicos
ao gênero, à raça ou a outra subdivisão de tipos de uma população de interesse. Essas bases de
dados podem estar disponíveis para consulta como apoio a estudos científicos ou para colabo-
rar no desenvolvimento de sistemas clínicos de apoio à decisão em saúde. Portanto, nesse caso,
as bases de dados em saúde se referem a um banco de dados em saúde.
4
UAB | UNIFESP
Um terceiro conjunto de resultados dessa busca na web são associados aos sistemas de
informação que armazenam e gerenciam dados da saúde, tipicamente dados públicos em
saúde. Esses sistemas de informação podem fornecer os dados brutos ou ainda agregados de
diferentes formas para disponibilizar uma informação específica. Esses sistemas costumam
conter ferramentas computacionais embutidas em sua concepção para a manutenção e
atualização dos dados em saúde, e alguns deles contêm ferramentas de análise dos dados.
Assim, esse conjunto de resultados da busca considera bases de dados em saúde quase que
como um sinônimo de sistemas de informação em saúde.
Um quarto conjunto de resultados indica conteúdos que tratam de dados clínicos, geralmente
descrevendo sistemas hospitalares e sistemas de apoio à decisão. Também descreve uma
formação de bases de dados sobre a assistência ao paciente contendo exames, internações,
prescrições etc. Também podemos identificar nesses resultados conteúdos que apresentam
descrição de bases de dados clínicos usadas para estudos (testes clínicos).
ATENÇÃO
5
Especialização em Informática em Saúde
ATENÇÃO
Contextualização conceitual
Inicialmente vale a pena nos aproximarmos de uma definição mais específica de certos concei-
tos importantes que serão discutidos nessa disciplina. O primeiro deles é a definição de dado,
que pode ser caracterizado como uma descrição limitada do real, desvinculada de um referen-
cial explicativo e difícil de ser utilizada como informação por ser ininteligível (Alves, 2009).
Podemos definir informação como uma descrição mais completa do real associada a um refe-
rencial explicativo sistemático. Podemos dizer que é a representação de fatos da realidade com
base em determinada visão de mundo, mediante regras de simbologia (Knuth, 1996). Repre-
senta, portanto, uma ligação entre fatos da realidade ou ideias de algumas pessoas e ideias ou
conhecimento de outras.
6
UAB | UNIFESP
Talvez você ainda se sinta incomodado com essa explicação porque ao associarmos uma des-
crição aos dados originais você tenha ficado sem entender que doença, em particular, essa
paciente tem. Isso é porque a afecção L10.2 é uma enfermidade que está descrita no Código
Internacional de Doença em sua décima versão (CID10). No caso da paciente em questão te-
mos a codificação que se refere ao capítulo XII desse código, o qual trata de doenças da pele e
do tecido celular subcutâneo e que, por sua vez, tem outras subdivisões as quais vão de L00 a
L99. Finalmente, para essa paciente a afecção descrita está na parte L10 para pênfigos (doenças
bolhosas da pele de uma maneira geral), sendo que L10.2 se refere ao pênfigo foliáceo (ou fogo
selvagem, doença autoimune endêmica em algumas regiões do país). Talvez você já saiba de
tudo isso se for um profissional da área da saúde; talvez não.
SAIBA MAIS
Esse é um exemplo bastante simples. De uma maneira mais ampla, a compreensão de uma
informação, produzida e disseminada, depende da compreensão do contexto no qual ela
se encontra, e do contexto em que se encontra aquele que a está interpretando e analisan-
do (Knuth,1996). Esse inter-relacionamento é a tarefa (às vezes difícil) da qual você deverá se
ocupar nessa disciplina. Particularmente, vamos tentar uma aproximação mais completa ao
trabalharmos com bases de dados em saúde porque estudaremos esse tema com vistas a um
conhecimento específico, seja ele sobre as condições de saúde de um paciente, seja de uma
população (de um município ou país). Mais ainda, vamos tentar sempre nos acercar de que
o conhecimento adquirido a partir de um dado ou conjunto de dados pode ser utilizado para
avaliarmos determinada situação de saúde (individual ou coletiva).
A partir do conhecimento adquirido podemos fundamentar uma tomada de decisão sobre uma
ação particular a ser realizada ou, até mesmo, utilizar uma avaliação final da situação de saúde
com novos dados, caracterizando esse processo como cíclico e dinâmico, conforme represen-
tado na Figura 1.
7
Especialização em Informática em Saúde
Situação da saúde
Avaliação dados
informação
conhecimento
decisão
ação
Figura 1 - Esquema de transformação e utilização de um dado para a gestão em saúde. Modificado de Alves (2009).
É possível observar na Figura 1 que existem outros elementos importantes para se chegar a essa
avaliação, como gerar conhecimento para a tomada de decisão sobre uma ação particular a ser
realizada ou, até mesmo, utilizar uma avaliação final da situação de saúde para definir novos
processos de aquisição de novos dados, deixando o ciclo de tarefas, esquematizado aqui, bas-
tante dinâmico. A Figura 2, a seguir, é uma extensão da Figura 1 na sua aproximação de tarefas
mais específicas que envolvem a gestão de dados e informação.
origem e registro dos dados recebimento e controle análise preliminar dos dados
ordenamento dos
codificação comparação com parâmetros
documentos da coleta
controle da quantidade e pedido de informação identificação e análise das
do conteúdo adicional discrepâncias
classificação e
tabulação
controle de erros e
inconsistência
cálculos básicos
apresentação
Figura 2 - Ciclo de tarefas possíveis que vão da aquisição à tomada de ação a partir de uma base de dados em saúde.
Modificado de Alves (2009).
8
UAB | UNIFESP
SAIBA MAIS
Não vamos nos aprofundar nesses conceitos neste momento. Nosso intuito continua sendo
o de apresentar um panorama geral dos conteúdos que vamos tratar nessa disciplina. Uma
questão importante, entretanto, é que essa disciplina deve servir de conteúdo básico e com-
plementar à disciplina Sistemas de Informação em Saúde, que será apresentada mais adiante.
Dessa maneira, o esquema geral de produção de informação apresentado na Figura 2 contém
os elementos principais de um sistema de informações em saúde (SIS). Um SIS, em sua concep-
ção, deve reunir um instrumental que facilite a construção do conhecimento da realidade, mais
eficiente para o processo de planejamento, gestão e avaliação das ações de saúde. Ou seja, deve
ser uma ferramenta ou um conjunto de ferramentas que concretize, de maneira eficiente, a
transformação do dado para uma avaliação de saúde, como proposto na Figura 1 (Alves, 2009).
Vale a pena apresentar uma terminologia (entre algumas disponíveis) sobre uso e análise de
dados frequentemente mencionada no mercado (Davenport, 2014), conforme Quadro 1.
9
Especialização em Informática em Saúde
Em uma primeira aproximação, mais geral, podemos classificar a informação em saúde confor-
me sua natureza (Alves, 2009):
• Informações clínicas: referem-se aos dados clínicos sobre o paciente, desde sua identifica-
ção - problemas de saúde relatados, diagnóstico médico - até exames clínicos, laboratoriais,
radiológicos, gráficos, procedimentos cirúrgicos realizados ou medicamentos prescritos,
dentre outros;
Hierarquização, descentralização e
municipalização da informação
No caso geral em que se quer estudar e estabelecer a situação de saúde de uma população,
idealmente a coleta de dados deve ser feita respeitando-se a hierarquização, a descentralização
e a municipalização dos serviços de saúde de acordo com a complexidade das ações e com as
necessidades dos diferentes níveis de gestão do sistema de saúde. Idealmente, também, cada
nível estrutural deve ter um conteúdo mínimo suficiente para cumprir as diretrizes e princípios
do SUS. Obviamente existem outras escalas de dados populacionais inferiores a um município
e, nesses casos, a coleta de dados deve respeitar a intenção da pesquisa original sobre uma
população mais específica.
10
UAB | UNIFESP
É esperado que o município obtenha informações suficientes para a gerência local dos serviços,
remetendo-os, seletivamente, em nível estadual e federal, que detêm os papéis de coordena-
dores e supervisores das ações de saúde. Dessa forma, a constituição de um sistema básico de
informação, de abrangência nacional, deve ter suas fontes de coleta de dados nas instituições
sediadas nos municípios de forma que os dados de interesse estadual ou nacional possam ser
coletados, processados e enviados a esses níveis, sem prejuízo das outras necessidades especí-
ficas de informação reconhecidas pelo município.
Tipos de informação
Vamos agora relacionar os principais tipos de dados e informação que estão disponíveis nas
bases de dados em saúde, que devem estar ao alcance da gerência, municipal ou regional,
quando na comparação de municípios de uma mesma região:
11
Especialização em Informática em Saúde
isto é, dizem respeito a fatos relacionados com o começo e fim da vida do indivíduo. For-
necem dados importantes para a confecção de vários indicadores, como de mortalidade,
morbidade, vida média ou esperança de vida, cobertura das ações etc;
• Morbidade. Possibilitam o registro das doenças por sexo, idade, procedimentos médicos,
raça, nacionalidade, procedência e outras variáveis de interesse clínico, epidemiológico,
social, econômico e cultural. Fornecem dados, coletados periódica ou ocasionalmente, im-
portantes para o controle das doenças; para a investigação de etiologia e patogenia e da
relação com fatores econômicos, sociais e culturais; para a investigação de eficácia das me-
didas preventivas e terapêuticas; para estudos nacionais e internacionais da distribuição
das doenças; e para o planejamento de serviços destinados à prevenção e cura das doenças.
Compreendem os dados de vigilância epidemiológica, os hospitalares, os ambulatoriais ou
de consultórios, os registros médicos de doenças e acidentes do trabalho, os registros espe-
ciais de doenças ou grupos de risco, de morbidade, seguro social e as informações clínicas
em geral;
• Produção dos serviços. Especificados por tipo de programa de saúde, fornecem dados
sobre número de consultas produzidas por idade, sexo, tipos de procedimento e outras va-
riáveis de interesse. Possibilitam a construção de indicadores de cobertura populacional e
utilização dos serviços, concentração das atividades por paciente, produtividade, dentre
outros. Referem-se à mensuração de todas as atividades de saúde produzidas passíveis de
quantificação, seja no atendimento individual hospitalar ou ambulatorial, nos serviços de
apoio diagnóstico e terapêutico, seja em relação às práticas coletivas, como ações na comu-
nidade, nas escolas, vigilância sanitária e outras ações de saúde pública;
12
UAB | UNIFESP
13
Capítulo 2
Integração de dados em saúde
Idealmente buscamos uma integração das informações intra, inter e extrassetores/áreas geo-
gráficas/níveis de gerência e de gestão, bem como atender avaliações programáticas, estadual
ou nacionalmente, consideradas prioritárias. Por meio da informática essa integração tende
a ser viabilizada, mas podemos afirmar que ainda é um grande desafio a ser enfrentado. Há
vários aplicativos que têm a função de integrar sistemas para a gerência em saúde, no controle
orçamentário/financeiro, de estoque, produção de atividades, morbidade e mortalidade, uni-
dades ambulatoriais, hospitalares, laboratórios etc. Alguns desses aplicativos foram desenvol-
vidos pelos próprios municípios a partir de suas experiências de gerências municipais.
Merece destaque um programa desenvolvido para o setor público de saúde pela DATASUS, por
ser público, gratuito e por estar disponível na web. Representa uma alternativa para trabalhar
as informações de uma forma mais interativa com o usuário, possibilitando uma atuação mais
integrada em relação aos aspectos operacionais e gerenciais dos serviços de saúde e o aprovei-
tamento de informações específicas locais. Esse programa, que será apresentado mais adiante,
é o TabWin (versão para Microsoft Windows) , que possibilita tabular dados disponíveis na web,
bem como utilizar arquivos de outras bases de dados (DBF, CNV e TXT). Mais recentemente
temos o TabNet (Tab para ambiente web) que apresenta várias das funcionalidades do TabWin.
Possibilita, também, realizar operações aritméticas e estatísticas nos dados de tabelas geradas
ou importadas. É um programa excelente para trabalhar dados de morbidade, mortalidade,
produção, financeiro e tantos outros, os quais podem rapidamente configurar mapas e gráficos
de boa qualidade por regiões e municípios de todo o Brasil.
Esses e outros programas estão citados mais adiante, com suas respectivas referências, na se-
ção que trata de sistemas de tabulação de dados.
14
UAB | UNIFESP
15
Especialização em Informática em Saúde
melhor uma natureza iterativa e orientada ao processo, assim como sua ênfase no desenvolvi-
mento de conhecimento estratégico e domínio de compreensão. Mineração de dados, por outro
lado, é um termo que normalmente descreve uma investigação mais específica em um domínio
de aplicação e representa uma ferramenta que possibilita encontrar regras e relações entre os
dados (Bendoly, 2003).
Especificamente na área da saúde os sistemas de assistência por todo o mundo buscam cada
vez mais atender às necessidades de seus pacientes e aumentar a qualidade dos serviços en-
quanto implementam redução de custos. O foco mundial encontra-se na otimização dos siste-
mas de saúde em prol de uma melhor eficiência operacional. Aliado a isso ocorre um aumento
do volume de dados eletrônicos da saúde, que introduz novos desafios no armazenamento, re-
gistro e na complexidade na estruturação dos dados (Peek, 2013). De fato, há desafios para lidar
com dados da saúde quanto ao seu volume (de terabytes a exabytes de dados para processar), à
sua dinâmica (dados em streaming, processamento em tempo real), ao seu formato (estrutura-
do, não estruturado, texto, multimídia) e à sua incerteza (devido à inconsistência e incompletu-
de, ambiguidade, latência, decepção, modelos de aproximação). A aplicação de KDD na saúde
colabora para solucionar esses desafios. Em síntese, podemos dizer que KDD auxilia a trans-
formar dados e informação em conhecimento, ajudando na tomada de decisões (Pisa, 2013).
Gestão do conhecimento
A adoção de sistemas de gestão empresarial (enterprise resource planning ERP) em organiza-
ções nos últimos 25 anos, e mais recentemente em organizações provedoras de saúde, veio
acompanhada de um enorme aumento na quantidade de dados produzidos e disponíveis para
análise (Bendoly, 2003). No entanto, a relevância desses dados comumente é definida a partir
da examinação de múltiplos problemas simultaneamente e da habilidade de gerar inferências
críticas a um plano estratégico (Berry e Linoff, 1997). Os benefícios contribuem para a inteli-
gência organizacional e subsequentemente à vantagem competitiva global do negócio (Francis,
1997). Portanto, o desafio encontrado pela organização e pelos analistas responsáveis por ma-
nipular tais dados está em sua habilidade em converter as estratégias decorrentes da análise
dos dados em economia de esforço, tempo e dinheiro. Um dos problemas fundamentais da
extração da informação é que os formatos das fontes de dados disponíveis são frequentemente
incompatíveis, requerendo um grande esforço de conversão (Bendoly, 2003).
16
UAB | UNIFESP
conhecimento envolvidos para sua organização. Esse quadro apresenta os seguintes conceitos,
da menor para a maior complexidade:
Os passos fundamentais de uma mineração bem sucedida a partir de fontes de dados (bancos de
dados, relatórios, registros de acesso, transações etc.) consistem de uma limpeza (consistência,
preenchimento de informações, remoção de ruído e redundâncias etc.) com o propósito de criar
repositórios organizados para fins de análise, como data marts e data warehouses . É a partir
deles que os dados organizados, por exemplo, em colunas, podem ser submetidos ao processo
de mineração. Tipicamente, esse processo não é o final da história: de forma interativa e
cíclica, usando visualização gráfica, um analista refina e conduz o processo até que os padrões
apareçam. Observe que esse conjunto de tarefas parece indicar uma hierarquia, algo que
começa em instâncias elementares (embora volumosas) e termina em um ponto relativamente
concentrado.
17
Especialização em Informática em Saúde
Assim como o KDD, existem outras metodologias para auxiliar na tarefa de mineração de da-
dos. A metodologia mais utilizada na indústria de mineração de dados (KDnuggets, 2014) é o
Cross Industry Standard for Data Mining (CRISP-DM), um modelo de processo que auxilia a
descrever as principais abordagens utilizadas em mineração de dados para resolver um proble-
ma (Shearer, 2000). Este modelo sugere as principais etapas de um processo de mineração de
dados, desde o entendimento do problema até a entrega da solução, agindo sobre os dados de
forma cíclica e voltando em etapas sempre que necessário..
São seis as etapas sugeridas pelo CRISP-DM, que não seguem necessariamente um fluxo li-
near. Pode-se retornar a uma etapa anterior, ou desde o início dependendo das necessidades.
As seis etapas são:
18
UAB | UNIFESP
Aprendizado de máquina é uma área da inteligência artificial que lida com problemas de apren-
dizado computacional a fim de adquirir conhecimento de forma automática. Um sistema de
aprendizado tem a função de analisar informações e generalizá-las, para a extração de novos
conhecimentos (Monard e Baranauskas, 2003). Para isso usamos um programa de computa-
dor para automatizar o aprendizado. Há alguns paradigmas para o aprendizado de máquina, a
saber:
• Estatístico: utiliza modelos estatísticos para encontrar uma aproximação do conceito indu-
zido. Exemplo: aprendizado bayesiano ;
• Baseado em exemplos: classifica um novo exemplo com base em uma classificação similar
conhecida. Exemplo: raciocínio baseado em caso e método dos vizinhos mais próximos ;
Há uma série de algoritmos e técnicas que podem ser usados na área de mineração de dados
(goo.gl/IsehcF) como, por exemplo, os algoritmos disponíveis no software livre Weka (goo.gl/
xHzgeA). No entanto, essa disciplina não tem por objetivo apresentar um curso prático e com-
pleto sobre tais técnicas. O objetivo, neste ponto, é ressaltar àqueles que pretendem realizar
análises de bases de dados em saúde que, além da atividade clássica de obter o dado e de re-
lacionar o que for aparente ao pesquisador e gerar gráficos ou relatórios, há outras abordagens
que possibilitam expor padrões não óbvios dos dados. Uma abordagem clássica estatística já
apresenta resultados bastante interessantes, quando bem utilizada. Dizemos isso porque é co-
mum encontrarmos pesquisadores aplicando os mesmos modelos, análise de distribuição e
cálculos de probabilidade em situações cujos resultados não significam nada. O que é pior é
que nem sempre são atendidas as hipóteses de aplicação de tais análises estatísticas. É comum
encontrarmos pesquisadores que menosprezam uma estatística descritiva, bem feita, por acha-
rem demasiadamente simples! Enquanto buscam, por outro lado, aplicar análises estatísticas
mais robustas, mas com pouco domínio ou significado para o problema enfrentado.
Esse mesmo comentário pode ser aplicado com relação à apresentação dos dados e dos
resultados. Há exemplos de pesquisas em bases de dados em saúde bem realizadas, a partir de
fontes confiáveis, com limpeza dos dados, análise estatística adequada, mas que, no momento
19
Especialização em Informática em Saúde
da apresentação dos resultados, simplesmente perdem sua riqueza, perdem significado para o
gestor ou para o profissional da saúde. Por exemplo, muitas vezes o que interessa para o gestor,
para o profissional da saúde ou mesmo para o cidadão é compreender um fenômeno, e não
identificar pontualmente todos os registros de uma base de dados. Nesses casos recomendamos
sempre que o pesquisador dê uma ênfase maior no paradigma de visualização dos resultados,
ou seja, na entrega do modelo criado, e diminua sua preocupação em apresentar longas
listagens e bancos de dados como resultados, focando naquilo que é mais importante para a
população-alvo do seu estudo. Outras vezes notamos que o que a população-alvo precisa é de,
simplesmente, uma agregação dos dados, seja porque o dado está distribuído em diferentes
bases de dados, seja porque os formatos são originalmente distintos, seja porque apenas o
dado não estava disponível anteriormente de qualquer outra maneira. Assim, a construção
de uma interface amigável, disponível para seu usuário, que forneça um acesso simplificado
a tais dados já cumpre bem seu papel. Existem diversas ferramentas no mercado que fazem
relatórios e dashboards (https://goo.gl/JvLBpL), bastando apenas fazer a conexão e os filtros
na base de dados, como é o caso do Pentaho. Para aqueles que gostam de se aventurar na
programação e criar o próprio sistema de visualização dos dados, uma vasta quantidade de
bibliotecas JavaScript está disponível para implementar softwares web com HTML5 (https://
goo.gl/swhQow)
Portanto, vale sempre uma recomendação: se você for analisar uma base de dados em saúde,
aplique técnica de mineração de dados mais robusta apenas se seus resultados fizerem sen-
tido em sua análise, se as hipóteses de aplicação da técnica forem atendidas e se essa nova
abordagem colaborar para responder à pergunta inicial da sua investigação. E, por fim, tenha
criatividade na busca de uma representação visual dos seus resultados que façam sentido à sua
população-alvo.
20
Capítulo 3
Bases de dados do Sistema Único
de Saúde (SUS)
O material da disciplina Introdução às Ciências da Saúde apresenta a definição do Sistema
Único de Saúde (SUS) no Brasil, mencionando a responsabilidade das três esferas de governo,
seus princípios e níveis de atenção à saúde, e dos serviços de saúde. Considerando as estatís-
ticas apresentadas e a complexidade que o SUS apresenta, é evidente que uma grande quanti-
dade de dados tem sido coletada e que sistemas de informação foram desenvolvidos ao longo
dos anos para dar suporte ao gerenciamento e planejamento das suas ações. A Organização
Mundial de Saúde define os sistemas de informação em saúde (SIS) como tipos particulares
de sistemas de informação cujo propósito é o de selecionar os dados pertinentes aos serviços
de saúde e transformá-los na informação necessária para o processo de decisões, próprio das
organizações e dos indivíduos que planejam, administram, medem e avaliam esses serviços.
De fato, a tecnologia da informação é uma forte aliada para suprir a necessidade de informa-
ção para a tomada de decisão no setor da saúde (Spil et al., 2009). O estudo de Helms, Moore e
Ahmadi (2008) mostra que o uso de SIS promove diferenciais positivos em relação à segurança
do paciente, à eficiência operacional e ao apoio às decisões dos profissionais de saúde.
A partir das necessidades do setor, a mensuração do estado de saúde da população teve seu
início com o registro sistemático de dados de mortalidade e de sobrevivência, e evoluiu para o
controle das doenças infecciosas e análise da situação sanitária (Souza Junior, 2012). As infor-
mações sobre morbidade, acesso a serviços, qualidade da atenção, condições de vida e fatores
ambientais passaram a ser métricas utilizadas na construção de indicadores de saúde, que se
traduziram em informação relevante para a quantificação e a avaliação das informações em
saúde pelos gestores públicos (Moraes, 1994).
21
Especialização em Informática em Saúde
Somente na década de 1990 a área assistencial começou a ser uma preocupação dos SIS no SUS
e o foco passou a ser o paciente e as informações que são geradas a partir dos cuidados presta-
dos ao mesmo. É nesse período que a “ideia de integração entre dados clínicos, assistenciais e
administrativos corporificou-se e ganhou centralidade, tendo o paciente como elo aglutinador”
(Santos, 2003, p.86).
De fato, há um consenso sobre a importância central da informação para avaliar o sucesso das
políticas de saúde, que se manifesta não apenas na literatura especializada (Medina, Aquino,
2002; Senna, 2002), como também em relatórios e recomendações de conferências de saúde,
oficinas de trabalho do SUS e eventos de sociedades científicas (Souza Junior, 2012). Assim, in-
formações epidemiológicas, financeiras, orçamentárias, legais, normativas, socioeconômicas,
demográficas e sobre recursos físicos e humanos, oriundas de diversas fontes de dados de qua-
lidade, seriam capazes de revelar a realidade de serviços e ações de saúde e a situação de saúde
da população, evidenciando vantagens e problemas de prioridades e investimentos (Viacava,
2002). Tradicionalmente a informação sobre saúde no Brasil é fragmentada, resultado da ativi-
dade compartimentada das diversas instituições que atuam no setor (Brasil, 1994; Brasil, 2007).
Implantados e operacionalizados em diferentes níveis - municipal, estadual e federal - com
áreas de atuação diversificadas, os SIS tendem a ser inter-relacionados buscando a integração
das informações distribuídas em cada nível e entre eles para melhorar a articulação entre as
organizações estaduais e municipais de saúde e o governo federal. Portanto, a expectativa é
de gerar um grande (multi) sistema de informação com características complexas no qual seus
componentes encontram-se fortemente inter-relacionados. Se, do ponto de vista tecnológi-
co, esse inter-relacionamento ainda se apresenta complexo e trabalhoso ao gestor de saúde e,
mais ainda, para o cidadão (Souza Junior, 2012), do ponto de vista de significado e potencial de
correlação dos dados, esse inter-relacionamento apresenta um grande potencial de utilidade.
É maximizando o potencial dessa ligação dos dados de diferentes naturezas sobre o sistema de
saúde e seus resultados que o cidadão aumenta seu poder analítico e de descrição da realidade
da assistência oferecida no país (Pisa, 2013).
Para alcançar esses objetivos foi criado o DATASUS. O processamento das contas hospitalares
e ambulatoriais do SUS remonta aos aplicativos implementados pela Empresa de Tecnologia e
22
UAB | UNIFESP
No início de 1998 foi criado um grupo de trabalho para viabilizar a transferência do DATASUS
para a administração direta no Ministério da Saúde (Brasil, 2002). A importância da informação
para os processos de gestão e formulação de políticas tornou-se evidente, o que levou à amplia-
ção e adaptação da missão do DATASUS em função das demandas do Ministério da Saúde. O
DATASUS ganhou uma nova estrutura organizacional, com a ampliação do seu corpo gerencial
para três coordenações gerais, sendo atribuída a uma delas a função específica de “Fomento
e Cooperação Técnica” com estados e municípios, e estabelecendo-se as competências hoje
presentes na estrutura organizacional do Ministério da Saúde por meio de decreto de 2002. A
partir de 2011, o DATASUS passou a integrar a Secretaria de Gestão Estratégica e Participativa
no Ministério da Saúde.
23
Especialização em Informática em Saúde
24
UAB | UNIFESP
A concepção de integração sistêmica dos produtos, base para a construção de um sistema na-
cional de informação em saúde, qualifica o avanço na produção e utilização das informações.
É importante ressaltar que a gratuidade na distribuição dos produtos subsidia a construção de
uma parceria na tarefa de informatização do SUS, não cabendo exclusivamente ao DATASUS
a construção de todos os sistemas e aplicativos para acesso às bases de dados do SUS. Gestores
estaduais e municipais também desempenham papel importante na construção de sistemas de
gestão, geralmente complementares ou de apoio local, de acordo com resoluções do DATASUS,
por meio de seus próprios departamentos de informática ou, por vezes, terceirizando seu de-
senvolvimento.
25
Especialização em Informática em Saúde
26
UAB | UNIFESP
validadas conforme regras vigentes pelo sistema APAC Magnético e importadas pelo siste-
ma SIASUS, no qual são processadas e validadas. Abrangência: municipal e estadual;
27
Especialização em Informática em Saúde
28
UAB | UNIFESP
29
Especialização em Informática em Saúde
30
UAB | UNIFESP
credores, as quais dão origem às remessas bancárias pagas diretamente aos prestadores e
estabelecimentos. Abrangência: municipal e estadual;
31
Especialização em Informática em Saúde
32
UAB | UNIFESP
33
Especialização em Informática em Saúde
• Sistema de Informações de Mortalidade SIM) (goo.gl/x7YoEX). SIM tem por objetivo ob-
ter regularmente dados sobre mortalidade no país. A partir da criação do SIM foi possível a
captação de dados sobre mortalidade, de forma abrangente, para subsidiar as diversas esfe-
ras de gestão na saúde pública. Com base nessas informações é possível realizar análises de
situação, planejamento e avaliação das ações e programas na área. Abrangência: municipal
e estadual;
• Programa de Volta Para Casa (PVC) (pvc.datasus.gov.br). PVC é um sistema que auxilia o
Programa De Volta Para Casa cuja intenção é reintegrar socialmente pessoas acometidas
de transtornos mentais, egressas de longas internações, tendo como parte integrante desse
programa o pagamento do auxílio- reabilitação psicossocial. Estima-se em cerca de 15.000
usuários do SUS a população que deve ser beneficiária do auxílio financeiro de que trata
esse programa, sendo favorecida sua reinserção no meio social mais amplo, desde que aten-
didos os requisitos necessários para recebimento desse auxílio. Abrangência: municipal,
estadual e federal;
34
UAB | UNIFESP
35
Especialização em Informática em Saúde
o envio de uma ambulância baseado na avaliação do médico regulador. Também faz o con-
trole logístico dessas ambulâncias para que o maior número possível de ocorrências seja
atendido no menor espaço de tempo. Abrangência: municipal.
ACOMPANHE
36
UAB | UNIFESP
A tabulação de dados em saúde geralmente exige combinações de colunas, listas e bases que
levam a uma complexidade de codificação e correlação relativamente altas. Por vezes torna-se
necessário desenvolver algum programa de computador (script, compilado etc.) que possibili-
te realizar as combinações desejadas para determinada análise. Entretanto, há ferramentas já
construídas que buscam facilitar esse tipo de atividade especialmente para quem não é espe-
cializado em programação de computadores. Mesmo sendo de domínio por muitos profissio-
nais, vale apontar algumas ferramentas de apoio disponíveis para a tabulação de dados:
37
Especialização em Informática em Saúde
38
UAB | UNIFESP
SAIBA MAIS
39
Capítulo 4
Dados inter-relacionados da saúde
As características tecnológicas e de operação dos sistemas de informação desenvolvidos para o
SUS são heterogêneas: há desde aplicativos que são executados localmente e que foram desen-
volvidos em Clipper com armazenamento em arquivos DBF, tecnologias em desuso atualmen-
te, até sistemas disponíveis na web desenvolvidos com base tecnológica mais robusta, como
mostra uma compilação de Morais e Costa (Morais, 2014). A Tabela 1 desse estudo (goo.gl/
SjPRkH) identifica a linguagem de programação, sistema gerenciador de banco de dados e a
natureza da operação dos principais sistemas do DATASUS. Os autores apontam que ofertar
uma infraestrutura de tecnologia da informação e comunicação adequada para o SUS ainda
é um desafio para a administração pública no Brasil. A falta de padronização e dificuldades
de interoperabilidade são problemas inerentes à implantação de sistemas de informação em
saúde (Hillestad et al., 2005) e a natureza fragmentada das atividades em saúde dificulta a sis-
tematização de seus processos em aplicações (Zahr e Boerma, 2005).
Outro estudo (Souza Junior, 2012) (disponível em goo.gl/wGocLw) muito interessante realizado
em um doutoramento apresentou uma análise no nível de complexidade dos SIS do SUS do
estado de Alagoas. SIS complexos são compreendidos nesse estudo como uma classe especial
de sistemas formados por um grande número de subsistemas heterogêneos, caracterizados por
propriedades coletivas e emergentes, que interagem e influenciam uns aos outros através de
uma diversidade de conexões e laços de retroalimentação com um alto grau de acoplamento
e não linearidade. Nessa perspectiva, os SIS do SUS, compostos por diversos subsistemas que
necessitam interagir e se integrar para atender às demandas informacionais do setor, tiveram
sua complexidade caracterizada. Para tanto foram adotadas propriedades da teoria da com-
plexidade (goo.gl/z8Qd13) como os conceitos de auto-organização, emergência, coevolução,
coadaptação e fractal. O desenho multimétodo da pesquisa foi dividido em três etapas sendo
que na primeira etapa ocorreu o mapeamento das redes formadas pelas integrações dos SIS a
partir de pesquisa documental e questionários; em seguida, empreendeu-se a análise das redes
dos SIS aproximando-as dos conceitos da complexidade e, por último, foram verificadas as
implicações da complexidade dos sistemas para a integração da informação do SUS, colhendo
as opiniões de gestores em entrevistas. Esse estudo também aponta as tecnologias usadas nos
SIS do SUS. Como resultado foram mapeados 72 SIS diferentes e bastante heterogêneos tecno-
logicamente, os quais formaram uma rede densa e bastante inter-relacionada. Sob o ponto de
vista da integração informacional dos SIS, os resultados da pesquisa também revelaram que a
auto-organização tende a diminuir o nível de completude e detalhamento da informação que
circula através de enlaces de sistemas; a coadaptação maximiza o acoplamento dos sistemas,
40
UAB | UNIFESP
criando uma dependência elevada das informações compartilhadas entre eles; a fractalidade
sobrecarrega as informações nos níveis superiores do sistema e gera informações defasadas
entre as esferas de governo; a emergência, por outro lado, ajuda a criar estruturas inovadoras
que integram o sistema complexo. Essa descrição é bastante interessante porque consegue
caracterizar, numericamente, a relevância da integração já existente, suas ligações e a dificul-
dade ainda existente dos gestores em lidar com essas ligações, principalmente devido ao atraso
tecnológico no suporte aos SIS. Sobre os ciclos informacionais estabelecidos entre os sistemas,
os entrevistados (gestores) relataram que consideram salutar a comunicação entre os diversos
SIS, porque unifica e complementa a informação entre eles, permitindo-lhes trabalhá- la em
diferentes sistemas e situações. O gestor explica que os dados armazenados nesses SIS devem
refletir a realidade da situação de saúde e servir até mesmo como referência para outros órgãos,
tais como Agência Nacional de Vigilância em Saúde (ANVISA) e Ministério do Planejamento,
Orçamento e Gestão (MPOG), que usam as informações para alertar os riscos à saúde da po-
pulação e formular orçamentos públicos e repasses financeiros federais do SUS. No entanto,
quando os gestores necessitam acessar uma informação mais apurada, os sistemas não conse-
guem disponibilizá-las de forma totalmente encadeada, a não ser no sistema individualizado
(Souza Junior 2012).
Por fim, alguns direcionamentos na tentativa de melhorar a integração dos SIS no caso estu-
dado, tendo em vista a presença inerente das suas propriedades complexas, foram descritos
(Souza Junior, 2012):
41
Especialização em Informática em Saúde
• Padronização do modelo de dado: cada sistema possui seu próprio modelo de dado, que,
muitas vezes, não é compatível com o modelo usado em outro SIS, o que dificulta seu inter-
câmbio;
Nosso entendimento é que salas de situação e mecanismos de integração no nível dos sistemas
merecem ser implantados como soluções intermediárias. Mas, de fato, uma solução de integra-
ção no nível do dado, na representação semântica e interoperável de seu significado, merece
ser desenvolvida porque daria longevidade e flexibilidade nas futuras integrações. Esse traba-
lho exige um grande esforço intelectual, cognitivo, computacional e de definição de padrões de
ligação, ainda em curso, queremos acreditar, nos planos do DATASUS. Em 2015 ações plane-
jadas no DATASUS resultaram em avanços nesse esforço de integrar os mais de 400 sistemas
existentes, iniciar a definição de conjunto mínimo de dados (em parceria com o GT3 ABNT/
CEE78IS) e tornar viável uma política de implantação de dados abertos. Por outro lado uma
abordagem, em curso fora do ambiente do DATASUS, mas que já trata de temas da saúde é a
iniciativa de dados abertos conectados e a web semântica, que será apresentada a seguir.
Por outro lado, sistemas abertos estruturados baseados em autodeclaração, como a Plataforma
Lattes CNPq (lattes.cnpq.br) e a Wikipedia (pt.wikipedia.org), representam um esforço coletivo
do cidadão em manter informação organizada e independente. Por fim, sistemas abertos sem
estruturação, incluindo redes sociais eletrônicas, como Twitter (twitter.com) e Facebook (face-
book.com), representam uma fonte de informação mais pessoal e próxima do cidadão. A infor-
mação distribuída nessas bases heterogêneas não está inter-relacionada, ou seja, não apresenta
uma ligação de analogia a partir de um mesmo princípio semântico. Portanto, não há qualquer
facilitação para que processos de descoberta de conhecimento sejam executados de maneira
automatizada.
A iniciativa dados abertos refere-se à publicação e disseminação dos dados e informações pú-
blicas na web, garantindo ao cidadão a liberdade de acesso e reutilização para qualquer pro-
42
UAB | UNIFESP
pósito. Em 2009, a iniciativa dados abertos começou a se tornar visível ao público em geral à
medida que governos como EUA, Reino Unido, Canadá e Nova Zelândia anunciaram a abertu-
ra de suas informações públicas governamentais (Dietrich et al., 2016). No ano de 2011, o Brasil,
por meio da Lei 12.527/2011 (Brasil, 2011), foi inserido formalmente nesse contexto. Atualmente
o governo federal, disponibiliza alguns portais para que todos possam encontrar e acessar os
dados e informações públicas: o Portal Brasileiro de Dados Abertos (dados.gov.br); o Portal da
Transparência (portaltransparencia.gov.br) e o Acesso à Informação (acessoainformacao.gov.
br). Também existem iniciativas similares a nível estadual e municipal.. Apesar destes portais
se apresentarem como uma solução de simples acesso a diferentes bases de dados governa-
mentais, não disponibiliza relacionamento semântico entre elas. Além disso, a consulta destes
dados não é simples de ser realizada pela população em geral devido aos diferentes formatos
e formas de apresentação, e a existência de diversos portais deixa os dados descentralizados..
SAIBA MAIS
43
Especialização em Informática em Saúde
São muitas fontes de dados em saúde ou relacionadas disponibilizadas pelo DATASUS. Muitos
destes dados estão desconectados, sendo necessário a análise conjunta de fontes diferentes
para que seja possível encontrar algum relacionamento entre eles. Por exemplo, será que existe
alguma influência do saneamento básico na quantidade de nascidos vivos em algumas cidades
do Brasil? Dadas os principais óbitos por causas evitáveis, será que alguma política pública
pode ser implementada para diminuir estes indicadores de óbitos evitáveis? São perguntas que
uma análise profunda dos dados abertos em saúde podem ajudar a responder.
44
UAB | UNIFESP
1. Dados completos. Todos os dados públicos são disponibilizados. Dados são informações
eletronicamente gravadas, incluindo documentos, bancos de dados, transcrições e grava-
ções audiovisuais. Dados públicos são dados que não estão sujeitos a limitações válidas de
privacidade, segurança ou controle de acesso, reguladas por estatutos;
2. Dados primários. Os dados são publicados na forma coletada na fonte, com a mais fina
granularidade possível, e não de forma agregada ou transformada;
3. Dados atuais. Os dados são disponibilizados o mais rapidamente possível para preservar
o seu valor;
4. Dados acessíveis. Os dados são disponibilizados para o público mais amplo possível e para
diferentes propósitos;
5. Dados processáveis por máquina. Os dados são razoavelmente estruturados para possibi-
litar o seu processamento automatizado;
6. Acesso não discriminatório. Os dados estão disponíveis a todos sem que seja necessária
identificação ou registro;
7. Formatos não proprietários. Os dados estão disponíveis em um formato sobre o qual ne-
nhuma entidade tenha controle exclusivo;
8. Dados livres de licenças. Os dados não estão sujeitos a regulações de direitos autorais,
marcas, patentes ou segredo industrial. Restrições razoáveis de privacidade, segurança e
controle de acesso podem ser permitidas na forma regulada por estatutos.
Além desses oito princípios, uma outra visão considerando três outros princípios foi proposta
pelo especialista em políticas públicas e ativista dos dados abertos David Eaves (Eaves, 2009).
Embora o escopo inicial desses três princípios tenha sido o de dados abertos governamentais, a
sua aplicabilidade estende-se a dados abertos de forma geral. São eles: 1. Se o dado não pode ser
encontrado e indexado na web, ele não existe; 2. Se não estiver aberto e disponível em formato
compreensível por máquina, ele não pode ser reaproveitado; 3. Se algum dispositivo legal (lei,
regulamento, norma etc.) não permitir sua replicação, ele não é útil.
45
Especialização em Informática em Saúde
documentos atual para conexão entre dados. Essa iniciativa considera a web como um espaço
global de conexão de dados entre diferentes domínios, como pessoas, empresas, livros, publi-
cações científicas, medicamentos, comunidades online, vídeos etc. Esse modelo trata a web
como uma única base de dados global, combinando diferentes fontes e, a partir de sua integra-
ção, garantindo a extração de conhecimento capaz de resolver problemas particulares (Miguez
et al., 2012). Quanto maior for essa interconexão entre os dados, maiores serão os benefícios
fornecidos para os mecanismos responsáveis pela recuperação de conteúdo. No entanto, nesse
momento pouca pesquisa tem sido realizada considerando bases de dados em português bra-
sileiro, concentrando-se ainda fortemente no idioma inglês.
ATENÇÃO
No âmbito da saúde, empresas como AstraZeneca (astrazeneca.com), Eli Lilly (lilly.com) e John-
son & Johnson (jnj.com), por exemplo, apostaram no modelo LOD com a intenção de criar fon-
tes de informação inter-relacionadas sobre medicamentos (Jentzsch, 2009). O modelo promo-
vido por essas empresas é parte integrante de uma rede LOD global (datahub.io/organization)
na qual empresas, instituições e governos tornam públicos os seus dados, criando conexões
multidisciplinares ou específicas a um domínio (Bizer et al., 2009). O nó central dessa rede
baseia-se no ambiente DBpedia (dbpedia.org). O domínio da saúde também é representado por
meio de nós com conteúdos utilizados na área da saúde, como exemplos DrugBank (drugbank.
ca), DailyMed (dailymed.nlm.nih.gov) e PubMed (ncbi.nlm.nih.gov/pubmed). Medicamentos,
conceitos, diagnósticos, terminologias, vocabulários e outros contextos da área da saúde estão
gradativamente sendo inter-relacionados, em diferentes projetos, com o objetivo de gerar me-
canismos de busca baseados na web semântica e oferecer melhores serviços de informação ao
cidadão.
46
UAB | UNIFESP
47
Especialização em Informática em Saúde
• Informação relevante não retornada por ferramentas tradicionais de busca pode ser desta-
cada/recuperada por meio da conexão de repositórios virtuais heterogêneos?
• Quais estratégias são necessárias para relacionar diferentes tipos de linguagem, por
exemplo, técnica e informal?
Temos realizado pesquisas (Pisa, 2013) com o objetivo de estabelecer as bases tecnocientíficas
para incrementar essa integração das bases de dados da área da saúde. Como premissas para
essa nova abordagem podemos citar: apoiar-se na conexão semântica entre dados não estrutu-
rados e oriundos de diferentes fontes de dados do idioma português brasileiro; propor soluções
que visam o relacionamento entre bases de dados da saúde pública; cruzar dados da saúde
para otimização de recursos e direcionamento de políticas públicas. Como exemplos de infor-
mação inter-relacionada podemos citar: localização de hospitais especializados mais próximos
do usuário; localização de profissionais de saúde por especialidades, hospitais ou interesses;
avaliação da opinião de usuários sobre hospitais e profissionais de saúde; correlação entre pro-
fissionais de saúde que estão trabalhando em estabelecimentos de saúde que atuam em suas
especialidades de formação; mapa da migração de profissionais de sua região de formação para
região de atuação; identificação de alertas e temas de saúde discutidos pelo cidadão por região.
48
UAB | UNIFESP
Por fim, a informação inter-relacionada na área da saúde pode ser usada para diferentes pro-
pósitos, mas podemos ressaltar em especial seu uso em três eixos dentro da informática em
saúde, sendo (a) informática para a saúde do consumidor, (b) sistemas de apoio à decisão em
saúde, e (c) informática para a gestão em saúde. Esses três eixos representam três escalas de
aplicação da análise de bases de dados em saúde, sendo (a) visão do consumidor, (b) visão do
profissional de saúde, e (c) visão do gestor de saúde. Outras visões também devem fazer parte
de estudos e objetivos de pesquisa, como a visão do pesquisador acadêmico, do estudante, do
editor e publicador de artigos científicos (scientific publisher), do professor em ciências da saú-
de, do técnico hospitalar, do engenheiro biomédico, do enfermeiro, do gestor e da autoridade
de saúde, entre outros (Brittain e Norris, 2000).
Uma das possíveis aplicações da análise desse conteúdo compartilhado é na avaliação de ques-
tões na área da saúde, por exemplo, estabelecer qual o “sentimento” que os usuários apresen-
tam a respeito desse conteúdo, ou seja, a opinião positiva ou negativa expressa sobre ele. As
opiniões são importantes uma vez que indivíduos e organizações são influenciados por elas no
momento de uma tomada de decisão (Liu, 2010). No caso das organizações, realizar pesquisas
ou grupos de discussão com a finalidade de coletar pessoalmente, face a face, opiniões dos
consumidores sobre seus produtos e os de seus concorrentes é uma atividade cada vez menos
comum, uma vez que atualmente existe uma abundância de informações e opinião dos indiví-
duos à disposição na web.
Contudo, antes da existência da web praticamente não havia estudos computacionais a res-
peito de mineração de opinião (Araujo et al., 2012). Com essa expansão da participação dos
usuários nos conteúdos da web expondo seus pensamentos, novos conceitos e metodologias
surgiram para investigação desses conteúdos (Pang e Lee, 2008). Assim, a análise de sentimen-
to tornou-se uma área de pesquisa em processamento de linguagem natural (PLN) e minera-
ção de textos. A análise de sentimento é o estudo computacional de como opiniões, atitudes,
emoções e perspectivas são expressas na linguagem natural (Liu, 2010), podendo ser conside-
rada uma disciplina de estudo interdisciplinar, englobando áreas como psicologia, marketing
e computação.
49
Especialização em Informática em Saúde
A análise de sentimento pode ser utilizada para identificação e classificação do conteúdo emo-
cional criado pelos usuários nas redes sociais, determinando opiniões positivas, negativas e
neutras, fornecendo, assim, uma polaridade da opinião ou orientação do sentimento (Chew
e Eysenbach, 2010). Em uma visão geral, a análise de sentimento faz o rastreamento de uma
grande quantidade de mensagens sobre um tema pré-selecionado obtendo um relatório com a
opinião de pessoas sobre esse tema (Ohana e Tierney, 2009). Os passos envolvidos nesse pro-
cesso são coleta de dados, classificação e sumarização. A coleta de dados visa apenas buscar
na web conteúdos relacionados ao tema e arquivá-los para análise e classificação. A etapa de
classificação pode ser realizada por meio de técnicas de aprendizagem de máquina, seleção de
palavras ou análise sintática. E, por fim, na sumarização de resultados, as classificações das
diversas opiniões devem ser resumidas e sintetizadas com o intuito de facilitar o seu entendi-
mento. Isso pode ser preparado em forma de texto ou gráfico (Pang e Lee, 2008).
Na literatura existem exemplos da aplicação dessa técnica para diversos temas relacionados à
saúde, como rastrear tendências para saúde pública (Chew e Eysenbach, 2010), avaliar a con-
fiabilidade de reclamações médicas (Vydiswaran et al., 2011), mapear opiniões expressas em
comunidades de saúde online por meio de fóruns de discussão (Yu, 2011), auxiliar em buscas de
artigos em bases de dados de saúde (Zorman e Verlic, 2009), visualizar comentários de saúde
publicados em mídias sociais (Chee, 2008), entre outros. Esses estudos apontam para a rele-
vância de se analisar mensagens de diferentes redes sociais para identificação da opinião de
pacientes e consumidores em saúde sobre suas condições e de sua comunidade, por exemplo,
para identificação de inícios de epidemia ou assistências emergenciais.
Portanto, pensamos ser relevante a formação de pesquisadores preparados para lidar de ma-
neira inovadora e criativa com os procedimentos e técnicas da descoberta de conhecimento e
mineração de dados para garantir maior interoperabilidade, capacidade de armazenamento e
representação, tornando a informação em saúde mais útil e transformadora para a sociedade.
Ou seja, que mais profissionais estejam aptos a transformar bases de dados em saúde em bases
de conhecimento úteis, de fácil utilização, de baixo custo e disponíveis para toda a população.
Esse é um comprometimento antigo, que muitos profissionais e áreas já se propuseram a alcan-
çar, mas cujos resultados pouco se refletem em oferecer simplicidade e eficiência no relaciona-
mento da informação em saúde e, consequentemente, em auxiliar diretamente a assistência.
50
Considerações
Finais Alice: Você poderia me dizer, por favor, qual caminho eu devo seguir
a partir daqui? “Gato: Isso depende muito de para onde você quer ir.
“Alice: Eu não me importo muito para onde. “Gato: Então não importa
qual caminho você segue.
O Brasil possui grandes bases de dados nacionais, de dados vitais, de morbidade e de produção de
serviços, de abrangência nacional, comparáveis às que existem em diversos países. É produzido
anualmente um grande volume de dados, amplamente disponíveis via internet/web pelo DA-
TASUS/MS cujo aproveitamento deixa ainda a desejar. Parte da argumentação gira em torno da
qualidade dos dados; outra parte é que os dados não são detalhados o suficiente para serem úteis
para apoiar a decisão em saúde, e há, ainda, a falta de treinamento por parte dos gestores no uso
da informação. Nunca é demais lembrar que apenas uma única informação sobre uma só pessoa,
fornecida de maneira incorreta ou inadequada, pode ocasionar um grande estrago.
Para entender a informação em saúde no Brasil, seus componentes, sua função e seu uso torna-
se conveniente também que se conheça um pouco da origem, da evolução e da estrutura atual da
organização das ações de promoção, proteção e recuperação da saúde no país. Essa contextuali-
zação pode auxiliar na compreensão da abrangência e da qualidade dos dados que são gerados,
processados e disponibilizados para as diferentes finalidades de planejamento, gestão, avaliação,
controle social, ensino e pesquisa.
Outro aspecto importante que não foi abordado até aqui, mas que merece ser ressaltado, é a dis-
tinção entre dados primários e secundários em saúde. Pesquisas baseadas na coleta de dados pri-
mários partem de uma pergunta específica a ser respondida, sendo, então, utilizado um conjunto
51
Especialização em Informática em Saúde
de procedimentos para que todos os dados necessários à análise sejam coletados e armazenados
de forma adequada. Já na pesquisa baseada em dados secundários, a questão que se coloca é
buscar quais perguntas podem ser respondidas considerando a qualidade e a natureza dos dados
disponíveis na base de dados selecionados para a análise. Ora, esse tipo de pesquisa está na base
das atividades que propomos nessa disciplina.
Finalmente, esperamos que esse nosso primeiro contato contenha os elementos do “caminho”
que vamos seguir nessa disciplina, nos municiando de um “mapa” prévio desse “país das mara-
vilhas” (e labiríntico) de dados em saúde para dialogar com o sorridente gato de Cheshire, per-
sonagem de Lewis Carroll, diferentemente da abordagem da ansiosa Alice. Ainda, vale a pena
um breve comentário sobre a frase de Rufus Pollock (2013), citado logo no início desse material.
Houve tempo em que a informática em saúde se estruturou, em relação às bases de dados em
saúde, oficialmente pelos órgãos responsáveis pelo sistema de saúde do país para atender, ini-
cialmente, a uma demanda administrativa, contábil e financeira. A infraestrutura de informática
era precária, de alto custo e acessível a poucos. Podemos dizer que depois dessa fase houve uma
descentralização da coleta dos dados em saúde devido especialmente à evolução da infraestru-
tura das tecnologias da informação e comunicação no país, o que possibilitou um aumento na
quantidade de sistemas, assuntos, pessoas e localidades que participavam dessa coleta de dado.
Em contrapartida, um certo caos aumentou quanto à utilização de linguagens de programação,
plataformas e, especialmente para nosso interesse, no formato do dado, seu significado e política
de uso. Estamos vivendo hoje (não na próxima década; não no próximo ano, mas agora) um novo
passo evolutivo na infraestrutura das tecnologias da informação e comunicação de maneira que
o usuário comum, o cidadão, o paciente, tem um grande poder de consumir e disponibilizar seus
dados em formato eletrônico. Ironicamente o caos sobre os formatos e a integração desses dados
tende a aumentar, mesmo com o advento da web semântica e de outros mecanismos de padro-
nização do dado.
Uma coisa é certa e podemos dizer com convicção: o gestor de antigamente, ou em outra visão, o
analista de dados em saúde simplesmente não sobreviverá se não se atualizar. Novas ferramentas
e novas abordagens são necessárias. Está claro que a análise, independente das diferentes bases
de dados em saúde, gera conhecimento útil que pode ser aplicado. Mas, os fenômenos mais com-
plexos, a ligação entre fenômenos, e geração de conhecimento galgado em técnicas científicas
que colaborem com simulações mais realistas e na tomada de decisão mais eficiente do gestor,
isso tudo depende de novas abordagens. Depende da ligação entre as bases. E todos, incluindo
DATASUS, técnicos do Ministério de Saúde, de secretarias de estado e de municípios, e também
dos geradores de dados, dos profissionais de saúde que atuam nos provedores, todos nós temos
responsabilidade pela evolução na definição, armazenamento, coleta e análise de dados em saú-
de que se tornem realmente úteis ao cidadão em benefício de sua saúde. Afinal, não podemos
nos esquecer porque, em última análise, as bases de dados em saúde são montadas. A saúde e o
bem-estar das pessoas é a motivação final para tal esforço técnico-científico, financeiro e políti-
co. E o cidadão está ficando cada vez mais consciente dessa busca ética que nós, estudantes da
informática em saúde, de qualquer formação básica, assumimos quanto ao bom uso do dado em
saúde. O país precisa e merece uma melhor gestão do dado em saúde, e todos nós temos condi-
ções de promover essa melhoria. Mãos à obra! Bom caminho para todos nós.
52
Referências
Alves D. Curso sobre bases de dados em saúde. Universidade Aberta do Brasil (UAB), 2009.
Disponível em: goo.gl/jbVMG6.
Araújo GD, Sousa FS, Teixeira F, et al. Análise de sentimentos sobre temas de saúde em mídia
social. Journal of Health Informatics, 2012. v.4, n. 3.
Bendoly E. Theory and support for process frameworks of knowledge discovery and data
mining from ERP systems. Information & Management, 2003;40:639-647.
Berners-Lee T, Kagal L. The fractal nature of the semantic web. AI Magazine, 2008 Sep 5.29(3):29.
Berry MJA, Linoff G. Data mining techniques for marketing, sales, and customer support.
Wiley, New York, 1997.
Bizer C, Health T, Berners-Lee T. Linked data - the story so far. International Journal on
Semantic Web and Information Systems, Vol. 5(3), Pages 1-22. DOI: 10.4018/ jswis.2009081901.
BRASIL. Lei no. 12.527, de 18 de novembro de 2011 [Internet]. 2011. Disponível em: http://www.
planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm.
BRASIL. Presidência da República. Casa Civil. Subchefia para Assuntos Jurídicos. Decreto
no. 8.065 de 7 de Agosto de 2013. Disponível em: http://www.planalto.gov.br/ccivil_03/_
Ato20112014/2013/Decreto/D8065.htm.
53
Especialização em Informática em Saúde
Brittain JM, Norris AC. Delivery of health informatics education and training. Health Library
Review, 2000.17(3):117-128.
Chakrabarti S, et al. Data mining curriculum: a proposal (version 1.0). Intensive Working Group
of ACM SIGKDD Curriculum Committee, Apr 30, 2006. Available from: http:// www.kdd.org/
sites/default/files/CURMay06.pdf.
Chang P, et al. Are Google or Yahoo a good portal for getting quality healthcare web information?.
2006.
Chee B, Karahalios KG, Schatz B. Social visualization of health messages. In: Proceedings of the
Hawaii International Conference on system sciences. IEEE Computer Society. Los Alamitos
(CA) USA, 2009 jan 5-8. p.1-10.
Chew C, Eysenbach G. Pandemics in the age of Twitter: Content analysis of tweets during the
2009 H1N1 outbreak. PLoS ONE, 2010. 29;5(11):e14118.
Davenport TH. Big data no trabalho: derrubando mitos e descobrindo oportunidades. Tradução:
Cristina Yamagami 1 ed. - Rio de Janeiro: Elsevier, 2014.
Dietrich D, et al. Guia de dados abertos - open data handbook [Internet]. Open Data Handbook.
Available from: http://opendatahandbook.org/pt_BR.
Eaves D. The three laws of open government data [Internet]. 2009. Available from: http:// eaves.
ca/2009/09/30/three-law-of-open-government-data/.
Francis DB. Your competitors: who will they be? Competitive Intelligence Review 8, 1997, pp.
16–23.
Helms MM, Moore R, Ahmadi M. Information technology and healthcare industry: a swot
analysis. International Journal of Healthcare Information Systems and Informatics, 2008. v. 3,
n. 1. p. 75-92.
Hillestad R, et al. Can electronic medical record systems transform health care? Potential health
benefits, savings, and costs. Health Affairs, 2005. v. 24, n.5. p. 1103-1117.
Jentzsch A, et al. Enabling tailored therapeutics with linked data. Proceedings of the WWW2009
Workshop on Linked Data on the Web (LDOW2009), Madrid, Spain, 2009.
KDD [Internet]. Sig KDD: bringing together the data mining, data science and analytics
community. [cited 2016 Jan 27]. Available from: www.kdd.org.
54
UAB | UNIFESP
KDNUGGETS. What main methodology are you using for your analytics, data mining, or data
science projects? Poll. Disponível em: http://www.kdnuggets.com/polls/2014/analytics-data-
mining-data-science-methodology.html. Acesso em: 27 ago. 2017.
Knuth DE. Selected papers on computer science. Cambridge: Cambridge University Press,
1996. 274 p. p. 1-2.
Kunder M. The size of the World Wide Web [Internet]. 2016 [cited 2016 Jan 28]; Available from:
http://www.worldwidewebsize.com.
Liu B. Sentiment analysis: a multi-faceted problem. IEEE Intell Syst, 2010, 25:1-5.
Medina MG, Aquino R. Avaliando o programa de saúde da família. In: Souza MF (organizador).
Os sinais vermelhos do PSF. São Paulo: Hucitec, 2002. p.135-151.
Miguez PR, et al. Linked data as a tool in the nutrition domain. Nutr. Hosp. vol.27 no. 2. Madrid
mar-abr. 2012.
Monard MC, Baranauskas JA. Conceitos sobre aprendizado de máquina. In: Rezende SO (ed.).
Sistemas inteligentes: fundamentos e aplicações. São Carlos: Manole, 2003. p. 89-114. c. 4.
Morais RM, Costa AL. Um modelo para avaliação de sistemas de informação do SUS de
abrangência nacional: o processo de seleção e estruturação de indicadores. Rev. Adm. Pública,
Vol. 48 No. 3. Rio de Janeiro. Maio/Junho 2014.
Mota FRL. Registro de informação sistema de informação em saúde: um estudo das bases
SINASC, SIAB e SIM no estado de Alagoas. 265 f. Belo Horizonte. Tese [Doutorado em Ciência
da Informação] - Escola de Ciência da Informação, Universidade Federal de Minas Gerais,
2009.
Pang B, Lee L. Opinion mining and sentiment analysis. Found Trends Inf Retr. vol.2, 2008.
Peek N. Big data analytics in biomedicine and health: trends and challenges. Panel on trends.
In: Medinfo 2013 - 14th World Congress on Medical and Health Informatics. Copenhagen,
Denmark.
Pisa IT. Estudos em descoberta de conhecimento e mineração de dados em saúde. São Paulo.
Tese [Livre-Docência] – Universidade Federal de São Paulo. Escola Paulista de Medicina.
Departamento de Informática em Saúde (Disciplina de Informática em Saúde), 2013. Disponível
em ivanpisa.pro.br/livredocencia.
55
Especialização em Informática em Saúde
Pollock R. Open knowledge foundation blog [homepage na internet]. [Cambridge (UK)]: Ruffus
Polock [2013 Apr] - Forget big data, small data is the real revolution. 2013 Apr 22. Available from:
goo.gl/2PV2hF.
Project Management Institute. A guide to the project management body of knowledge: PMBOK
Guide. Newtown Square: Project Management Institute, 2013.
Senna MCM. Equidade e política de saúde: algumas reflexões sobre o Programa Saúde da
Família. Cadernos de Saúde Pública, 2002;18(Suplemento): 203-211.
Shearer C. The CRISP-DM model: the new blueprint for data mining. Journal of data
warehousing, v. 5, n. 4, p. 13–22, 2000.
Spil TAM, Lerouge C, Trimmer K, et al. IT adoption and evaluation in healthcare: Evolutions and
insights in theory, methodology, and practice. International Journal of Healthcare Information
Systems and Informatics, 2009. v.4,Issue 3.
Souza Júnior MF. Integração informacional entre sistemas de Informação em saúde na ótica da
complexidade: O caso do Sistema Único de Saúde no Estado de Alagoas. Tese [Doutorado em
Administração]. Universidade Federal do Alagoas, 2012.
Taha J, Sharit J, Czaja S. Use of and satisfaction with sources of health information among older
internet users and nonusers. The Gerontologist; 2009.
Viacava F. Informações em saúde: a importância dos inquéritos populacionais. Ciência & Saúde
Coletiva. Rio de Janeiro, 2002. v.7,n.4,p.607-621.
Vydiswaran VGV, Zhai CX, Roth D. Gauging the internet doctor: ranking medical claims based
on community knowledge. In: Proceedings of the 2011 workshop on data mining for medicine
and healthcare; 2011 Aug 21-4. San Diego (CA), USA.
56
UAB | UNIFESP
YU B. The emotional world of health online communities. Proceedings of the 2011 iConference.
New York, NY, USA: ACM; 2011. Acesso em 25 de fevereiro de 2012. p. 806-7. Disponível em:
doi.acm.org/10.1145/1940761.1940914.
Zahr A, Boerma TCA. Health information systems: the foundations of public health. Bulletin
of the World Health Organization, n. 83, 2005. p. 578-583. Available at: who.int/ bulletin/
volumes/83/8/en/.
57