Você está na página 1de 206

FBIO ANTERO PIRES

Ambiente para extrao de informao epidemiolgica a


partir da minerao de dez anos de dados do
Sistema Pblico de Sade




Tese apresentada Faculdade de Medicina da
Universidade de So Paulo para obteno do ttulo de
Doutor em Cincias

Programa de Cardiologia

Orientador: Prof. Dr. Marco Antnio Gutierrez




SO PAULO
2011






































Dados Internacionais de Catalogao na Publicao (CIP)
Preparada pela Biblioteca da
Faculdade de Medicina da Universidade de So Paulo

reproduo autorizada pelo autor














Pires, Fbio Antero
Ambiente para extrao de informao epidemiolgica a partir da minerao de
dez anos de dados do Sistema Pblico de Sade / Fbio Antero Pires.-- So Paulo,
2011.


Tese(doutorado)--Faculdade de Medicina da Universidade de So Paulo.
Programa de Cardiologia.

Orientador: Marco Antnio Gutierrez.



Descritores: 1.Relacionamento de registros 2.Minerao de dados 3.Armazm de
dados 4.Sistema nico de Sade 5.Estudos epidemiolgicos



USP/FM/DBD-240/11





Dedicatria


















minha querida esposa Silvania e aos meus
amados filhos Vincius, Carina e Jlia que por tantas
vezes se colocaram em segundo plano para que fosse
possvel a realizao desse trabalho.


minha me Neusa pelos marcantes
ensinamentos de vida, f e perseverana.


Agradecimentos Especiais


Ao amigo e orientador Prof. Dr. Marco Antnio
Gutierrez, pelos desafios propostos que contriburam
para o engrandecimento desse trabalho, pela
competncia acadmica que conduziu essa orientao
e pelas diversas horas da sua vida pessoal dedicadas
a realizao desse trabalho .

Ao amigo Umberto Tachinardi, principal
responsvel e incentivador do meu ingresso no
programa de Ps-Graduao em Cardiologia da
FMUSP.

Ao amigo Joo Batista Vargas Neto, que por
diversas vezes no trnsito catico de So Paulo
debateu conceitos utilizados nesse trabalho.

Aos amigos Fabiano Matos e Valdemir Nunes,
pelo apoio na preparao da infra-estrutura
tecnolgica utilizada.

Ao amigo Andr Luiz de Almeida, pelo auxlio
e disponibilizao de dados fundamentais para a
realizao desse trabalho.


Agradecimentos


Aos amigos e colegas do Servio de Informtica
do Instituto do Corao que me incentivaram e
vibraram com a realizao desse trabalho.

Aos professores Moacyr Nobre, Francisco
Laurindo e Alfredo Mansur, pelas importantes
sugestes apresentadas a este trabalho.


SUMRIO

LISTA DE TABELAS

LISTA DE FIGURAS

LISTA DE GRFICOS

LISTA DE QUADROS

LISTA DE SIGLAS

1. INTRODUO................................................................................ 2
1.1 Sade Pblica .................................................................................2
1.2 Tecnologia da Informao...............................................................3
1.3 Organizao do texto.......................................................................7
1.4 Notaes .........................................................................................8
2. OBJETIVOS.................................................................................. 10
2.1. Objetivo Geral................................................................................10
2.2. Objetivos Especficos ....................................................................10
3. REVISO DA LITERATURA ........................................................ 13
3.1 Epidemiologia e Sade Pblica.....................................................13
3.2 Epidemiologia e Sade Pblica no Brasil ......................................14
3.3 Sistema nico de Sade...............................................................15
3.4 Tecnologia da Informao.............................................................18
3.4.1 Sistemas de Informao do Ministrio da Sade ..........................20
3.4.2 Utilizao de Bases de Dados Administrativas ou Secundrias
em Pesquisas Epidemiolgicas e Vigilncia..................................23
3.4.3 Data Warehouse............................................................................29
3.4.3.1 Elementos do Data Warehouse..............................................32
3.4.3.2 Modelagem Multidimensional .................................................38
3.4.4 Data Mining ...................................................................................42
3.4.5 Relacionamento de Registros (Record Linkage) ...........................57
3.4.5.1 Blocagem...............................................................................62
4. MATERIAIS E MTODOS ............................................................ 66
4.1 Fonte de Dados.............................................................................66
4.1.1 Bases de Dados do DATASUS .....................................................66
4.1.2 Bases de Dados da SES/SP .........................................................67
4.1.3 Bases de Dados do Hospital das Clnicas da Faculdade de
Medicina da Universidade de So Paulo.......................................68
4.2 Extrao e Transformao dos Dados de Origem.........................70
4.2.1 Dados do DATASUS .....................................................................71
4.2.2 Dados da SES/SP .........................................................................72
4.2.3 Dados do HCFMUSP.....................................................................75
4.3 Associao de Registros (Record Linkage)...................................76
4.3.1 Identificao das Variveis............................................................77
4.3.2 Anlise do Preenchimento e Consistncia das Variveis..............79
4.3.3 Padronizao das Variveis ..........................................................84
4.3.4 Blocagem.......................................................................................94
4.3.5 Pareamento...................................................................................95
4.3.6 Caracterizao da base de dados Controle.................................105
4.3.7 Teste de Perturbao..................................................................106
4.4 Estrutura do Data Warehouse.....................................................109
4.5 A ferramenta MinerSUS...............................................................121
4.6 Consideraes ticas ..................................................................122
5. RESULTADOS............................................................................ 124
6. DISCUSSO............................................................................... 152
7. CONCLUSES ........................................................................... 164
8. ANEXOS ..................................................................................... 167
9. REFERNCIAS BIBLIOGRFICAS........................................... 170


LISTA DE TABELAS


Tabela 3.1 Amostra de transaes de um supermercado
armazenadas no banco de dados .............................. 45
Tabela 3.2 Exemplo de regras descobertas atravs de tcnicas
de Data Mining ........................................................... 46
Tabela 3.3 Amostra de registros de pessoas ............................... 58
Tabela 4.1 Mtodos desenvolvidos para anlise, consistncias e
padronizao de variveis ....................................... 76
Tabela 4.2 Variveis do SIASUS, armazenadas na BD-SES/SP,
utilizadas no processo de associao de registros .... 77
Tabela 4.3 Variveis do SIHSUS, armazenadas na BD-SES/SP,
utilizadas no processo de associao de registros .... 78
Tabela 4.4 Variveis do SIM, armazenadas na BD-SES/SP,
utilizadas no processo de associao de registros .... 78
Tabela 4.5 Amostra de nomes de pacientes invlidos
encontrados nos registros do SIHSUS e SIASUS
(BD-SES/SP) .............................................................. 83
Tabela 4.6 Amostra de nomes de mes invlidos encontrados
nos registros do SIHSUS e SIASUS (BD-SES/SP) .... 83
Tabela 4.7 Comparao de strings atravs dos algoritmos de
Levenshtein e Jaro-Winkler ........................................ 85
Tabela 4.8 Comparao de strings atravs dos algoritmos de
Levenshtein e Jaro-Winkler incluindo registros
fonetizados ................................................................. 86
Tabela 4.9 Exemplos de preenchimento da varivel
<logradouro>.............................................................. 87
Tabela 4.10 Exemplos de preenchimento da varivel
<logradouro>aps aplicao do mtodo padroniza
logradouro ................................................................. 88
Tabela 4.11 Detalhamento do mtodo fonetiza strings aplicado
nas variveis <nome do paciente>, <nome da me>
e <logradouro>........................................................... 89
Tabela 4.12 Mtodo de padronizao aplicado por varivel .......... 90
Tabela 4.13 Tabela dos dados demogrficos dos pacientes
contido nos registros dos sistemas SIHSUS e
SIASUS ...................................................................... 92
Tabela 4.14 Tabela dos dados demogrficos dos pacientes
contido nos registros do sistema SIM ......................... 93
Tabela 4.15 Dicionrio de pesos (concordncia e discordncia),
por varivel, utilizados para associao de registros . 97
Tabela 4.16 Tabela de pares com os pesos por varivel ............... 98
Tabela 4.17 Comparao entre um registro original e
perturbaes inseridas no mesmo registro ................ 108
Tabela 4.18 Dimenses utilizadas para representao do Fato
bito, segundo informaes contidas na declarao
de bito ....................................................................... 112
Tabela 4.19 Dimenses utilizadas (dados do beb) para
representao do Fato Nascimento, segundo
informaes contidas na declarao de nascidos
vivos ........................................................................... 113
Tabela 4.20 Dimenses utilizadas (dados da me) para
representao do Fato Nascimento, segundo
informaes contidas na declarao de nascidos
vivos ........................................................................... 114
Tabela 4.21 Dimenses utilizadas (dados do parto) para
representao do Fato Nascimento, segundo
informaes contidas na declarao de nascidos
vivos ........................................................................... 114
Tabela 4.22 Dimenses utilizadas (dados do local) para
representao do Fato Nascimento, segundo
informaes contidas na declarao de nascidos
vivos ........................................................................... 115
Tabela 4.23 Dimenses utilizadas (dados do paciente) para
representao do Fato Internao, segundo
informaes contidas na Autorizao de Internao
Hospitalar ................................................................... 116
Tabela 4.24 Dimenses utilizadas (dados da internao) para
representao do Fato Internao, segundo
informaes contidas na Autorizao de Internao
Hospitalar ................................................................... 117
Tabela 4.25 Dimenses utilizadas (dados do paciente) para
representao do Fato Atendimento Ambulatorial,
segundo informaes contidas na APAC e no BPA ... 118
Tabela 4.26 Dimenses utilizadas (dados do atendimento) para
representao do Fato Atendimento Ambulatorial,
segundo informaes contidas na APAC e no BPA ... 119
Tabela 4.27 Faixa de escores para definio do percentual de
confiabilidade entre o registro e o paciente ................ 120
Tabela 5.1 Distribuio das frequncias absoluta e relativa do
preenchimento por varivel, segundo tipo de
atendimento (base de dados BD-Controle) ................ 125
Tabela 5.2 Classificao dos pares de registros na base de
dados BD-Controle, considerando o relacionamento
determinstico como padro ouro .............................. 126
Tabela 5.3 Resultados da avaliao do mtodo de
relacionamento de registro na base de dados BD-
Controle .................................................................. 127
Tabela 5.4 Distribuio das frequncias absoluta e relativa do
preenchimento por varivel, segundo tipo de
atendimento (base de dados BD-SES/SP) ................. 128
Tabela 5.5 Distribuio do sexo, segundo as bases de dados
BD-SES/SP e BD-Controle ......................................... 130
Tabela 5.6 Distribuio do primeiro nome mais frequente,
segundo as bases de dados BD-SES/SP e BD-
Controle ...................................................................... 130
Tabela 5.7 Distribuio do ltimo nome mais frequente, segundo
as bases de dados BD-SES/SP e BD-Controle ......... 130
Tabela 5.8 Distribuio de pares, segundo critrio de
associao .................................................................. 132
Tabela 5.9 Quantidade de registros por bloco - Etapa de
blocagem .................................................................... 133
Tabela 5.10 Distribuio de bitos, segundo ano do bito ............. 135
Tabela 5.11 Distribuio de nascidos vivos, segundo ano do
nascimento ................................................................. 135
Tabela 5.12 Distribuio de atendimentos ambulatoriais, segundo
ano do atendimento .................................................... 136
Tabela 5.13 Distribuio de atendimentos alta complexidade,
segundo ano do atendimento ..................................... 136
Tabela 5.14 Distribuio de internaes, segundo ano da
internao ................................................................... 136
Tabela 5.15 Quantidade de inconsistncias por cubo e dimenso 137
















LISTA DE FIGURAS

Figura 3.1 Diagrama do ciclo de vida dimensional ...................... 31
Figura 3.2 Diagrama dos elementos do DW adaptao dos
modelos de (SANTOS e GUTIERREZ 2008 e
KIMBALL 2002) .......................................................... 32
Figura 3.3 Tabela de Fato ........................................................... 39
Figura 3.4 Tabela de Dimenso .................................................. 39
Figura 3.5 Modelo Dimensional: Star Schema ............................ 40
Figura 3.6 Exemplo de um modelo multidimensional sobre o
assunto leitos disponveis ........................................... 41
Figura 3.7 Relatrio extrado do modelo dimensional sobre o
assunto leitos disponveis. (Duas dimenses na rea
linha e uma dimenso na coluna) ............................... 41
Figura 3.8 Relatrio extrado do modelo dimensional sobre o
assunto leitos disponveis. (Trs dimenses na rea
linha) ........................................................................... 42
Figura 3.9 Classificao de emprstimos bancrios ................... 48
Figura 3.10 Clusters de emprstimos bancrios ........................... 49
Figura 3.11 Deteco de desvio no perfil de compras pagas
atravs de carto de crditos ..................................... 50
Figura 3.12 Arquitetura do ambiente computacional. (adaptado
de SANTOS e GUTIERREZ, 2008) ............................ 52
Figura 3.13 Exemplo hipottico da tcnica de blocagem,
considerando o prenome como chave para
constituio dos blocos .............................................. 63
Figura 3.14 Exemplo hipottico da tcnica de blocagem restritiva 64
Figura 4.1 Bases de dados utilizadas como fonte de dados ....... 69
Figura 4.2 Diagrama dos elementos do DW: Bases de Dados
(fontes de dados originais), STAGE (cpia das fontes
de dados originais, pr-processamento) e
Apresentao dos dados (modelos dimensionais
processados e dicionrio de metadados) .................. 70
Figura 4.3 Exemplo de tabelas com violao de integridade
referencial ................................................................... 72

Figura 4.4 Cubo dimensional para representar o fato BITO ..... 111
Figura 4.5 Cubo dimensional para representar o fato
NASCIMENTO ............................................................ 113
Figura 4.6 Cubo dimensional para representar o fato
INTERNAO ............................................................ 115
Figura 4.7 Cubo dimensional para representar o fato
ATENDIMENTO AMBULATORIAL ............................. 118
Figura 5.1 Relatrio OLAP dos fatos BITO e NASCIMENTO
utilizando as dimenses PERODO e RAA/COR ..... 140
Figura 5.2 Inverso das dimenses Raa/Cor e Perodo do
Relatrio OLAP dos fatos BITO e NASCIMENTO
utilizando as dimenses PERODO e RAA/COR ..... 141
Figura 5.3 Resultado final da Inverso das dimenses Raa/Cor
e Perodo do Relatrio OLAP dos fatos BITO e
NASCIMENTO utilizando as dimenses PERODO e
RAA/COR ................................................................ 141
Figura 5.4 Utilizando o filtro de procedimentos para a
parametrizao do filtro global ................................... 145
Figura 5.5 Lista de identificadores de pacientes que ser
carregada para a parametrizao do filtro global ....... 146
Figura 5.6 Concluso da parametrizao do filtro global para
ser utilizado para dimenso PACIENTE ..................... 147
Figura 5.7 Relatrio OLAP (utilizando filtro global), quantidade
de internaes, quantidade de dias de permanncia,
valor total das internaes e valor alta complexidade
(ambulatrio) segundo dimenso PACIENTE e
DIAGNSTICO .......................................................... 149
Figura 5.8 Relatrio OLAP (utilizando filtro global), quantidade
de internaes, quantidade de dias de permanncia,
valor total das internaes e valor alta complexidade
(ambulatrio) segundo dimenso PACIENTE e
PROCEDIMENTO ...................................................... 150


LISTA DE GRFICOS

Grfico 4.1 Resultado da perturbaes geradas em mil (1000)
registros ...................................................................... 109
Grfico 5.1 Comparativo da distribuio de pacientes por faixa
de ano de nascimento entre base de dados BD-
Controle e base de dados BD-SES/SP ...................... 131
Grfico 5.2 Distribuio dos escores dos pares Comparao
entre as base de dados BD-Controle e BD-SES/SP... 131
Grfico 5.3 Evoluo do nmero de ocorrncias, segundo fato
do modelo dimensional ............................................... 137
Grfico 5.4 Relatrio OLAP dos fatos BITO e NASCIMENTO
utilizando as dimenses RAA/COR e PERODO
..................................................................................... 142
LISTA DE QUADROS

Quadro 4.1 Processo de comparao da varivel <Nome do
Paciente>.................................................................... 99
Quadro 4.2 Processo de comparao da varivel <CPF>............ 99
Quadro 4.3
Processo de comparao da varivel <Data de
Nascimento>...............................................................
100
Quadro 4.4 Processo de comparao da varivel <Nome da
Me>........................................................................... 101
Quadro 4.5 Processo de comparao da varivel <Logradouro>.. 102
Quadro 4.6 Processo de comparao da varivel <Nmero do
Logradouro>................................................................ 103
Quadro 4.7 Processo de comparao da varivel <Complemento
do Logradouro>........................................................... 103
Quadro 4.8 Processo de comparao da varivel <CEP>............. 103
Quadro 4.9 Processo de comparao da varivel <Municpio de
Residncia>................................................................. 104
Quadro 4.10 Processo de comparao da varivel <Nmero da
AIH>............................................................................ 104
Quadro 4.11 Processo de comparao da varivel <Nmero da
APAC>........................................................................ 104


LISTA DE SIGLAS

3G
Terceira Gerao de Padres e Tecnologias de
Telefonia Mvel
AIH
Autorizao de Internao Hospitalar
APAC
Autorizao de Procedimentos de Alta
Complexidade
BD-DATASUS
Bases de dados do Departamento de Informtica
do SUS
BD-SES/SP
Bases de dados da Secretaria Estadual de Sade
de So Paulo
BD-HCFMUSP
Bases de dados do Hospital das Clnicas da
Faculdade de Medicina da Universidade de So
Paulo
BD-Controle
Base de dados resultante da associao entre a
base de dados da Secretaria Estadual de Sade
de So Paulo e a base e dados do Hospital das
Clnicas da Faculdade de Medicina da
Universidade de So Paulo
BPA
Boletim de Produo Ambulatorial
CID
Classificao Internacional de Doenas
CNES
Cadastro Nacional de Estabelecimentos de Sade
CNH
Carteira Nacional de Habilitao
CPF
Cadastro Nacional de Pessoa Fsica
DATASUS
Departamento de Informtica do SUS
DECIT
Departamento de Cincia e Tecnologia do
Ministrio da Sade
DM
Data Mining
DN
Declarao de Nascido Vivo
DO
Declarao de bito
DW
Data Warehouse
ESF
Equipes de Sade da Famlia
ETL
Extract Transformation Load (Extrao
Transformao Carga)
GPS
Global Positioning System (Sistema de
Posicionamento Global)
HCFMUSP
Hospital das Clnicas da Faculdade de Medicina
da Universidade de So Paulo
IC
Intervalo de Confiana
IC95%
Intervalo de Confiana de 95%
LILACS
Literatura Latino-Americana e do Caribe em
Cincias da Sade
MEDLINE
Literatura Internacional em Cincias da Sade
MOLAP
Multidimensional On-line Analytical Processing
OLAP
On-line Analytical Processing
OLAM
On-line Analytical Mining
OLTP
On-Line Transaction Processing
RDBMS
Relational Database Management System
RGHC
Nmero de Matricula do Paciente no Hospital das
Clnicas da Faculdade de Medicina da
Universidade de So Paulo.
SADT
Servio de Apoio a Diagnose e Terapia
SES/SP
Secretaria Estadual da Sade de So Paulo
SIASUS
Sistema de Informaes Ambulatoriais do SUS
SIAB
Sistema de Informao da Ateno Bsica
SciELO
Scientific Electronic Library Online
SISCEL
Sistema de Controle de Exames Laboratoriais
SIHSUS
Sistema de Informaes Hospitalares do SUS
SIM
Sistema de Informao sobre Mortalidade
SINAN
Sistema de Informao de Agravos de Notificao
SINASC
Sistema de Informaes sobre Nascidos Vivos
SUS
Sistema nico de Sade
TI
Tecnologia da Informao
TMI
Taxa de Mortalidade Infantil
TRS
Terapia Renal Substitutiva


Resumo


PIRES FA. Ambiente para extrao de informao epidemiolgica a partir da
minerao de dez anos de dados do sistema pblico de sade [tese]. So
Paulo: Faculdade de Medicina, Universidade de So Paulo; 2011. 186p.

A utilizao de bases de dados para estudos epidemiolgicos, avaliao da
qualidade e quantidade dos servios de sade vem despertando a ateno
dos pesquisadores no contexto da Sade Pblica. No Brasil, as bases de
dados do Sistema nico de Sade (SUS) so exemplos de repositrios
importantes que renem informaes fundamentais sobre a Sade.
Entretanto, apesar dos avanos em termos de coleta e de ferramentas
pblicas para a pesquisa nessas bases de dados, tais como o TABWIN e o
TABNET, esses recursos ainda no fazem uso de tcnicas mais avanadas
para a produo de informao gerencial, como as disponveis em
ferramentas OLAP (On Line Analytical Processing) e de minerao de
dados. A situao extremamente agravada pelo fato dos dados da Sade
Pblica, produzidos por vrios sistemas isolados, no estarem integrados,
impossibilitando pesquisas entre diferentes bases de dados.
Consequentemente, a produo de informao gerencial torna-se uma tarefa
extremamente difcil. Por outro lado, a integrao dessas bases de dados
pode constituir um recurso indispensvel e fundamental para a manipulao
do enorme volume de dados disponvel nesses ambientes e, assim,
possibilitar a produo de informao e conhecimento relevantes, que
contribuam para a melhoria da gesto em Sade Pblica. Acompanhar o
seguimento de pacientes e comparar diferentes populaes so outras
importantes limitaes das atuais bases de dados, uma vez que no h um
identificador unvoco do paciente que possibilite executar tais tarefas. Esta
Tese teve como objetivo a construo de um armazm de dados (data
warehouse), a partir da anlise de dez anos (perodo de 2000 a 2009) das
principais bases de dados do SUS. Os mtodos propostos para coleta,
limpeza, padronizao das estruturas dos bancos de dados, associao de
registros ao paciente e integrao dos sistemas de informao do SUS
permitiram a identificao e o seguimento do paciente com sensibilidade de
99,68% e a especificidade de 97,94%.

Descritores: Relacionamento de registros, Minerao de dados, Armazm de
dados, Sistema Pbico de Sade, Estudos epidemiolgicos.

Summary


PIRES FA. Environment for epidemiological information extraction by data
mining ten years of data from the health public system [thesis]. So Paulo:
Faculdade de Medicina, Universidade de So Paulo; 2011. 186p.

The use of databases for epidemiologic studies, quality and quantity
evaluation of health services have attracted the attention of researchers in
the context of Public Health. In Brazil, the databases of the Sistema nico de
Sade (SUS) are examples of important repositories, which store
fundamental information about health. However, despite of the advances in
terms of load and public tools for research in those databases, such as
TABWIN and TABNET, these resources do not use advanced techniques to
produce management information as available in OLAP (On Line Analytical
Processing) and data mining tools. The situation is drastically increased for
the fact that data in public health, produced for different systems, are not
integrated. This makes impossible to do research between different
databases. As a consequence, the production of management information is
a very difficult task. On the other hand, the integration of these databases
can offer an important and fundamental resource to manipulate the
enormous volume of data available in those environments and, in this way, to
permit the production of relevant information and knowledge to improve the
management of public health. The patient follow up and the comparison of
different populations are other important limitations of the available
databases, due to the absence of a common patient identifier. The objective
of this Thesis was the construction of a data warehouse to analyze ten years
(period from 2000 to 2009) of the principal databases of SUS. The proposed
methods to load, clean, database structure standardization, patient record
linkage and SUS information systems integration have been permitted patient
identification and follow up with sensitivity of 99.6% and specificity of 97.94%.



Descriptors: Record linkage, Data mining, Data warehouse, Brazilian Public
Healthcare, Epidemiologic studies.


























Introduo


Introduo 2


1. INTRODUO

1.1 Sade Pblica
A Sade Pblica pode ser definida como a arte e a cincia de
prevenir doenas, promover a sade e prolongar a vida atravs de esforos
organizados da sociedade (BLANE, 1999 e ACHESON Report, 1998).
Existem outras definies para o termo, porm, todas elas apresentam como
idia central o controle, a preveno e reduo de doenas, bem como a
manuteno e promoo da sade de toda a populao (BEAGLEHOLE,
2004).
No contexto nacional, a Sade Pblica garantida pela Constituio
Brasileira, por meio do Sistema nico de Sade (SUS) (BRASIL, 1990). Para
viabilizar o seu funcionamento, imprescindvel a demanda de um grande
volume de informaes para subsidiar mecanismos de controle, processos,
procedimentos e, sobretudo, a tomada de deciso e a elaborao de
polticas pblicas de sade.
O Departamento de Informtica do SUS (DATASUS) o rgo
responsvel por coletar, processar e disseminar informaes sobre a sade
brasileira (BRASIL, 2009). O DATASUS possui vrios sistemas
administrativos para produzir informao necessria gesto do SUS,
dentre eles o Sistema de Informaes Ambulatoriais (SIASUS); Sistema de
Informaes Hospitalares (SIHSUS); Cadastro Nacional de
Introduo 3

Estabelecimentos de Sade (CNES) e Sistema Estatsticas Vitais
(SIM/SINASC) (SANTOS, 2004).
Nas definies de Sade Pblica sempre esto presentes os termos
controle e preveno. A informao matria-prima para realizao
destas aes, ou seja, impossvel controlar e prevenir sem a
disponibilidade e o uso adequado da informao. Os sistemas do DATASUS
j armazenam uma quantidade considervel de dados e produzem uma
grande quantidade de informao, porm, h a necessidade e o desafio de
identificar e implementar ferramentas adequadas para manipular a
informao disponvel e proporcionar o conhecimento necessrio aos
objetivos da Sade Pblica.
1.2 Tecnologia da Informao
A cincia da computao apresenta um conjunto de tcnicas e
ferramentas destinadas produo de informao gerencial e descoberta
de conhecimentos em grandes bases de dados (Minerao de Dados).
Estas tcnicas, aplicadas aos dados dos sistemas de informao do
DATASUS, podem representar um avano substancial na gesto do SUS e
ainda contribuir, decisivamente, nos estudos epidemiolgicos e de vigilncia
sanitria atravs da identificao e correlao de padres existentes nos
dados.
Atualmente, o campo para aplicao das tcnicas e ferramentas de
Minerao de Dados mostra-se bastante amplo. Em diversos segmentos,
para diferentes problemas, as solues construdas vm se mostrando
Introduo 4

eficientes e eficazes (GOLDSCHMIDT, 2005 e CHEN, 2001). Na rea da
sade, inclusive na Sade Pblica, h diversos exemplos, bem sucedidos,
da aplicao destas tcnicas.
Um exemplo o trabalho desenvolvido por pesquisadores da
Universidade Changhua de Taiwan, onde proposto um processo para
elaborao automtica de modelos que detectam casos abusivos ou
fraudulentos nos sistemas de sade (YANG, 2006).
Outro trabalho bem sucedido mostra a aplicao de tcnicas de
minerao de dados em uma base de dados de sade coletiva, Korea
Medical Insurance Corporation (KMIC), visando a descoberta de informaes
no triviais para auxlio no monitoramento do programa de controle de
hipertenso (CHAE, 2001).
Um terceiro exemplo, desenvolvido por pesquisadores da Alabama
University em parceria com o Centro para Controle e Preveno de Doenas
dos Estados Unidos (CDC), apresenta um processo de anlise de dados
capaz de identificar, automaticamente, novos e interessantes padres na
base de dados da vigilncia sanitria (STEPHEN, 1998).
No mbito da Secretaria da Sade do Estado de So Paulo, foi
desenvolvido e implantado um prottipo inicial de um Data Warehouse
visando disponibilizar informao gerencial obtida por meio da integrao de
dados provenientes de diferentes sistemas de informao do Sistema de
Sade Pblica. O desenvolvimento do prottipo permitiu a identificao de
alguns aspectos peculiares da rea da Sade, como a qualidade e a demora
Introduo 5

na obteno dos dados de origem, bem como o estudo e a implementao
de mecanismos para superar os desafios encontrados (SANTOS, 2006).
O estgio atual dos sistemas de informao do SUS, embora em
constante evoluo, ainda no faz uso de tcnicas e ferramentas mais
avanadas para a produo de informao gerencial, como as ferramentas
On Line Analytical Processing (OLAP), muito menos da utilizao das
tcnicas de minerao de dados. A situao extremamente agravada pelo
fato de os dados da Sade Pblica, produzidos por vrios sistemas isolados,
no estarem integrados. Consequentemente, a produo de uma informao
gerencial torna-se uma tarefa extremamente rdua (SANTOS, 2006).
A integrao das bases de dados dos sistemas de informaes do
SUS pr-requisito indispensvel para qualquer avano destes sistemas.
Somente aps a integr-las ser possvel uma manipulao inteligente do
enorme volume disponvel de dados e, consequentemente, a produo de
informao relevante que contribua com as ferramentas de gesto da Sade
Pblica.
Um outro problema a ser enfrentado a identificao unvoca dos
pacientes armazenados nos bancos de dados de internaes, exames e
medicaes utilizadas no tratamento da alta complexidade. Os dados de
identificao dos pacientes que receberam a assistncia teraputica esto
armazenados, porm, como os pacientes atendidos pelo SUS no possuem
um identificador nico, no possvel acompanhar o seguimento do
tratamento dispensado a cada paciente e, desta forma, no possvel a
realizao de comparao entre diferentes populaes e de estudos
Introduo 6

epidemiolgicos, com foco em seguimento do paciente. Tal possibilidade
permitiria aos gestores pblicos e aos estudiosos da sade entender melhor
os impactos de medicaes ou tratamentos sobre a populao.
Nesse contexto, baseado em variveis de identificao e dados
demogrficos do paciente constantes das bases de dados dos sistemas
SIHSUS, APAC-SIASUS e SIM, pretende-se desenvolver mtodos que
possibilitem relacionar os registros de internaes, atendimentos
ambulatoriais de alta complexidade, incluindo medicamentos e o possvel
bito ao paciente. Adicional a esta base de dados ancorada no paciente,
pretende-se incluir os sistemas BPA-SIASUS, SINASC e CNES e desta
forma, construir um repositrio que contenha 10 anos das informaes,
referentes aos atendimentos realizados no estado de So Paulo, coletados
pelos principais sistemas do Ministrio da Sade de forma integrada e que
possibilite a extrao de informaes no contexto da Sade Pblica.
A unificao destas informaes em um nico ambiente de forma
integrada e padronizada tornar possvel realizao de tarefas tais como:
Anlises de custo-efetividade de forma unificada (Internao e
Ambulatrio);
Anlises de produo (Quantitativa e Qualitativa) ;
Pesquisas epidemiolgicas;
Conhecer itinerrios teraputicos de pacientes;
Comparao de populaes atravs de caractersticas
parametrizveis de pesquisas.
Introduo 7


1.3 Organizao do texto

Este texto est organizado da seguinte forma:
No captulo 2 (Objetivos) so apresentados os objetivos gerais e
especficos que motivaram este trabalho.
No captulo 3 (Reviso da Literatura) apresentada uma reviso
da literatura abordando Epidemiologia e Sade Pblica, as
caractersticas da informao no Sistema nico de Sade, os
principais Sistemas de Informao do Ministrio da Sade, a
utilizao de bases de dados administrativas ou secundrias em
pesquisa e vigilncia epidemiolgicas, conceitos de Data
Warehouse e Data Mining na rea da sade e, por ltimo, as
tcnicas de relacionamento de registros para a associao de
duas ou mais bases de dados.
No captulo 4 (Materiais e Mtodos) so apresentadas a origem e
as caractersticas das bases de dados utilizadas neste trabalho, os
mtodos para anlise do preenchimento e consistncia das
variveis presentes nas bases de dados utilizadas, os mtodos de
limpeza e padronizao das variveis e os mtodos de blocagem
e relacionamento de registros entre as bases de dados, a base de
dados controle para validao dos mtodos e a adaptao da
ferramenta MinerSUS para a realizao de pesquisas com foco no
seguimento do paciente.
Introduo 8

No captulo 5 (Resultados) so apresentados os resultados da
aplicao dos mtodos na base de dados de controle e na base
de dados do Sistema nico de Sade e os casos de uso na
ferramenta MinerSUS.
No captulo 6 (Discusso), discute-se o uso de bases de dados,
denominadas administrativas ou secundrias, para anlises e
vigilncia epidemiolgica e os resultados obtidos com o
relacionamento de registros.
Finalmente, no captulo 7 (Concluses), so apresentadas as
concluses dos resultados desta tese.

1.4 Notaes
Com o objetivo de facilitar a identificao de alguns termos
utilizados no texto, as seguintes notaes foram aplicadas:
Identificao de varivel: As variveis so descritas no texto
sempre entre os caracteres < e >, por exemplo, a varivel nome do
paciente ser apresentada como <nome do paciente>;
Contedo de varivel: Os contedos das variveis so descritos
no texto sempre entre os caracteres e , por exemplo o contedo da
varivel <sexo>pode ser Masculino ou Feminino;
Os termos em lngua estrangeira esto descritos no texto em itlico, por
exemplo, o termo para minerao em dados ser apresentado como Data
Mining.























Objetivo



Objetivos

10

2. OBJETIVOS

2.1. Objetivo Geral

O objetivo principal deste trabalho implantar um repositrio de
dados (Data Warehouse) para uso de tcnicas de minerao de dados no
contexto da Sade Pblica brasileira, contemplando uma dcada (2000 a
2009) de informaes contidas nas bases de dados existentes no
DATASUS.

2.2. Objetivos Especficos

a) Implantar a infra-estrutura para acomodar o repositrio de
dados (Data Warehouse);
b) Realizar a limpeza e adequao dos dados contidos nos
sistemas dos DATASUS;
c) Definir e carregar o Data Warehouse com um histrico de 10
anos dos principais sistemas de informao do SUS;
d) Desenvolvimento do mtodo para associao de registros ao
paciente;
e) Construo da base de dados Controle visando verificar a
eficcia do mtodo de associao de registros.
Objetivos

11
f) Implantar ferramentas que permitam a produo de informao
gerencial (OLAP);
g) Implantar ferramentas que permitam a extrao de
conhecimento por meio das tcnicas de Minerao de Dados
(Data Mining);
h) Avaliar a viabilidade e eficincia das tcnicas de minerao de
dados no contexto da Sade Pblica brasileira;




























Reviso da Literatura



Reviso da Literatura 13



3. REVISO DA LITERATURA

3.1 Epidemiologia e Sade Pblica
Hipcrates (460-377 a.C) atuou como sacerdote de Esculpio em
Epidauro onde tambm desenvolveu seus estudos, ensinamentos e pratica
da tradio higica. Acredita-se que a Epidemiologia tenha nascido com
Hipcrates, diversos autores atribuem a ele os primeiros registros sobre a
relao entre doena e o local / ambiente onde ela ocorria (ALMEIDA
FILHO, 1986 e COSTA, 1999).
No incio da Idade Mdia, mdicos mulumanos aplicando os
princpios hipocrticos, adotaram praticas que so consideradas precursoras
da Sade Pblica. Neste perodo, consolidou-se o registro de informaes
demogrficas e sanitrias bem como os sistemas de vigilncia
epidemiolgica sendo Avicena e Averres os principais nomes da chamada
medicina do coletivo (MEDRONHO, 2009).
A tradio francesa atribui Medicina Veterinria como a primeira
medicina voltada para o coletivo ao se investigar uma epizootia que dizimava
ovinos, causando prejuzos industria txtil francesa. Esses seriam os
primeiros registros de contagem de enfermos visando o controle de uma
enfermidade (ROUQUAYROL, 1994 e MEDRONHO, 2009).
A abordagem de doenas pelo mtodo numrico influenciou o
desenvolvimento dos primeiros estudos, no sculo 19, de morbidade na
Reviso da Literatura 14


Inglaterra e nos Estados Unidos, considerados como origem da Sade
Pblica (MINAYO, 2003).
Segundo Medronho (MEDRONHO, 2009), durante a Segunda
Guerra Mundial foram desenvolvidos mtodos eficientes para medir a sade
fsica e mental das tropas, tais mtodos foram aplicados na populao civil
no ps guerra, onde grandes inquritos epidemiolgicos foram realizados,
especialmente de enfermidades no-infecciosas.
Rouquayrol (ROUQUAYROL, 1994) destaca o interesse em
enfermidades de carter no-transmissvel tais como doenas
cardiovasculares e cncer, como objeto de estudos epidemiolgicos aps o
declnio na incidncia das doenas infecciosas.
Durante a dcada de 1960, aes como a introduo do uso da
computao eletrnica, a utilizao de banco de dados e o desenvolvimento
e aperfeioamentos de novos desenhos de investigao epidemiolgicas,
provoca uma profunda transformao na Epidemiologia (BRASIL, 2002 e
MEDRONHO, 2009).

3.2 Epidemiologia e Sade Pblica no Brasil

No Brasil, o incio da Epidemiologia foi na Medicina Tropical e pelos
esforos dos naturalistas que, sistematicamente descreveram a ocorrncia
de diversas doenas infecciosas, seus vetores e agentes.
A vertente acadmica da epidemiologia teve incio no Brasil na
dcada de 1920 e seguindo os ensinamentos europeus, teve seu o foco
Reviso da Literatura 15


voltado para a Sade Pblica. Em meados da dcada de 1950, foram
criados os departamentos de Medicina Preventiva ou Medicina Social em
faculdades de Medicina e o ensino da epidemiologia passou a fazer parte do
currculo mdico (BARATA, 1997).
Analisando as bases de dados do Diretrio de Pesquisa do CNPq
em 2000, Barreto (BARRETO, 2002) encontrou 176 grupos de pesquisa no
pas com pelo menos uma das suas linhas de pesquisa situada no campo da
epidemiologia, totalizando 320 linhas, envolvendo 813 pesquisadores, dos
quais 422 eram doutores. Concluindo sua anlise ele afirma: no h dvida
de que j constitumos uma comunidade cientfica de porte respeitvel e com
grau razovel de maturidade, que se expressa em uma produo cientfica
crescente em quantidade e em qualidade.

3.3 Sistema nico de Sade

O Sistema nico de Sade foi criado na Constituio Federal de
1988 e regulamentado pela Lei 8.080 de 1990. Entre seus artigos,
encontramos um que caracteriza o acesso a bases de dados:
Artigo 39 8: O acesso aos servios de informtica e bases de
dados, mantidos pelo Ministrio da Sade e pelo Ministrio do Trabalho e da
Previdncia Social, ser assegurado s Secretarias Estaduais e Municipais
de Sade ou rgos congneres, como suporte ao processo de gesto, de
forma a permitir a gerencia informatizada das contas e a disseminao de
estatsticas sanitrias e epidemiolgicas mdico-hospitalares.
Reviso da Literatura 16


notvel a predisposio de utilizar informaes contidas nas bases
de dados sob a guarda do Ministrio da Sade visando produzir informaes
epidemiolgicas. Rouquayrol (ROUQUAYROL, 1994) relata o uso de
registros de internaes hospitalares, coletados atravs das AIHs
(Autorizao de Internao Hospitalar) para estudos e anlises de
morbidade no Brasil.
Peixoto et al. (PEIXOTO, 2004) utilizaram dados do Sistema de
Informaes Hospitalares do Sistema nico de Sade (SIHSUS) para avaliar
os custos de internaes entre idosos (60 ou mais anos de idade) e adultos
jovens (20-59 anos). Os achados deste estudo demonstram uma grande
contribuio da populao idosa para os gastos com hospitalizaes no
mbito do SUS, destacando-se as doenas isqumicas do corao, a
insuficincia cardaca e as doenas pulmonares obstrutivas crnicas.
Lima-Costa et al. (LIMA-COSTA, 2003) relatam a importante fonte
de informao contida nos bancos de dados do Sistema de Informaes
sobre Mortalidade (SIM) e do Sistema de Informaes sobre Autorizaes de
Internaes Hospitalares (SIHSUS) para a realizao de estudos
epidemiolgicos.
Mathias et al. (MATHIAS, 1998) estudaram 1.595 internaes
referentes a uma amostra representativa das internaes ocorridas nos 8
hospitais gerais do Municpio de Maring, PR. Os diagnsticos registrados
nos pronturios mdicos foram comparados aos registrados nas AIHs
correspondentes. As concordncias variaram de k=0,79 (doenas do
aparelho geniturinrio) a k=0,98 (complicaes da gravidez, parto e
Reviso da Literatura 17


puerprio) e k=0,79 (fraturas) a k=0,97 (causas obsttricas diretas) para os 5
grupos e agrupamentos da Classificao Internacional de Doenas (CID)
mais freqentes, respectivamente. Os autores concluram que possvel
utilizar o banco de dados SIHSUS (Sistema de Internao Hospitalar do
Sistema nico de Sade) para o Municpio de Maring, em 1992, com certo
grau de confiabilidade segundo grupos de diagnsticos.
LOYOLA et al. (LOYOLA FILHO, 2004) utilizaram dados do Sistema
de Informaes Hospitalares do Sistema nico de Sade (SIHSUS) para
estudar o perfil das internaes hospitalares da populao idosa (60 ou mais
anos de idade) comparando-as ao da populao adulta jovem (20-59 anos),
com nfase nas causas que justificaram a internao. O risco de
hospitalizaes foi acentuadamente mais alto entre idosos em quase a
totalidade das causas investigadas. As doenas do aparelho circulatrio,
respiratrio e digestivo foram responsveis por 60% das internaes entre
os idosos, enquanto que entre os mais jovens essas causas representaram
38% das hospitalizaes. As trs causas mais frequentes de internaes
entre idosos, de ambos os sexos, foram insuficincia cardaca,
bronquite/enfisema e outras doenas pulmonares obstrutivas crnicas,
seguidas pelas pneumonias. Como concluso, os autores sugerem o uso
sistemtico do banco de dados do SIHSUS para o planejamento e
monitoramento das aes em sade direcionadas populao idosa do
Brasil.
Oliveira (OLIVEIRA, 2009), em seu editorial da revista
Epidemiologia e Servios de Sade, destaca o uso do Subsistema de
Reviso da Literatura 18


Autorizao de Procedimentos de Alta Complexidade (APAC), parte
integrante do Sistema de Informaes Ambulatoriais (SIASUS). Segundo
Oliveira, embora o banco de dados do APAC tenha um foco administrativo,
ele apresenta riqueza de dados epidemiolgicos, especialmente para
determinadas situaes clnicas, permitindo anlises epidemiolgicas e
conhecimento de alguns perfis. Nesta edio, dos oito artigos originais, dois
relatam o uso dos bancos de dados disponveis no Sistema nico de Sade.

3.4 Tecnologia da Informao

A Tecnologia da Informao a cincia que visa o tratamento da
informao atravs do uso de equipamentos e procedimentos da rea de
processamento de dados. Segundo Coeli et al. (COELI, 2009), um sistema
de informao pode ser definido como vrios elementos ligados a coleta,
armazenamento, processamento de dados e difuso de informaes e
tem como funo principal a disponibilizao de informaes de qualidade
onde e quando necessrias. Portanto, um sistema de informao
composto por um conjunto de partes que atuam articuladamente com o
objetivo de transformar dados em informao.
O dado pode ser considerado o menor fragmento da informao que
armazenada atravs de um sistema, podemos entende-lo como a
representao de um fato na sua forma primria, ou seja, o nome de um
paciente, seu peso, sua data de nascimento entre outros. A caracterizao
da informao representada pelo resultado da combinao de vrios
dados que so trabalhados, organizados e interpretados possibilitando assim
Reviso da Literatura 19


agregar valor ao fato primrio. Combinando os dados peso e data de
nascimento possvel estratificar o peso por faixa etria e ainda calcular a
proporo correspondente de cada estrato, isto seria um exemplo simples da
transformao de dado em informao.
Santos et al. (SANTOS, 2010) argumentam a necessidade de
estabelecer uma sucinta distino entre os termos dado, informao e
conhecimento, uma vez que se confundem pela proximidade de seus
significados.
Segundo os autores, dado pode ser definido como um atributo
descritivo, qualitativo ou quantitativo acerca de um objeto ou fato. um item
elementar da informao que pode ou no ser til para a realizao de
determinada tarefa ou tomada de deciso. Em um pronturio mdico, nome
do paciente, data de nascimento, horrio de aplicao de uma medicao e
dose aplicada so exemplos do termo dado.
Informao corresponde a um conjunto de dados, estruturados ou
descritivos, que tm significado em um contexto. A transformao de dados
em informao costuma ser realizada por meio de apresentao dos dados
em uma forma compreensvel ao usurio ou mediante clculos envolvendo
outros dados. Com base nos dados registrados em pronturios mdicos,
possvel estabelecer o tempo mdio de internao para pacientes
submetidos a um procedimento cirrgico especfico, ou seja, os dados data
de alta e data de admisso sero transformados na informao mdia de
permanncia.
Reviso da Literatura 20


Conhecimento designa a compreenso de um indivduo em um
domnio especfico. So as regras prticas em geral baseadas em
experincias prvias, que usamos para executar alguma tarefa ou resolver
algum problema. O conhecimento pode ser expresso de diferentes formas,
uma das mais tradicionais por meio de regras, por exemplo:
Regra:
Se IMC >40 e fumante =sim e colesterol >240
Ento: risco alto de problemas cardacos.
Uma importante observao mencionada por Coeli et al. (COELI,
2009) e cabe ressaltar que nenhum sistema pode fornecer informaes de
melhor qualidade que os dados que o alimentam.

3.4.1 Sistemas de Informao do Ministrio da Sade
Segundo o Ministrio da Sade (BRASIL, 2010), o SUS tem 6,1 mil
hospitais credenciados, 45 mil unidades de ateno primria e 30,3 mil
Equipes de Sade da Famlia (ESF). O sistema realiza, anualmente, 2,8
bilhes de procedimentos ambulatoriais, 19 mil transplantes, 236 mil
cirurgias cardacas, 9,7 milhes de procedimentos de quimioterapia e
radioterapia e 11 milhes de internaes.
Para acompanhar seu processo de crescimento, suas aes, seus
indicadores e resultados, o Ministrio da Sade criou o Departamento de
Informtica do SUS - DATASUS, o qual responsvel por desenvolver
diferentes sistemas e redes de informaes estratgicas, gerenciais e
Reviso da Literatura 21


operacionais, que auxiliem a tomada de decises e definies de polticas de
Sade Pblica.
As principais atribuies do DATASUS so: a) fomentar,
regulamentar e avaliar as aes de informatizao do SUS, direcionadas
para a manuteno e desenvolvimento do sistema de informaes em sade
e dos sistemas internos de gesto do Ministrio; b) desenvolver, pesquisar e
incorporar tecnologias de informtica que possibilitem a implementao de
sistemas e a disseminao de informaes necessrias s aes de sade,
em consonncia com as diretrizes da Poltica Nacional de Sade; c) manter
o acervo das bases de dados necessrias ao sistema de informaes em
sade e aos sistemas internos de gesto institucional; d) assegurar aos
gestores do SUS e rgos congneres o acesso aos servios de informtica
e bases de dados, mantidos pelo Ministrio; e) definir programas de
cooperao tcnica com entidades de pesquisa e ensino para prospeco e
transferncia de tecnologia e metodologia de informtica em sade, sob a
coordenao do Secretrio-Executivo; f) apoiar estados, municpios e o
Distrito Federal, na informatizao das atividades do SUS.
Os principais sistemas e banco de dados mantidos pelo DATASUS
so:
Sistema de Informaes sobre Mortalidade (SIM) um sistema de
vigilncia epidemiolgica nacional, cujo objetivo captar dados sobre os
bitos do pas a fim de fornecer informaes sobre mortalidade para todas
as instncias do sistema de sade. O documento de entrada do sistema a
Declarao de bito (DO), padronizada em todo o territrio nacional.
Reviso da Literatura 22


Sistema de Informaes sobre Nascidos Vivos (SINASC) tem por
objetivo coletar dados sobre os nascimentos informados em todo o territrio
nacional e fornecer dados sobre natalidade para todas as instncias do
sistema de sade. O documento de entrada do sistema a Declarao de
Nascido Vivo (DN), padronizada em todo o pas.
Sistema de Informaes Hospitalares do SUS (SIHSUS) tem por
objetivo registrar todos os atendimentos provenientes de internaes
hospitalares que foram atendidos pelo SUS, englobando o conjunto de
procedimentos realizados em regime de internao, com base na
Autorizao de Internao Hospitalar (AIH) e a partir destes atendimentos,
gerar relatrios para que os gestores possam fazer os pagamentos dos
estabelecimentos de sade.
Sistema de Informaes Ambulatoriais do SUS (SIASUS), este
sistema dividido em dois sub-mdulos: Boletim Produo Ambulatorial -
BPA, que tem por objetivo registrar a produo ambulatorial da unidade de
atendimento, no trata informao individualiza, fornece somente o nmero
de procedimentos realizados; Autorizao de Procedimentos de Alta
Complexidade - APAC, que tem por objetivo o controle administrativo da
produo ambulatorial dos procedimentos de alta complexidade, incluindo
Terapia Renal Substitutiva TRS, Oncologia (radioterapia e quimioterapia) e
o fornecimento de medicamentos considerados pelo Ministrio da Sade
como excepcionais.
Sistema de Informao de Agravos de Notificao (SINAN),
alimentado principalmente pela notificao e investigao de casos de
Reviso da Literatura 23


doenas e agravos que constam da lista nacional de doenas de notificao
compulsria. facultado estados e municpios incluir outros problemas de
sade importantes em sua regio. Sua utilizao permite a realizao do
diagnstico dinmico da ocorrncia de um evento na populao, podendo
fornecer subsdios para explicaes causais dos agravos de notificao
compulsria, contribuindo assim, para a identificao da realidade
epidemiolgica de determinada rea geogrfica.

3.4.2 Utilizao de Bases de Dados Administrativas ou Secundrias
em Pesquisas Epidemiolgicas e Vigilncia

As bases de dados que contm dados de pagamentos de servios
prestados aos pacientes, autorizaes do uso de medicamentos ou
realizaes de exames de apoio a diagnsticos e terapia, por exemplo, so
denominadas bases de dados Administrativas ou Secundrias, ou seja, so
bases de dados que no foram projetadas para coletar e armazenar dados
clnicos de pacientes.
No contexto da Sade Pblica, a utilizao de base de dados
secundrias ou administrativas tem sido utilizada com sucesso no auxlio da
vigilncia e anlises epidemiolgica.
Souza et al. (SOUZA, 2010) utilizaram dados do SIASUS referente
ao Estado do Rio de J aneiro, para o desenvolvimento de um Sistema de
Informao Oncolgica Ambulatorial com o objetivo de identificar
Reviso da Literatura 24


automaticamente novos casos de cncer e seguimento do paciente
submetido a tratamento ambulatorial do cncer.
Virnig et al. (VIRNIG, 2001) fazem reflexes sobre o crescente uso,
nos Estados Unidos, de base da dados administrativas para a vigilncia da
Sade Pblica. Segundo os autores, as principais caractersticas dessas
base de dados so: crescente disponibilidade dos dados, baixo custo,
grande cobertura populacional e rapidez na disponibilidade dos dados. Por
outro lado, para alguns pesquisadores, o fato dos dados serem provenientes
de uma fonte "secundria", implica que eles sempre sero vistos com
desconfiana. Ou seja, se os dados no foram gerados com a finalidade
especfica para a qual eles so usados, a sua validade ser sempre
suspeita. Os autores concluem que apesar dos pontos fracos das bases de
dados administrativas, ainda assim elas so uma boa fonte de dados para
aplicaes de Sade Pblica, incluindo rastreabilidade e vigilncia.
Cardoso et al. (CARDOSO, 2005) estudaram a consistncia do
Sistema de Informaes sobre Mortalidade (SIM) e do Sistema de
Informaes sobre Nascidos Vivos (SINASC) como fontes de dados para a
avaliao sistemtica das desigualdades raciais e tnicas em sade, atravs
da anlise das taxas de mortalidade infantil (TMI). Os autores observaram
uma reduo substancial do preenchimento da varivel <raa/cor> com
contedo no informada tanto para a declarao de bito como na
declarao de nascidos vivos.
Girotto et al. (GIROTTO, 2010) estudaram os dados do Sistema de
Cadastramento e Acompanhamento de Hipertensos e Diabticos (Hiperdia),
Reviso da Literatura 25


do Sistema de Informao da Ateno Bsica (SIAB) e de um instrumento
de anotao em papel chamado Carto de aprazamento para o
acompanhamento dos pacientes hipertensos de uma Unidade de Sade da
Famlia de Londrina-PR. O objetivo dos autores foi avaliar e identificar
motivos de divergncias quantitativas entre as trs fontes de informao do
paciente portador de hipertenso arterial. Os autores apontam uma possvel
subnotificao de casos de hipertenso no SIAB e sugerem a atualizao
deste atravs de visitas mais frequentes por parte dos agentes de sade
tornando essa fonte de informao mais segura para o monitoramento dos
pacientes hipertensos.
Visando resolver o problema com erros na transcrio ou perda das
fichas em papel contendo a coleta de dados das famlias na ateno bsica,
Gonalves de S et al. (GONALVES DE S, 2010) desenvolveram uma
verso digital da ficha de coleta de dados (Ficha A) do SIAB. Segundo os
autores, os dados das famlias so coletados atravs um coletor de dados
com GPS e rede 3G e transmitidos automaticamente aps a concluso da
coleta, disponibilizando ao gestor um retrato quase que instantneo da
situao. Os autores concluem que a implementao do formulrio digital
atendeu as expectativas de cadastro, reduzindo tempo, inconsistncias e
aumentando a confiabilidade e disponibilidade.
Paiva et al. (PAIVA, 2008) realizaram uma reviso de literatura nas
bases de dados MEDLINE, LILACS e SciELO sobre o uso do Sistema de
Informaes sobre Nascidos Vivos (SINASC), no perodo de 1994 2005,
com os descritores: SINASC, live birth e Brazil. Os autores observaram
Reviso da Literatura 26


um crescimento do nmero de publicaes, destacando que a maioria dos
artigos foram publicados por autores filiados a instituies de ensino e
pesquisa. Entretanto, houve um crescimento nos ltimos anos de publicao
de artigos de autores ligados a instituies de assistncia e gesto. O
envolvimento destes profissionais em estudos utilizando as bases de dados
administrativas / secundrias extremamente benfico, pois denota a
confiabilidade nos dados produzidos por estes sistemas.
Noronha et al. (NORONHA, 2003) estudaram 41.989 cirurgias de
revascularizao do miocrdio realizadas no perodo de 1996 1998 em 131
hospitais credenciados pelo Sistema nico de Sade. Os dados foram
extrados do Sistema de Informaes Hospitalares do SUS (SIHSUS).
Segundo os autores, a taxa de mortalidade foi de 7,2 bitos hospitalares por
100 cirurgias, a idade mdia dos pacientes foi de 59,9 anos e 35,4% das
cirurgias foram realizadas em pacientes com idade acima de 64 anos. O
sexo masculino representou 67,5% dos casos e em mdia os pacientes
permaneceram 15 dias hospitalizados. A concluso do estudo mostrou que
no grupo de hospitais com maior volume de cirurgias de revascularizao do
miocrdio, os pacientes operados apresentaram menor risco de morrer do
que no grupo de hospitais com menor volume de cirurgias.
Outro estudo na rea de cardiologia que avaliou a qualidade dos
dados do Sistema de Informaes Hospitalares do SUS (SIHSUS), foi o
realizado por Escosteguy et al. (ESCOSTEGUY, 2002). Os autores
analisaram 1.936 internaes registradas com o diagnstico principal de
infarto agudo do miocrdio no Municpio do Rio de J aneiro em 1997.
Reviso da Literatura 27


Tambm foi analisada uma amostra aleatria de 391 pronturios mdicos
estratificada por hospital. A qualidade do diagnstico de infarto agudo do
miocrdio da AIH quando comparada com os pronturio foi satisfatria,
(91,7%; IC95%=88,3-94,2). Tambm foi considerada satisfatria a preciso
das variveis demogrficas (<sexo>e <faixa etria>), de processo (<uso de
procedimentos> e <intervenes>) e de resultado (<bito> e <motivo da
sada>). A preciso das variveis demogrficas e de resultado foi superior a
das variveis de processo. Por outro lado, houve um elevado sub-registro do
diagnstico secundrio. Os autores concluem como pertinente o uso do
Sistema de Informaes Hospitalares (SIHSUS) na avaliao da qualidade
da assistncia ao infarto agudo do miocrdio.

Bittencourt et al. (BITTENCOURT, 2006) realizaram uma extensa
reviso bibliogrfica buscando artigos que mencionavam o uso de dados do
Sistema de Informaes Hospitalares do SUS (SIHSUS). O perodo
pesquisado foi de 1984 2003 utilizando-se as bases de dados SciELO,
MEDLINE e Biblioteca Virtual de Sade Pblica. Tambm foram
pesquisados sites de instituies que ofereciam cursos de ps-graduao
stricto sensu em Sade Pblica, para a busca de dissertaes e teses e que
continham artigos que referenciavam o uso de dados do SIHSUS. Os
descritores pesquisados foram: registros hospitalares, sistema,
informao, morbidade e mortalidade hospitalar, hospital, internao e
avaliao de servio de sade. Os autores localizaram 76 trabalhos no
perodo estudado classificando-os em cinco categorias: qualidade das
informaes do SIHSUS (3,9%); estratgias para potencializar o uso das
Reviso da Literatura 28


informaes para a pesquisa, gesto e ateno mdico-hospitalar (10,5%);
descrio do padro da morbidade / mortalidade hospitalar e da assistncia
mdica prestada (34,2%); vigilncia epidemiolgica e validao de outros
sistemas de informao em sade (19,7%) e avaliao do desempenho da
assistncia hospitalar (31,7%). Os autores destacam o crescimento da
utilizao dos dados do SIHSUS na Sade Coletiva em nmero,
abrangncia, diversidade de contedos e complexidade de anlise e
concluem que, embora o sistema tenha cobertura incompleta e incertezas
quanto confiabilidade de suas informaes, a variedade de estudos aliada
a resultados que mostraram consistncia interna e coerncia com os
conhecimentos atuais, refora a importncia dessas bases de dados e a
necessidade de entender os seus pontos fortes e fracos.
IEZZONI (IEZZONI, 1997) j relatava o uso frequente de dados
administrativos para avaliao da qualidade dos cuidados em sade. Como
pontos fortes a autora apontava a rapidez na disponibilidade dos dados,
baixo custo de aquisio e grande abrangncia da populao. As principais
fontes fornecedoras eram os governos federais e estaduais alm das
segurados de planos privados. As caractersticas presentes naquela poca,
informaes demogrficas, diagnsticos e procedimentos, e o modelo de
coleta de dados, formados por bases de dados secundarias, se assemelham
com atual cenrio brasileiro.

Reviso da Literatura 29


3.4.3 Data Warehouse
A maioria dos sistemas de informao opera sobre bancos de dados
chamados transacionais. Esses bancos de dados contm informaes
detalhadas que permitem s instituies acompanhar e controlar seus
processos operacionais. Por outro lado, existe uma demanda cada vez maior
por sistemas de informao que auxiliem no processo de deciso. Gestores
necessitam de recursos computacionais que forneam subsdios para apoio
ao processo decisrio, sobretudo nos nveis ttico e estratgico da
instituio.
Segundo Goldschmidt (GOLDSCHMIDT, 2005), Data Warehouse
um conjunto de dados baseados em assuntos, integrado, no voltil, varivel
em relao ao tempo e destinado a auxiliar em decises de negcio.
Outra definio similar de Goldschmidt a de Inmon (INMON,
1997) que define Data Warehouse como uma coleo de dados orientados
por assuntos, integrados, variveis com o tempo e no volteis, com o
objetivo de suportar o processo gerencial de tomada de deciso.
As caractersticas definidas por ambos so bastante semelhantes e
so descritas da seguinte forma:
Orientao a assunto: Os dados corporativos so reunidos e
organizados de modo a apresentar informaes sobre um
determinado tema;
Integrao: os dados operacionais, independente da fonte,
devem ser integrados e consolidados no Data Warehouse;
Reviso da Literatura 30


Dados no volteis: Uma vez carregados no Data
Warehouse, estes no podem mais sofrer alteraes;
Varivel em relao ao tempo: Cada conjunto de dados, ao
ser carregado no Data Warehouse, fica vinculado a um rtulo
temporal que o identifica dentre os demais.
Kimball (KIMBALL, 2002) prope um ciclo de vida dimensional para
a construo do Data Warehouse. As principais caractersticas deste ciclo
so representas na Figura 3.1. O diagrama ilustra a sequncia das tarefas, a
dependncia e a concorrncia (simultaneidade). O grande objetivo do
diagrama a reflexo do que deve ser feito e quando em cada etapa da
construo do DW.
Na etapa planejamento do projeto proposto o estabelecimento do
escopo, justificativa preliminar, obteno dos recursos e lanamento do
projeto. Em paralelo a todas as etapas, esta a etapa de gerenciamento, a
qual servir como base para manter o ciclo de vida do projeto no caminho
planejado.
Kimball chama a ateno para a relao bidirecional entre as etapas
de planejamento e definio dos requisitos de negcio. O alinhamento do
DW com os requisitos de negcio absolutamente crucial, por este fato
deve haver muita interao entre essas duas atividades. O seguimento
superior do diagrama destaca as etapas de tecnologia do projeto, desenho
da arquitetura e seleo e instalao do produto. Esta sequncia no foi por
Reviso da Literatura 31


acaso e sim para chamar ateno que a escolha do produto dever ocorrer
somente aps a definio clara do que se deseja realizar.
O seguimento intermedirio do diagrama descreve as etapas do
desenho dimensional do projeto, iniciando pela traduo dos requisitos de
negcio em um modelo dimensional, passando pela transformao do
modelo dimensional para uma estrutura fsica (particionamento, indexao e
agregao) e concluindo com os processos de extrao, transformao e
carga dos dados.
O seguimento inferior do diagrama concentra as etapas de
especificao e desenho das aplicaes analticas as quais devero atender
as principais demandas dos usurios.
Por fim, Kimball descreve a etapa de distribuio a qual refere-se
fortemente a treinamento e suporte usurios, etapa de manuteno que
visa manter o equilbrio entre a comunidade de usurios e o DW e conclui
com a etapa de crescimento a qual visa o futuro do DW e projetos
subsequentes, os quais devero dar inicio a um novo ciclo de vida. As
principais caractersticas deste ciclo de vida sero detalhados mais adiante.

Figura 3.1 Diagrama do ciclo de vida dimensional
Reviso da Literatura 32


3.4.3.1 Elementos do Data Warehouse

Santos e Gutierrez (SANTOS E GUTIERREZ, 2008) dividem o Data
Warehouse em quatro elementos: dados operacionais; processo de carga
(ferramentas ETL); informaes analticas (ferramentas OLAP); metadados.
Kimball (KIMBALL, 2002) apresenta uma pequena diferena nesta diviso:
sistemas operacionais (origem dos dados); data staging area; apresentao
de dados; ferramentas de acesso aos dados. A Figura 3.2 demonstra de
forma esquemtica esta diviso do DW.

Figura 3.2 Diagrama dos elementos do DW adaptao dos modelos de
(SANTOS e GUTIERREZ 2008 e KIMBALL 2002)

Detalhando o diagrama da Figura 3.2, iremos encontrar o primeiro
componente, ou seja, os sistemas operacionais, o quais so responsveis
pela captura das transaes nas instituies. Santos e Gutierrez (SANTOS e
GUTIERREZ 2008) tambm classificam os sistemas operacionais como
Reviso da Literatura 33


sistemas OLTP (On-Line Transaction Processing ou Processamento de
Transaes em tempo-real). No diagrama da Figura 3.2, esto presentes
principais sistemas operacionais utilizados no contexto da Sade Pblica
brasileira e so as principais fontes de dados utilizados em diversos
trabalhos publicados na rea de epidemiologia. Segundo Kimball (KIMBALL
2002), os sistemas operacionais, tambm chamados de sistemas de origem,
devem ser tratados externamente ao DW. Tal fato justifica-se pois
possvel que se tenha pouco ou nenhum controle sobre o contedo e o
formato dos dados nesses sistemas operacionais. As principais prioridades
dos sistemas operacionais so o desempenho e a disponibilidade de
processamento. As consultas realizadas nesses sistemas so normalmente
repetitivas, limitadas e acessam um registro por vez. Normalmente, essas
so as caractersticas encontradas no fluxo normal das transaes de
sistemas operacionais. Tambm comum, que cada sistema de origem seja
uma aplicao naturalmente independente, onde foi realizado o mnimo de
integrao com outros sistemas operacionais. Do outro lado, diferente das
caractersticas presentes nos sistemas operacionais, est o DW, onde
diversas fontes de dados so integradas e tornam-se disponveis para serem
consultados de forma ampla e inesperada.
O segundo componente do diagrama da Figura 3.2 o Data
Staging Area. Segundo Kimball (KIMBALL, 2002) a data staging area
considerada como uma rea de armazenamento com um conjunto de
processos denominados como ETL (Extract-Transformation-Load ou
Extrao Transformao Carga). Resumindo, a data staging area abrange
Reviso da Literatura 34


tudo que est entre os sistemas operacionais e a rea de apresentao do
usurio do DW.
A extrao a primeira etapa do processo de ETL, este processo
envolve a leitura, a compreenso dos dados e a cpia dos dados
considerados como necessrios ou interessantes, pertencentes aos
sistemas de origem, para posteriormente serem trabalhos na data staging
area. Na etapa seguinte, ou seja, a etapa de transformao, ocorrem as
atividades de filtragem dos dados, combinao de dados das vrias origens,
eliminao de dados duplicados e atribuies de chaves de Data
Warehouse.
Todas essas atividades so precedentes e necessrias para carga
dos dados na rea de apresentao do Data Warehouse. Conforme
apresentado anteriormente na etapa de extrao, a leitura e compresso dos
dados servem como apoio fundamental para a etapa de transformao,
atravs de inspeo manual nos dados de origem (leitura) ou de tarefas
automatizadas que demonstram diferena de padres, que possvel
determinar o que dever ser realizado nas atividades de transformao.
A atividade de filtragem de dados subdivididas em quatro tarefas:
correo de erros de digitao, soluo de conflitos de domnio, tratamento
de elementos ausentes e a diviso em formatos padro, as quais so
detalhas a seguir.
Na tarefa correo de erros de digitao, busca-se encontrar
anomalias na entrada de dados, observando a mesma varivel ou variveis
Reviso da Literatura 35


que so coligadas no conjunto de dados de origem. Considerando o
exemplo hipottico onde esta sendo carregado um sistema operacional que
se registra as passagens dos pacientes, a data de nascimento de um
registro diferente dos demais registro de um mesmo paciente, considera
uma candidata a erro de digitao.
A tarefa soluo de conflitos de domnio tem como objetivo
normalizar o contedo de uma varivel categrica, como exemplo podemos
citar a varivel <sexo> do paciente. Considerando que esteja sendo
carregados dados de dois sistemas operacionais onde no primeiro sistema
operacional, os valores possveis para a varivel <sexo>so: M para o
valor masculino e F para o valor feminino. No segundo sistema operacional
os valores possveis para a varivel <sexo>so: 1 para o valor masculino e
2 para o valor feminino. Desta forma, ser necessrio definir qual conjunto
de valor ser atribudo a todos os registros.
Na tarefa tratamento de elementos ausentes decidido se
variveis que no possuem valores em todos os registros sero ou no
carregados para rea de apresentao de dados do DW e ainda qual valor
ser atribudo para aquelas que forem carregas.
Por ltimo, na tarefa diviso em formatos padro, ser avaliado a
necessidade de criar novas variveis baseadas nas variveis dos sistemas
operacionais que esto sendo carregados. Um exemplo comum desta tarefa
a transformao da data de nascimento em faixas etrias.
Reviso da Literatura 36


A terceira e ltima etapa do processo de ETL a de carregar os
dados trabalhados na data staging area para a rea de apresentao dos
dados do DW. Alm de executar a carga em modelos dimensionais, tambm
sero realizados a indexao e a agregao dos dados e finalmente a
publicao para os usurios com o aviso das novas dimenses e fatos
disponveis no DW.
O terceiro componente do diagrama a rea de apresentao dos
dados, local onde os dados so armazenados de forma organizada e
disponvel para serem consultados diretamente pelos usurios, geradores de
relatrios ou por outras ferramentas de anlise. Kimball (KIMBALL 2002)
refere-se a rea de apresentao de dados como uma srie de data marts
integrados, sendo um data mart uma parte do todo que compe a rea de
apresentao e define ainda o data mart como uma representao dos
dados de um nico processo de negcio. Santos e Gutierrez (SANTOS e
GUTIERREZ, 2008) tambm referenciam a rea de apresentao como
representao de negcios e citam o SIASUS e SIHSUS como exemplos de
negcios do Sistema nico de Sade. Cabe ressaltar que a utilizao do
termo negcio significa a representao de uma rea de interesse e no
necessariamente o ato de comercializao de produtos ou servios.
O quarto e ltimo componente do diagrama apresentado na Figura
3.2 a rea designada para as ferramentas de acesso aos dados. Segundo
Kimball (KIMBALL, 2002), uma ferramenta de acesso a dados pode ser to
simples com uma ferramenta de consulta especfica ou to complexa quanto
uma aplicao sofisticada de modelagem ou explorao de dados.
Reviso da Literatura 37


Goldschmidt (GOLDSCHMIDT, 2005) apresenta algumas
caractersticas bsicas que as ferramentas de acesso a dados devem
disponibilizar:
Drill up/down Utilizado para aumentar ou reduzir o nvel de
detalhe da informao acessada. Exemplo: Diagnsticos
estabelecidos por unidade da federao, diagnsticos
estabelecidos por municpio;
Slicing Utilizado para selecionar as dimenses a serem
consideradas na consulta. Exemplo: Visualizar a quantidade
de diagnsticos estabelecidos separado pelas dimenses
unidades da federao e ano;
Dicing Utilizado para limitar o conjunto de valores a serem
exibidos atravs de filtros nas dimenses. Exemplo:
Quantidade de Infarto agudo do miocrdio, no ano de 2002 e
no estado de So Paulo;
Pivoting Utilizado para inverter as dimenses entre linhas e
colunas. Exemplo: Aps ter visualizado a quantidade de
Infarto agudo do miocrdio por unidade da federao (coluna)
e ano (linha) a inverso das dimenses ir apresentar a
quantidade de Infarto agudo do miocrdio por ano (coluna) e
por unidade da federao (linha);
Data Surfing Executar uma mesma anlise em outro
conjunto de dados. Exemplo: Aps ter visualizado a
Reviso da Literatura 38


distribuio do Infarto agudo do miocrdio, por ano e por
unidade da federao, mantm-se a mesma anlise
substituindo o diagnstico por insuficincia coronariana.
Santos e Gutierrez (SANTOS e GUTIERREZ, 2008), atribuem o
termo Informaes Analticas para o componente ferramentas de acesso
aos dados e caracteriza este componente como mecanismo responsvel
pela leitura dos dados do DW e pela produo da informao analtica.

3.4.3.2 Modelagem Multidimensional
Kimball (KIMBALL, 2002) relata que os termos dimenses e fatos
no so recentes, nem to pouco tenha sido ele o primeiro a descrev-los.
Segundo Kimball, esses termos foram descritos pela primeira vez em um
projeto de pesquisa realizado conjuntamente pela General Mills e pela
Dartmouth University na dcada de 1960.
Segundo Goldschmidt (GOLDSCHMIDT, 2005), a modelagem
multidimensional uma forma de Modelagem de Dados voltada para a
concepo e visualizao de conjuntos de medidas que descrevem aspectos
comuns de um determinado assunto. utilizada especialmente para
sumarizar e reestruturar dados, apresentando-os em vises que suportem a
anlise dos valores envolvidos.
Goldschmidt (GOLDSCHMIDT, 2005) e Kimball (KIMBALL, 2002)
descrevem, de forma similar, os componentes bsicos de um modelo
multidimensional como:
Reviso da Literatura 39


Fatos Um fato uma coleo de itens de dados, composta
de dados de medida e de contexto. Representa um item, uma
transao ou um evento associado ao assunto da
modelagem. Um exemplo de uma tabela do tipo fato esta
representado na Figura 3.3;
Dimenses Uma dimenso um tipo de informao que
participa da definio de um fato. As dimenses determinam o
contexto do assunto e normalmente so descritivas ou
classificatrias. As perguntas O qu?, Quem? e Quando?
ajudam a identificar as dimenses de um assunto. Um
exemplo de uma tabela do tipo dimenso esta representado
na Figura 3.4;
Medidas Uma medida um atributo ou varivel numrica
que representa um fato. Exemplos: nmero de casos de uma
determinada doena, nmero de nascidos vivos ou nmero
bitos.




Figura 3.3 Tabela Fato
Figura 3.4 Tabela Dimenso
Reviso da Literatura 40


Uma das formas mais populares de modelagem dimensional o
formato denominado de esquema estrela (star schema), a Figura 3.5
demonstra um exemplo deste esquema. Nesse esquema, um conjunto
central de fatos cercado por relaes que correspondem s dimenses do
assunto. As dimenses no esquema estrela so usualmente chamados de
pontos cardeais.

Figura 3.5 Modelo Dimensional: Star Schema
No contexto da sade, Santos et al. (SANTOS, 2010) apresentam
um exemplo do modelo multidimensional, Figura 3.6, para o fato (assunto)
leito disponveis ao qual so ligadas as dimenses perodo,
estabelecimentos de sade (hospitais), tipo do leito, municpio, regies
de sade e turnos de atendimento.
As Figuras 3.7 e 3.8 so exemplos simples das possibilidades de
extrao de informaes do modelo dimensional sobre o assunto leitos
disponveis. Na Figura 3.7 foram escolhidas as dimenses municpio e
perodo (ano) para rea denominada linha e a dimenso tipo de leito
para a rea denominada coluna alm das mtricas quantidade de leitos
disponveis e quantidade de leitos contratados SUS que so dispostas na
rea denominada como resultado da extrao. Na Figura 3.8,
demonstrado a caracterstica pivoting que as ferramentas de acesso a dados
Reviso da Literatura 41


devem disponibilizar. Neste exemplo, foi mantido o mesmo conjunto de
dados e reposicionado a dimenso tipo de leito para a rea denominada
linha, que anteriormente estava na rea denominada coluna .

Figura 3.6 Exemplo de um modelo multidimensional sobre o assunto leitos
disponveis

Figura 3.7 Relatrio extrado do modelo dimensional sobre o assunto
leitos disponveis. (Duas dimenses na rea linha e uma
dimenso na coluna)
Reviso da Literatura 42



Figura 3.8 Relatrio extrado do modelo dimensional sobre o assunto
leitos disponveis. (Trs dimenses na rea linha)

3.4.4 Data Mining
Os constantes avano na rea da Tecnologia da Informao e a
reduo dos custos de armazenamento de dados tem proporcionado a
criao de grandes bancos de dados nas diversas reas do conhecimento.
Diariamente, as instituies acumulam dados sobre diversos processos nas
Reviso da Literatura 43


suas diversas reas de atuao (financeira, faturamento, contabilidade,
atendimentos de sade) com o objetivo de gerenciar suas operaes.
As informaes armazenadas atravs destes processos so
utilizadas para verificaes de processos do passado e como fonte de
informao para pesquisas e anlises operacionais. Entretanto, com o
crescimento do volume de informaes armazenadas, anlises atravs de
mtodos tradicionais (relatrios ad hoc, histogramas, estatsticas, planilhas
eletrnicas), apesar de possvel, tornaram-se difceis e complexas.
Segundo Fayyad (FAYYAD, 1996), o crescimento expansivo dos
bancos de dados empresarias, governamentais e cientficos , ultrapassa a
capacidade humana de interpretar e assimilar a informao, dando assim
origem necessidade de uma nova gerao de metodologias e ferramentas
capazes de realizar o tratamento, anlises e extrao de conhecimento.
As reas de Data Mining e Descoberta de Conhecimento em Bases
de Dados esto em grande evoluo e expanso nas diversas reas do
conhecimento. Esta expanso tem apoio na premissa de que os grandes
volumes de dados disponveis nos diversos bancos de dados, podem ser
fonte de conhecimento til e com aplicabilidade em diversos segmentos da
sociedade.
Segundo Santos e Azevedo (SANTOS e AZEVEDO, 2005), os
seguintes termos tem sido utilizados como sinnimos do termo Data Mining:
Data Archeology, Information Harvesting , Data Dredging alm dos termos
em portugus: Minerao de Dados, Arqueologia de Dados, Colheita de
Reviso da Literatura 44


Informaes e Extrao de Conhecimento. Ainda segundo os autores, h
vrias definies para o termo Data Mining, os mais comuns aceitos so:
Data Mining significa a aplicao de algoritmos para a
extrao de padres dos dados sem os passos adicionais do
processo de descoberta de conhecimento em bancos de
dados;
Data Mining: Procura de padres de interesse numa
determinada forma de representao, ou conjunto de
representaes: classificao, rvore de deciso, regras de
induo, regresso, segmentao;
Data Mining o processo de encontrar padres e relaes em
banco de dados de grandes dimenso, previamente
desconhecidos e potencialmente interessantes;
Data Mining o processo de extrair informao ou
conhecimento de conjuntos de dados para os propsitos da
tomada de deciso.
Sintetizando as definies sobre o termo, podemos concluir que
Data Mining a aplicao de mtodos e tcnicas em grandes bancos de
dados, com o objetivo de encontrar tendncias ou padres com o intuito de
descobrir conhecimento.
Chen (CHEN, 2001) ilustra um simples caso do uso da minerao de
dados com o objetivo de demonstrar uma aplicao prtica das tcnicas de
Data mining. A Tabela 3.1 demonstra um exemplo simples de transaes de
Reviso da Literatura 45


compras em um supermercado. A coluna Nmero da transao de compra
corresponde ao nmero do ticket impresso pelo caixa do supermercado no
momento do pagamento das mercadorias pelo cliente.
Uma vez que esto armazenados milhares de transaes de
compras no banco de dados do supermercado, seria interessante avaliar o
perfil de consumo dos clientes. Por exemplo, o que mais o cliente que
compra sorvete estaria propenso a comprar? Descobrir certas regularidades
ou tendncias seria de grande valia para a realizao de promoes ou at
mesmo no formato da disposio das gndolas das mercadorias.
Tabela 3.1 Amostra de transaes de um supermercado
armazenadas no banco de dados


Seguindo ainda o exemplo proposto por Chen (CHEN, 2001), para o
banco de dados proposto na Tabela 3.1, algumas regras mineradas so
demonstradas na Tabela 3.2. Por exemplo, o cliente que compra chocolate,
propenso a comprar tambm balas, o cliente que compra fraldas
propenso a comprar cerveja. Com o exemplo, o autor chama a ateno para
um das tcnicas de Data Mining, a associao.
Reviso da Literatura 46


Tabela 3.2 Exemplo de regras descobertas
atravs de tcnicas de Data
Mining


Segundo Santos e Azevedo (SANTOS e AZEVEDO, 2005), novos
domnios de minerao de dados tais como: MobiMine, Clinical Data Mining,
BiblioMining, TextMining e WebMining, esto despertando o interesse em
pesquisadores, os termos vm sendo citados em artigos de investigao
sobre o tema.
Goebel e Gruenwald (GOEBEL e GRUENWALD, 1999) argumentam
que o processo de Data Mining visto como um processo enfadonho e a
recomendao em geral, ainda, a aplicao experimental, atravs de
mtodos de tentativa e seleo dos melhores resultados.
Goldschmidt (GOLDSCHMIDT, 2005) e Santos e Azevedo (SANTOS
e AZEVEDO, 2005), descrevem os principais objetivos utilizados no uso das
tcnicas de minerao da seguinte forma:
Associao: Abrange a busca por itens que frequentemente
ocorram de forma simultnea em transaes do banco de dados.
Um exemplo clssico da utilizao desta tcnica, o caso de
uma grande rede de supermercado norte-americana que
percebeu que um nmero razovel de compradores de fralda
tambm compravam cerveja na vspera de finais de semana.
Reviso da Literatura 47


Atravs de uma anlise mais detalhada sobre os dados, pode-se
perceber que tais compradores eram, na realidade, homens que,
ao comprarem fraldas para seus filhos, compravam tambm
cerveja para o consumo no final de semana. Com o novo
conhecimento, a rede de supermercado aproximou as gndolas
de cervejas e fraldas.
Classificao: Consiste em descobrir uma funo que associe um
conjunto de registros a um conjunto de rtulos categricos
predefinidos, denominados classes. As tcnicas utilizadas na
classificao utilizam conjuntos de treino com exemplos pr-
classificados com a finalidade de construir modelos adequados
descrio classes, que posteriormente so aplicados a dados no
classificados. Um exemplo comumente utilizado na aplicao
desta tcnica referente a concesso de emprstimos bancrios.
A Figura 3.9 demonstra vinte e um casos de pedidos de
emprstimo, como variveis so consideradas o valor do
emprstimo e os rendimentos do solicitante. Os dados foram
classificados em duas classes: x maus pagadores e o
bons pagadores. Atravs do modelo, o banco poder decidir
sobre a solicitao de emprstimos futuros. Segundo os autores,
a classificao um dos objetivos mais comum em Data Mining.
Reviso da Literatura 48



Figura 3.9 - Classificao de emprstimos
bancrios

Regresso: Compreende a busca por uma funo que associe os
registros de um banco de dados valores reais. Este objetivo
similar ao objetivo de classificao, sendo restrito apenas a
variveis numricas.
Segmentao (Clusters): Utilizada para separar os registros de
um banco de dados em subconjuntos ou clusters, de tal forma
que os elementos de um cluster compartilhem de propriedades
comuns que os distingam de elementos de outros clusters.
Diferente da tarefa de classificao, que tem rtulos predefinidos,
a clusterizao precisa automaticamente identificar a qual cluster
pertence o elemento que esta sendo analisado, o nico pr-
requisito e informar a quantidade de clusters a serem formados.
Ainda no exemplo de pedidos de emprstimos, a Figura 3.10
demonstra a distribuio de elementos em trs clusters, sendo
Reviso da Literatura 49


que alguns elementos pertencem a mais do que um cluster,
devido a interseco destes.

Figura 3.10 - Clusters de emprstimos bancrios

Sumarizao: Esta tarefa consiste em identificar e indicar
caractersticas comuns entre conjunto de dados. Considerando
um banco de dados que contenha informaes sobre clientes que
so assinantes de uma determinada revista. Segundo a
sumarizao, um dos perfis dos assinantes encontrado foi:
homens na faixa etria de 25 a 45 anos, com nvel superior e que
trabalham na rea de finanas.
Deteco de Desvios: Consiste em identificar registros no banco
de dados cujas as caractersticas no sejam compatveis aos
padres considerados normais para o contexto em questo. Tais
registros so denominados outliers. Em um banco de dados que
contenha informaes sobre compras de clientes realizadas
atravs de carto de crdito, a compra representada pelo x
Reviso da Literatura 50


marcado pelo circulo na Figura 3.11 uma deteco de desvio
no perfil de compra do cliente.

Figura 3.11 Deteco de desvio no perfil de
compras pagas atravs de carto
de crditos

Rouquayrol (ROUQUAYROL, 1994) relata inconsistncias
encontradas em bases de dados do Sistema nico de Sade que indicam
irregularidades desses registros. Segundo Rouquayrol, foram encontrados
casos de cirurgias de extirpao de ovrios em indivduos do sexo
masculino, cirurgias cesarianas realizadas em meninas de 9 anos de idade e
at cirurgias cardacas em pacientes que j haviam falecido quatro anos
antes da data de ocorrncia da mesma.
Mtodos de deteco de desvios como o descrito acima, podem
auxiliar na deteco de problemas como os relatados por Rouquayrol,
independentemente destes serem fraudes ou simplesmente erros de
digitao.
Reviso da Literatura 51


No contexto da Sade Pblica, Santos e Gutierrez (SANTOS e
GUTIERREZ, 2008) implementaram um ambiente computacional para
extrao de informaes para gesto da Sade Pblica por meio da
minerao de dados dos sistemas de informao do Sistema nico de
Sade (SUS). A Figura 3.12 demonstra a arquitetura computacional proposta
pelos autores contendo os principais elementos para a produo de
informao analtica. Segundo os autores, os principais desafios
encontrados para a implantao de ferramenta que possibilite a extrao de
informao na rea da Sade Pblica so:
Dados so provenientes de unidades distintas com gestes
autnomas, como hospitais, postos de vacinao, secretarias
de sade. Dificuldade e demora na obteno dos dados so
os pontos crticos;
Dados armazenados em diversos formatos;
Limitao de recursos financeiros para investimento em infra-
estrutura;
Mudana de cultura para os usurios. Planilha do MS-Excel
a ferramenta amplamente difundida para a produo da
informao analtica atual;
Os dados disponveis pelo DATASUS apresentam problemas
de integridade referencial e de preenchimento;
Falta de documentao tcnica de apoio para os dados
produzidos pelos sistemas de informao do SUS;
Reviso da Literatura 52


Existncia de tabelas, como a CID (Classificao
Internacional de Doenas), que sofrem frequentes revises,
resultando em diferentes verses da mesma tabela.


Figura 3.12 Arquitetura do ambiente computacional. (adaptado de
SANTOS e GUTIERREZ, 2008)

O ambiente computacional proposto por Santos e Gutierrez, como
demonstrado na Figura 3.12, integra duas tecnologias de produo de
informao analtica: OLAP (On-line Analytical Processing) e OLAM (On-line
Analytical Mining). Desta forma, possvel produzir uma consulta OLAP,
como por exemplo: bitos por municpio, faixa etria, sexo e grupo tnico e
Reviso da Literatura 53


em seguida utilizar esta consulta para aplicar tcnicas de minerao,
agrupamentos, associao e classificao.
Ainda segundo os autores, a avaliao realizada por usurios
confirmou a coerncia da informao produzida pelo ambiente
computacional proposto, demonstrando a capacidade do ambiente em
extrair informaes teis gesto da Sade Pblica atravs de tcnicas de
minerao de dados.
Outro estudo na rea de sade que utilizou tcnicas de Data Mining
para extrao de padres foi o realizado por Semenova (SEMENOVA,
2004). Uma caracterstica interessante deste estudo a aplicao de
tcnicas de minerao de dados com foco em episdios de sade.
Segundo Semenova, em vrios pases, o setor sade esta
constantemente em alerta devido ao crescimento dos custos associados
utilizao de novos tratamentos, tcnicas diagnsticas ou ainda por
condutas ineficientes que s aumentam os custos sem nenhum benficos
adicional para os pacientes.
Semenova utilizou a base de dados de sade do Medicare (Sistema
Universal de Sade da Austrlia), que contm registros administrativos dos
atendimentos de pacientes, com o objetivo de estudar mtodos para
descobrir padres na conduta mdica. A autora defini dois termos para
agrupar cuidados dispensados ao paciente e que foram utilizados no estudo
da seguinte forma:
Reviso da Literatura 54


Episdios de cuidado: conjunto de um ou mais servios
mdicos recebidos por um indivduo durante um perodo de
contato relativamente contnuo, por um ou mais prestadores
de servios, em relao a um problema mdico particular ou
situao.
Episdio de cuidado de sade: um grupo de exames
solicitados para um paciente pelo mesmo mdico no mesmo
dia. Transformando esta definio para caractersticas de
base dados teremos, um conjunto de todos os registros para
o mesmo nmero de identificao do paciente, referindo o
mesmo prestador de servio e tendo a mesma data de
referncia.
A autora ressalta a importncia para a difereniao entre episdios
de cuidados e episdios de doenas. Segundo Semenova, episdios de
cuidados so direcionados para os cuidados de sade que foram
dispensados ao paciente. Por outro lado, episdios de doena focam as
exprecincias dos pacientes.
Na base de dados do Medicare esto presentes variais combinaes
de itens tais como, consultas mdicas, diagnsticos, ordens mdicas e
procedimentos realizados pelos prestadores de servios de sade para os
diversos pacientes. Entretanto, os registros contidos na base de dados do
Medicare no apresentam informaes sobre os efeitos dos tratamentos
clnicos, nem contm informaes sobre as pr-condies dos tratamentos
ou a durao da doena.
Reviso da Literatura 55


A base de dados utilizada para o estudo tinha um total de 3.617.556
pacientes distintos e 13.192.295 transaes (consultas, procedimentos,
prescries). Aplicando as definies de episdio de cuidado, encontrou-
se 368.337 histrias, ou seja, aproximadamente 10% do total de pacientes e
aplicando as definies de episdio de cuidado de sade encontrou-se
2.145.864 eventos, aproximadamente 16% do total.
Episdios de cuidado de sade foram definidos atravs da
composio do identificador nico do prestador de sade e o identificador
nico do paciente os quais esto ligados informaes sobre a conduta
mdica e caractersticas do paciente.
Segundo Semenova, os conjuntos de itens resultantes pelas
tcnicas de episdios foram considerados uma excelente forma de resumir
episdios de cuidados na base de dados do Medicare. A combinao
organizada de itens num contexto de um perodo de tempo proporcionou
significado financeiro e clnico e, portanto, representa padres da prtica de
cuidados de sade. Ainda, segundo a autora, atravs do contexto de
episdios, possvel extrair uma fotografia detalhada dos servios de sade
fornecidos e consumidos e cita como exemplo o achado onde foi prescrito
um nmero de exames de sangue, no mesmo dia, para o mesmo paciente e
pelo mesmo mdico indicando, pelo menos, uma raridade no tratamento
mdico.
Semenova conclui que aplicar tcnicas de minerao na base de
dados do Medicare uma forma eficiente de descoberta de padres da
prtica mdica. Entretanto, a autora ressalta a necessidade de interpretar
Reviso da Literatura 56


esses padres a fim de possibilitar a avaliao correta das necessidades dos
servios prestados.
As caractersticas da base de dados do Medicare australiano so
semelhantes s caractersticas da base de dados do Sistema nico de
Sade brasileiro. Porm, a inexistncia de um identificador nico para o
paciente do SUS implica em um desafio maior na aplicao do conceito de
episdios e consequentemente a aplicao de tcnicas de Data Mining neste
contexto.

Assim como outros autores, Kriegel et al. (KRIEGEL, 2007) chamam
a ateno para o volume gigantesco de informao que gerado
atualmente. Os sistemas de captura esto cada vez mais sofisticados,
complexos e interdisciplinares. Entretanto, extrair automaticamente
informaes preciosas destes sistemas continua sendo um desafio.
Segundo Kriegel, nos ltimos anos, a minerao de dados vem se
firmando como uma das principais disciplinas em cincias da computao
com o crescente impacto industrial e com tendncia de crescimento nas
prximas dcadas. Para os autores, a descoberta de conhecimento deve ser
mais do que o reconhecimento puro de padres, apresentar os dados de
maneira que permita anlise clara e objetiva uma tarefa fundamental.
Ainda segundo os autores, as tendncias futuras para a minerao de dados
apontam para as seguintes caractersticas:
Tornar a aplicao de algoritmos de minerao uma atividade
acessvel a no-especialista em minerao de dados, ou
Reviso da Literatura 57


seja, baseado nas caractersticas da base de dados, as
ferramentas devero auxiliar inclusive na escolha do
algoritmo;
A apresentao dos resultados da minerao de dados
dever facilitar a interpretao dos mesmos;
A etapa de pr-processamento dever torna-se mais eficiente,
mais rpida e mais transparente do que atualmente.
Sistemas especialistas devero, automaticamente, realizar o
pr-processamento em vrias formas diferentes e relatar os
resultados e possveis diferenas entre as diversas tcnicas.
Os autores concluem que os desafios que a minerao de dados
enfrenta e continuar enfrentando para o aumento da usabilidade so: tornar
os mtodos de minerao de dados mais amigveis; desenvolver formas de
apresentao para que a descoberta de novos tipos de padres sejam fceis
de interpretar, mesmo que os dados de entrada sejam complexos .

3.4.5 Relacionamento de Registros (Record Linkage)
O relacionamento de bases de dados, na literatura internacional
conhecido como Record Linkage, pode ser definido como uma rea do
conhecimento voltada para o estudo do mtodo de busca de pares ou
registros duplicados dentro de um mesmo arquivo ou entre arquivos. Este
processo pode ser feito por meio de duas abordagens, a determinstica e a
probabilstica. Denomina-se relacionamento determinstico quando a busca
feita por uma concordncia exata entre uma ou mais variveis existentes em
Reviso da Literatura 58


um ou mais arquivos formando um cdigo ou identificador unvoco comum
entre as bases. J o relacionamento probabilstico de bases de dados pode
ser definido como um processo de pareamento de duas ou mais bases de
dados utilizando probabilidades de concordncia e discordncia entre um
conjunto de variveis comuns s duas bases.
Newcombe e Kennedy (NEWCOMBE , 1962) aparecem como um
dos pioneiros em 1962, seguidos por Fellegi e Sunter (FELLEGI, 1969) com
a publicao A Theory for Record Linkage.
O relacionamento determinstico aplicado para bancos de dados
que permitam relacionar seus registros baseados em um determinado
identificador ou conjunto de identificadores unvocos, como exemplos
podemos citar o CPF (cadastro nacional de pessoa fsica) e a CNH (carteira
nacional de habilitao) (ROMERO, 2008). Na ausncia desses
identificadores, a alternativa o uso do relacionamento probabilstico, o qual
se utiliza de combinaes de variveis para classificar o relacionamento
como provvel, duvidoso ou improvvel (CLARK, 1995). Essa classificao
baseada na semelhana das variveis utilizadas para comparao.
Consideremos os seguintes registros como exemplo:
Tabela 3.3 Amostra de registros de pessoas
Registro Nome Nascimento Sexo
1 Fbio Antero Pires 26/08/1968 Masculino
2 Fbio Antero Pires 26/08/1968 Masculino
3 Fbio Antero Pires 26/08/1986 Masculino
4 Fbio Antero Pires 17/05/1948 Masculino

Reviso da Literatura 59


Quando comparados, os registros 1 e 2 apresentam uma grande
possibilidade de pertencerem ao mesmo individuo, pois o contedo de todas
variveis so idnticas. Sendo assim, a associao desse par ser
classificada como provvel. Por outro lado, o par formado pelos registros 1
e 4 ter a associao classificada como improvvel. Apesar dos contedos
das variveis <nome>e <sexo>serem idnticos, os contedos da varivel
<data de nascimento> so completamente diferentes. Por ltimo, o par
formado pelos registros 1 e 3 ter a associao classificada como
duvidosa, pois a diferena no ano, apresentada nos contedos da varivel
<data de nascimento>pode ser um erro de digitao, ou seja, uma inverso
de posio entre os caracteres 8 e 6.
No Brasil, h diversos trabalhos na rea da Sade Pblica que esto
estudando mtodos determinsticos e probabilsticos visando ter sucesso no
relacionamento de registros para estudos epidemiolgicos. Ges et al.
(GES, 2006 ) e Lucena et al. (LUCENA, 2006), aplicaram a metodologia de
relacionamento probabilstico para a realizao de estudos de vigilncia de
AIDS utilizando as bases de dados do Sistema de Controle de
medicamentos (SICOM/SMS e SICLOM), do Sistema de Informao de
Agravos de Notificao (SINAN) e do Sistema de Controle de Exames
Laboratoriais (SISCEL).
Com o objetivo de estudar a mortalidade hospitalar e mortalidade
ocorrida em 30 dias aps a alta hospitalar, em pacientes com fratura
proximal de fmur, Pinheiro et al. (PINHEIRO, 2006) relacionaram os dados
do Sistema de Informao sobre Mortalidade (SIM) e Informaes
Reviso da Literatura 60


Hospitalares (SIHSUS). O perodo estudado compreendeu bitos ocorridos
nos anos de 1995 e 1996 e internaes ocorridas em 1995, para pacientes
com 60 anos ou mais residentes no municpio do Rio de J aneiro.
Utilizando somente os dados do SIHSUS, a mortalidade foi de 3,6%
(22 bitos; IC 95%: 2,4 5,4%). Com a aplicao do relacionamento entre
as bases de dados dos dois sistemas, foram recuperados oito bitos no SIM
cuja data do bito foi igual data da alta hospitalar e no haviam sido
computados no SIHSUS como bito hospitalar. Incluindo esses casos, a taxa
de mortalidade hospitalar aumentou para 5,0% (30 bitos; IC 95%: 3,5
7,0%).
Considerando a mortalidade em 30 dias aps a admisso, verificou-
se a ocorrncia de 46 bitos (7,6%; IC 95% 5,710,0%), 16 bitos a mais se
considerarmos a mortalidade hospitalar corrigida pelo SIM.
Em outro trabalho, Teixeira et al. (TEIXEIRA, 2006) utilizaram
tcnicas de relacionamento de registros nas informaes disponveis no
Sistema de Informaes sobre Mortalidade (SIM) e no Sistema de
Autorizao de Internao Hospitalar (AIH) com o objetivo de estudar as
ocorrncias de causas de bitos mal definidas e a existncia de assistncia
mdica prestada no perodo que antecede o bito.
Observando o interesse de relacionar registros de diferentes bancos
de dados na rea da sade, Camargo e Coeli (CAMARGO, 2000)
desenvolveram um aplicativo denominado Reclink, o qual implementa o
mtodo probabilstico de relacionamento de registro. Por ser um aplicativo
Reviso da Literatura 61


de fcil uso e no necessitar de conhecimentos avanados de informtica,
esta sendo utilizado em diversos trabalhos nesta rea (COUNTINHO, 2008),
(MACHADO, 2008) e (SOUSA, 2008).
Pacheco et al. (PACHECO, 2008) utilizaram trs bases de dados
com o objetivo de validar um algoritmo de relacionamento de registro
determinstico baseado em regras hierrquicas. As bases de dados
utilizadas foram: a) Coorte de pacientes portadores do HIV em seguimento
no Hospital Universitrio Clementino Fraga Filho, contendo 2.666 pacientes;
b) Coorte de pacientes pertencentes ao estudo TB-HIV (THRio) - pacientes
portadores de HIV e tuberculose contendo mais de 15.000 pacientes; c)
Sistema de Informaes sobre Mortalidade (SIM), contendo dados referente
ao perodo de 2000 a 2006. Segundo os autores, a performance alcanada
pelo algoritmo foi considera excelente, com a sensibilidade acima de 90%.
Silveira e Artmann (SILVEIRA, 2009), em recente estudo de reviso
sistemtica, identificaram que o nmero de estudos voltados ao
desenvolvimento e aprimoramento de mtodos de relacionamento nominal
de bases de dados vem crescendo nos ltimos anos. A maior parte dos
trabalhos foram conduzidos e publicados nos EUA, Reino Unido e Nova
Zelndia. Segundo os autores, no Brasil, apesar de uma extensa difuso e
aplicao deste mtodo em estudos de diversas reas de conhecimento, em
especial na epidemiologia, ainda so poucos os trabalhos que visam a
identificar um mesmo indivduo em duas ou mais bases de dados nominais.

Reviso da Literatura 62


Uma considerao importante feita por Scheuren (SCHEUREN,
1999), e que deve ser reforada, a definio clara da finalidade do
resultado do relacionamento das bases de dados. Todas as operaes de
relacionamento de registros, determinsticas ou probabilsticas, esto
sujeitas a dois tipos de erros: O primeiro, denominado falso-negativo ou
Tipo I, o mais comum e ocorre quando o algoritmo no consegue agrupar
registros referentes ao mesmo indivduo. O segundo, denominado falso-
positivo ou Tipo II, potencialmente mais grave e ocorre quando o
algoritmo agrupa registros referente a indivduos diferentes.


3.4.5.1 Blocagem
Segundo Coeli et al. (COELI, 2002) o nmero de pares possveis
com a combinao de duas bases de dados igual ao produto entre o
nmero de registros na primeira base e o nmero de registros na segunda
base. Por exemplo, o relacionamento de duas bases de dados com 10 x 10
3
registros cada implicaria na necessidade de comparao de 100 x 10
6
de
pares de registros, o que demandaria um alto custo para o processamento
das comparaes.
A blocagem permite que as bases de dados sejam logicamente
divididas em blocos mutuamente exclusivos, sendo as comparaes
limitadas aos registros pertencentes a um mesmo bloco. Os blocos so
constitudos de forma a aumentar a probabilidade de que os registros neles
contidos representem pares verdadeiros.
Reviso da Literatura 63


O processo consiste na indexao dos arquivos a serem
relacionados segundo uma chave formada por uma varivel ou atravs da
combinao de duas ou mais variveis. Os registros de um determinado
bloco apresentam o mesmo valor para a chave escolhida.
A Figura 3.13 demonstra um exemplo hipottico de blocagem, na
qual o prenome foi considerado para formao dos blocos, conforme
descrito nos campos CHAVE A e CHAVE B.

Figura 3.13 Exemplo hipottico da tcnica de blocagem, considerando
o prenome como chave para constituio dos blocos

Coeli et al. (COELI, 2002) sugere a utilizao de diferentes chaves
em passos sequenciais, ou seja, emprega-se uma determinada chave para
blocagem e procede-se comparao dos registros. Os registros no
pareados na primeira etapa so novamente comparados empregando-se
uma nova chave.
Reviso da Literatura 64


A chave para a blocagem deve apresentar um grande nmero de
valores que se distribuem de modo relativamente uniforme, buscando desta
maneira alcanar a diviso ideal do arquivo: um nmero grande de blocos
com tamanhos reduzidos (poucos registros por bloco). Adicionalmente, as
variveis que formam a chave devem apresentar baixa probabilidade de
ocorrncia de erros. A ocorrncia de erros fazem com que os registros
relativos a um mesmo indivduo sejam alocados em blocos diferentes,
impossibilitando a comparao dos registros e levando a classificao dos
mesmos como falsos no pares. Os blocos 5 e 6 da Figura 3.14 demonstra o
problema de uma chave de blocagem muito restritiva.

Figura 3.14 Exemplo hipottico da tcnica de blocagem restritiva




























Mtodos




Mtodos

66

4. MATERIAIS E MTODOS

4.1 Fonte de Dados
Neste trabalho foram utilizadas trs fontes de dados diferentes, a
primeira pblica e esta disponvel no stio do Departamento de Informtica
do SUS (DATATUS). A segunda foi conseguida graas colaborao do
Grupo de Informtica em Sade da Secretaria Estadual da Sade de So
Paulo (SES/SP) e a terceira e ltima com o apoio das reas de Tecnologia
da Informao do Hospital das Clnicas da Faculdade de Medicina da
Universidade de So Paulo (HCFMUSP). O perodo dos arquivos
compreende os anos entre 2000 2009 e somente para pacientes que
foram atendidos no estado de So Paulo.

4.1.1 Bases de Dados do DATASUS
As bases de dados utilizadas neste trabalho so referentes aos
sistemas SIHSUS, SIASUS, SIM, SINASC e CNES e foram obtidas atravs
de download dos arquivos disponibilizados pelo DATASUS
(http://www.datasus.gov.br).
Para este trabalho, foi utilizado somente os arquivos que j
encontravam-se consolidados, ou seja, no seriam realizadas novas
publicaes contendo alteraes. Sendo assim, para os sistemas SIHSUS,
SIASUS, SIM e SINASC o perodo utilizado foi de 2000 2007. Como
objetivo deste trabalho deixar o ambiente para pesquisas futuras, assim que
Mtodos

67
os anos de 2008 e 2009 estiverem consolidados, estes sero includos no
ambiente.
No decorrer deste trabalho, as bases de dados do DATASUS sero
descritas como BD-DATASUS.

4.1.2 Bases de Dados da SES/SP

Como um dos objetivos principais deste trabalho foi permitir a
comparao de populaes, era fundamental ter o seguimento dos pacientes
baseados nos episdios de assistncias dispensadas aos mesmos e isto
somente seria possvel tendo a base de dados com os atendimentos
identificados, ou seja, estar contido na base de dados os atributos que
possibilitem a identificao do paciente.
As bases de dados disponibilizadas pela SES/SP, que continham
dados demogrficos dos pacientes, foram as dos sistemas: 1) SIHSUS,
referente ao perodo de 2000 2005; 2) APAC do SIASUS, referente ao
perodo de 2000 2007; 3) SIM, referente ao perodo 2000 2008.
Segundo a SES/SP, devido alterao no processo de envio de
arquivos do SUS, os dados do SIHSUS, a partir de 2006 foram enviados
pelos municpios diretamente para o DATASUS o mesmo ocorrendo para o
SIASUS a partir de 2008.
O mesmo pedido de disponibilizao das bases de dados contendo
a identificao dos pacientes, foi encaminhado ao Ministrio da Sade.
Porm, at o presente momento, o pedido encontra-se em avaliao pelo
Mtodos

68
DECIT (Departamento de Cincia e Tecnologia do Ministrio da Sade). Da
mesma forma que ser includo no ambiente os dados do DATASUS,
referente aos anos de 2008 e 2009, quando estiverem consolidados,
tambm ser includo e trabalhado os dados individuais, caso o haja
liberao do DECIT.
As bases de dados da SES/SP, utilizadas neste trabalho sero
descritas como BD-SES/SP.

4.1.3 Bases de Dados do Hospital das Clnicas da Faculdade de
Medicina da Universidade de So Paulo.

A base de dados fornecida pelo HCFMUSP teve como objetivo
recuperar pacientes atendidos no hospital no perodo 2000 2007 e que
faziam parte da BD-SES/SP. O relacionamento entre as duas bases de
dados permitiu a criao de uma base de dados denominada BD-Controle,
a qual foi utilizada para avaliar o algoritmo de relacionamento de registros
(Record Linkage). Foram disponibilizados os atendimentos de pacientes
internados, os quais faziam parte do sistema SIHSUS, bem como os
atendimentos ambulatoriais considerados de alta complexidade (BRASIL,
2010a e BRASIL, 2010b), incluindo os medicamentos dispensados atravs
da farmcia do HCMFUSP para o tratamento da alta complexidade, os quais
faziam parte do mdulo de APAC do sistema SIASUS .
As bases de dados do Hospital das Clnicas da Faculdade de
Medicina da Universidade de So Paulo, sero identificadas no decorrer
deste trabalho como BD-HCFMUSP.
Mtodos

69

A Figura 4.1 demonstra o relacionamento das bases de dados
utilizadas neste trabalho. Apesar da caracterizao individual de cada base
de dados, a base de dados BD-HCFMUSP um subconjunto da base de
dados BD-SES/SP que por sua vez um subconjunto da base de dados BD-
DATASUS. A utilizao dos subconjuntos foram necessrios para
complementar variveis que no estavam disponveis na base de dados BD-
DATASUS. A base de dados BD-HCFMUSP, contribuiu com a varivel
<RGHC>, identificador unvoco do paciente no HCFMUSP, a base de dados
BD-SES/SP contribuiu com as variveis de identificao e demogrficas do
paciente, as demais variveis foram adquiridas da base de dados BD-
DATASUS. O relacionamento entre as bases de dados foram realizadas
atravs das variveis <nmero da AIH> e <nmero da APAC>,
identificadores unvocos para os sistemas de internao e atendimento de
alta complexidade, respectivamente.

Figura 4.1 Bases de dados utilizadas como fonte de
dados
Mtodos

70
4.2 Extrao e Transformao dos Dados de Origem
A estratgia adotada para a carga dos dados consistiu na criao de
duas bases de dados distintas, uma contendo os dados no seu formato
original , conforme disponibilizado pelas fontes de dados , e outra, contendo
os dados no modelo multidimensional, conforme modelo proposto por
Kimball (KIMBALL, 2002) e Santos e Gutierrez (SANTOS e GUTIERREZ,
2008).
Na carga inicial, os dados das fontes originais foram carregados em
uma base de dados intermediria denominada STAGE, onde ocorreram
validaes, limpezas e algumas transformaes de dados visando a
resoluo dos rudos. A Figura 4.2 demonstra os principais elementos do
DW e suas inter-relaes. A STAGE servir como a fonte de dados para a
carga da base multidimensional, denominada DW, e que ser descrito nas
prximas sees.

Figura 4.2 Diagrama dos elementos do DW: Bases de Dados (fontes de dados
originais), STAGE (cpia das fontes de dados originais e pr-
processamento) e Apresentao dos dados (modelos dimensionais
processados e dicionrio de metadados) .
Mtodos

71
4.2.1 Dados do DATASUS
A primeira etapa da carga ocorreu na STAGE no sendo aplicada
nenhuma alterao na estrutura dos arquivos, nem regras de
transformaes de dados, ou seja, os arquivos disponibilizados pelo
DATASUS foram carregados na STAGE, em tabelas com estrutura
semelhante aos arquivos e com o mesmo contedo.
Para garantir a qualidade dos dados, procedimentos de anlise
volumtrica e anlise de integridade referencial foram realizados, conforme
descrito a seguir:
A anlise volumtrica correspondeu contagem das linhas
carregadas na STAGE e a comparao com a quantidade de
registros existentes nos arquivos de origem. Apesar de ser
uma anlise simples ela fundamental para garantir que
nenhum dado deixe de ser carregado no DW. O custo de
retrabalho e credibilidade do DW podem ser comprometidos
por falta de dados que no foram carregados.
A anlise da integridade referencial correspondeu
verificao de registros existentes que sero carregados nas
tabelas fato, sem os registros correspondentes que sero
carregados nas dimenses relacionadas. A Figura 4.3
demonstra um exemplo de violao de integridade referencial,
ou seja, o registro do paciente J urandir dos Santos indica o
contedo 9 para o cdigo do sexo, e como pode ser visto,
Mtodos

72
este cdigo no existe na tabela de sexo. Para os registros
onde no havia um contedo na dimenso correspondente,
foi criado um registro na dimenso com o contedo ??.
Posteriormente, estes contedos foram analisados por
especialistas que conheciam os termos utilizados na Sade
Pblica visando reconhecer uma fonte de informao vlida
para o contedo em questo. Por ltimo, para os casos onde
no foi possvel encontrar uma fonte vlida, foi inserido um
registro na dimenso com o valor No identificado e
associado ao fato em questo. Este processo visa no perder
o registro de um fato por no ter o valor correspondente a
uma das diversas dimenses associadas a este.


Figura 4.3 Exemplo de tabelas com violao de integridade
referencial

4.2.2 Dados da SES/SP
O mesmo mtodo utilizado na primeira etapa para a carga dos
dados do DATASUS foi aplicado nas fontes de dados da SES/SP. As bases
Mtodos

73
de dados do SIHSUS e SIASUS fornecidas pela SES/SP estavam
representadas no formato de tabela nica para cada sistema, ou seja, uma
nica tabela para o SIHSUS contendo as variveis da AIH com contedo
referente ao perodo de 2000 2005 e outra tabela nica para SIASUS
contendo as variveis da APAC com o contedo referente ao perodo de
2000 2007.
Estas tabelas estavam no formato de banco de dados relacional, e
foram simplesmente carregadas na STAGE no mesmo formato fornecido
pela SES/SP.
O objetivo das tabelas contidas na BD-SES/SP permitir a
recuperao das variveis de identificao, incluindo dados demogrficos,
dos pacientes para a aplicao da tcnica de associao de registros
(Record Linkage) e vincular as diversas internaes ou atendimentos de alta
complexidade a um determinado paciente. Sendo assim, somente as
variveis de identificao, do paciente, as demogrficas e o nmero da AIH
ou nmero da APAC foram trabalhadas na STAGE.
Alm do processo de seleo das variveis de interesse, tambm foi
aplicado o processo de limpeza destas tabelas. Os registros do SIHSUS
(BD-SES/SP) que no tiveram um correspondente no SIHSUS (BD-
DATASUS) foram eliminados, isto resultou na excluso de 2,95% do total de
registros. A comparao desses registros foram realizados atravs da
varivel considerara chave (<nmero da AIH>) nesse sistema.
O mesmo processo realizado no SIHSUS foi aplicado no SIASUS,
ou seja, os registros do SIASUS (BD-SES/SP), que no tiveram um
Mtodos

74
correspondente no SIASUS (BD-DATASUS) foram eliminados, isto resultou
na excluso de 11,70% do total de registros. A comparao deste registros,
foi realizada atravs da varivel <nmero da APAC>, considerada chave do
mdulo de autorizao de procedimentos de alta complexidade.
A existncia de registros de AIH e de APAC na base de dados BD-
SES/SP, sem correspondncia na base de dados BD-DATASUS justifica-se
pelo fato destas terem sido rejeitas nos processos de validao, no nvel
estadual, antes do envio para o nvel federal.
Os dados do SIM, disponibilizadas na BD-SES/SP, estavam
particionados em oito arquivos, um por ano e no formato dbf. Assim, como
nos processos anteriores, este arquivos seriam carregados no formato
original para a STAGE. Entretanto, durante a verificao das estruturas dos
arquivos para a criao das estruturas na STAGE, percebeu-se que os
mesmos tinham estruturas (definio das variveis) diferentes. Uma anlise
mais detalhada revelou que os arquivos do perodo de 2000 2005 no
continham variveis de identificao do paciente.
Atravs de uma consulta aos tcnicos da SES/SP, foi confirmado
que os dados do SIM, que contm dados demogrficos dos pacientes, esto
limitados ao perodo de 2006 2008. Sendo assim, foi criado na STAGE
uma tabela consolidando os dados do SIM referentes aos anos de 2006,
2007 e 2008.
Por fim, foram aplicados os mesmos procedimentos de anlise
referencial realizados nos dados da BD-DATASUS.

Mtodos

75
4.2.3 Dados do HCFMUSP
Quatro arquivos, com os dados de faturamento, foram fornecidos
pelos grupos de TI do HCFMUSP, dois com dados que haviam sido
apresentados pela Fundao Faculdade de Medicina e outros dois com
dados que haviam sido apresentados pela Fundao Zerbini. As estruturas
dos arquivos foram divididas em apresentaes de AIH e de APAC. A
primeira estrutura continha o nmero da AIH e o nmero do RGHC (nmero
de matrcula do paciente no HCFMUSP) e a segunda estrutura continha o
nmero da APAC e o nmero do RGHC.
Segundo os tcnicos de TI do HCFMUSP, o nmero RGHC
composto de nmeros mais um dgito verificador no formato de letra. A
formula matemtica para calculo deste dgito foi fornecida para que fosse
aplicada na varivel <RGHC>contida nos arquivos encaminhados.
Todos arquivos foram carregados na STAGE no formato original e
foram submetidos a etapa de consistncia, tanto na varivel <RGHC>, bem
como nas variveis <nmero de AIH> e <nmero de APAC>. Foram
excludos, da STAGE, os registros onde o RGHC no pode ser validado
atravs do digito verificador (assim como ocorre no CPF o RGHC contempla
um digito verificador, utilizado para validar um nmero de matrcula de
paciente). Os registros excludos nessas condies contemplaram 4,58% do
total de registros da STAGE.
Tambm foram excludos os registros que no tiveram
correspondncia na BD-DATASUS, ou seja, quando o nmero da AIH ou o
Mtodos

76
nmero da APAC no foi encontrado nas tabelas que haviam sido
carregadas previamente para o STAGE. Esses registros corresponderam a
22,06% do total de registros na STAGE.

4.3 Associao de Registros (Record Linkage)

A Tabela 4.1 relaciona os mtodos e dicionrios desenvolvidos para
as etapas de anlise, consistncia e padronizao das variveis das bases
de dados BD-SES e BD-Controle. O detalhamento de cada mtodo e
dicionrio sero apresentados ao longo deste captulo.

Tabela 4.1 Mtodos desenvolvidos para anlise, consistncias e
padronizao de variveis
Mtodo / Dicionrio Utilizao
Avaliar a repetio de caracteres e a
quantidade distinta de caracteres no
contedo de uma varivel
Anlise do preenchimento e
consistncia das variveis
Avaliar abreviaes no incio da varivel Anlise do preenchimento e
consistncia das variveis
Avaliar a presena de caracteres
especiais no contedo da varivel
Anlise do preenchimento e
consistncia das variveis
Avaliar a presena de caracteres
numricos no contedo da varivel
Anlise do preenchimento e
consistncia das variveis
Padroniza logradouro Padronizao das variveis
Fonetiza strings Padronizao das variveis
Reduz strings Padronizao das variveis
Dicionrio: Nomes invlidos Padronizao das variveis
Dicionrio: Prefixos Padronizao das variveis
Dicionrio: Abreviaes Padronizao das variveis



Mtodos

77
4.3.1 Identificao das Variveis
Os dados do SIASUS, armazenados na BD-SES/SP, estavam
distribudos em 116 variveis, das quais 11 foram elegveis para utilizao
no processo associao de registros. A Tabela 4.2 demonstra as variveis
selecionadas.
Os dados do SIHSUS, armazenados na BD-SES/SP estavam
distribudos em 123 variveis, das quais 9 foram elegveis para utilizao no
processo associao de registros. A Tabela 4.3 demonstra as variveis
selecionadas. As variveis <Nome da Me> e <CPF> no estavam
presentes nos dados do SIHSUS.
Os dados do SIM, armazenados na BD-SES/SP estavam
distribudos em 72 variveis, das quais 10 foram elegveis para utilizao no
processo associao de registros. A Tabela 4.4 demonstra as variveis
selecionadas. A varivel <CPF>no estava presente nos dados do SIM.
Tabela 4.2 Variveis do SIASUS, armazenadas na BD-SES/SP,
utilizadas no processo de associao de registros
Varivel Descrio
AUX_NOMEPC Nome do Paciente
AUX_NASCPC Data de Nascimento
AUX_NOMEMA Nome da Me
AUX_SEXOPC Sexo
AUX_CPFPCN CPF do Paciente
AUX_NUMPCN Municpio de Residncia do Paciente
AUX_LOGPCN Logradouro de Residncia do Paciente
AUX_MUNPN Nmero do Logradouro de Residncia do Paciente
AUX_CPLPCN Complemento do Logradouro de Residncia do Paciente
AUX_CEPPCN CEP da Residncia do Paciente
APAC Nmero da APAC
Mtodos

78
Tabela 4.3 Variveis do SIHSUS, armazenadas na BD-SES/SP,
utilizadas no processo de associao de registros
Varivel Descrio
NOME_PAC Nome do Paciente
NASC Data de Nascimento
SEXO Sexo
MUNIC_RES Municpio de Residncia do Paciente
LOGR Logradouro de Residncia do Paciente
NUMERO Nmero do Logradouro de Residncia do Paciente
COMPL Complemento do Logradouro de Residncia do Paciente
CEP CEP da Residncia do Paciente
N_AIH Nmero da AIH

Tabela 4.4 Variveis do SIM, armazenadas na BD-SES/SP, utilizadas
no processo de associao de registros
Varivel Descrio
NOME Nome do Indivduo
DTNASC Data de Nascimento
NOMEMAE Nome da Me
SEXO Sexo
CODMUNRES Municpio de Residncia do Indivduo
ENDRES Logradouro de Residncia do Indivduo
NUMRES Nmero do Logradouro de Residncia do Indivduo
COMPLRES Complemento do Logradouro de Residncia do Indivduo
CEPRES CEP da Residncia do Indivduo
DTOBITO Data de bito do Indivduo


Mtodos

79
4.3.2 Anlise do Preenchimento e Consistncia das Variveis

Atravs de anlises exploratrias nas bases de dados, buscou-se
conhecer padres de preenchimento e consistncia das variveis e entre
variveis, quando aplicvel. Devido ao grande volume de registros contido
na base de dados BD-SES/SP, foi necessrio desenvolver alguns mtodos
para auxiliar estas anlises, os quais so descritos a seguir:
Mtodo para avaliar a repetio de caracteres e a quantidade
distinta de caracteres no contedo de uma varivel. Por
exemplo, uma varivel com contedo igual a NONONONO
NONONO, submetido a este mtodo, retorna como resultado
2=N(7) O(7). Ou seja, o contedo desta varivel contm
somente 2 caracteres diferentes, sendo 7 caracteres N e 7
caracteres O
Mtodo para avaliar abreviaes no incio da varivel. Por
exemplo, uma varivel com contedo igual a AV. ENEAS DE
CARAVALHO submetida a este mtodo, retorna como
resultado AV.
Mtodo para avaliar a presena de caracteres especiais no
contedo da varivel. Por exemplo, uma varivel com
contedo igual a M DA SILVA submetida a este mtodo,
retorna como resultado .
Mtodo para avaliar a presena de caracteres numricos no
contedo da varivel. Por exemplo, uma varivel com
contedo igual a RUA 25 DE MARO submetida a este
Mtodos

80
mtodo, retorna como resultado verdadeiro, ou seja, h
caracteres numricos nessa varivel.
Para as variveis <Nome do Paciente>e <Nome da Me>, foram
aplicado os mtodos descritos acima com o objetivo de avaliar o contedo
anmalo nestas variveis. Ainda para estas variveis, foi criado um ranking
com os nomes, considerando sua frequncia relativa, com o objetivo de
descobrir padres que deveriam ser desconsiderados, as Tabelas 4.5 e 4.6
demonstram alguns exemplos de nomes.
Outra anlise realizada objetivou descobrir se havia variabilidade do
contedo das variveis <sexo> e <data de nascimento> para o mesmo
paciente. Assim, foram considerados todos registros que, atravs da
comparao determinstica simples fossem exatamente iguais.
Para a anlise da varivel <sexo>, o conjunto de variveis
estabelecido foi: <nome do paciente>, <data de nascimento>, <nome da
me>, <logradouro>e <CEP>. Foram encontradas 64.895 ocorrncias com
variao do sexo.
Para a anlise da varivel <data de nascimento>, o conjunto de
variveis estabelecido foi: <nome do paciente>, <sexo>, <nome da me>,
<logradouro> e <CEP>. Foram encontradas 215.999 ocorrncias com
variao da data de nascimento.
A varivel <CPF> pode ser considera como uma varivel de
identificao unvoca do indivduo. Mesmo essa varivel estando presente
somente nos registros do SIASUS j seria de extrema utilidade para a
Mtodos

81
identificao da alta complexidade. Para validar esta informao trs
verificaes foram realizada:
Aplicao do mtodo para avaliar a repetio de caracteres,
citado anteriormente, com o objetivo de encontrar nmeros
que so considerados vlidos pela frmula matemtica de
verificao do dgito verificador do CPF, porm no so
nmeros atribudos indivduos como por exemplo,
00000000000, 11111111111 ... 99999999999. Foram
encontrados registros nesta situao.
Verificar se existia, para o mesmo paciente, mais de um CPF.
Para esta verificao foi utilizada a definio de mesmo
paciente citada anteriormente. Foram encontrados registros
nesta situao.
Verificar se existia, para o mesmo CPF, mais de um paciente.
Para esta verificao foi utilizada a definio de mesmo
paciente citada anteriormente. Foram encontrados registros
nesta situao.
Analisando os resultados das verificaes para a varivel <CPF>, foi
possvel concluir que a existncia de nmeros invlidos justifica-se para
atendimentos onde pessoas de baixa renda no tenham tal documento e
sendo esta varivel obrigatria, o sistema encontrou uma forma de
ultrapassar esta barreira. Para pacientes, onde foi encontrado mais de um
CPF, foi possvel concluir que estes eram nmeros de CPF de pais ou
responsveis, quando o atendimento foi realizado a um menor ou de filhos,
Mtodos

82
quando o atendimento foi realizado a um idoso. O mesmo pode ser
concludo para a incidncia do mesmo nmero de CPF para mais de um
paciente, ou seja, o CPF de pais ou responsveis para mais de um filho.
Uma ltima anlise foi realizada para as variveis <CEP> e
<logradouro>com o objetivo de avaliar a consistncia da varivel <CEP>,
quando comparada com o banco de dados dos Correios e a consistncia
entre a varivel <CEP>e a varivel <logradouro>.
Para a varivel <CEP>, aplicou-se o mtodo de comparao
determinstica simples, comparando esta varivel com o
banco de dados dos Correios. Em 21,5% dos registros, no
foi encontrada correspondncia no banco de dados dos
Correios.
Para verificar se o contedo da varivel <logradouro>
correspondia ao contedo da varivel <CEP>, foi selecionado
aleatoriamente uma amostra com 300 registros, onde foi
encontrada correspondncia entre a varivel <CEP> e o
banco de dados dos Correios. A comparao entre esses
registros foi realizada manualmente, pois abreviaes no
preenchimento poderiam ser consideradas como divergncia
na comparao determinstica. Houve divergncia em 46%
dos registros analisados.



Mtodos

83
Tabela 4.5 - Amostra de nomes de pacientes invlidos encontrados nos
registros do SIHSUS e SIASUS (BD-SES/SP)


00000000000 Desconhecido
ignorado - preenchido de
acordo com port.84 de 24/06/97
* desconhecido *
desconh.calca jeans blusa azul ignorado pinguin

desconh.moreno
cabelo grisalho joao mudo branco ignorado
ignorado preenchido de acordo
com port ministerial
++ desconhecida muda surda
branca cabelos encaracolados mulher desconhecida
desconhecida saia
amarela camisa clara desconhecido branco nao identificado desconhecido
bebe desconhecido
desconhecido desconhecido nc

branco ignorado desconhecido i c desconhecido joao trezentos
cl desconhecida
maria quatorze desconhecido negro politruma desconhecida branca
cliente whisky treze
cliente descon desconhecido pardo
quebec cinco cliente
desconhecido
cd desconheci joao
cento vinte geraldo de tal desconhecido preso desconhecido
das 20:30
desconhecido filha de desconhecida Xxxxxxxxxxxx

Tabela 4.6 - Amostra de nomes de mes invlidos encontrados nos
registros do SIHSUS e SIASUS (BD-SES/SP)
a confirmar no amores
nao declarou
(conf.rg.estrang)
a me no apresentou nao encontrado
a mesma no asanome nao especificada
a propria nao cadastrado nao fomos infomados
Ausente Desconhecida nao huehara
Cadastrar nao colocou nao ignorado
nao informado pelo
medico Alex nao conhece
nao informado mae ou
resp/sigh
Falecida nao consta nada nao infornada
Idem nao consta em documento
nao liberar falar com dr
nelso
Ignorada nao consta (asilo est. renasc)
nao pode receber em
junho med
Ilegvel n+o tem nao sabe informar
Inexistente nao consta lme
sem descricao no laudo
medico
n c nao consta na certido nao mesma
n consta nao consta no laudo da apac nao nada
Nada nao consta no sigh nao tem apac
nao fornecido nao consta no sistema nao tem na sme
nao trouxe nao consta00000000000000000000 sem informacao na apac

Mtodos

84
A realizao dessas anlises foi fundamental para a orientao e
conduo do desenvolvimento do mtodo de associao de registros
(Record Linkage).

4.3.3 Padronizao das Variveis

Os mtodos desenvolvidos na seo 4.3.2, para auxiliar nas anlises
de preenchimento, foram utilizados para a criao de trs dicionrios, os
quais sero utilizados nesta seo. O primeiro dicionrio, denominado
nomes invlidos contm as strings consideradas invlidas para
representao de nomes, como exemplificado nas Tabelas 4.5 e 4.6. Uma
string pode ser definida como um conjunto de caracteres consecutivos
atribudos como contedo de uma varivel. O segundo dicionrio
denominado prefixos, contm prefixos utilizados em logradouros extrados
da base de dados dos Correios, por exemplo: RUA, AVENIDA,
TRAVESSA, PRAA entre outros. O terceiro dicionrio denominado
abreviaes, contm abreviaes e a correspondente forma por extenso,
por exemplo: R. RUA, M Maria, NSA Nossa Senhora.
Um dos principais problemas em processos de comparao de
nomes so as possveis formas de grafias. Erros na grafia, abreviaes ou
ainda a forma da coleta do dado imposta por formulrios em papel ou
eletrnico so alguns dos possveis problemas.
comum encontrar fichas de atendimento que seguiram o padro
americano de registro do nome do paciente, ou seja, primeiro informado o
Mtodos

85
sobrenome (nome da famlia) e em seguida o prenome de batismo. Por
exemplo, para o nome "J OS J OAQUIM DA SILVA XAVIER", a ficha
apresentaria a seguinte forma: "XAVIER, J OS J OAQUIM DA SILVA".
Vrios pesquisadores trabalharam em algoritmos para comparao
de strings visando resolver o problema de comparao determinstica
simples entre duas strings, ou seja, incluir um grau de incerteza ao invs de
uma deciso binria. Os algoritmos mais citados em trabalhos cientficos
para comparao de strings so: Levenshtein Distance (LEVENSHTEIN,
2007) e Jaro-Winkler (PORTER e WINKLER, 1997). A Tabela 4.7 ilustra
alguns exemplos de comparao de strings atravs dos algoritmos de
Levenshtein e Jaro-Winkler.
Tabela 4.7 - Comparao de strings atravs dos algoritmos de
Levenshtein e Jaro-Winkler


O algoritmo de Jaro-Winkler tem demonstrado resultados mais
satisfatrios, entretanto, mesmo esses resultados ainda so insuficientes
para garantir uma faixa de segurana aceitvel, sem perda de registros. A
grande maioria dos trabalhos publicados utiliza 91% de semelhana, como
valor mnimo para aceitar, com um grau de incerteza, que a string seja
considerada similar.
Mtodos

86
Uma alternativa para melhorar o percentual de semelhana e que foi
aplicado neste trabalho, submeter a string ao um mtodo de fonetizao
(INCOR, 2010) que tem como objetivo substituir a forma escrita pela forma
de fonemas e com isto minimizar erros de grafias. A Tabela 4.8 ilustra os
mesmos exemplos citado na Tabela 4.7 adicionando um linha fonetizada
correspondente ao registro original. possvel perceber, claramente, o
aumento no percentual de semelhana.

Tabela 4.8 - Comparao de strings atravs dos algoritmos de
Levenshtein e Jaro-Winkler incluindo registros
fonetizados



Durante as anlises exploratrias, citadas anteriormente, foi
percebido que para a varivel <logradouro> haviam algumas formas de
preenchimento para o mesmo logradouro (Tabela 4.9). Quando submetido
ao mtodo de comparao de strings os exemplos de preenchimento na
Mtodos

87
Tabela 4.9 tero um percentual de similaridade muito baixo e logo sero
considerados como logradouros diferentes.
Tabela 4.9 Exemplos de preenchimento da varivel
<logradouro>



Para resolver esse problema foi criado o mtodo padroniza
logradouro com as seguintes caractersticas:
Identificar e desmembrar logradouros que tenham o nmero e
ou complemento juntos na varivel <logradouro>;
Identificar e retirar prefixos do logradouro, por exemplo,
RUA, R., AVENIDA. Esse item utiliza-se dos dicionrios
prefixos e abreviaes;
Transformar nmeros no logradouro por correspondente
grafia em extenso, por exemplo, 25 ser transformado para
vinte e cinco



Mtodos

88
A Tabela 4.10 ilustra o exemplo citado na Tabela 4.9 aps a
aplicao do mtodo de padroniza logradouro.
Tabela 4.10 Exemplos de preenchimento da varivel
<logradouro> aps aplicao do mtodo
padroniza logradouro


Para resolver o problema de grafia das variveis <nome do
paciente>, <nome da me> e <logradouro> foi desenvolvido o mtodo
fonetiza strings com as seguintes caractersticas:
Substituir a forma escrita pela forma de fonemas. Por
exemplo, os nomes "J OS J OAQUIM DA SILVA XAVIER" e
"J OZ J OAQUIM DA SILVA CHAVIER" sendo submetido ao
mtodo, retornaro o mesmo resultado, ou seja, "GIUZI
GIUAKIN SIUVA XAVIR".
Identificar e substituir abreviaes, por exemplo, M - Maria.
Esse item utiliza-se do dicionrio abreviaes;
Particionamento da varivel em cinco novas variveis
diferentes e que sero utilizados nos processos de blocagem
e pareamento conforme detalhado na Tabela 4.11.

Mtodos

89
Tabela 4.11 Detalhamento do mtodo fonetiza strings aplicado nas
variveis <nome do paciente>, <nome da me> e
<logradouro>
Varivel Contedo
PRI Cdigo fontico do primeiro nome, no nosso exemplo
"GIUZI".
PRI_ULT Cdigo fontico do primeiro e ltimo nome, no nosso exemplo
"GIUZI XAVIR".
ULT Cdigo fontico do ltimo nome, no nosso exemplo "XAVIR"
SEG Cdigo fontico do segundo nome, no nosso exemplo
"GIUAKIN".





TODOS
Cdigo fontico do nome completo, no nosso exemplo
"GIUAKIN GIUZI SIUVA XAVIR"


Nesta parte do mtodo existe uma particularidade. Para que
fosse possvel tratar o nome independente da forma que foi
coletado, os nomes so separados, fonetizados e
posteriormente ordenados antes de ser retornado como
resultado.


No nosso exemplo, o nome "J OS J OAQUIM DA SILVA
XAVIER" poderia estar representado de qualquer forma, ou
seja, alm de "J OS J OAQUIM DA SILVA XAVIER", poderia
ser "XAVIER, J OS J OAQUIM DA SILVA" ou ainda "XAVIER
DA SILVA J OS J OAQUIM" que o resultado ser sempre o
mesmo "GIUAKIN GIUZI SIUVA XAVIR".



Com o desenvolvimento dos mtodos citados, as variveis <nome
do paciente>, <data de nascimento>, <CPF>, <nome da me>,
<logradouro>, <nmero do logradouro>, <nmero da APAC> e <data do
bito>foram submetidas padronizao, conforme descrito na Tabela 4.12.



Mtodos

90
Tabela 4.12 Mtodo de padronizao aplicado por varivel
Varivel Mtodo de padronizao aplicado
Nome do
Paciente
Foram eliminados registros onde o contedo foi encontrado no
dicionrio nomes invlidos, os demais registros foram
submetidos ao mtodo fonetiza strings.
Data de
Nascimento
A data de nascimento esta representada por dois formatos,
AAAAMMDD e DDMMAAAA onde DD refere-se ao dia, MM
refere-se ao ms e AAAA refere-se ao ANO. Esta varivel foi
padronizada no formado DD/MM/AAAA. Foram encontradas
datas onde o ano estava representado somente com 3 dgitos
vlidos, por exemplo, 0960. Nestes casos, foi substitudo o
primeiro 0 por 1.
CPF Substituio dos valores '00000000000', '11111111111',
'22222222222', '33333333333', '44444444444', '55555555555',
'66666666666', '77777777777', '88888888888', '99999999999'
pelo valor nulo, pois foi percebido que esses valores so
utilizados em diversos pacientes e esta varivel ter um peso
importante no processo de pareamento.
Nome da
Me
Registros onde o contedo foi encontrado no dicionrio
nomes invlidos foram substitudo pelo valor nulo, os demais
registros foram submetidos ao mtodo fonetiza strings.
Logradouro Registros onde o contedo foi encontrado no dicionrio
nomes invlidos foram substitudo pelo valor nulo, os demais
registros foram submetidos aos mtodos padroniza
logradouro e fonetiza strings.
Nmero do
Logradouro
Retirado os caracteres 0 que havia a esquerda da varivel,
no foi realizado uma transformao simples para nmero,
pois haviam diversos endereos representados por nmero
seguido de letra, por exemplo, 123A
APAC representada nos arquivos do SIASUS pelos campos
<AUX_NUMANT>(at 09/2005) e <AUX_NUM>(10/2005 em
diante), desta forma foi criado a varivel <APAC> para
normalizar este contedo em uma nica varivel.
Data do
bito
A data do bito representada pelo formato, DDMMAAAA
onde DD refere-se ao dia, MM refere-se ao ms e AAAA
refere-se ao ANO. Desta forma foi padronizado o formado
DD/MM/AAAA.


Um ltimo mtodo, denominado reduz strings, foi desenvolvido
nesta etapa. O objetivo deste mtodo possibilitar uma segunda
comparao de strings quando a primeira comparao obtiver um percentual
Mtodos

91
de semelhana abaixo do limite mnimo estabelecido. O mtodo tem as
seguintes caractersticas:

Retirar os sufixos J UNIOR, J R, NETO, NETA, FILHO,
FILHA, SOBRINHO e SOBRINHA;
Retirar as preposies DA, DAS, DO, DOS e DE;
Abreviar os nomes entre o primeiro e o ltimo nome aps a
retirada dos sufixos e preposies, por exemplo, o nome
J OS J OAQUIM DA SILVA XAVIER submetido a este
mtodo ir retornar J OS J S XAVIER.

Como resultado da etapa de padronizao, foram criadas duas
tabelas, a primeira unindo os registros do SIHSUS e SIASUS e a segunda
contendo os bitos. Alm das variveis pertencentes aos bancos de dados
originais tambm foram includas variveis exclusivas para uso das etapas
de blocagem, pareamento e associao de registros. Os contedos de cada
tabela esto descritos nas Tabelas 4.13 e 4.14.



Mtodos

92
Tabela 4.13 Tabela dos dados demogrficos dos pacientes contido nos
registros dos sistemas SIHSUS e SIASUS
Item Descrio
1 Chave nica de identificao do registro.
2 Nome do paciente
3 Data de nascimento do paciente
4 Sexo do paciente
5 Nmero do CPF do paciente
6 Nome da me do paciente
7 Cdigo do municpio de residncia do paciente (padro IBGE)
8 Nmero do CEP da residncia do paciente
9 Logradouro da residncia do paciente (sem o nmero ou
complemento)
10 Nmero do logradouro da residncia do paciente
11 Complemento do nmero do logradouro da residncia do paciente
12 Data do atendimento do paciente
13 Nmero da AIH
14 Nmero da APAC
15 Nome abreviado do paciente
16 Nome abreviado da me do paciente
17 Logradouro abreviado
18 Cdigo fontico do primeiro nome do paciente
19 Cdigo fontico do primeiro e ltimo nome do paciente
20 Cdigo fontico do ltimo nome do paciente
21 Cdigo fontico do segundo nome do paciente
22 Cdigo fontico do nome completo do paciente
23 Cdigo fontico do primeiro nome da me do paciente
24 Cdigo fontico do primeiro e ltimo nome da me do paciente
25 Cdigo fontico do ltimo nome da me do paciente
26 Cdigo fontico do segundo nome da me do paciente
27 Cdigo fontico do nome completo da me do paciente
28 Cdigo fontico do primeiro nome do logradouro
29 Cdigo fontico do primeiro e ltimo nome do logradouro
30 Cdigo fontico do ltimo nome do logradouro
31 Cdigo fontico do segundo nome do logradouro
32 Cdigo fontico do nome completo do logradouro
33 Cdigo fontico do nome abreviado do paciente
34 Cdigo fontico do nome abreviado da me do paciente
35 Cdigo fontico do nome abreviado do logradouro




Mtodos

93
Tabela 4.14 Tabela dos dados demogrficos dos pacientes contido nos
registros do sistema SIM
Item Descrio
1 Chave nica de identificao do registro.
2 Nome do paciente
3 Data de nascimento do paciente
4 Sexo do paciente
5 Nome da me do paciente
6 Cdigo do municpio de residncia do paciente (Padro IBGE)
7 Nmero do CEP da residncia do paciente
8 Logradouro da residncia do paciente (sem o nmero ou
complemento)
9 Nmero do logradouro da residncia do paciente
10 Complemento do nmero do logradouro da residncia do paciente
11 Data do bito.
12 Nmero do bito
13 Cdigo CID da causa bsica no bito.
14 Cdigo CID contidas nas demais linhas do atestado de bito
15 Nome abreviado do paciente
16 Nome abreviado da me do paciente
17 Logradouro abreviado
17 Cdigo fontico do primeiro e ltimo nome do paciente
18 Cdigo fontico do nome completo do paciente
19 Cdigo fontico do primeiro nome da me do paciente
20 Cdigo fontico do primeiro e ltimo nome da me do paciente
21 Cdigo fontico do ltimo nome da me do paciente
22 Cdigo fontico do segundo nome da me do paciente
23 Cdigo fontico do nome completo da me do paciente
24 Cdigo fontico do primeiro nome do logradouro
25 Cdigo fontico do primeiro e ltimo nome do logradouro
26 Cdigo fontico do ltimo nome do logradouro
27 Cdigo fontico do segundo nome do logradouro
28 Cdigo fontico do nome completo do logradouro
29 Cdigo fontico do nome abreviado do paciente
30 Cdigo fontico do nome abreviado da me do paciente
31 Cdigo fontico do nome abreviado do logradouro




Mtodos

94
4.3.4 Blocagem

No final da fase de padronizao, foi obtida uma tabela com a unio
dos atendimentos do SIH e SIA, totalizando 33.805.755 registros e outra
tabela, totalizando 733.910 registros, referentes aos bitos, ambas
padronizadas e preparadas para a fase de blocagem e pareamento. O
nmero possvel de pares para a unio do SIH e SIA o produto 33.805.755
x 33.805.755, ou seja, 1,14 x 10
15
pares, uma vez que ser utilizado o
mesmo conjunto de dados para a blocagem e para o pareamento. O nmero
de pares possveis entre o SIM e a unio do SIH e SIA o produto
33.805.755 x 733.910, ou seja, 2,48 x 10
13
pares. A comparao simples
entre os nmeros de pares possveis, sem a distribuio em blocos
demandaria um tempo enorme para o processamento, mesmo para
computadores com grandes capacidades.
Para tornar vivel a comparao dos pares, foi utilizada a tcnica de
blocagem (COELI, 2002), com objetivo de dividir os registros em blocos
lgicos. A combinao de elementos de um bloco dada pela expresso
matemtica
)! !*(
!
,
p n p
n
C
p n

, onde n a quantidade de elementos


pertences a um bloco e p a quantidade de elementos agrupados.
Aplicando-se essa equao em um exemplo hipottico de blocagem
atravs do primeiro nome do paciente, onde um bloco contenha 5.000
registros, o nmero de pares distintos que teriam que ser analisados
corresponde a 12.497.500 (n=5.000 e p=2). Essa exploso combinatria
Mtodos

95
torna a pesquisa invivel quando se trata de bancos de dados com milhes
de registros e no apenas milhares como no exemplo anterior.
Baseado no volume de registros contido na tabela resultante dos
atendimentos, foram estabelecidas trs etapas de blocagem sequenciais e
dependentes.
A primeira etapa de blocagem foi realizada pelo cdigo fontico do
nome abreviado do paciente (item 33 da Tabela 4.13). A segunda etapa de
blocagem foi iniciada ao final da primeira e utilizou o cdigo fontico do
primeiro e ltimo nomes do paciente (item 19 da Tabela 4.13) mais a data de
nascimento do paciente (item 3 da Tabela 4.13). A ltima etapa de blocagem
foi iniciada ao final da segunda e utilizou cdigo fontico do primeiro nome
do paciente (item 18 da Tabela 4.13) mais a data de nascimento do paciente
(item 3 da Tabela 4.13).

4.3.5 Pareamento

A etapa de pareamento tem como objetivo comparar os registros do
banco A com os registros do banco B e determinar se o par formado entre os
registros de cada banco so pertencentes ao mesmo paciente. No havendo
uma varivel que, univocamente, possa garantir que o par pertena ao
mesmo paciente, deve-se eleger um conjunto de variveis que possam
estabelecer a semelhana entre os registros ao ponto de pod-los classificar
em provvel, improvvel ou duvidoso (CLARK, 1995).
Mtodos

96
Cada varivel possui um poder de discriminao diferente na
comparao dos registros. Para uma melhor compreenso do processo de
comparao de contedo das variveis e seu poder discriminatrio,
considere o seguinte exemplo hipottico:
NR Nome Endereo
1 Fbio Antero Pires Rua das Palmeiras, 36
2 Maria da Silva Rua das Palmeiras, 36
3 Fbio Antero Pires Av. Pompia, 325
4 Fbio Antero Pires Rua das Palmeiras, 36

Os registros NR1 e NR2 tm exatamente o mesmo endereo, porm
no correspondem ao mesmo indivduo. Os registros NR1 e NR3 tm
exatamente o mesmo nome, entretanto o endereo diferente, ou seja h
uma dvida se o registros pertencem ao mesmo individuo. Os registros NR1
e NR4 so exatamente iguais no nome e no endereo, podemos concluir
que h uma grande probabilidade de pertencer ao mesmo indivduo.
As variveis utilizadas para a comparao de pares foram: <Nome
do Paciente>, <Data do Nascimento>, <Nome da Me>, <CPF>, <Municpio
de Residncia>, <CEP>, <Logradouro>, <Nmero do Logradouro>,
<Complemento do Logradouro>, <Nmero da AIH>e <Nmero da APAC>.
Para essas variveis foi criado um dicionrio de pesos que permite a
configurao de pesos de concordncia e discordncia para cada varivel a
ser comparada no processo de pareamento. Os possveis pesos para cada
varivel, para os casos de concordncia total, concordncia parcial e
discordncia esto descritos na Tabela 4.15.
Mtodos

97
Os pesos individuais atribudos para cada varivel so somados e
comparado com o limite inferior, que tambm foi configurado no dicionrio
de pesos. Caso a soma dos pesos seja inferior ao limite, este par
descartado. Caso contrrio, este par armazenado, na tabela de pares
Tabela 4.16, com o peso total e o peso individual de cada varivel
comparada no par.
Os achados durante a anlise exploratria realizada na seo 4.3.2,
foram fundamentais para a deciso do particionamento das variveis em
novos fragmentos, conforme descrito nas Tabelas 4.13 e 4.14. A utilizao
de fragmentos das variveis para comparao minimiza a perda de pares
por problemas de preenchimentos parciais, abreviaes ou erros de
digitao.
Tabela 4.15 Dicionrio de pesos (concordncia e discordncia), por
varivel, utilizados para associao de registros


Mtodos

98
Tabela 4.16 Tabela de pares com os pesos por varivel
ITEM DESCRIO
ID_PAC_A Identificador do paciente banco A
ID_PAC_B Identificador do paciente banco B
P_NOME Peso do nome do paciente
P_NASC Peso da data de nascimento
P_CPF Peso do CPF
P_MAE Peso do nome da me
P_LOGR Peso do logradouro
P_NUMERO Peso do nmero do logradouro
P_COMPL Peso do complemento do logradouro
P_CEP Peso do CEP
P_MUNI_RES Peso do municpio da residncia
P_AIH Peso do nmero da AIH
P_APAC Peso do nmero da APAC
V_TOT Peso total (soma dos pesos individuais)

Visando obter uma melhor compreenso do processo de
comparao das variveis, optou-se por descrever esses processos em
formato de anlise condicional estruturada.
O processo de comparao segue uma hierarquia de comparao
partindo de uma concordncia perfeita at a discordncia total. Os
detalhamentos do processo de cada varivel esto descritos nos Quadros
4.1 4.11.
A varivel s foi submetida a comparao quando essa estivesse
com preenchimentos nos dois registros. Para os casos de ausncia de
preenchimento em um dos registros, foi atribudo zero (0) como valor para
peso desta varivel.


Mtodos

99

Varivel: Nome do Paciente
Se
A comparao do cdigo fontico do nome completo igual.
Ento: Atribuir o peso referente ao mnemnico NPC do dicionrio de
pesos.
Seno
A comparao do cdigo fontico do nome abreviado igual.
Ento: Atribuir o peso referente ao mnemnico NPC do dicionrio de
pesos.
Seno
A comparao do cdigo fontico do primeiro e ltimo nome igual.
Ento: Atribuir o peso referente ao mnemnico NPPU do dicionrio de
pesos.
Seno
A comparao pelo mtodo jaro-winkler do nome completo maior que
90.
Ento: Atribuir o peso referente ao mnemnico NPPU do dicionrio de
pesos.
Fim do Se;
Quadro 4.1 Processo de comparao da varivel <Nome do Paciente>


Varivel: CPF
Se
A comparao do CPF igual.
Ento: Atribuir o peso referente ao mnemnico CPFI do dicionrio de
pesos.
Seno
Ento: Atribuir o peso referente ao mnemnico CPFD do dicionrio de
pesos.
Fim do Se;
Quadro 4.2 Processo de comparao da varivel <CPF>


Mtodos

100


Varivel: Data de Nascimento
Se
A comparao da data de nascimento igual.
Ento: Atribuir o peso referente ao mnemnico DTC do dicionrio de
pesos.
Seno
Se
A comparao do Dia da data de nascimento igual.
Ento: Atribuir o peso referente ao mnemnico DTD do dicionrio de
pesos.
Fim do Se;
Se
A comparao do Ms da data de nascimento igual.
Ento: Atribuir o peso referente ao mnemnico DTM do dicionrio de
pesos.
Fim do Se;
Se
A comparao do Ano da data de nascimento igual.
Ento: Atribuir o peso referente ao mnemnico DTA do dicionrio de
pesos.
Fim do Se;
Se
A comparao da data de nascimento completamente diferente.
Ento: Atribuir o peso referente ao mnemnico DTDI do dicionrio de
pesos.
Fim do Se;
Fim do Se;
Quadro 4.3 Processo de comparao da varivel <Data de Nascimento>




Mtodos

101


Varivel: Nome do Me
Se
A comparao do cdigo fontico do nome completo igual.
Ento: Atribuir o peso referente ao mnemnico NMC do dicionrio de
pesos.
Seno
A comparao do cdigo fontico do nome abreviado igual.
Ento: Atribuir o peso referente ao mnemnico NMC do dicionrio de
pesos.
Seno
A comparao do cdigo fontico do primeiro e ltimo nome igual.
Ento: Atribuir o peso referente ao mnemnico NMPU do dicionrio de
pesos.
Seno
A comparao pelo mtodo jaro-winkler do nome completo maior que
91.
Ento: Atribuir o peso referente ao mnemnico NMPU do dicionrio de
pesos.
Seno
Se
Alguma parte do nome completo igual e a comparao pelo
mtodo jaro-winkler do nome completo no menor que 90.
Ento: Atribuir o peso referente ao mnemnico NMU do dicionrio
de pesos.
Seno
Ento: Atribuir o peso referente ao mnemnico NMDI do dicionrio
de pesos.
Fim do Se;
Fim do Se;
Quadro 4.4 Processo de comparao da varivel <Nome da Me>




Mtodos

102


Varivel: Logradouro
Se
A comparao do cdigo fontico do nome completo igual.
Ento: Atribuir o peso referente ao mnemnico LOGC do dicionrio de
pesos.
Seno
A comparao do cdigo fontico do nome abreviado igual.
Ento: Atribuir o peso referente ao mnemnico LOGC do dicionrio de
pesos.
Seno
A comparao do cdigo fontico do primeiro e ltimo nome igual.
Ento: Atribuir o peso referente ao mnemnico LOGPU do dicionrio de
pesos.
Seno
A comparao pelo mtodo jaro-winkler do nome completo maior que
91.
Ento: Atribuir o peso referente ao mnemnico LOGPU do dicionrio de
pesos.
Seno
Se
Alguma parte do nome completo igual e a varivel <CEP>e a
varivel <Municpio de Residncia>so iguais.
Ento: Atribuir o peso referente ao mnemnico LOGU do dicionrio
de pesos.
Seno
Alguma parte do nome completo igual e a varivel <CEP>ou a
varivel <Municpio de Residncia>so diferente.
Ento: Atribuir a metade do peso referente ao mnemnico LOGU do
dicionrio de pesos.
Fim do Se;
Seno
Ento: Atribuir o peso referente ao mnemnico LOGD do dicionrio de
pesos.
Fim do Se;
Quadro 4.5 Processo de comparao da varivel <Logradouro>

Mtodos

103

Varivel: Nmero do Logradouro
Se
A comparao pelo mtodo jaro-winkler do nmero maior que 92.
Ento: Atribuir o peso referente ao mnemnico NULOI do dicionrio de
pesos.
Seno
Ento: Atribuir o peso referente ao mnemnico NULOD do dicionrio de
pesos.
Fim do Se;
Quadro 4.6 Processo de comparao da varivel <Nmero do Logradouro>

Varivel: Complemento do Logradouro
Se
A comparao pelo mtodo jaro-winkler do complemento maior que
92.
Ento: Atribuir o peso referente ao mnemnico COLOI do dicionrio de
pesos.
Seno
Ento: Atribuir o peso referente ao mnemnico COLOD do dicionrio de
pesos.
Fim do Se;
Quadro 4.7 Processo de comparao da varivel <Complemento do
Logradouro>

Varivel: CEP
Se
A comparao dos cinco primeiros nmeros do CEP so iguais.
Ento: Atribuir o peso referente ao mnemnico CEPI do dicionrio de
pesos.
Seno
Ento: Atribuir o peso referente ao mnemnico CEPD do dicionrio de
pesos.
Fim do Se;
Quadro 4.8 Processo de comparao da varivel <CEP>

Mtodos

104

Varivel: Municpio de Residncia
Se
A comparao do cdigo igual.
Ento: Atribuir o peso referente ao mnemnico MUI do dicionrio de
pesos.
Seno
Ento: Atribuir o peso referente ao mnemnico MUD do dicionrio de
pesos.
Fim do Se;
Quadro 4.9 Processo de comparao da varivel <Municpio de
Residncia>

Varivel: AIH
Se
A comparao do nmero igual.
Ento: Atribuir o peso referente ao mnemnico NAAI do dicionrio de
pesos.
Seno
Ento: Atribuir o peso referente ao mnemnico NAAD do dicionrio de
pesos.
Fim do Se;
Quadro 4.10 Processo de comparao da varivel <Nmero da AIH>

Varivel: APAC
Se
A comparao do nmero igual.
Ento: Atribuir o peso referente ao mnemnico NAAI do dicionrio de
pesos.
Seno
Ento: Atribuir o peso referente ao mnemnico NAAD do dicionrio de
pesos.
Fim do Se;
Quadro 4.11 Processo de comparao da varivel <Nmero da APAC>

Mtodos

105
Com o objetivo de minimizar associaes indevidas, foi criado um
redutor para ser deduzido do peso total quando houver discordncia em pelo
menos duas das seguintes variveis: <data de nascimento>, <nome da
me> e <CPF>. Quando duas variveis discordam, atribudo -4 ao
redutor. Caso haja discordncia nas trs variveis, o valor atribudo ao
redutor -6.

4.3.6 Caracterizao da base de dados Controle

Com o objetivo de avaliar o mtodo de associao de registros, foi
construda uma base de dados denominada BD-Controle. Esta base de
dados foi composta pela associao da base de dados BD-HCMFUSP e da
base de dados BD-SES/SP j padronizada.
As duas bases de dados, utilizadas para criar a base de dados BD-
Controle, contm o nmero da AIH ou o nmero da APAC, os quais so
identificadores nicos do atendimento dispensado ao paciente. Desta forma,
atravs da comparao determinstica destas variveis foi possvel associar
os atendimentos da base de dados BD-SES/SP ao identificador do paciente
(RGHC) da base de dados BD-HCFMUSP.
A base de dados resultante, BD-Controle, ficou com a estrutura
semelhante a Tabela 4.13 acrescido do identificador do paciente, varivel
<RGHC> da base de dados BD-HCFMUSP. Sendo assim, foi possvel
Mtodos

106
aplicar os mtodos descritos nas sees 4.3.4 e 4.3.5 e comparar os
resultados com os atendimentos vinculados atravs da varivel <RGHC>.

4.3.7 Teste de Perturbao
Com o objetivo de avaliar o comportamento do algoritmo de
associao de registro, foi desenvolvido um algoritmo denominado
perturbador. O algoritmo perturbador seleciona aleatoriamente, atravs
da funo de randomizao DBMS_RANDON da Oracle Corporation
(ORACLE a), um registro e executa vinte e oito (28) comparaes, sendo a
primeira uma cpia fiel do registro original. Nas demais vinte e sete (27)
comparaes, so inseridas perturbaes na cpia do registro original
antes da realizao da comparao. H trs tipos de perturbaes
realizadas pelo algoritmo: 1) Abreviaes das variveis <nome do
paciente>, <nome da me> e <logradouro>; 2) Supresso das variveis
<CPF>e <nome da me>; 3) Mesclar o contedo das variveis do registro
original com variveis de um segundo registro selecionado aleatoriamente
atravs da funo citada anteriormente.
A Tabela 4.17 ilustra um exemplo das perturbaes realizadas em
um registro fictcio com dados do autor.
Atravs do algoritmo perturbador, foram selecionados mil (1000)
registros os quais foram perturbados conforme os tipos de perturbaes
descritas anteriormente. Por motivo de sigilo, os dados dos pacientes no
Mtodos

107
sero apresentados. Entretanto, conhecendo os tipos de perturbaes
descritas na Tabela 4.17 e analisando o Grfico 4.1, onde so demonstradas
as curvas dos resultados obtidos atravs das comparaes dos mil (1000)
registros selecionados e suas perturbaes, podemos concluir que:

1. A semelhana das curvas demonstram que o comportamento
do algoritmo de associao de registro foi similar em todos os
registros;
2. As perturbaes das variveis de endereo do paciente
<municpio>, <CEP>, <logradouro>, <nmero> e
<complemento>so as que influenciaram menos no resultado
da associao entre os registros;
3. As perturbaes de supresso de varivel, tambm
conhecidas como missing, tem um impacto menor, na
associao, quando comparadas com perturbaes onde a
varivel tem contedo completamente diferente. Os registros
15, 16, 25 e 26, identificados atravs da coluna TP, da
Tabela 4.17 so exemplos dessa concluso;




Mtodos

108


Tabela 4.17 Comparao entre um registro original e perturbaes
inseridas no mesmo registro

Nota: %CONF., significa o percentual de confiana entre o registro original e o registro
perturbado considerado pelo algoritmo.



Mtodos

109
As pequenas variaes existentes entre as curvas do Grfico 4.1
so resultados das perturbaes geradas aleatoriamente pelo algoritmo
perturbador, ou seja, se cada registro fosse perturbado com o mesmo
contedo, todas as curvas seriam exatamente iguais e no semelhantes.
A linha vermelha na horizontal do Grfico 4.1 representa o limite
mnimo para associao do par.

Grfico 4.1 Resultado da perturbaes geradas em mil (1000) registros

4.4 Estrutura do Data Warehouse

O desenho dimensional do Data Warehouse adotado foi o esquema
estrela star scheme, o mesmo utilizado por Santos e Gutierrez (SANTOS e
GUTIERREZ, 2008) em trabalho semelhante na rea da Sade Pblica.
Foram criados quatro cubos representando os fatos bito (Figura 4.4),
Mtodos

110
nascimento (Figura 4.5), internao (Figura 4.6) e atendimento
ambulatorial (Figura 4.7).
Atravs do cubo BITO possvel extrair a mtrica quantidade de
bitos por qualquer dimenso descrita na Tabela 4.18 ou pela combinao
delas.
Atravs do cubo NASCIMENTO possvel extrair a mtrica
quantidade de nascimentos por qualquer dimenso descrita nas Tabelas
4.19 4.22 ou pela combinao delas.
Atravs de qualquer dimenso descrita nas Tabelas 4.23 e 4.24 ou
pela combinao delas possvel extrair do cubo INTERNAO as
seguintes mtricas:
Valor gasto com servios hospitalares
Valor gasto com servios profissionais
Valor gasto com SADT
Valor gasto com o recm nato (internaes de parto)
Valor gasto com o acompanhante do paciente (menores e idosos)
Valor gasto com rteses e prteses
Valor gasto com sangue (hemoterapia)
Valor gasto com tomografia / Ressonncia
Valor gasto com transplantes
Valor gasto com analgesia obsttrica
Valor gasto com pediatria (internaes de parto)
Valor gasto com dirias de UTI
Valor gasto total com a internao
Valor gasto total com a internao convertido para US$
Mtodos

111
Quantidade de dias internado em UTI
Quantidade de dirias de acompanhantes (menores e idosos)
Quantidade de dias de internao
Quantidade de AIHs

O ltimo cubo, ATENDIMENTO AMBULATORIAL , permite
extrao das mtricas quantidade apresentada, valor apresentado,
quantidade aprovada e valor aprovado por qualquer dimenso descrita
nas Tabelas 4.25 e 4.26 ou pela combinao delas.


Figura 4.4 Cubo dimensional para representar o fato BITO





Mtodos

112
Tabela 4.18 Dimenses utilizadas para representao do Fato bito,
segundo informaes contidas na declarao de bito
Descrio das dimenses do Fato : BITO
Dimenso Significado Exemplo
MUNICPIO Municpio onde ocorreu o
bito.
guas da Prata;
So Paulo;
REGIES
SADE
So recortes territoriais de
um espao geogrfico
contnuo, identificados
pelos gestores municipais e
estaduais.
I Regional de Sade;
II Regional de Sade;
DIAGNSTICOS Diagnstico principal da
causa do bito (Padro
CID10)
I25.1;
J 42;
B57.2;
SEXO Sexo do indivduo. No identificado;
Masculino;
Feminino;
FAIXA ETRIA
(IBGE)
Faixa etria do indivduo
(Padro IBGE).
Menor de 1 ano;
05 a 09 anos;
60 a 64 anos ;
PERODO Ms / Ano da ocorrncia do
bito, conforme data do
bito.
01/2000;
05/2004;
08/2005;
FAIXA ETRIA
(SIA)
Faixa etria do indivduo
(Padro DATASUS).
05 a 06 anos incompletos;
30 a 35 anos incompletos;
ESTADO CIVIL Estado civil do indivduo. No Informado;
Solteiro;
Casado;
ESCOLARIDADE Escolaridade do indivduo. de 1 a 3 anos;
de 4 a 7 anos;
de 12 acima;
RAA/COR Raa / Cor do indivduo. Branca;
Negra;
Indgena;
LOCAL DE
OCORRNCIA
Local de ocorrncia do
bito.
Hospital;
Outros Estab. Sade;
via Pblica;


Mtodos

113

Figura 4.5 Cubo dimensional para representar o fato NASCIMENTO

Tabela 4.19 Dimenses utilizadas (dados do beb) para representao do
Fato Nascimento, segundo informaes contidas na
declarao de nascidos vivos
Descrio das dimenses (dados do beb) do Fato : NASCIMENTO
Dimenso Significado Exemplo
DIAGNSTICO Diagnstico de anomalia
detectado no nascimento
do beb (Padro CID10).
Q92.9;
Q69.0;
Q05.7;
PESO Peso do beb ao nascer. 100 gramas ou menos;
101 a 500 gramas;
8000 ou mais gramas;
SEXO Sexo do beb. No identificado;
Masculino;
Feminino;
RAA/COR Raa / Cor do beb. Branca;
Negra;
Indgena;



Mtodos

114
Tabela 4.20 Dimenses utilizadas (dados da me) para representao do
Fato Nascimento, segundo informaes contidas na
declarao de nascidos vivos
Descrio das dimenses (dados da me) do Fato : NASCIMENTO
Dimenso Significado Exemplo
ESTADO CIVIL Estado civil da parturiente. No Informado;
Solteira;
Casada;
ESCOLARIDADE Quantidade de anos de
escolaridade da
parturiente (representado
por faixas).
de 1 a 3 anos;
de 4 a 7 anos;
de 12 acima;
FAIXA ETRIA
(IBGE)
Faixa etria da parturiente
no momento do parto
(Padro IBGE).
Menor de 1 ano;
05 a 09 anos;
60 a 64 anos;
FAIXA ETRIA
(SIA)
Faixa etria da parturiente
no momento do parto
(Padro DATASUS).
05 a 06 anos
incompletos;
30 a 35 anos
incompletos;


Tabela 4.21 Dimenses utilizadas (dados do parto) para representao do
Fato Nascimento, segundo informaes contidas na
declarao de nascidos vivos
Descrio das dimenses (dados do parto) do Fato : NASCIMENTO
Dimenso Significado Exemplo
TIPO DE PARTO Tipo de parto realizado. Vaginal;
Cesrio;
TIPO DE
GRAVIDEZ
Quantidade de bebs na
gestao.
nica;
Dupla;
Tripla e mais;
TEMPO DE
GESTAO
Durao da gestao
representada em
semanas.
Menos de 22 semanas;
de 42 semanas acima;
QUANTIDADE
CONSULTAS
Quantidade de consultas
que a parturiente
compareceu no pr-natal
(representado por faixas)
Nenhuma;
1 a 3 vezes;
4 a 6 vezes;
7 vezes ou mais;




Mtodos

115
Tabela 4.22 Dimenses utilizadas (dados do local) para representao do
Fato Nascimento, segundo informaes contidas na
declarao de nascidos vivos
Descrio das dimenses (dados do local ) do Fato : NASCIMENTO
Dimenso Significado Exemplo
MUNICPIO Municpio onde ocorreu o
nascimento.
guas da Prata;
So Paulo;
REGIES
SADE
So recortes territoriais de
um espao geogrfico
contnuo, identificados
pelos gestores municipais
e estaduais.
I Regional de Sade;
II Regional de Sade;
PERODO Ms / Ano da ocorrncia
do parto.
01/2000;
05/2004;
LOCAL DE
OCORRNCIA
Local de ocorrncia do
parto.
Hospital;
Outros Estab. Sade;
Via Pblica;


Figura 4.6 Cubo dimensional para representar o fato INTERNAO


Mtodos

116


Tabela 4.23 Dimenses utilizadas (dados do paciente) para representao
do Fato Internao, segundo informaes contidas na
Autorizao de Internao Hospitalar

Descrio das dimenses (dados do paciente) do Fato : INTERNAO
Dimenso Significado Exemplo
NACIONALIDADE Nacionalidade do paciente
(padro DATASUS).
brasileiro;
britnico;
GRAU DE
INSTRUO
Instruo escolar do
paciente (padro
DATASUS)
Analfabeto;
1. Grau;
2. Grau;
FAIXA ETRIA
(SIA)
Faixa etria do paciente
(Padro DATASUS).
05 a 06 anos incompletos;
30 a 35 anos incompletos;
FAIXA ETRIA
(IBGE)
Faixa etria do paciente
(Padro IBGE).
Menor de 1 ano;
05 a 09 anos;
60 a 64 anos;
MUNICPIO
PACIENTE
Municpio de residncia do
paciente.
guas da Prata;
So Paulo;
REGIES
SADE
PACIENTE
Regio de Sade da
residncia do paciente.
I Regional de Sade;
II Regional de Sade;
SEXO Sexo do paciente. No identificado;
Masculino;
Feminino;
PACIENTE Identificador do paciente
(Nmero de anonimizao
atribudo ao paciente).
12893;
22324;









Mtodos

117
Tabela 4.24 Dimenses utilizadas (dados da internao) para
representao do Fato Internao, segundo informaes
contidas na Autorizao de Internao Hospitalar
Descrio das dimenses (dados da internao) do Fato : INTERNAO
Dimenso Significado Exemplo
TIPO DE
GESTO
Tipo da gesto do hospital
onde o paciente foi
internado.
Gesto Municipal
Semiplena;
Gesto Estadual Plena;
PROCEDIMENTO Procedimento principal da
internao do paciente.
Implantao de Prtese
Antiglaucomatosa;
GRUPO DE
PROCEDIMENTO
Agrupamento de
procedimentos (padro
DATASUS)
Alergia (Sadt);
Cardiologia (Sadt);
Grupo 92;
ESPECIALIDADE Especialidade responsvel
pelo internao do
paciente.
Cirurgia;
Obstetrcia;
Clinica mdica;
TIPO AIH Caracterizao da AIH (s
h dois tipos e esto
descritos na coluna de
exemplo)
AIH normal;
AIH de longa permanncia
e FPT;
TIPO UTI Tipo de UTI utilizado pelo
paciente.
UTI adulto nvel II;
Transplante peditrico;
UTI de queimados;
Leito sem especialidade
ou no utilizou UTI;
TIPO
COBRANA
Tipo de cobrana da AIH
(motivo da cobrana).
Alta- curado;
Permanncia por doena
crnica;
NATUREZA
HOSPITAL
Caracterizao do tipo da
natureza do hospital
segundo padro do
DATASUS.
Hospital federal;
Hospital filantrpico;
Universitrio Ensino;
TIPO DE
INTERNAO
Caracterstica do tipo de
internao (padro
DATASUS).
Urgncia/Emergncia em
Unidade de Referncia;
Eletiva;
DIAGNSTICO
PRINCIPAL
Diagnstico principal da
internao (Padro CID10).
I42.6;
I61.1;
DIAGNSTICO
SECUNDRIO
Diagnstico secundrio da
internao (Padro CID10).
A48.1;
G55.2;
MUNICPIO
ATENDIMENTO
Municpio onde ocorreu o
atendimento.
guas da Prata;
So Paulo;
REGIES
SADE
ATENDIMENTO
Regio de Sade onde o
atendimento ao paciente foi
prestado.
I Regional de Sade;
II Regional de Sade;
HOSPITAL Hospital onde o paciente foi
internado.
Santa Casa de
Misericrdia de Barretos;
PERODO Ms / Ano da ocorrncia da
internao.
01/2000;
05/2004;
Mtodos

118




Figura 4.7 Cubo dimensional para representar o fato ATENDIMENTO
AMBULATORIAL



Tabela 4.25 Dimenses utilizadas (dados do paciente) para representao
do Fato Atendimento Ambulatorial, segundo informaes
contidas na APAC e no BPA
Descrio das dimenses (dados do paciente) do Fato : ATENDIMENTO
AMBULATORIAL
Dimenso Significado Exemplo
FAIXA ETRIA
(SIA)
Faixa etria do paciente
(Padro DATASUS).
05 a 06 anos incompletos;
30 a 35 anos incompletos;
MUNICPIO
PACIENTE
Municpio de residncia do
paciente.
guas da Prata;
So Paulo;
REGIES
SADE
PACIENTE
Regio de Sade da
residncia do paciente.
I Regional de Sade;
II Regional de Sade;
PACIENTE Identificador do paciente
(Nmero de anonimizao
atribudo ao paciente).
12893;
22324;




Mtodos

119
Tabela 4.26 Dimenses utilizadas (dados do atendimento) para
representao do Fato Atendimento Ambulatorial,
segundo informaes contidas na APAC e no BPA
Descrio das dimenses (dados do atendimento) do Fato :
ATENDIMENTO AMBULATORIAL
Dimenso Significado Exemplo
PERODO Ms / Ano do atendimento. 01/2000;
05/2004;
TIPO DE
GESTO
Tipo da gesto da unidade
de atendimento.
Gesto Plena do Sistema
Municipal (NOAS);
PROCEDIMENTO Procedimento do
atendimento.
Consulta em Cardiologia;
Tomografia Craniana;
TIPO
ATENDIMENTO
Caracterizao do motivo
do tipo de atendimento
Primeira Consulta;
Sem Restrio de Tipo;
GRUPO DE
ATENDIMENTO
Definio do grupo de
atendimento que o paciente
pertence.
ao diabtico;
ao hipertenso (arterial);
ao idoso;
ESPECIALIDADE Especialidade do
profissional responsvel
pelo atendimento.
Enfermeira;
Nutricionista;
Cardiologia;
TIPO
PRESTADOR
Caracterizao do tipo de
prestador que realizou o
atendimento ao paciente.
unidades administradas
por rgos do ministrio
da sade;
privado sem fins lucrativos;
DIAGNSTICO
PRINCIPAL
Diagnstico principal do
atendimento (Padro
CID10).
I42.6;
I61.1;
DIAGNSTICO
SECUNDRIO
Diagnstico secundrio do
atendimento (Padro
CID10).
A48.1;
G55.2;
CID
MORFOLOGIA
CID de morfologia do
atendimento (quando
aplicvel).
M82611;
M83700;
M900-M
UNIDADES Unidade que atendeu o
paciente (padro CNES).
UBS Mussolini;
Centro Municipal de
Fisioterapia;
MUNICPIO
ATENDIMENTO
Municpio onde ocorreu o
atendimento.
guas da Prata;
So Paulo;
REGIES
SADE
ATENDIMENTO
Regio de Sade onde o
atendimento ao paciente foi
prestado.
I Regional de Sade;
II Regional de Sade;
TIPO
OCORRNCIA
Tipo de ocorrncia do
atendimento
(caracterizao de
ocorrncias durante o
seguimento do paciente)
exame(s) realizado(s);
paciente no compareceu
para o tratam;
alta para transplante;

Mtodos

120

Nos cubos INTERNAO e ATENDIMENTO_AMBULATORIAL foi
adicionada uma varivel denominada <PER_CONFIANCA>, onde
armazenada o percentual de confiabilidade entre o registro em questo e o
paciente que esta indicado pela dimenso PACIENTE. O valor atribudo para
a varivel baseado no escore calculado na etapa de pareamento e na faixa
de escores da Tabela 4.27. O valor equivalente a 100% de confiabilidade s
foi atribudo quando este representava o prprio registro.
O clculo do percentual de confiabilidade da Tabela 4.27 foi baseado
em regra de trs simples, utilizando-se da coluna escore final da tabela e
tendo como base o maior escore (45) correspondendo a 95%. Para tornar a
compresso mais simples na etapa de apresentao, os valores foram
aproximados, ou seja, o valor calculado em 73,88% foi aproximado para
75%.
Tabela 4.27 Faixa de escores para definio
do percentual de confiabilidade
entre o registro e o paciente

ESCORE
INICIAL
ESCORE
FINAL
%
CONFIABILIDADE
11 15 35
16 20 45
21 25 55
26 30 65
31 35 75
36 40 85
41 45 95






Mtodos

121
4.5 A ferramenta MinerSUS

O MinerSUS parte do projeto de pesquisa para extrao de
informaes para a gesto da Sade Pblica por meio da minerao dos
dados do SUS. A primeira verso da ferramenta foi disponibilizada em 2008
(SANTOS e GUTIERREZ, 2008).
Para ampliar os recursos existentes no MinerSUS, neste trabalho, foi
desenvolvido um novo recurso denominado filtro global. Esse recurso
permite definir filtros dimensionais para que sejam utilizados na gerao de
relatrios analticos (OLAP) e que posteriormente podero ser submetidos a
ferramentas de minerao.
Considerando um caso hipottico onde se deseja estudar
caractersticas (diagnsticos, tempos de internao, quantidades de
internao, custo com o paciente) de uma populao, como por exemplo:
pacientes que tenham sido submetidos cirurgia de troca valvar, a primeira
etapa a seleo prvia desses pacientes. Para este cenrio, dever ser
configurado o filtro global paciente atravs da seleo de pacientes que
foram submetidos cirurgia de troca valvar.
Uma vez definido, o filtro fica disponvel para ser utilizado durante a
gerao de um relatrio analtico. No exemplo citado, seriam selecionados
as mtricas Quantidade de AIH, Quantidade de dias de internao, Valor
gasto total com a internao do fato INTERNAO, as dimenses
PACIENTE e DIAGNOSTICO PRINCIPAL, e filtro global PACIENTE. O
resultado do relatrio apresentar somente os registros que atenderem a
Mtodos

122
condio especificada no filtro, neste caso, paciente que foram submetidos
cirurgia de troca valvar.

4.6 Consideraes ticas

Este trabalho faz parte dos projetos de pesquisa Ambiente para
extrao de informao epidemiolgica a partir da minerao de 10 anos de
dados do SUS e Monitoramento de Intervenes de Alta Complexidade em
Cardiologia no mbito do Sistema Pblico de Sade, Utilizando Tcnicas de
Minerao de Dados, os quais contaram com financiamento da Fundao
de Amparo Pesquisa do Estado de So Paulo (FAPESP, Processo
2006/61279-9) e do Conselho Nacional de Pesquisa e Desenvolvimento
(CNPq, Processo 551473/2007-0), respectivamente. Ambos projetos foram
submetidos e aprovados pela Comisso de tica para Anlise de Projetos de
Pesquisa CAPPesq da Diretoria Clnica do Hospital das Clnicas e da
Faculdade de Medicina da Universidade So Paulo, por meio do protocolo
0050/09 (Anexo 1).
Como as bases de dados fornecidas pela SES/SP continham
informaes de identificao dos pacientes, o computador onde foram
armazenadas e processadas as informaes identificadas, no esteve
disponvel na rede e somente o pesquisador Fbio Antero Pires teve acesso
a esse computador. Ao final do trabalho, o banco de dados foi copiado em
mdias de back-up e eliminado do servidor. A solicitao dessas bases de
dados foi realizada por meio de carta Secretaria de Estado da Sade do
Estado de So Paulo (Anexo 2).


























Resultados




Resultados

124

5. RESULTADOS
Este capitulo apresenta os resultados obtidos na preparao e
caracterizao das bases de dados resultantes, base de dados BD-
Controle, base de dados BD-SES/SP e o resultado final da base de dados
para pesquisas epidemiolgicas.

5.1 Aplicao do mtodo de associao de registros na base de
dados BD-Controle

O objetivo da criao da base de dados denominada BD-Controle foi
avaliar o mtodo de associao de registros (Record Linkage) em uma base
de dados controlada.
O total de registros de atendimentos, contidos nos arquivos
fornecidos pelos grupos de TI do HCFMUSP, foi de 872.201. Aps as
anlises de consistncias das variveis <RGHC>, <nmero da AIH>,
<nmero da APAC>e duplicidades de registros, foram desprezados 164.241
(18,83%) registros da base de dados BD-HCFMUSP. A Tabela 5.1 ilustra o
preenchimento, por varivel, das variveis utilizadas no mtodo de
associao de registros.
Analisando-se os resultados, foi possvel observar que somente a
varivel <Complemento do logradouro>teve o percentual de preenchimento
baixo, 36,4% para internao e 24,4% para ambulatrio. Entretanto, esta
varivel no esperada em todos os logradouros, ou seja, os endereos de
casas trreas, na grande maioria, no possuem complemento do logradouro.
Resultados

125
As variveis <CPF>e <Nome da me>estavam presentes somente
no nos registros de APAC. Desta forma, o percentual de preenchimento
pode ser considerado adequado, quando observados os registros no
atendimento do ambulatrio, sendo 88,3% para a varivel <CPF>e 99,6%
para a varivel <Nome da me>.

Tabela 5.1 Distribuio das frequncias absoluta e relativa do
preenchimento por varivel, segundo tipo de atendimento
(base de dados BD-Controle)
Registros
Varivel Internao
(N=241.499)
Ambulatrio
(N=466.461)
Quantidade % Quantidade %
Nome do Paciente 241.499 100,0 466.461 100,0
Data de nascimento 241.499 100,0 466.461 100,0
Sexo 241.499 100,0 466.461 100,0
CPF 0 0,0 411.800 88,3
Nome da me 0 0,0 463.409 99,6
Logradouro 214.014 88,6 466.323 99,9
Nmero do logradouro 241.218 99,9 466.461 100,0
Complemento do logradouro 87.911 36,4 113.736 24,4
CEP 241.499 100,0 466.461 100,0
Municpio da residncia 241.499 100,0 466.461 100,0
Nmero da AIH 241.499 100,0 -
Nmero da APAC - 466.461 100,0
Fonte: BD-Controle (N =707.960) - Pacientes atendidos no HCFMUSP.

Em termos quantitativos, o preenchimento das variveis para
aplicao do mtodos de relacionamento de registros foi considerado
satisfatrio com o percentual de preenchimento superior a oitenta e oito por
cento.


Resultados

126

5.1.1 Avaliao da acracia do processo de associao de registros

Os resultados obtidos com a aplicao do mtodo de associao de
registros (Record Linkage) na base de dados BD-Controle, esto
sumarizados na Tabela 5.2. Os valores para comparao com o mtodo
proposto foram obtidos atravs do relacionamento determinstico aplicado na
varivel considerada como identificador nico do paciente no HCFMUSP
(RGHC).

Tabela 5.2 - Classificao dos pares de registros na base de dados
BD-Controle, considerando o relacionamento
determinstico como padro ouro
Relacionamento
Determinstico Mtodo Proposto
Verdadeiro Falso
Total
Concordante 569.538 2.811 572.349
No Concordante 1.844 133.767 135.611
Total 571.382 136.578 707.960
Fonte: BD-Controle (N=707.960) - Pacientes atendidos no HCFMUSP.


A partir dos valores da Tabela 5.2 foi possvel calcular as medidas
de avaliao apresentadas na Tabela 5.3 dos resultados obtidos com a
aplicao do mtodo proposto.





Resultados

127
Tabela 5.3 - Resultados da avaliao do mtodo de
relacionamento de registro na base de
dados BD-Controle
Medidas de avaliao dos resultados do
mtodo proposto
Valores em
percentual
SENSIBILIDADE 99,68%
ESPECIFICIDADE 97,94%
VALOR PREDITIVO POSITIVO 99,51%
PROPORO DE FALSO-POSITIVOS 0,49%
PROPORO DE FALSO-NEGATIVOS 1,36%
ACURCIA 99,34%
Fonte: BD-Controle (N =707.960) - Pacientes atendidos no
HCFMUSP.


A associao de registros aplicada na base de dados BD-Controle
apresentou uma acracia de 99,34%, uma sensibilidade de 99,68% e uma
especificidade de 97,94%. Do total de pares associados, 99,51% dos pares
foram classificados corretamente como concordantes (valor preditivo
positivo), a proporo de falso-positivos foi 0,49% enquanto a proporo de
falso negativo foi de 1,36%.

5.2 Aplicao do mtodo de associao de registros na base de
dados BD-SES/SP



O total de registros de atendimentos contidos nos arquivos
fornecidos pelo grupo de TI da SES/SP foi de 37.639.020. Aps as anlises
de consistncias das variveis <nmero da AIH>, <nmero da APAC>e
<nome do paciente>, foram desprezados 3.839.789 (10,20%) registros da
base de dados BD-SES/SP. A tabela 5.4 ilustra o preenchimento, por
varivel, das variveis utilizadas no mtodo de associao de registros.
Resultados

128
Analisando-se os resultados, foi possvel observar que o
preenchimento quantitativo no atendimento de internao foi superior, em
todas as variveis, quando comparado com a base de dados BD-Controle.
Para os atendimentos ambulatoriais, houve uma ligeira queda nas variveis
<CPF> (9,36 pontos percentuais) e <nome da me> (3,41 pontos
percentuais) quando comparado com os resultados da base de dados BD-
Controle.
Em termos quantitativos, o preenchimento das variveis para
aplicao do mtodos de relacionamento de registros foi considerado
satisfatrio com o percentual de preenchimento, da maioria das variveis,
prximo a cem por cento.

Tabela 5.4 - Distribuio das frequncias absoluta e relativa do
preenchimento por varivel, segundo tipo de atendimento
(base de dados BD-SES/SP)
Registros
Varivel Internao
(N=8.103.189)
Ambulatrio
(N=25.696.042)
Quantidade % Quantidade %
Nome do Paciente 8.103.189 100,00 25.696.042 100,00
Data de nascimento 8.103.189 100,00 25.696.042 100,00
Sexo 8.103.124 100,00 25.696.042 100,00
CPF 0 0,00 20.278.555 78,92
Nome da me 0 0,00 24.651.323 95,93
Logradouro 8.040.168 99,22 25.661.770 99,87
Nmero do logradouro 8.090.611 99,84 25.696.042 100,00
Complemento do logradouro 4.064.472 50,16 8.027.075 31,24
CEP 8.103.189 100,00 25.696.042 100,00
Municpio da residncia 8.103.189 100,00 25.696.042 100,00
Nmero da AIH 8.103.189 100,00 -
Nmero da APAC - 25.696.042 100,00
Fonte: BD-SES/SP (N =33.799.231) - Pacientes atendidos no Estado de So
Paulo entre 2000 a 2007.


Resultados

129
5.2.1 Anlise comparativa entre a base de dados BD-Controle e a base
de dados BD-SES/SP


As distribuies comparativas das variveis <sexo>, <primeiro
nome>, <ltimo nome>e <data de nascimento>entre a base de dados BD-
SES/SP e a base de dados BD-Controle esto apresentadas nas Tabelas
5.5, 5.6, 5.7 e no Grfico 5.1 , respectivamente.
O Grfico 5.2 apresenta a distribuio dos escores atribudos aos
pares, aps a aplicao do mtodo de associao de registros nas bases de
dados BD-Controle e BD-SES/SP.
Em todas as anlises, h semelhanas considerveis entre os
resultados obtidos e caractersticas das bases de dados BD-Controle e BD-
SES/SP. Na distribuio por sexo, a diferena foi de 5,52% (Tabela 5.5).
Observando a distribuio dos dez prenomes mais frequentes nas bases de
dados (BD-SES-SP e BD-Controle), percebe-se que a maior diferena foi de
1,07% (Tabela 5.6). A mesma anlise para os sobrenomes revela que a
maior diferena foi de 0,59% (Tabela 5.7). Quando observada a distribuio
por faixa de ano de nascimento, a maior diferena encontrada foi de 1,99%
(Grfico 5.1). Por ltimo, h uma semelhana significativa entre as curvas de
distribuio de escores (Grfico 5.2), sendo o pico no escore 22 a nica
exceo.



Resultados

130


Tabela 5.5 - Distribuio do sexo, segundo as bases de
dados BD-SES/SP e BD-Controle
SES/SP Controle
Sexo % %
Masculino 45,29 50,81
Feminino 54,71 49,19
No Informado 0,0002
Fonte: BD-Controle (N = 707.960) - Pacientes
atendidos no HCFMUSP e BD-SES/SP (N =
33.799.231).






Tabela 5.6 - Distribuio do primeiro
nome mais frequente, segundo as
bases de dados BD-SES/SP e BD-
Controle
SES/SP Controle
Primeiro Nome
% %
MARIA 9,37 8,30
J OSE 4,32 4,76
ANTONIO 2,15 2,15
J OAO 1,84 1,78
ANA 1,41 1,25
LUIZ 1,32 1,45
APARECIDA 0,81 0,40
FRANCISCO 0,79 0,92
PAULO 0,77 0,95
CARLOS 0,73 0,92
Fonte: BD-Controle (N =707.960) -
Pacientes atendidos no HCFMUSP e
BD-SES/SP (N = 33.799.231).
Tabela 5.7 - Distribuio do ltimo
nome mais frequente, segundo as
bases de dados BD-SES/SP e BD-
Controle
SES/SP Controle
ltimo Nome
% %
SILVA 11,41 12,00
SANTOS 6,92 7,25
OLIVEIRA 4,11 4,05
SOUZA 3,72 3,95
LIMA 1,68 1,97
PEREIRA 1,59 1,57
FERREIRA 1,39 1,37
RODRIGUES 1,20 1,06
COSTA 1,18 1,26
ALMEIDA 0,95 1,01
Fonte: BD-Controle (N =707.960) -
Pacientes atendidos no HCFMUSP e
BD-SES/SP (N = 33.799.231).






Resultados

131




Grfico 5.1 Comparativo da distribuio de pacientes por faixa de ano de
nascimento entre base de dados BD-Controle e base de
dados BD-SES/SP





Grfico 5.2 Distribuio dos escores dos pares Comparao entre as
base de dados BD-Controle e BD-SES/SP


Resultados

132

5.2.2 Anlise da etapa de blocagem


A utilizao do mtodo de fonetizao aplicado nas variveis <nome
do paciente>, <nome da me>e <logradouro>demonstrou um resultado
extremamente satisfatrio. A Tabela 5.8 demonstra um percentual acima de
99% para pares associados, atravs da comparao do nome completo ou
nome abreviado.
Tabela 5.8 - Distribuio de pares, segundo critrio de associao
%
Critrio
BD-SES/SP BD-Controle
Nome completo 92,47 95,68
Nome abreviado 6,67 4,04
Primeiro e ltimo nome 0,60 0,19
Associado pelo mtodo J aro Winkler
(semelhana >92%) 0,26 0,09
Primeiro nome e data nascimento 0,0002 -
Fonte: BD-Controle (N = 707.960) - Pacientes atendidos no
HCFMUSP e base de dados BD-SES/SP (N =33.799.231).


A proposta de blocagem em trs etapas, realizada pelo cdigo
fontico do nome abreviado do paciente, cdigo fontico do primeiro e ltimo
nome do paciente, mais a data de nascimento e por ltimo atravs do cdigo
fontico do primeiro nome do paciente, mais a data de nascimento, tambm
demonstrou-se adequada. A Tabela 5.9 demonstra que aproximadamente
96% dos blocos apresentaram, no mximo, 40 pares por bloco.


Resultados

133
Tabela 5.9 - Quantidade de registros por bloco - Etapa de
blocagem
Pares por bloco Quantidade de blocos %
|1 -- 20| 2.864.426 90,737
|21 -- 40| 188.253 5,963
|41 -- 60| 53.782 1,704
|61 -- 80| 22.609 0,716
|81 -- 100| 9.398 0,298
|101 -- 120| 4.780 0,151
|121 -- 140| 3.757 0,119
|141 -- 160| 3.031 0,096
|161 -- 180| 2.160 0,068
|181 -- 200| 1.560 0,049
|201 -- 220| 1.287 0,041
|221 -- 240| 995 0,032
|241 -- 260| 572 0,018
|261 -- 280| 153 0,005
|281 -- 300| 31 0,001
|301 -- 45 0,001
Total 3.156.839
Fonte: BD-SES/SP (N = 33.799.231) atendimentos entre 2000 e
2007 para o Estado de So Paulo.



5.3 A base de dados para pesquisas epidemiolgicas


Aps o processamento dos cubos, os dados no modelo dimensional
apresentados na seo 4.4 foram armazenados em um servidor Dell
PowerEdge R900 com dois processadores Xeon SixCore com velocidade de
2.4 gigahertz, memria de 16 gigabytes e capacidade de armazenamento
em disco de 9.6 Terabytes utilizando sistema operacional Linux SUSE
Enterprise 10 Service Pack 2 release 64 bits. O banco de dados escolhido
foi o Oracle Database 10g release 10.2.0.4.0 64 bits.
Resultados

134
Atravs desses modelos, possvel realizar pesquisas diretamente
atravs da linguagem SQL (Structured Query Language), a qual um
padro para acesso em bancos de dados (SQL, 1992), ou atravs de
ferramentas de apresentao disponveis no mercado tais como SAS
Business Analytics and Business Intelligence (www.sas.com), QlikView
Business Intelligence Software Solutions (www.qlikview.com/), Oracle
Enterprise Performance Management & Business Intelligence
(http://www.oracle.com/us/solutions/ent-performance-bi/index.html) entre
outras.
As Tabelas 5.10 5.14 demonstram as quantidades de registros
carregados nos fatos BITO, NASCIMENTO, INTERNAO e
ATENDIMENTO AMBULATORIAL.
No Grfico 5.3, possvel observar uma estabilidade nas curvas de
nmero de bitos, nmero de nascidos vivos e nmero de internaes para
o perodo de 2000 2007. Por outro lado, para o mesmo perodo, o
atendimento ambulatorial tem crescido a uma taxa mdia de 1,3 pontos
percentuais por ano. Observando os atendimentos de alta complexidade no
ambulatrio, medido atravs do instrumento APAC, a taxa mdia de
crescimento ainda maior, aproximadamente 2,3 pontos percentuais por
ano.







Resultados

135
Tabela 5.10 - Distribuio de
bitos, segundo ano do bito

Ano Quantidade %
2000 238.959 12,43
2001 235.987 12,28
2002 240.253 12,50
2003 236.456 12,30
2004 244.653 12,73
2005 237.741 12,37
2006 243.984 12,69
2007 243.955 12,69
Total 1.921.988
Fonte: BD-DATASUS - Estrato
para estado de So Paulo
Tabela 5.11 Distribuio de
nascidos vivos, segundo ano do
nascimento
Ano Quantidade %
2000 687.779 13,78
2001 632.483 12,68
2002 623.302 12,49
2003 610.555 12,24
2004 618.080 12,39
2005 618.880 12,40
2006 603.368 12,09
2007 595.408 11,93
Total 4.989.855
Fonte: BD-DATASUS - Estrato
para estado de So Paulo

O crescimento no nmero de atendimentos atravs do instrumento
APAC, o qual obriga a identificao do paciente, teve um crescimento
expressivo no perodo estudado e aparece como uma tendncia clara de
crescimento. Esse crescimento no significa necessariamente um aumento
na quantidade de exames realizados na mesma populao, houveram
diversas portarias do Ministrio da Sade incluindo novos itens (exames de
SADT e medicamentos) nesse instrumento de cobrana, os quais eram
cobrados atravs do instrumento BPA.
Nesse instrumento (APAC), a varivel <CPF> obrigatria. Mesmo
que haja o preenchimento da informao de forma inadequada, casos onde
o CPF dos pais ou responsveis por um menor, haver uma grande
quantidade de registros que esto e estaro com a representao correta
dessa varivel, ou seja correspondendo de fato ao paciente que recebeu a
assistncia mdica ou farmacolgica.

Resultados

136

Tabela 5.12 - Distribuio de
atendimentos ambulatoriais,
segundo ano do atendimento
Ano Quantidade %
2000 9.886.643 8,13
2001 11.801.513 9,71
2002 13.518.709 11,12
2003 14.757.113 12,14
2004 14.504.819 11,93
2005 17.269.952 14,21
2006 18.862.452 15,52
2007 20.966.945 17,25
Total 121.568.146
Fonte: BD-DATASUS - Estrato para
estado de So Paulo
Tabela 5.13 - Distribuio de
atendimentos alta complexidade,
segundo ano do atendimento
Ano Quantidade %
2000 2.579.618 5,33
2001 3.578.747 7,39
2002 4.519.715 9,33
2003 5.326.480 11,00
2004 5.675.287 11,72
2005 7.650.803 15,80
2006 8.764.005 18,10
2007 10.333.411 21,34
Total 48.428.066
Fonte: BD-DATASUS - Estrato para
estado de So Paulo


Atravs da comparao determinstica simples na varivel <CPF>,
possvel identificar todos os atendimentos realizados para um mesmo CPF.
Desta forma, as anlises de custos por paciente ou buscas de fraudes no
atendimento de alta complexidade tornam-se uma atividade simples.
Entretanto, deve-se considerar a taxa de erro intrnseca no preenchimento
do instrumento, conforme observado na seo 4.3.2.

Tabela 5.14 - Distribuio de internaes,
segundo ano da internao
Ano Quantidade %
2000 2.398.344 12,47
2001 2.345.199 12,19
2002 2.360.210 12,27
2003 2.376.517 12,35
2004 2.400.029 12,48
2005 2.443.863 12,70
2006 2.431.106 12,64
2007 2.480.249 12,89
Total 19.235.517
Fonte: BD-DATASUS - Estrato para estado
de So Paulo
Resultados

137


0
5
10
15
20
25
2
0
0
0
2
0
0
1
2
0
0
2
2
0
0
3
2
0
0
4
2
0
0
5
2
0
0
6
2
0
0
7
Anos
%
bito
Nascimento
Internao
Ambulatrio
APAC

Grfico 5.3 Evoluo do nmero de ocorrncias, segundo fato do modelo
dimensional




Tabela 5.15 Quantidade de inconsistncias por cubo e dimenso

Fonte: BD-DATASUS - Estrato para estado de So Paulo


Resultados

138
A coluna Recuperado da Tabela 5.15 representa os registros que
foram cadastros nas Dimenses por terem sido encontrados
correspondentes no Repositrio de Tabelas Corporativas do Ministrio da
Sade ou em alguma fonte alternativa (Dirio Oficial da Unio ou arquivos
com extenso CNV do DATASUS).
Todos os demais valores inconsistentes, os quais no foram
possveis encontrar correspondentes nas diversas fontes pesquisadas,
foram alterados para um valor padro e acrescidos em cada Dimenso
correspondente para que fosse possvel manter a integridade entre os dados
carregados nos Cubos e suas respectivas dimenses.

5.3.1 A extrao de informao atravs do MinerSUS


Os modelos dimensionais criados nesse trabalho, foram
configurados na ferramenta MinerSUS, possibilitando sua utilizao para a
gerao de relatrios analticos e aplicao de ferramentas de minerao
disponveis na ferramenta.
A seguir, esto listados alguns exemplos utilizando os fatos
BITO, NASCIMENTO, INTERNAO e ATENDIMENTO
AMBULATORIAL.




Resultados

139
5.3.1.1 Caractersticas bsicas da ferramenta MinerSUS

Caso de Uso:
Nmero de bitos e Nascidos Vivos no Estado de So Paulo
Fatos:
BITO (Sistema de Informao sobre Mortalidade)
NASCIMENTO (Sistema de Informao sobre Nascidos Vivos)
Mtricas:
Quantidade de bitos
Quantidade de nascimentos
Dimenses:
Perodo: 2000 2007
Raa/Cor: Todas

Atravs da ferramenta OLAP do MinerSUS, foi criado o relatrio que
demonstra a distribuio conjunta das quantidades de bitos e quantidade
de nascimentos com visualizao atravs das dimenses PERODO e
RAA/COR (Figura 5.1). As principais caractersticas de uma ferramenta
OLAP foram implementadas no MinerSUS, uma delas (drill-down and drill-
up) pode ser visualizado na prpria Figura 5.1, atravs da varivel <Ano>da
dimenso PERODO, ou seja, para o ano de 2000 e 2007, foi realizada a
operao drill-down onde foi possvel obter o detalhamento pela dimenso
RAA/COR.
Outra caracterstica implementada a Pivoting, a qual possibilita a
inverso posicional das dimenses e consequentemente os detalhamentos
por cada dimenso. A Figura 5.2 mostra o detalhamento do Pivoting e a
Figura 5.3 mostra o resultado aps a inverso das dimenses.

Resultados

140

Figura 5.1 Relatrio OLAP dos fatos BITO e NASCIMENTO
utilizando as dimenses PERODO e RAA/COR

Ainda atravs da ferramenta, possvel gerar grficos para anlises
visuais. O Grfico 5.4 foi construdo a partir do relatrio OLAP apresentado
na Figura 5.3. Os grficos gerados consideram sempre o contedo da
dimenso que esta na primeira coluna do relatrio OLAP para o
detalhamento das mtricas. Nesse exemplo, as mtricas Quantidade de
bitos e Quantidade de Nascimentos, esto detalhados pela dimenso
RAA/COR.
Resultados

141

Figura 5.2 Inverso das dimenses Raa/Cor e Perodo do
Relatrio OLAP dos fatos BITO e NASCIMENTO
utilizando as dimenses PERODO e RAA/COR



Figura 5.3 Resultado final da Inverso das dimenses Raa/Cor e
Perodo do Relatrio OLAP dos fatos BITO e
NASCIMENTO utilizando as dimenses PERODO e
RAA/COR

Resultados

142


Grfico 5.4 Relatrio OLAP dos fatos BITO e NASCIMENTO
utilizando as dimenses RAA/COR e PERODO

Observando a distribuio conjunta do nmero de bitos e o nmero
de nascidos vivos, para o perodo de 2000 2007, segundo a raa / cor e
para o Estado de So Paulo, possvel verificar que houve um crescimento
na populao Branca em 17,24% e 5,11% na populao Parda. Por outro
lado, possvel verificar uma estabilizao nas populaes Indgena
(crescimento de 0,03%), Amarela (reduo de 0,20%) e Negra (reduo de
0,43%).
Do total de bitos (1.921.988), 3,98% foram registrados como raa /
cor no identificada e do total de nascimentos (4.989.855), 19,43% tambm
foram registrados como no identificada.

B Br ra an nc ca a 1 17 7, ,2 24 4% %
P Pa ar rd da a 5 5, ,1 11 1% %
N Ne eg gr ra a 0 0, ,4 43 3% %
A Am ma ar re el la a 0 0, ,2 20 0% %
I In nd d g ge en na a 0 0, ,0 03 3% %
Resultados

143
5.3.1.2 Configurando o filtro global da ferramenta MinerSUS

Caso de Uso:
Pacientes que foram submetidos a cirurgia de troca valvar no Estado de So
Paulo

Fatos:
INTERNAO (Sistema de Informao sobre Internao Hospitalar)

Mtricas:
Quantidade de AIHs

Dimenses:
Perodo: 2000 2007
Paciente: Filtrados
Procedimentos: PLASTICA VALVAR E/OU TROCA VALVAR MULTIPLA e
TROCA VALVAR C/ REVASCULARIZACAO
MIOCARDICA

Esta nova caracterstica (filtro global) que foi implementada na
ferramenta MinerSUS, fundamental para a gerao de anlises com o foco
no paciente. As Figuras 5.8, 5.9 e 5.10 mostram as etapas de
parametrizao do filtro para a utilizao nos relatrios OLAP, as quais
sero detalhadas a seguir.
Na primeira etapa da parametrizao, item 1 da Figura 5.4,
selecionada uma mtrica de um fato onde contenha a dimenso que deseja-
se utilizar como filtro. Nesse exemplo, foi escolhida a mtrica Qtde AIH do
fato INTERNAO e a varivel <procedimento>, que representa o nome
do procedimento, da dimenso PROCEDIMENTO, representada pelo
sinnimo Procedimentos Unificados da Figura 5.4.
Resultados

144
Logo aps a seleo do fato e da dimenso, o resultado da
combinao apresentado automaticamente, item 2 da Figura 5.4. Nesse
exemplo, pode-se visualizar a quantidade total de AIHs para todos os
procedimentos, pois ainda no foi realizado nenhum filtro, operao
conhecida como Dicing, ou seja, limitar o conjunto de valores a serem
exibidos atravs de filtros nas dimenses.
Ao clicar no cone (item 2 da Figura 5.4) apresentada a tela para
seleo de itens da dimenso (operao Dicing), representada pelo item 3
da Figura 5.4, onde possvel executar a busca de itens atravs de um
conjunto de caracteres. Nesse exemplo, o conjunto pesquisado foi TROCA
VALVAR. O resultado da busca apresentado na tela para a escolha do
itens (item 4 da Figura 5.4). O processo de busca pode ser repetido quantas
vezes forem necessrias, sendo que no final deve-se clicar no boto OK
para confirma a seleo dos itens.
Aps a realizao da seleo, na dimenso PROCEDIMENTO,
item 1 Figura 5.5, a string All substituda pela string contendo os
procedimentos selecionados. O prximo passo incluir a dimenso
PACIENTE, item 2 Figura 5.5. Nesse caso, necessrio selecionar a
varivel <Identificador>, pois esta a varivel de ligao com os fatos do
DW.
Neste momento, a lista de identificadores de pacientes que foram
submetidos aos procedimentos selecionados atravs do filtro da dimenso
PROCEDIMENTO, apresentada na tela (item 3 da Figura 5.5). Para
confirmar a seleo dos parmetros para o filtro global, basta clicar no cone
Resultados

145
. O identificador com valor 0, item 4 da Figura 5.5, significa que so AIHs
onde no foi possvel identificar o paciente. Esses registros no devero ser
considerados nas tcnicas de minerao, pois no representam a realidade
de atendimento a um paciente especfico.


Figura 5.4 Utilizando o filtro de procedimentos para a parametrizao do
filtro global

1
2
3
4
Resultados

146

Figura 5.5 Lista de identificadores de pacientes que ser carregada para a
parametrizao do filtro global

A Figura 5.6 mostra a etapa final da parametrizao do filtro global.
Os identificadores dos pacientes que estavam na etapa de seleo, Figura
5.5, so carregados nesta ltima etapa, possibilitando ainda desmarcar
algum item, o que deve ser feito com o identificador 0, item 1 Figura 5.6,
devido ao fato explicado anteriormente.

3
2
1
4
Resultados

147

Figura 5.6 Concluso da parametrizao do filtro global para ser
utilizado para dimenso PACIENTE

5.3.1.3 Utilizando o filtro global da ferramenta MinerSUS

Caso de Uso:
Quantidade de internaes, tempo de permanncia, custo com internaes e
atendimentos de alta complexidade, por pacientes, que foram submetidos a
cirurgia de troca valvar no Estado de So Paulo.
Fatos:
INTERNAO (Sistema de Informao sobre Internao Hospitalar)
ATENDIMENTO AMBULATORIAL (Sistema de Informaes Ambulatoriais)
Mtricas:
Quantidade de AIHs
Quantidade de dias de permanncia
Valor total das AIHs
Valor aprovado SIA



1
Resultados

148
Dimenses:
Perodo: 2000 2007
Paciente: Filtrados
Diagnstico: Todos
Procedimento: Todos

Aps a configurao do filtro global, possvel utiliz-lo em qualquer
relatrio OLAP. No exemplo mostrado na Figura 5.7, foram selecionadas as
mtricas, quantidade de internaes (Qtde AIH), total de dias de internao
(Dias Permanncia), custo total das internaes (Valor Total AIH) e custo
total da alta complexidade no ambulatrio (Valor Aprovado SIA), as
dimenses PACIENTE (item 2) e DIAGNSTICO (item 3) e o filtro global
FILTRO_GLOBAL_PACIENTE (item 1).
Com a gerao do relatrio OLAP, que contm o conjunto de
pacientes que foram submetidos cirurgia de troca valvar, possvel
estudar cada paciente. Por exemplo, o paciente com o identificador 120191
teve um gasto no atendimento ambulatorial de alta complexidade de R$
608,22 e um gasto de R$ 9.660,52, correspondente a 5 internaes
totalizando 36 dias de hospitalizao.
Outro exemplo, o paciente com identificador 173164, onde o
custo foi detalhado por diagnstico. Do custo total com internao (R$
7.924,24), 89,72% foi consumido pela internao para o tratamento do
diagnstico I05.0 Estenose Mitral. Entretanto, do tempo total que o
paciente ficou internado (70 dias), somente 37,14% (26 dias) foi consumido
na internao para o tratamento mencionado.
Resultados

149

Figura 5.7 Relatrio OLAP (utilizando filtro global), quantidade de
internaes, quantidade de dias de permanncia, valor total
das internaes e valor alta complexidade (ambulatrio)
segundo dimenso PACIENTE e DIAGNSTICO

Para um complemento da anlise sobre o paciente com identificador
173164, no mesmo relatrio OLAP, foram includas as dimenses
PERODO e PROCEDIMENTO e realizada a operao drill-down para esse
paciente (Figura 5.8). Foi possvel verificar que a internao que tem o custo
mais elevado foi justamente a internao na qual ocorreu a cirurgia de troca
valvar. H ainda uma curiosidade revelada pelo detalhamento da dimenso
PROCEDIMENTO, a ltima internao do paciente, que foi de hospital-dia
(tempo de permanncia igual a zero), apresenta como procedimento
RETIRADA DE CORPO ESTRANHO INTRA-OSSEO 20 meses aps o
evento da cirurgia.
1
3
2
Resultados

150

Figura 5.8 Relatrio OLAP (utilizando filtro global), quantidade de internaes,
quantidade de dias de permanncia, valor total das internaes e
valor alta complexidade (ambulatrio) segundo dimenso
PACIENTE e PROCEDIMENTO

No relatrio OLAP, possvel realizar qualquer combinao de
dimenses que esto descritas na seo 4.4, assim como possvel
configurar o filtro global utilizando qualquer dimenso associada ao fato que
deseja-se estudar.
A aplicao do filtro global para os procedimentos PLASTICA
VALVAR E/OU TROCA VALVAR MULTIPLA e TROCA VALVAR C/
REVASCULARIZACAO MIOCARDICA encontrou 7.713 pacientes distintos
que foram submetidos a esta cirurgia.



























Discusso

Discusso

152

6. DISCUSSO

A utilizao de bases de dados, denominadas secundrias ou
administrativas, para anlises epidemiolgicas, avaliao da qualidade e
quantidade dos servios de sade e auxlio da vigilncia epidemiolgica,
vem despertando a ateno de pesquisadores no contexto da Sade
Pblica.
Entretanto, devido s restries de acesso e ausncia de
ferramentas para extrao de informao e conhecimento, o uso dessas
bases em larga escala ainda limitado. Nesse sentido, ferramentas que
possibilitem a extrao de informao de modo intuitivo e cobrindo
populaes, tanto nos aspectos espaciais como temporais devem ser
perseguidas.
Por outro lado, para alguns pesquisadores, o fato desses dados
serem considerados uma fonte "secundria", implica que eles sempre sero
vistos com desconfiana, ou seja, se os dados no foram gerados com a
finalidade especfica para a qual eles so usados, a sua validade ser
sempre suspeita.
O argumento de desconfiana em dados secundrios no deve ser o
fator decisrio em sua utilizao como fonte de pesquisa. Deve-se
considerar que resultados obtidos atravs de pesquisas em dados
secundrios podem e, em algumas propostas devem, sofrer um processo de
ratificao detalhada do achado, seja atravs de dados primrios ou atravs
Discusso

153
de estruturao de novos inquritos clnicos / epidemiolgicos na populao
de interesse.
Tambm deve ser considerada, a possibilidade da estimulao de
novos desenhos clnicos visando ratificar ou afastar hipteses reveladas
atravs das pesquisas realizadas em dados secundrios e que aguarem a
sensibilidade do pesquisador.
A realizao de anlises exploratrias com o objetivo de conhecer as
limitaes e os potenciais dessas bases de dados uma tarefa fundamental.
O sucesso no uso dessas bases de dados para aplicaes na Sade
Pblica, incluindo rastreabilidade e vigilncia, depende fortemente do
conhecimento e contexto de aplicao.
No Brasil, os dados de Sade Pblica so coletados e
disponibilizados pelo Ministrio da Sade atravs do DATASUS. Para a
etapa de coleta, diversos instrumentos so utilizados, alguns com a
identificao do paciente outros no.
Para o processo de internao, o instrumento utilizado para a coleta
de informaes a Autorizao de Internao Hospitalar (AIH), a qual
sempre conteve os dados demogrficos de identificao do paciente. O
atendimento ambulatorial e o pronto atendimento ou pronto socorro,
originalmente tinham um nico instrumento de coleta, Boletim Atendimento
Ambulatorial (BPA), que no identificavam o paciente, ou seja, os
estabelecimentos de sade indicavam somente quantidade mensal de
atendimentos realizados.
Discusso

154
No final da dcada de 1990, o Ministrio da Sade estabeleceu o
instrumento de coleta denominado Autorizao de Procedimentos de Alta
Complexidade (APAC) para alguns itens do atendimento ambulatorial,
incluindo medicamentos. Neste instrumento, obrigatrio o preenchimento
de dados demogrficos do paciente incluindo o nmero do CPF. No entanto,
cabe ressaltar que em diversos atendimentos o CPF no corresponde ao
paciente e sim aos pais ou responsvel pelo paciente que recebeu o
atendimento e, em outros casos, o preenchimento incorreto, como
exemplo 99999999999.
Recentemente, o Ministrio da Sade estabeleceu um novo
instrumento denominado Boletim Atendimento Ambulatorial Individualizado
(BPA-I), com o objetivo de incluir novos itens do atendimento ambulatorial e
pronto atendimento, os quais identificam o paciente, porm sem a
necessidade de autorizao prvia do gestor como so os casos da APAC e
AIH.
H uma tendncia clara do Ministrio da Sade e das Secretaria
Estaduais em utilizar instrumentos de coletas com a identificao do
paciente, os quais permitem estudar episdios de sade dispensado ao
paciente.
Entretanto, para que seja possvel estudar os episdios de um
paciente fundamental poder identific-lo de forma unvoca. Entre o final da
dcada de 80 e incio da dcada de 90, o Ministrio da Sade fracassou na
tentativa de estabelecer o CPF como identificador obrigatrio do paciente
para os instrumentos AIH e APAC.
Discusso

155
Em 2000, com a criao do Carto Nacional de Sade do SUS
(CNS), uma nova tentativa para a identificao do paciente, tendo como o
fim especfico a Sade Pblica, foi coloca em prtica.
Segundo o Ministrio da Sade (BRASIL, 2010c), mesmo com a
interrupo na distribuio nacional do CNS em 2006, h cerca de 145
milhes de cartes cadastrados. Ainda segundo o Ministrio da Sade,
mesmo considerando as duplicidades, acredita-se que aproximadamente
130 milhes de indivduos esto identificados de forma correta.
Apesar desses esforos, ainda no h disponibilizao, mesmo que
anonimizada, de bases de dados que permitam os estudos com foco no
paciente. Ainda que o objetivo de estabelecer um documento de
identificao que possibilite a identificao unvoca do paciente em todo
atendimento seja atingido, restar um legado com mais de vinte anos de
atendimentos contendo dados de identificao do paciente sem um
identificador unvoco do mesmo.
A utilizao de tcnicas de associao de registro (Record Linkage)
vem sendo utilizada por diversos pesquisadores e em diversos pases com o
objetivo de associar registros de duas bases dados. O sucesso dessas
tcnicas depende fortemente da qualidade dos dados que sero
comparados.
A falta de um instrumento nico, ou do estabelecimento de padres
que qualifiquem o paciente que recebeu a assistncia um fator crtico nos
registros do Sistema nico de Sade brasileiro.
Discusso

156
A limpeza e padronizao das variveis so as etapas que mais
consomem recursos computacionais e humanos em um projeto de criao
ou manuteno do Data Warehouse. A limpeza pode ser caracterizada como
uma atividade de transpirao, ou seja, no so necessrias grandes
idias ou algoritmos complexos, normalmente h um grande esforo de
desenvolvimento de scripts que realizam as atividades de inspeo da
integridade dos dados entre os fatos e as dimenses.
Por outro lado, a etapa de padronizao, que pode ser dividida em
duas sub-etapas, identificao de padres e transformao, demanda
grande esforo de inspirao, elaborao de idias e estratgias que
resultam em grande esforo de transpirao, desenvolvimento de
algoritmos complexos para a realizao das sub-etapas.
Essas etapas se caracterizaram na criao do Data Warehouse
como um todo, entretanto com um grande destaque no processo de
associao de registros (Record Linkage). impraticvel a realizao de
trabalhos que manipulem grandes volumes de dados sem aplicao de
mtodos automatizados como os que foram descritos nas sees 4.3.2
(Anlise do Preenchimento e Consistncia das Variveis) e 4.3.3
(Padronizao das Variveis). A especificidade e sensibilidade desses
mtodos so fatores fundamentais para o sucesso da associao de
registros.
Queiroz et al. (QUEIROZ, 2010) consideraram o algoritmo de J aro-
Winkler inadequado para a comparao de logradouros devido ao mtodo
de atribuio de maior peso, aplicada pelo o algoritmo, para o incio da
Discusso

157
string. Por exemplo, os logradouros AVENIDA J OAO e AVENIDA J OSE,
ao serem submetidos avaliao do algoritmo, apresentam 92% de
semelhana devido ao incio das strings serem idnticas, ou seja,
AVENIDA. No caso de abreviao no prefixo do logradouro, ou seja, AV.
J OAO e AV. J OSE o percentual de semelhana de 88%. A alternativa
utilizada nesse trabalho, foi a retirada do prefixo do logradouro na etapa de
padronizao, e assim potencializar o uso do algoritmo. O exemplo dos
logradouros citado anteriormente, ficaria J OAO e J OSE e o percentual de
semelhana atribudo pelo algoritmo passa a ser de 73%. Desse modo, a
aplicabilidade do algoritmo para a varivel <logradouro>torna-se totalmente
segura.
Outra importante estratgia utilizada e que potencializou o uso do
algoritmo de J aro-Winkler, no s na varivel <logradouro>, foi a aplicao
do mtodo de fonetizao nas variveis do tipo string. Nos exemplos
demonstrados na Tabela 4.7, houve aumento de sensibilidade do mtodo
em at 40%.
Apesar do relato de sucesso, descrito por Bing Li et al. (LI, 2006),
utilizando a abordagem determinstica, no contexto da sade, para
relacionamento de trs base de dados Canadense sem um identificador
nico do paciente, a grande maioria dos estudos para o relacionamento de
bases de dados no contexto da sade, utilizou a abordagem probabilstica.
Para o relacionamento determinstico, normalmente, so utilizadas
duas estratgias: full e N-1, ou seja, full, significa que todas as variveis
devem coincidir para que o par seja considerado pertencente ao mesmo
Discusso

158
elemento. A estratgia N-1 considera que mesmo havendo discordncia
em uma das N variveis o par considerado pertencente ao mesmo
elemento. O principal problema na abordagem determinstica a no
associao de um par verdadeiro, devido a no coincidncia das variveis
utilizadas para a comparao, mesmo quando se utiliza a estratgia N-1. A
simples falta de preenchimento ou a abreviao de contedo em uma das
variveis em um dos registros que esto sendo comparados o suficiente
para que o par seja considerado como no par.
Miranda Tromp et al. (Tromp, 2010) utilizaram duas bases de dados,
com insero de erros, contendo quatro variveis (<data de nascimento>,
<CEP>, <sexo>e <cdigo do hospital>onde o atendimento foi realizado)
com o objetivo de comparar os resultados do relacionamento probabilstico e
o relacionamento determinstico. O relacionamento determinstico, utilizando
a estratgia full, resultou em aproximadamente trs (3) vezes mais erros
(falso-negativos), quando comparado com o relacionamento probabilstico. A
estratgia N-1 resultou entre duas (2) e seis (6) vezes mais erros quando
comparado com o relacionamento probabilstico. Nesse caso, quanto maior
foi o poder de discriminao da varivel que no coincidiu, maior foi a taxa
de erro observada.
Apesar do relacionamento determinstico ter a vantagem de
simplicidade de implementao, o relacionamento probabilstico tem
apresentando maior aderncia devido s menores taxas de falso-negativos.
Estimar valores de concordncia e discordncia para as variveis em
grandes bases de dados, na abordagem probabilstica, no uma tarefa
Discusso

159
trivial. Queiroz et al. (QUEIROZ, 2010) utilizaram diversas tcnicas para
essa tarefa e concluram que nenhuma foi imune a falhas.
Esse trabalho tambm utilizou o conceito de pesos de concordncia
e discordncia para comparao das variveis. No entanto, diferente da
tcnica tradicional de atribuio de um valor para concordncia, foi
adicionado o conceito de valor varivel baseado em comparaes
hierrquicas e fragmentadas, partindo de uma similaridade perfeita at uma
similaridade mnima aceitvel. Essa variao na tcnica foi importante uma
vez que alm de classificar em par ou no par, tambm possibilitou
quantificar a confiabilidade do par com maior simplicidade.
Outra caracterstica implementada nesse trabalho e que no foi
encontrada em nenhum outro estudo, foi a criao de um redutor objetivando
minimizar associaes indevidas. As caractersticas dos nomes brasileiros,
tais como a grande incidncia de homnimos, a grande repetio de
logradouros distribudos nas diversas cidades brasileiras e, a grande
concentrao de atendimento de alta complexidade nos grandes centros,
poderiam provocar a gerao de um grande nmero de falso-positivos.
Para avaliar o desempenho do algoritmo de relacionamento de
registros proposto nesse trabalho, foi utilizada uma base de dados
denominada BD-Controle com 707.960 registros. No final do processo, de
um total de 574.193 pares relacionados, 4.655 (0,81%) foram classificados
de forma errada, sendo 2.811 como falso positivo e 1.844 como falso
negativo.
Discusso

160
Analisando os registros identificados como falso-positivos verificou-
se que 44,26% so correspondentes aos cadastros duplicados de pacientes,
25,65% dos registros tem uma alta probabilidade de corresponder aos
cadastros duplicados de pacientes e 30,09% no tem variveis suficientes
para uma concluso, ou seja, podem ser cadastros duplicados ou ento
homnimos de pacientes.
Analisando os registros identificados como falso-negativos verificou-
se que 25,54% so correspondente aos registros que foram alocados em
blocos distintos na etapa de blocagem e 74,46% correspondem aos registros
que tiveram alteraes no contedo das variveis. Portanto, na comparao
de pares o escore final foi inferior ao limite estabelecido.
A sensibilidade alcanada pelo algoritmo proposto foi de 99,68% e a
especificidade de 97,94%. Considerando as duplicidades encontradas nos
falso-positivos, a especificidade recalculada seria de 99,37%. Silveira e
Artmann (Silveira, 2009) em um estudo de reviso sistemtica para avaliar a
acurcia dos mtodos de relacionamento probabilstico, encontraram
sensibilidades que variaram de 74% 98% e especificidade que variaram de
99% 100%.
Previa-se inicialmente a carga de 10 anos (2000 2009) de
informaes dos atendimentos dispensados aos pacientes no estado de So
Paulo, provenientes das base de dados que contm identificao dos
pacientes. O pedido solicitando o acesso a essas bases de dados, foi
encaminhado ao Ministrio da Sade, porm, at o presente momento, o
pedido encontra-se em avaliao pelo Departamento de Cincia e
Discusso

161
Tecnologia em Sade (DECIT) da Secretaria de Cincia, Tecnologia e
Insumos Estratgicos do Ministrio da Sade (SCTIE/MS).
Como alternativa essa limitao, foram utilizadas bases de dados
cedidas pela Secretaria de Estado da Sade do Estado de So Paulo. No
entanto, essas bases de dados continham parte do perodo desejado, ou
seja, 2000 2005 para a SIH (Sistema de Informao Hospitalar), 2000
2007 para SIA-APAC (Sistema de Informao Ambulatorial Autorizao de
Procedimentos de Alta Complexidade) e 2006 2008 para o SIM (Sistema
de Informao sobre Mortalidade).
Outra limitao encontrada, foi a ausncia da varivel <nome da
me>na base de dados referente ao SIH. Mesmo com a ausncia dessa
varivel foi possvel a aplicao do mtodo proposto, devido a existncia de
outras variveis que contriburam com o relacionamento dos registros. A
presena dessa varivel provavelmente aumentaria o percentual da
confiabilidade do par.
Assim como este trabalho, h diversos pesquisadores no Brasil
(apresentados na seo 3.4.5) estudando mtodos determinsticos,
probabilsticos e mistos de relacionamento de registros, com o foco nas
bases de dados do Ministrio da Sade, tendo como o objetivo vincular os
atendimentos dispensados a determinado paciente.
O crescente interesse nessas bases de dados e nas tcnicas de
relacionamento de registros demonstram o potencial das bases de dados
consideradas secundrias para estudos da Sade Pblica brasileira.
Discusso

162
Finalmente, devido ao interesse de continuidade dessa linha de
pesquisa, alguns pontos continuaro sendo estudados aps a concluso
dessa tese:
1. Atualizao do DW com novos dados do DATASUS:Para a carga
do DW com os dados pblicos, aqueles que esto disponveis no site do
DATASUS e que no contm dados identificados do paciente, foram
utilizados somente os arquivos que j haviam sido consolidados, ou seja,
no seriam realizadas novas publicaes contendo alteraes. Sendo assim,
para os sistemas SIHSUS, SIASUS, SIM e SINASC o perodo utilizado foi
de 2000 2007. Assim que os anos de 2008 e 2009 estiverem consolidados,
estes sero includos do ambiente.
2. Base com identificao do paciente: Caso o pedido de
disponibilizao das bases de dados, contendo a identificao dos pacientes
seja aprovado pelo Ministrio da Sade, esses dados sero organizados e o
processo de associao de registros (Record Linkage) ser reprocessado e
recarregado no DW.
3. Novas estratgias de blocagem: Avaliao de etapas
complementares de blocagem com o objetivo de reduzir ainda mais os casos
de falso-negativos.
4. Novas tcnicas para minerao de dados: Avaliao de outras
ferramentas e tcnicas de minerao no ambiente construdo.


























Concluses



Concluso


164

7. CONCLUSES

A dificuldade para comparar informaes, conhecer a evoluo de
pacientes no tempo e a extrao de informao gerencial, a partir da
explorao das bases de dados do SUS, foi a questo motivadora deste
trabalho. Esta questo conduziu hiptese da criao de um ambiente para
extrao de informao, a partir da minerao das bases de dados do SUS
para os pacientes atendidos no Estado de So Paulo.
A partir desta conjectura, foi definido, implantado e avaliado um
ambiente adequado s peculiaridades da Sade Pblica e dos sistemas de
informaes do SUS.
Um conjunto de objetivos especficos e premissas foram
estabelecidos e atendidos pelo ambiente proposto:
1. Definio e implantao de um Data Warehouse, reunindo e
integrando dados dos principais sistemas de informao do SUS: SIA, SIH,
SIM e SINASC. Esse Data Warehouse foi carregado com dados dos
respectivos sistemas, correspondentes ao perodo de 2000 2007, o que
resultou numa base com mais de 278 milhes de registros.
2. Desenvolvimento do mtodo para associao de registros ao
paciente. O mtodo desenvolvido e aplicado nas base de dados que
continham os atendimentos (N =33.799.231), com dados demogrficos dos
pacientes, reconheceu 8.406.387 pacientes distintos.
Concluso


165
3. Construo da base de dados BD-Controle visando verificar a
eficcia do mtodo de associao de registros. A aplicao do mtodo em
um base de dados controlada era fundamental para avaliar o mtodo de
forma automtica.
4. Implantao de ferramentas que permitiram a extrao de
informao no contexto da Sade Pblica. A adaptao da ferramenta
MinerSUS, criando a opo do filtro global, possibilitou a extrao de
informao de pacientes que compartilham determinadas caractersticas, por
exemplo, pacientes que foram submetidos a procedimentos especficos, bem
como avaliar a evoluo clnica dos mesmos a partir das bases de dados de
internao e atendimento ambulatorial (alta complexidade).
Os resultados desta tese podem contribuir com a metodologia para
a construo de ambientes similares ao aqui proposto, na estimulao do
uso das tcnicas de relacionamento de registros em grandes bases de
dados e na criao de uma ambiente que possibilite a extrao de
informaes epidemiolgica baseado na integrao dos principais sistemas
do Ministrio da Sade.



























Anexos



Anexo


167
8. ANEXOS
Anexo 1. Aprovao da Comisso Cientfica.




Anexo


168
Anexo 2. Carta de solicitao da base de dados Identificada.


























Referncias Bibliogrficas



Referncia Bibliogrfica


170
9. REFERNCIAS BIBLIOGRFICAS

ACHESON Report. Independent inquiry into inequalities in health: report.
(Acheson Report). London: Department of Health, The Stationery
Office, 1998.

AGGARWAL , Charu C.; YU, Philip S. A framework for condensation-based
anonymization of string data. Data Mining and Knowledge Discovery,
v. 16, n. 3, p.251-275, J un. 2008.

ALMEIDA FILHO, Naomar de. Bases histricas da Epidemiologia. Cad.
Sade Pblica, Rio de J aneiro, v. 2, n. 3, Set. 1986. Disponvel em
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-
311X1986000300004&lng=en&nrm=iso>. Acessado em 04 Maro
2010. doi: 10.1590/S0102-311X1986000300004.

BARATA, Rita Barradas. Tendncias no ensino da epidemiologia no Brasil.
Rev Panam Salud Publica, Washington, v. 2, n. 5, 1997.
Disponvel em
<http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S1020-
49891997001100006&lng=en&nrm=iso>. Acessado em 05 Maio
2010. doi: 10.1590/S1020-49891997001100006.

BARRETO, Mauricio L.. Papel da epidemiologia no desenvolvimento do
Sistema nico de Sade no Brasil: histrico, fundamentos e
perspectivas. Rev. bras. epidemiol., So Paulo, 2002 . Disponvel
em
<http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S1415-
790X2002000400003&lng=pt&nrm=iso>. Acessado em 01
Setembro 2010. doi: 10.1590/S1415-790X2002000400003.
Referncia Bibliogrfica


171

BEAGLEHOLE, R & BONITA, R. Public Health at the Crossroads
Achievements and Prospects, Second Edition, Cambridge University
Press, 2004.

BITTENCOURT, S.A., CAMACHO, L.A.B., LEAL, M.C. O Sistema de
Informao Hospitalar e sua aplicao na sade coletiva. Cad.
Sade Pblica, Rio de J aneiro, v. 22, n. 1, pp. 19-30, J an, 2006.
Disponvel em <http://www.scielo.br/pdf/csp/v22n1/03.pdf>.
Acessado em 07 J unho 2010.

BLANE, D. Health inequality and public policy: one year on from the Acheson
report. J ournal of Epidemiology and Community Health, v. 53, p. 748,
1999.

BRASIL, 1986, Ministrio da Sade, Conferncias Nacionais de Sade. VIII
Conferncia Nacional de Sade. Disponvel em
http://conselho.saude.gov.br/biblioteca/Relatorios/relatorio_8.pdf.
Acessado em 20 Agosto 2010.

BRASIL, 1988, Presidncia da Repblica, Casa Civil. Constituio da
Repblica Federativa do Brasil de 1988. Disponvel em
http://www.planalto.gov.br/ccivil_03/constituicao/constitui%C3%A7ao
.htm. Acessado em 20 Maro 2010.

BRASIL, 1990, Ministrio da Sade, Conselho Nacional de Sade. Sistema
nico de Sade Lei 8.080/90. Disponvel em
http://conselho.saude.gov.br/legislacao/lei8080_190990.htm.
Acessado em 11 abril 2010.

Referncia Bibliogrfica


172
BRASIL, 2002, Ministrio da Sade, Fundao Nacional de Sade.
Textos de epidemiologia para vigilncia ambiental em
sade. Disponvel em
http://bvsms.saude.gov.br/bvs/publicacoes/funasa/textos_vig_ambien
tal.pdf. Acessado em 08 fevereiro 2010.


BRASIL, 2009, Ministrio da Sade, Secretaria Executiva. Departamento de
Informtica do SUS. Disponvel em
http://www2.datasus.gov.br/DATASUS/index.php?area=01.
Acessado em 12 abril 2010.

BRASIL, 2010, Ministrio da Sade. Atendimento: O que o SUS.
Disponvel em http://www.brasil.gov.br/sobre/saude/atendimento/o-
que-e-sus. Acessado em 12 J ulho 2010.

BRASIL, 2010a, Ministrio da Sade. Alta Complexidade. Disponvel em
http://dtr2004.saude.gov.br/susdeaz/topicos/topico_det.php?co_topic
o=276&letra=A. Acessado em 18 Setembro 2010.

BRASIL, 2010b, Ministrio da Sade. Mdia e Alta Complexidade.
Disponvel em
http://portal.saude.gov.br/portal/sas/mac/area.cfm?id_area=835#.
Acessado em 18 Setembro 2010.

BRASIL, 2010c, Ministrio da Sade. Novo Carto Nacional de Sade .
Disponvel em
http://portal.saude.gov.br/portal/arquivos/pdf/apresentacao_cns_versao1.pd
f. Acessado em 18 Setembro 2010.

Referncia Bibliogrfica


173

CAMARGO J R, K.R.; COELI, C.M. Reclink: aplicativo para o relacionamento
de bases de dados, implementando o mtodo probabilistic record
linkage. Cad. Sade Pblica, Rio de J aneiro. 2000 Abr-
J un;16(2):439-4.


CARDOSO, Andrey Moreira; SANTOS, Ricardo Ventura; COIMBRA J R.,
Carlos E. A.. Mortalidade infantil segundo raa/cor no Brasil: o que
dizem os sistemas nacionais de informao?. Cad. Sade Pblica,
Rio de J aneiro, v. 21, n. 5, Oct. 2005. Disponvel em
<http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S0102-
311X2005000500035&lng=en&nrm=iso>. Acessado em 07 J unho
2010. doi: 10.1590/S0102-311X2005000500035.


COELI, C.M.; CAMARGO J R, K.R.; Avaliao de diferentes estratgias de
blocagem no relacionamento probabilstico de registros. Revista
Brasileira de Epidemiologia, So Paulo, v. 5, n. 2, 2002. Disponvel
em <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S1415-
790X2002000200006&lng=en&nrm=iso>. Acessado em 08 J ulho
2010. doi: 10.1590/S1415-790X2002000200006.


COELI, C.M.; CAMARGO J R, K.R.; SANCHES, K.R.B.; CASCO, A.M.
Sistemas de Informao em Sade. Em: MEDRONHO, Roberto A.
[et al.]. Epidemiologia 2 Edio. So Paulo: Editora Atheneu, 2009.



Referncia Bibliogrfica


174

COSTA, Maria da Conceio Nascimento; TEIXEIRA, Maria da Glria Lima
Cruz. A concepo de "espao" na investigao epidemiolgica.
Cad. Sade Pblica, Rio de J aneiro, v. 15, n. 2, Abril 1999.
Disponvel em
<http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S0102-
311X1999000200012&lng=en&nrm=iso>. Acessado em 17 Maio
2010. doi: 10.1590/S0102-311X1999000200012.


COUNTINHO, R.G.M; COELI, C.M.; FAERSTEIN, E; CHOR, D.
Sensibilidade do linkage probabilstico na identificao de
nascimentos informados: Estudo Pr-Sade. Rev Sade Publica.
2008;42(6):1097-100.


CHAE, Young Moon; HO, Seumg Hee; CHO, Won Kyoung; LEE, Dong Ha;
J I, Sun Ha. Data Mining approach to policy analysis in health
insurance domain, International J ournal of Medical Informatics, v. 62,
pp. 103-111, 2001.


CHEN, Zhengxin. Data Mining and Uncertain Reasoning: an integrated
approach. USA, New York: Wiley-Interscience, 2001.


CLARK , D. E.; HAHN, D. R. Comparison of Probabilistic and Deterministic
Record Linkage in the Development of a Statewide Trauma Registry.
Proc Annu Symp Comput Appl Med Care, pp. 397401, 1995.

Referncia Bibliogrfica


175

ESCOSTEGUY, C.C.; PORTELA, M.C.; MEDRONHO, R.A.;
VASCONCELLOS, M.T.L. O Sistema de Informaes Hospitalares e
a assistncia ao infarto agudo do miocrdio. Rev. Sade Pblica,
So Paulo, v. 36, n. 4, Abr. 2002. Disponvel em <
http://www.scielo.br/pdf/rsp/v36n4/11769.pdf >. Acessado em 02
Abril 2010

FAYYAD, U.M.; PIATETSKY-SHAPIRO, G.; SMYTH, P; UTHURUSAMY, R.
Advances in Knowledge Discovery and Data Mining. USA, California:
AAAI Press / MIT Press , 1996.


FELLEGI I.P.; SUNTER A.B. A Theory for Record Linkage. J ournal of the
American Statistical Association. Dec, 1969; 64(328): 1183-210.
Disponvel em <http://www.jstor.org/stable/2286061>. Acessado em
08 Outubro, 2009.

GIROTTO, Edmarlon; ANDRADE, Selma Maffei de; CABRERA, Marcos
Aparecido Sarri. Anlise de trs fontes de informao da ateno
bsica para o monitoramento da hipertenso arterial. Epidemiol.
Serv. Sade, Braslia, v. 19, n. 2, jun. 2010. Disponvel em
<http://scielo.iec.pa.gov.br/scielo.php?script=sci_arttext&pid=S1679-
49742010000200006&lng=pt&nrm=iso>. Acessado em 08 Agosto
2010.

GOEBEL, M; GRUENWALD, L; A Survey of Data Mining and Knowledge
Discovery Software Tools. ACM SIKDD Explorations v. 1, n. 1, pp
20-33, jun. 1999.

Referncia Bibliogrfica


176
GES, S.M.C.; COELI, C.M.; MEDRONHO, R.A. Relacionamento
probabilstico entre bases de dados sobre medicamentos e
notificao: Uma aplicao na vigilncia da AIDS. Cadernos Sade
Coletiva, Rio de J aneiro. 2006 Abr-J un;14(2):313-26.

GOLDSCHMIDT, Ronaldo; PASSOS, Emmanuel. Data mining: um guia
prtico. Rio de J aneiro: Elsevier, 2005 4 impresso.

GONALVES DE S, J oo Henrique; BRENTANI, Alexandra; GRISI,
Sandra; REBELO, Marina de S; GUTIERREZ, Marco Antnio.
GeoHealth: Sistema de Georreferenciamento para Coleta de Dados
das Famlias na Ateno Bsica. Anais do XII Congresso Brasileiro
de Informtica em Sade CBIS 2010, 2010.

HOTA, Bala; J ONES, Roderick C.; SCHWARTZ, David N. Informatics and
infectious diseases: What is the connection and efficacy of
information technology tools for therapy and health care
epidemiology?
American J ournal of Infection Control, v.36, n. 3, p.S47-S56, April,
2008.

IEZZONI, Lisa I. Assessing Quality Using Administrative Data. Annals of
Internal Medicine American College of Physicians, Philadelphia, v.
127, n. 8, October 1997.

INCOR, Servio de Informtica do Instituto do Corao HCFMUSP.
Algoritmo de fonetizao [citado em 11, Maio 2010]. Disponvel em
http://www.incor.usp.br/spdweb/ccssis/fonetica/

Referncia Bibliogrfica


177
INMON, William H. Como construir o Data Warehouse. 2.ed. Rio de J aneiro:
Campus, 1997.

KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Toolkit: o guia
completo para modelagem multidimensional. Rio de J aneiro:
Campus, 2002.

KRIEGEL, Hans-Peter, BORGWARDT, Karsten M; KRGER, Peer;
PRYAKHIN, Alexey; SCHUBERT, Matthias; ZIMEK, Arthur. Future
trends in data mining. Data Mining and Knowledge Discovery,
Munich v. 15, n. 1, p. 87-97, Fevereiro, 2007.

LEVENSHTEIN, V. Efficient Implementation of the Levenshtein-Algorithm,
Fault-tolerant Search Technology, Error-tolerant Search
Technologies. 2007. Disponvel em <http://www.levenshtein.net/>.
Acessado em: 17 dez. 2009.

LI, B.; QUAN, H.; FONG, A.; LU, M. Assessing record linkage between health
care and Vital Statistics databases using deterministic methods.BMC
Health Serv Res. 2006; 6: 48. . doi: 10.1186/1472-6963-6-48.

LICHTNER, Valentina; WILSON, Stephanie; GALLIERS, J ulia R. The
challenging nature of patient identifiers: an ethnographic study of
patient identification at a London walk-in centre. Health Informatics
J ournal, Los Angels v.14, n. 2, p. 141150, 2008.

LIMA-COSTA, Maria Fernanda; BARRETO, Sandhi Maria. Tipos de Estudos
Epidemiolgicos: Conceitos Bsicos e Aplicaes na rea do
Envelhecimento. Epidemiologia e Servios de Sade, Braslia, v.
12, n. 4, Dezembro 2003. Disponvel em <
http://scielo.iec.pa.gov.br/pdf/ess/v12n4/v12n4a03.pdf>. Acessado
em 02 out. 2010.
Referncia Bibliogrfica


178
LOYOLA FILHO, Antnio Igncio de et al . Causas de internaes
hospitalares entre idosos brasileiros no mbito do Sistema nico de
Sade. Epidemiol. Serv. Sade, Braslia, v. 13, n. 4, Dezembro
2004. Disponvel em
<http://scielo.iec.pa.gov.br/scielo.php?script=sci_arttext&pid=S1679-
49742004000400005&lng=pt&nrm=iso>. Acessado em 24 out.
2010. doi: 10.5123/S1679-49742004000400005.

LUCENA, F.F.A; FONSECA, M.G.P.; SOUSA, A.I.A.; COELI C.M. O
Relacionamento de Banco de Dados na Implementao da Vigilncia
da AIDS. Cadernos Sade Coletiva, Rio de J aneiro. 2006 Abr-J un;
14(2):305-8.

MACHADO, C.J .; Como podem ser analisados dados pareados de forma
probabilstica na presena de incerteza? Um exerccio contrastando
quatro procedimentos. Cadernos Sade Coletiva, Rio de J aneiro.
2006 Abr-J un; 14(2):233-250.

MACHADO, J .P.; SILVEIRA, D.P.; SANTOS, I.S.; PIOVESAN, M.F.;
ALBUQUERQUE, C. Aplicao da metodologia de relacionamento
probabilstico de base de dados para a identificao de bitos em
estudos epidemiolgicos. Rev Bras Epidemiol. 2008; 11(1):43-54.

MATHIAS, Thais A. de F.; SOBOLL, Maria Lcia de M.S.. Confiabilidade de
diagnsticos nos formulrios de autorizao de internao hospitalar.
Rev. Sade Pblica, So Paulo, v. 32, n. 6, Dec. 1998.
Disponvel em
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0034-
89101998000600005&lng=en&nrm=iso>. Acessado em 02
Setembro 2010. doi: 10.1590/S0034-89101998000600005.
Referncia Bibliogrfica


179

MEDRONHO, Roberto A. [et al.]. Epidemiologia 2 Edio. So Paulo:
Editora Atheneu, 2009.

MINAYO, Maria Ceclia de Souza et al . Possibilidades e dificuldades nas
relaes entre cincias sociais e epidemiologia. Cinc. sade
coletiva, Rio de J aneiro, v. 8, n. 1, 2003. Disponvel em
<http://www.scielosp.org/scielo.php?script=sci_arttext&pid=S1413-
81232003000100008&lng=en&nrm=iso>. Acessado em 29 Maro
2010. doi: 10.1590/S1413-81232003000100008.

NEWCOMBE H.B.; KENNEDY J .M. Record linkage: making maximum use of
the discriminating power of identifying information. Communications
of the ACM. Nov, 1962 p. 563-6. DOI=
http://doi.acm.org/10.1145/368996.369026

NORONHA, J .C., TRAVASSOS, C., MARTINS, M., CAMPOS, M.R., MAIA P,
PANEZZUTI, R.. Avaliao da relao entre volume de
procedimentos e a qualidade do cuidado: o caso de cirurgia
coronariana no Brasil. Cad. Sade Pblica, Rio de J aneiro, v. 19, n.
6, pp. 1781-1789, Nov-Dez, 2003. Disponvel em
<http://www.scielo.br/pdf/csp/v19n6/a22v19n6.pdf>. Acessado em
17 J unho 2010.

NUNES, Everardo Duarte. Ps-graduao em sade coletiva no Brasil:
histrico e perspectivas. Physis, Rio de J aneiro, v. 15, n. 1, jun.
2005 . Disponvel em
<http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-
73312005000100002&lng=pt&nrm=iso>. Acessado em 02 Abril
2010. doi: 10.1590/S0103-73312005000100002.
Referncia Bibliogrfica


180

OLIVEIRA, Maria Regina Fernandes. reas de aplicao da epidemiologia
nos servios de sade. Epidemiol. Serv. Sade, Braslia, v. 18, n.
2, jun. 2009. Disponvel em
<http://scielo.iec.pa.gov.br/scielo.php?script=sci_arttext&pid=S1679-
49742009000200001&lng=pt&nrm=iso>. Acessado em 18
Setembro 2010.

ORACLE, Oracle Corporation. Oracle Database 10g. Disponvel em
http://www.oracle.com/technetwork/database/database10g/overview/
ds -general-oracle-database10gr2-ee--133153.pdf. Acessado em 12
abril 2010.


ORACLE a, Oracle Corporation. Oracle Database PL/SQL Packages and
Types Reference 10g Release 2 (10.2). Disponvel em
http://download.oracle.com/docs/cd/B19306_01/appdev.102/b14258/
d_random.htm. Acessado em 12 abril 2010.


PAIVA, N.S., COELI, C.M., MORENO, A.B., GUIMARES, R.M., CAMARGO
J R, K.R. Sistema de Informaes sobre Nascidos Vivos: um Estudo
de Reviso. Revista Cincia & Sade Coletiva da Associao
Brasileira de Ps-Graduao em Sade Coletiva, 2008. Disponvel
em <
http://www.cienciaesaudecoletiva.com.br/artigos/artigo_int.php?id_art
igo=2131 >. Acessado em 12 Setembro 2010.


Referncia Bibliogrfica


181
PACHECO, Antonio G. et al. Validation of a Hierarchical Deterministic
Record-Linkage Algorithm Using Data From 2 Different Cohorts of
Human Immunodeficiency Virus-Infected Persons and Mortality
Databases in Brazil. American J ournal of Epidemiology, v. 168, n. 11,
oct. 2008.


PEIXOTO, Srgio Viana et al . Custo das internaes hospitalares entre
idosos brasileiros no mbito do Sistema nico de Sade. Epidemiol.
Serv. Sade, Braslia, v. 13, n. 4, dez. 2004. Disponvel em
<http://scielo.iec.pa.gov.br/scielo.php?script=sci_arttext&pid=S1679-
49742004000400006&lng=pt&nrm=iso>. Acessado em 02
Setembro 2010. doi: 10.5123/S1679-49742004000400006.

PINHEIRO, R.S., VIEIRA, R.A., COELI, C.M., VIDAL, E.I.O, CAMARGO J R,
K.R. Utilizao do SIH-SUS e do SIM para o clculo da mortalidade
hospitalar em 30 dias para as Internaes de pacientes com fratura
proximal de fmur. Cadernos de Sade Coletiva, Rio de J aneiro, v.
14, n. 2, pp. 337-344, 2006. Disponvel em
<http://www.iesc.ufrj.br/csc/2006_2/resumos/kenneth_rochel_2006_2
.pdf>. Acessado em 14 Agosto 2010.

PORTER, E. H.; WINKLER, W. E. Approximate String Comparison and its
Effect in an Advanced Record Linkage System. In Alvey and
J amerson (ed.) Record Linkage Techniques - 1997, 190-199,
National Research Council, Washington, D.C: National Academy
Press.


Referncia Bibliogrfica


182
QUEIROZ, Odilon. Vanni et al. Relacionamento de registros de grandes
bases de dados: estimativa de parmetros e validao dos
resultados, aplicados ao relacionamento dos registros das
autorizaes de procedimentos ambulatoriais de alta complexidade
com os registros de sistema de informaes hospitalares. Cadernos
Sade Coletiva, Rio de J aneiro. 2010 Abr-J un;18(2):298-308.

ROMERO, J .A.R. Demografia: Utilizando o relacionamento de bases de
dados para avaliao de polticas pblicas: uma aplicao para o
programa bolsa famlia [tese]. Belo Horizonte : Universidade Federal
de Minas Gerais Faculdade de Cincias Econmicas; 2008.

ROUQUAYROL, Maria Z. Epidemiologia & Sade 4 Edio. So Paulo:
MEDSI Editora Mdica e Cientfica LTDA, 1994.

SANTOS, M. F.; AZEVEDO, C. Data Mining: Descoberta de Conhecimento
em Bases de Dados. Lisboa: FCA Editora de Informtica, 2005.

SANTOS, R.S., GUTIERREZ, M.A., TACHINARDI, U., FURUIE, S.S. Projeto
de Data Warehouse para a Sade Pblica. Anais do IX Congresso
Brasileiro de Informtica em Sade, pp. 131-136, 2004.

SANTOS, R.S., ALMEIDA, A.L., TACHINARDI, U., GUTIERREZ, M.A.. Data
Warehouse para a Sade Pblica: Estudo de Caso SES-SP. Anais
do X Congresso Brasileiro de Informtica em Sade, pp. 53-58,
2006.

SANTOS, R.S. Informtica em Sade: Ambiente para Extrao de
Informao atravs da Minerao das Bases de Dados do Sistema
nico de Sade [tese]. So Paulo: Universidade Federal de So
Paulo Escola Paulista de Medicina; 2007.
Referncia Bibliogrfica


183
SANTOS, R.S., PIRES, F.A., GUTIERREZ, M. A. Minerao de Dados em
Bases Assistenciais. Em: NITA, M.E.; CAMPINO, A.C.C.; SECOLI,
S.R.; SARTI, F.M.; NOBRE, M.R.C.; editores. Avaliao de
Tecnologias em Sade: Evidncia Clnica, Anlise Econmica e
Anlise de Deciso. Porto Alegre: Artmed, 2010, p. 96-115.

SANTOS, R.S., GUTIERREZ, M.A.. MINERSUS Ambiente computacional
para extrao de informaes para a gesto da sade pblica por
meio da minerao dos dados do SUS. Revista Brasileira de
Engenharia Biomdica, v. 24, p. 77-94, 2008.

SEMENOVA, Tatiana. Discovering patterns of medical practice in large
administrative health databases. Data & Knowledge Engineering, v.
51, p.149160, 2004.

SCHEUREN, F. E.; YOUNG, L. L. P. Linking health records: human rights
concerns. International Workshop and Exposition, 1997.
Proceedings. Washington DC, 1999, p. 404 - 426.

SIASUS, Ministrio da Sade, Departamento de Informtica do SUS.
Sistema de Informaes Ambulatoriais do SUS (SIASUS). Disponvel
em
<http://portal.saude.gov.br/portal/arquivos/pdf/MANUALSIAAtualizad
o.pdf>. Acessado em 12 J ulho 2010.

SIHSUS, Ministrio da Sade, Departamento de Informtica do SUS.
Sistema de Informaes Hospitalares do SUS (SIHSUS). Disponvel
em
<http://www2.datasus.gov.br/DATASUS/index.php?area=040502>.
Acessado em 12 J ulho 2010.
Referncia Bibliogrfica


184

SILVEIRA, D.P.; ARTMANN, E. Acurcia em mtodos de relacionamento
probabilstico de bases de dados em sade: reviso sistemtica.
Rev Sade Pblica. 2009; 43(5):875-82.

SIM, Ministrio da Sade, Fundao Nacional de Sade. Manual de
Procedimentos do Sistema de Informaes sobre Mortalidade.
Disponvel em
<http://bvsms.saude.gov.br/bvs/publicacoes/sis_mortalidade.pdf>.
Acessado em 12 J ulho 2010.

SINAN, Ministrio da Sade, Secretaria de Vigilncia em Sade,
Departamento de Vigilncia Epidemiolgica. Sistema de Informao
de Agravos de Notificao (SIANAN). Disponvel em <
http://portal.saude.gov.br/portal/arquivos/pdf/manual_sinan.pdf>.
Acessado em 12 J ulho 2010.


SINASC, Ministrio da Sade, Fundao Nacional de Sade. Manual de
Procedimentos do Sistema de Informaes sobre Nascidos Vivos.
Disponvel em
<http://bvsms.saude.gov.br/bvs/publicacoes/sis_nasc_vivo.pdf>.
Acessado em 12 J ulho 2010.


SQL. Information Technology - Database Language SQL. ISO/IEQ
9075:1992. Disponvel em
<http://www.iso.org/iso/iso_catalogue/catalogue_ics/
catalogue_detail_ics.htm?csnumber=16663>. Acessado em 18 J ulho
2010.
Referncia Bibliogrfica


185

SOUSA, M.H.; CECATTI, J .G.; HARDY, E; SERRUYA, S.J . Relacionamento
probabilstico de registros: uma aplicao na rea de morbidade
materna grave (near miss) e mortalidade materna. Cad. Sade
Pblica, Rio de J aneiro. 2008 Mar; 24(3):653-62.

SOUZA, Rmulo Cristovo de; FREIRE, Sergio Miranda; ALMEIDA,
Rosimary Terezinha de. Sistema de informao para integrar os
dados da assistncia oncolgica ambulatorial do Sistema nico de
Sade. Cad. Sade Pblica, Rio de J aneiro, v. 26, n. 6, J une 2010
.Disponvel em <http://www.scielosp.org/scielo.php?script=
sci_arttext&pid=S0102-311X2010000600007&lng=en&nrm=iso>.
Acessado em 05 Setembro 2010. doi: 10.1590/S0102-
311X2010000600007.

STEPHEN E. Brossette, ALAN P. Sprague, HARDIN J . Michael, KEN B.
Waites, WARREN T. J ones, STEPHEN A. Moser. Associations
Rules and Data Mining in Hospital Infection Control and Public Health
Surveillance, J ournal of the American Medical Informatics
Association, V. 5 N. 4 (1998) 3713-181.

TEIXEIRA, C.L.S; BLOCK, K.V.; KLEIN, C.H.; COELI, C.M. Mtodo de
relacionamento de bancos de dados do Sistema de Informaes
sobre Mortalidade (SIM) e das autorizaes de internao hospitalar
(BDAIH) no Sistema nico de Sade (SUS), na investigao de
bitos de causa mal-definida no Estado do Rio de J aneiro, Brasil,
1988. Epidemiologia e Servios de Sade. 2006 J an-Mar;15(1):47-
57.

Referncia Bibliogrfica


186
THOMSEN, E. OLAP: Construindo sistemas de informaes
multidimensionais. Rio de J aneiro: Campus, 2002.

TROMP, M, RAVELLI A. C., BONSEL, G. J . HASMAN, A. REITSMA, J . B.
Results from simulated data sets: probabilistic record linkage
outperforms deterministic record linkage. J ournal of Clinical
Epidemiology. 2011;64(5):565-572. DOI:
10.1016/j.jclinepi.2010.05.008.

VIRNIG, B. A., McBean, M. Administrative data for Public Health Surveillance
and Planning. Annual Review of Public Health. Volume 22, Page
213-230, 2001. Disponvel em
<http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.2
2.1.213>. Acessado em 27 de Setembro 2010.

YANG, Wan-Shiou, WANG San-Yih. A process-mining framework for the
detection of healthcare fraud and abuse, Expert Systems with
Applications v. 31, pp. 5668, 2006.









































Somos o que repetidamente fazemos, portanto, a
excelncia no um feito, mas um hbito.

Aristteles