Você está na página 1de 6

Revista Científica do IMAPES - Abril de 2004 Pág.

41

Técnicas de record linkage


e inteligência artificial
para a construção de um
data warehouse aplicado
à área de Saúde
Andréia Damásio de Leles*

RESUMO

Este artigo tem como objetivos discutir os desafios para a constru-


ção de um data warehouse (DW) com chave unívoca baseada em dados
não numéricos e evidenciar que essa tecnologia de informação pode ser
aplicada não somente com propósito comercial ou inteligência para negó-
cios. O DW seria o alicerce para o desenvolvimento de uma grande base
de dados de registros eletrônicos em saúde (RES), auxiliando médicos e
profissionais da área em suas tarefas rotineiras e, principalmente, para
suporte à decisão e às pesquisas científicas. No entanto, a construção de
um DW com essas características não é um trabalho trivial devido à inexis-
tência de uma chave unívoca para realizar a ligação de registros de dife-
rentes bases de dados. O foco é apresentar a complexidade das etapas de
limpeza e transformação de dados, fases que devem ser realizadas para a
criação da chave unívoca fidedigna, a qual identifica um indivíduo de forma
única. Assim, serão discutidas algumas técnicas já implementadas ou em
pesquisa, utilizadas nas etapas de limpeza e transformação dos dados
para construção de um DW específico à área de saúde. As técnicas discu-
tidas serão a de record linkage, machine learning (técnicas de inteligência
artificial) e data mining.

1. Introdução dos serviços de saúde, as aplicações tais como hábitos alimentares, prá-
voltadas para a área educacional. tica desportiva e atividades de la-
A tecnologia da informação Além disso, com a grande utiliza- zer. Todos os eventos relacionados
está sendo amplamente utilizada ção dos recursos da Internet, jun- à saúde do indivíduo devem estar
em saúde. Destacam-se nesta área tamente com os grandes avanços registrados neste prontuário, do
de atuação as seguintes aplicabili- na área de tecnologia de informa- nascimento à morte, agregados em
dades: os sistemas de informação ção, as áreas de saúde e computa- torno de um identificador único
hospitalar (SIH), os sistemas de ção estão unindo esforços para ge- ou chave unívoca. A informação
apoio à decisão, os sistemas espe- rar uma grande base de dados de deve estar representada de tal modo
cialistas, a telemedicina, as redes RES (Cook; Olson; Dean, 2001). que a troca de informações entre
de comunicação digital para a saú- Idealmente, um RES é o re- instituições e a recuperação de da-
de, as aplicações destinadas à saú- gistro conciso e fidedigno da vida dos sejam feitas de forma transpa-
de comunitária, o processamento de um indivíduo, não somente dos rente para aqueles que estiverem
de sinais e imagens biológicas, o eventos relacionados à doença, mas acessando a informação. Acima de
controle e avaliação de qualidade também de informações de saúde, tudo, o RES deve atender aos re-
Pág. 42 Revista Científica do IMAPES - Abril de 2004

quisitos essenciais de integridade, conjunto de dados, não volátil, vindo como ferramenta de apoio
autenticidade, disponibilidade e orientado a tópicos, integrado, que em pesquisas científicas e epide-
privacidade da informação. varia com o passar do tempo e que miológicas, com a finalidade de
Em computação, o RES serve para o processo de tomada proporcionar melhorias e avanços
pode ser considerado uma grande de decisão da gerência. dos serviços de saúde.
base de dados, que poderá otimi- Tradicionalmente, o DW é
zar o trabalho de rotina dos pro- a tecnologia de informação ampla- 2. Construção de um Data
fissionais da área de saúde como mente empregada nas empresas Warehouse para Saúde
também apoiar a decisão clínica e para geração de sistemas de apoio à
auxiliar pesquisas. decisão com a finalidade de aumen- Universalmente, os projetos
Na área de saúde, médicos tar a inteligência nos negócios, for- de DW requerem infra-estrutura
e profissionais em suas atividades necendo aos executivos, gerentes e e arquitetura (Inmon, 1997). Para
rotineiras, como avaliação médi- administradores dados e informa- a área de saúde, esses requisitos não
ca, definição de diagnóstico e ções históricas empresariais, as quais são diferentes, sendo necessários os
prescrição de tratamento clínico, são a base concreta para a tomada seguintes procedimentos:
devem fundamentar-se em dados loReunião de dados de di-

históricos de um determinado A existência de diversas ferentes bases;


paciente que podem ser encontra- bases de dados loIntegração dos dados (a

dos no RES. informatizadas em parte complexa da arquitetura) em


Também na área da pesqui- diferentes localidades, uma única estrutura física;
sa clínica é indiscutível o avanço desenvolvidas com loTratamento de grande vo-

que proporcionaria o RES, tornan- características lume de dados;


do muito mais fácil a tarefa de co- diferentes, faz com que loPreparação de dados para

letar informações disponíveis nos análise;


a integração de dados
prontuários, de forma a ser a base loOrganização dos dados no

para gerar sistemas de informação


totalmente nível de granularidade mais baixo
de apoio à decisão e permitir a ge- padronizados não seja no ponto em que a flexibilidade
ração de valiosas informações epi- uma tarefa fácil seja mais importante.
demiológicas. Da mesma forma, a A existência de diversas ba-
auditoria (controle de qualidade da de decisão em busca da eficácia e ses de dados em saúde informati-
assistência médica) também seria competitividade de mercado em zadas, em diferentes localidades,
beneficiada pelo RES, otimizando diferentes áreas, incluindo teleco- desenvolvidas com características
procedimentos e recursos na área municações, varejo, atividades ban- diferentes, faz com que a integra-
de saúde. cárias, financeiras e outras. ção de dados totalmente padroni-
Assim, para que um médi- Entretanto, as vantagens do zados, disponibilizando-os de for-
co possa consultar um prontuário DW não estão limitadas ao comér- ma rápida e precisa para análise,
eletrônico de um paciente que já cio e à inteligência nos negócios. não seja uma tarefa fácil.
passou por diversos hospitais, clí- Esta tecnologia oferece grandes A complexidade está na exe-
nicas e consultórios em diferentes vantagens para a área de saúde, cução dos processos de extração,
localidades, é necessário antes de mais especificamente para a gera- transformação e carga dos dados
tudo reunir e integrar todos esses ção do RES, devido as suas princi- (ETC). Inmon (1997) estimou que
dados que provavelmente venham pais características como armaze- 80% do tempo gasto na constru-
de bases de dados diferentes, em namento e retenção de dados his- ção de um DW seria em ETC, sen-
diferentes formatos. Uma das so- tóricos e de possuir a capacidade do que esse fato demonstra, de ma-
luções, talvez a mais viável, seria de tratar grandes volumes de da- neira clara, a complexidade dessas
integrar e armazenar os dados de dos. Portanto, o RES seria uma etapas, mas que também são a base
diversas fontes em um único ban- grande base de dados que teria para um DW eficiente e funcional.
co de dados. Esse banco de dados dupla aplicação: auxiliar as ativi- Portanto, serão discutidas, a
teria as características de um DW. dades rotineiras de médicos e ou- seguir, as técnicas aplicadas aos
De acordo com a definição tros profissionais da área e gerar procedimentos de extração, trans-
de Inmon (1997), um DW é um sistemas de suporte à decisão, ser- formação e carga de dados especi-
Revista Científica do IMAPES - Abril de 2004 Pág. 43
ficamente para geração de um DW etapa de transformação, para o dados envolve o desenvolvimento
à área de saúde. DW definitivo que será a base de ou a utilização de algoritmos para
dados utilizada para fins analíticos, corrigir algumas imperfeições,
Extração de dados atendendo o usuário final. principalmente de campos não
numéricos como nome, onde téc-
A extração dos dados se faz 2.1 Técnicas empregadas no nicas de validação são pouco con-
a partir dos mais diversos bancos processo de transformação troladas. Como exemplo, pode-se
de dados, que podem ter os mais de dados em banco de citar os algoritmos de eliminação
variados formatos, em diferentes dados de saúde de espaços em brancos no início
plataformas. Para isso, é necessá- do campo, transformação de letras
rio uma fonte de dados temporá- O relacionamento e a inte- de maiúscula para minúscula, eli-
ria com padronização de ambien- gração de registros em diferentes minação de pontuação, limitar
te de desenvolvimento que permita bases de dados é tarefa trivial nos número de caracteres de campo,
a recepção dos dados das diferen- casos que os registros de cada base inclusão de máscaras em campos e
tes bases, sendo que as configura- incluam campo comum que per- outros de acordo com as exigên-
ções das tecnologias de hardware, cias do projeto (Oliveira, 2002).
sistema operacional e banco de Na área de saúde, Após a etapa de limpeza, os
dados sejam o primeiro padrão a existe um protocolo dados devem ser padronizados para
ser aplicado ao DW em constru- padrão internacional um único formato, evitando re-
ção. Para efetuar a extração dos que permite a dundâncias e inconsistências dos
dados, gateways e interfaces-padrão comunicação entre dados. Um DW deve ser carrega-
são utilizadas e o momento da ex- do apenas com dados padroniza-
diversas fontes
tração poderá ser definido pelos dos, evitando a apresentação ao
heterogêneas de
projetistas em comum acordo com usuário final de dados iguais em
os usuários do sistema, sendo um dados formatos diferentes. Um exemplo
pré-requisito a ser considerado efe- definido como HL7 clássico é em relação ao campo
tuar a extração em períodos que (Health Level 7) sexo, que pode ser armazenado
apresentem menos congestiona- como “M” para Masculino e “F”
mento da rede. mita a identificação de cada regis- para Feminino ou “H” para Mas-
tro de forma unívoca, como, por culino e “M” para Feminino.
Transformação dos dados exemplo, CPF. Entretanto, em Geralmente, a padronização
base de dados de saúde um campo deve ser efetuada de forma unifor-
Uma etapa crítica e desafia- com essa característica dificilmen- me sugerida pelo próprio usuário
dora na implementação de DW é te está presente (Camargo; Coeli, ou aproveitar padrões da área de
a transformação dos dados. Re- 2000). O processo de relaciona- conhecimento para o desenvolvi-
dundâncias e inconsistências de mento deve ter como base a utili- mento do DW. Na área de saúde,
formatos podem existir em um zação de campos menos específi- existe um protocolo padrão inter-
único banco de dados e são prati- cos ou não numéricos como nome, nacional que permite a comuni-
camente certas quando são utili- data de nascimento e endereço. À cação entre diversas fontes hetero-
zados muitos bancos de dados. medida que o número de registros gêneas de dados definido como
Portanto, rotinas de limpeza e a se relacionar cresce, aumenta a HL7 (Health Level 7). A idéia é
transformações de dados são ne- complexidade de realização desse definir de forma única uma série
cessárias e as suas características processo. Neste contexto, a etapa de atributos que serão utilizados
devem ser armazenadas e docu- de transformação dos dados pode amplamente por todos os interes-
mentadas como metadados. ser dividida em três processos: lim- sados em trocar informações de
peza dos dados, padronização dos forma padronizada.
Carga de dados dados e pareamento dos dados.
Pareamento de dados
O processo de carga de da- Limpeza e padronização dos dados
dos tem por finalidade transferir Os dados padronizados são
os dados padronizados, gerados da O processo de limpeza de o pré-requisito fundamental para
Pág. 44 Revista Científica do IMAPES - Abril de 2004

realizar o pareamento de registros putação. Portanto, técnicas de pouca probabilidade da ocorrên-


originados de fontes ou bases de machine learning, métodos de com- cia de erros em registros. Ao con-
dados distintas, tendo como resul- paração de strings, data mining, al- trário, a escolha de “sobrenome”
tado um novo registro. Para esse goritmos para classificação de valo- como campo-chave otimizaria bas-
processo, algoritmos baseados em res ocorridos e métodos de escore tante o processo de comparação,
técnicas de record linkage, inteli- podem ser utilizados. aumentando a probabilidade de os
gência artificial e de data mining O desenvolvimento de registros serem unívocos, mas é um
estão sendo amplamente utilizados probabilistic record linkage exige campo que apresenta grande proba-
e pesquisados (Winkler, 2000). primeiramente a escolha de um bilidade de ocorrer erros de preen-
Record linkage tem por fun- campo chave. A seguir, duas téc- chimento em registros. Sendo as-
ção unir registros de duas ou mais nicas serão desenvolvidas: bloca- sim, deve haver um equilíbrio na
bases de dados para criar um novo gem de bases e pareamento de re- escolha de campos-chaves, com a
registro em uma nova base de da- gistros. A blocagem de bases con- finalidade de aumentar a probabi-
dos, ou seja, em um DW. Para isso, siste em dividir a base de dados em lidade da ocorrência de registros
uma chave de indexação, com fun- blocos mutuamente exclusivos de unívocos nas bases relacionadas.
cionalidade apenas no DW, deve A técnica de pareamento de
ser criada. Esta chave pode ser um A técnica de record registros é a etapa que se aplica
campo ou uma combinação de linkage tem por mais diretamente à probabilidade
campos. Como já mencionado função unir estatística. A seguir, será discutida
anteriormente, na área de saúde é registros de duas ou essa técnica de forma sucinta e sem
muito comum a inexistência de efetuar demonstrações. Para maio-
mais bases de
um campo que identifique um re- res detalhes ou uma análise mais
gistro de forma unívoca. Portan-
dados para criar um profunda, as referências Fellegi;
to, dados de identificação pessoal novo registro em Sunter (1969) e Jaro (1989) são
de um indivíduo ou, mais apro- uma nova base de recomendadas.
priadamente para a área de saúde, dados, ou seja, em Os pares obtidos na etapa de
de um paciente, são requisitados: um DW pareamento de registros serão clas-
nome, data de nascimento, raça, sificados de acordo com a defini-
endereço, telefone e outros, de acordo com a chave escolhida. ção de escores inferior e superior.
acordo com a especificidade do Exemplo: se a chave escolhida fosse Os pares que atingirem valor de
projeto. Esses dados, além de não o campo “sexo”, a base de dados escore acima ao limiar superior são
ter a característica unívoca, podem seria dividida em dois grandes blo- considerados verdadeiros, os que
mudar com o tempo. Sendo assim, cos. Em outro caso, se a chave es- atingirem escore abaixo ao limiar
métodos de record linkage podem colhida fosse o campo “sobreno- inferior são considerados falsos e
ser simples algoritmos de fusão de me”, a base de dados seria dividi- os que tiverem valores interme-
chaves unívocas ou algoritmos da em diversos blocos mutuamente diários serão considerados duvido-
complexos, envolvendo técnicas de exclusivos, aumentando a proba- sos e deverão ser submetidos a aná-
probabilidade estatística no caso da bilidade de pareamento entre as lise manual.
inexistência de uma chave unívo- bases envolvidas. Os registros não A probabilidade mi é defi-
ca. Em relação a este último caso, pareados voltam a ser blocados e nida ao campo i em caso de con-
o relacionamento probabilístico de nova chave é escolhida. Repete-se cordância entre registros (par ver-
registros (probabilistic record o processo, dependendo da dispo- dadeiro) e a probabilidade ui do
linkage) está sendo utilizado con- nibilidade dos campos-chaves es- campo concordar por tratar-se de
sideravelmente. colhidos. par falso. Com as definições des-
O relacionamento probabi- A escolha do campo-chave tas probabilidades, são criados dois
lístico de registros foi inicialmente deve ser realizada de forma crite- critérios de ponderação: um, para
proposto por Newcombe (1959) e riosa. A escolha de “sexo” como a situação de concordância, e ou-
formalizado por Fellegi; Sunter campo-chave para o processo de tro, para a situação de discordân-
(1969). Atualmente, esse processo blocagem não traria grandes van- cia. Exemplo: compara-se o cam-
é cada vez mais otimizado devido tagens ao processo de comparação, po do primeiro registro com o do
aos grandes avanços da área de com- mas é um campo que apresenta segundo registro. Se os campos
Revista Científica do IMAPES - Abril de 2004 Pág. 45
concordarem, aplica-se o fator de deração estipulados ou os proces- te para mineração de dados, de-
ponderação de concordância e, em sos de blocagem e pareamento de signados como associação, classi-
caso contrário, o de discordância. registros se tornam lentos e inefi- ficação e clusterização (Oliveira,
A próxima etapa é a deter- cientes, principalmente quando 2002).
minação do escore total do par, grandes bases de dados (na ordem O método de associação en-
obtido a partir da soma dos crité- de milhões de registros) estão en- contra relacionamentos significa-
rios de ponderação atribuídos após volvidas. tivos entre dados armazenados. O
a comparação de cada campo ava- As técnicas de machine principal objetivo desta tarefa é
liado. Como mi é geralmente maior learning — que engloba tecnolo- encontrar tendências que são de-
que ui, o fator de concordância gias de IA como redes neurais ar- tectadas e podem ser exploradas
contribui positivamente para o es- tificiais (RNA), algoritmos gené- para determinação de comporta-
core final, enquanto o fator de dis- ticos e outras — possibilitaram a mento dos dados.
cordância contribui negativamen- descoberta de relações interessan- A classificação utiliza dados
te (Jaro, 1989). tes em bases de dados, tendo am- armazenados para criar modelos de
A decisão sobre a concor- pla aplicação na área de minera- comportamento com a finalidade
dância ou discordância entre dois ção de dados (data mining). de determinar um conjunto de
campos de determinado par não é dados treinados como padrão, os
uma tarefa trivial. Sendo assim, As ferramentas de quais serão a base para o treina-
muitas vezes é difícil escolher qual mineração de dados mento e classificação de dados não
o critério de ponderação a ser atri- procuram por treinados. Assim, pode-se classifi-
buído como resultado da compa- informações car dados que estão fora ou dis-
ração de dois campos. interessantes e tanciados do padrão. As principais
Os valores de mi e ui, assim úteis em bancos de técnicas utilizadas nesse processo
como os valores de limiar superior são as RNAs, os algoritmos gené-
dados,
e inferior, podem ser estimados. ticos e as árvores de decisão.
Fellegi; Sunter (1969) e Jaro
descobrindo A clusterização tem os mes-
(1989) apresentaram uma meto- informações válidas e mos princípios da técnica de blo-
dologia para a estimativa destes não óbvias de forma cagem para a realização de record
parâmetros e sua aplicação propor- eficiente linkage para itens não numéricos.
ciona resultados satisfatórios. A diferença é que o próprio siste-
A aplicação clássica das fer- ma descobre blocos a partir das
Inteligência Artificial e ramentas de data mining ocorre na alternativas encontradas na base de
Data Mining descoberta de conhecimento em dados, otimizando o processo,
grandes bases de dados corporati- principalmente em relação a redu-
As técnicas de inteligência vas, com a finalidade de aumentar ção de tempo. Neste processo, as
artificial (IA) e data mining são a vantagem estratégica das empre- RNAs e classificadores bayesianos
empregadas com a finalidade de sas. No entanto, pesquisas realiza- são aplicados.
otimizar os sistemas automáticos das nos últimos anos mostraram Portanto, os métodos de as-
de record linkage baseados em re- que as técnicas de data mining e sociação e classificação estão sen-
lacionamento probabilístico de re- de machine learning podem ser do empregados como alternativas
gistros. Os principais problemas adequadas para solucionar proble- de otimização para o pareamento
que são verificados em sistemas mas das técnicas automáticas de de registros e a clusterização como
automáticos de record linkage são record linkage (Christen; Chur- solução para agilizar o processo de
identificação inequívoca do par, ches, 2003). blocagem em record linkage
ocasionada por preenchimentos As ferramentas de minera- (Winkler, 2000) e (Gu; Baxter;
diferentes de mesmos campos ou ção de dados procuram por infor- Vickers; Rainsford, 2003).
ausência de alguns campos que mações interessantes e úteis em
participam da identificação do bancos de dados, descobrindo in- 3. Conclusão
campo-chave. Conseqüentemente, formações válidas e não óbvias de
muitas vezes resulta em falha na forma eficiente. Para isso, existem O desenvolvimento de um
determinação dos fatores de pon- métodos principais que dão supor- DW, utilizando técnicas de record
Pág. 46 Revista Científica do IMAPES - Abril de 2004

linkage, é uma abordagem relati- para a construção do mesmo. bém de áreas distintas.
vamente nova, principalmente No momento que for desen- As pesquisas nas áreas de
quando propõe a construção de volvido o sistema que permita a computação e estatística estão
um servidor para pareamento de geração de uma chave unívoca para unindo esforços e atingindo avan-
registros de diferentes bases de unir registros de bases distintas de ços para desenvolver o sistema de
dados a partir de um identificador forma fidedigna e rápida, de ma- DW com chave unívoca a partir
único baseado em dados não nu- neira a identificar um indivíduo de de dados não numéricos. No en-
méricos. Com esse objetivo, mé- forma única a partir de dados não tanto, a aplicação e o gerenciamen-
todos estatísticos, mais precisa- numéricos como nome, endereço to estratégico desta possível tecno-
mente probabilísticos, estão sen- e data de nascimento, não somente logia será uma das funções do pro-
do otimizados por técnicas de a área de saúde será beneficiada, fissional de sistemas de informa-
machine learning e data mining. mas também áreas de interesse pú- ção, de forma a garantir o sucesso
As tecnologias de DW e data blico como segurança. O armazém do trabalho de pesquisa que está
mining são geralmente empregadas de dados históricos de indivíduos e sendo realizado, permitindo que as
nas áreas comercial e de inteligên- cadastros civis poderia servir na in- diferentes áreas alcancem suas
cia para negócios corporativos. No vestigação de possíveis suspeitos ou metas e objetivos.
entanto, conforme discutido nes- permitir avanços na pesquisa de
te artigo, não existe um rótulo de combate ao crime, identificando *Andréia Damásio de Leles
aplicação para as tecnologias e, áreas de perigos e possíveis crimi- é mestre em Engenharia Elétrica
sim, tendências. Técnicas de data nosos. Assim, talvez seria mais cor- pela Unicamp, professora de Mi-
mining, que na maioria das vezes reto denominar o sistema mencio- croinformática Aplicana no curso
são utilizadas como ferramentas nado como chave de indexação de Sistemas de Informação do IMA-
para extração de conhecimento a pública, a qual permitiria unir não PES e atua profissionalmente nas
partir de um DW, também podem somente registros de bases diferen- áreas de sistemas e tecnologia de
ser utilizadas como ferramentas tes de uma mesma área, mas tam- informação.

Referências Bibliográficas
BELL, G.B.; SETHI, A. Matching Records in a National Medical Patient Index. Communications of the ACM, 44(9): 83-88, 2001.

CAMARGO, K.; COELI C.M. Recklink: aplicativo para relacionamento de bases de dados, implementando o método probabilistic record
linkage. Caderno de Saúde Pública, vol.16 n.2: 439-448, Rio de Janeiro, 2000.

CHRISTEN P.; CHURCHES T. Febrl: Freely extensible biomedical record linkage, release 0.2 edition, April 2003.

http://datamining.anu.edu.au/projects/linkage.html, 2003. Acessado em 11/12/2003.

COOK, L.J.; OLSON L.M.; DEAN J.M. Probabilistic Record Linkage: Relationships between File Sizes, Identifiers and Match Weights.
Methods of Information in Medicine, 40: 196-203, 2001.

FELLIGI, T.R; RUBIN, D.B. A Theory for Record Linkage. Journal of American Statistical Association, 64, 1183-1210, 1969.

GU L.; BAXTER R.; VICKERS D.; RAINSFORD C. Record Linkage: Current Practice and Future Directions. CMIS Technical Report
No 03/83, 2003.

http://www.act.cmis.csiro.au/rohanb/PAPERS/record_linkage.pdf. Acessado em 10/01/04.

INMON, W. H. Como Construir o Data Warehouse. 2ª ed. Rio de Janeiro. Editora Campus, 1997.

JARO, M. A. Advances in record-linkage methodology as applied to matching the 1985 Census of Tampa, Florida. Journal of the
American Statistical Association, 84:414-420, 1989.

NEWCOMBE, H. B.; KENNEDY, J. M.; AXFORD, S. J. & JAMES, A. P. Automatic linkage of vital records. Science, 130:954-959,
1959.

OLIVEIRA, W.J. Data Warehouse. Florianópolis. Visual Books, 2002.

WINKLER, W.E. Machine Learning, Information Retrieval and Record Linkage. In Proc. of the Section on Survey Research Methods,
American Statistical Association, 2000.
http://www.amstat.org/sections/srms/Proceedings/papers/2000_003.pdf, 2000. Acessado em 12/09/2003.

Você também pode gostar