Aplicacaomineracaotexto Benicio 2020

Diego Henrique Pegado Benicio
Aplicação de Mineração de Texto e

Processamento de Linguagem Natural em
Prontuários Eletrônicos de Pacientes para
extração e transformação de texto em dado
estruturado
Natal-RN
2020
Diego Henrique Pegado Benicio
Aplicação de Mineração de Texto e Processamento de

Linguagem Natural em Prontuários Eletrônicos de
Pacientes para extração e transformação de texto em
dado estruturado
Dissertação de Mestrado apresentada ao Pro-

grama de Pós-graduação em Tecnologia da
Informação da Universidade Federal do Rio
Grande do Norte como requisito para a ob-
tenção do grau de Mestre em Tecnologia da
Informação.
Universidade Federal do Rio Grande do Norte – UFRN

Instituto Metrópole Digital – IMD
Programa de Pós-Graduação em Tecnologia da Informação – PPgTI
Orientador: Prof. Dr. João Carlos Xavier Júnior
Natal-RN
2020
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede
Benício, Diego Henrique Pegado.

Aplicação de mineração de texto e processamento de linguagem
natural em prontuários eletrônicos de pacientes para extração e
transformação de texto em dado estruturado / Diego Henrique
Pegado Benício. - 2020.
66 f.: il.
Dissertação (mestrado) - Universidade Federal do Rio Grande

do Norte, Instituto Metrópole Digital, Programa de Pós-Graduação
em Tecnologia da Informação, Natal, RN, 2020.
Orientador: Prof. Dr. João Carlos Xavier Júnior.
1. Mineração de texto - Dissertação. 2. Processamento de

linguagem natural - Dissertação. 3. Anamnese - Dissertação. 4.
Prontuário Eletrônico - Dissertação. I. Xavier Júnior, João
Carlos. II. Título.
RN/UF/BCZM CDU 004.774.6
Elaborado por Ana Cristina Cavalcanti Tinoco - CRB-15/262

Aplicação de Mineração de Texto e Processamento
de Linguagem Natural em Prontuários Eletrônicos de
Pacientes para extração e transformação de texto em
dado estruturado
Autor: Diego Henrique Pegado Benicio

Orientador: Prof. Dr. João Carlos Xavier Júnior
Resumo
O prontuário do paciente é o documento essencial para garantir uma assistência integral

e continuada ao enfermo, fornecendo o histórico da sua saúde. Ao longo da evolução
tecnológica, os registros terapêuticos do paciente passaram do prontuário em papel para
o prontuário eletrônico. Entretanto, a anamnese, normalmente, é inserida por meio de
campos livres, deixando ao critério do profissional da saúde a forma como a informação é
elaborada. Dessa maneira, há dificuldade no modo tradicional, consultas Structured Query
Language, para recuperar esse dado. Como métodos para sanar esse problema, é possível
a aplicação de Mineração de Texto e o Processamento de Linguagem Natural, levando
à extração de dados compreensíveis e padronizados. Nesse sentido, o trabalho objetiva:
propor uma ferramenta para recuperar termos clínicos das anamneses e estruturá-los de
forma a relacionar com os padrões do diagnóstico patológico para posterior utilização em
estudos complementares, identificando assim, as técnicas mais adequadas ao processo de
Mineração de Texto neste contexto. Dessa maneira, foi desenvolvida uma ferramenta para
realizar o processo automático de estruturação dos dados obtidos a partir das anamneses.
Assim, após uma avaliação entre os dados coletados manualmente e pelo sistema, os
resultados foram submetidos ao teste estatístico de Kruskal-Wallis sendo aceita a hipótese
de não haver diferenças significativas entre as amostras.
Palavras-chave: Mineração de Texto; Processamento de Linguagem Natural; Anamnese;
Prontuário Eletrônico.
Applying Text Mining and Natural Language
Processing to Electronic Medical Records for
extracting and transforming texts in structured data
Author: Diego Henrique Pegado Benicio

Advisor: Prof. Dr. João Carlos Xavier Júnior
Abstract
The patient’s medical record is the essential document to ensure comprehensive

and continuous care to the patient, providing the history of their health. Over the course of
technological evolution, the patient’s therapeutic records have shifted from paper records
to the electronic medical record. However, the anamnesis is usually inserted through free
text fields, leaving to the health professionals the way information is entered. In this way,
traditional Structured Query Language queries are unable to retrieve this data. In order to
overcome this problem, we apply Text Mining and Natural Language Processing aiming to
extract understandable and standardized data. In this sense, the objective of this work is
to propose a tool to recover clinical terms from anamneses and structure them in order to
relate to the patterns of pathological diagnosis for later use in complementary studies, thus
identifying the most appropriate techniques for the Text Mining process in this context.
In this way, a tool was developed to carry out the automatic process of structuring data
obtained from anamneses. Thus, after an evaluation between the data collected manually
and by the system, the results were subjected to the Kruskal-Wallis statistical test and the
hypothesis that there were no significant differences between the samples was accepted.
Keyword_s: Text Mining; Natural Language Processing; Anamnesis; Electronic Medical
Record.
Lista de ilustrações
Figura 1 – Comunicação entre o prontuário e os setores. . . . . . . . . . . . . . . . 16

Figura 2 – Tipos de Descoberta de Conhecimento. . . . . . . . . . . . . . . . . . . 18
Figura 3 – Etapas do KDT. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Figura 4 – Algoritmo de Stemming. . . . . . . . . . . . . . . . . . . . . . . . . . . 21
Figura 5 – Cálculo de IDF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Figura 6 – Diagrama do fluxo de seleção das publicações. . . . . . . . . . . . . . . 28
Figura 7 – Diagrama de classe para estruturação da Anamnese. . . . . . . . . . . 38
Figura 8 – Representação para dados dos exames. . . . . . . . . . . . . . . . . . . 39
Figura 9 – Diagrama de componentes. . . . . . . . . . . . . . . . . . . . . . . . . . 40
Figura 10 – Etapas da mineração. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Figura 11 – Fluxo dos algoritmos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
Figura 12 – Fluxo para busca do tipo sanguíneo. . . . . . . . . . . . . . . . . . . . 46
Figura 13 – Algoritmo de similaridade - Levenshtein. . . . . . . . . . . . . . . . . . 48
Figura 14 – Busca pelo indicador de cada dicionário. . . . . . . . . . . . . . . . . . 49
Figura 15 – Formação e análise da palavra simples/composta. . . . . . . . . . . . . 50
Figura 16 – Etapa adicional de verificação para exame. . . . . . . . . . . . . . . . . 51
Figura 17 – Apresentação dos dados estruturados. . . . . . . . . . . . . . . . . . . . 51
Figura 18 – Legenda para destacar as informações da anamnese. . . . . . . . . . . . 53
Figura 19 – Distribuição dos percentuais de conformidades das anamneses por grupo 54
Figura 20 – Comparação entre a avalição P3 e o modelo . . . . . . . . . . . . . . . 55
Figura 21 – Distribuição dos percentuais de conformidades das anamneses por grupo
sem exame . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Lista de tabelas
Tabela 1 – Resumo dos trabalhos selecionados . . . . . . . . . . . . . . . . . . . . 29

Tabela 2 – Regras para transformar do plural para o singular . . . . . . . . . . . . 45
Lista de Abreviaturas
AGHU Aplicativo de Gestão dos Hospitais Universitários
CFM Conselho Federal de Medicina
DeCS Descritores em Ciência da Saúde
EBSERH Empresa Brasileira de Serviços Hospitalares
IDF Frequência Invertida do Documento
KDD Knowledge Discovery and Data Mining
KDT Knowledge Discovery from Text
K-NN K Nearest Neighbor
MEJC Maternidade Escola Januário Cicco
MLP Multilayer Preception
NB Naive Bayes
NER Named Entity Recognition
PEP Sistema de Prontuário Eletrônico
PLN Processamento da Linguagem Natural
SRI Sistema de Recuperação da Informação
SUS Sistema Único de Saúde
TF Frequência do Termo
TF-IDF Frequência Linear das Palavras

Sumário
Capítulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 13
Capítulo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 CONCEITOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 15
2.1 O prontuário do paciente . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Anamnese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Mineração de Texto ou Text Mining . . . . . . . . . . . . . . . . . . 17
2.2.1 A etapa de Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 Medidas de Similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 A etapa de Indexação/Normalização . . . . . . . . . . . . . . . . . . . . . 23
2.3 Os Descritores em Ciência da Saúde - DeCS . . . . . . . . . . . . . . 25
2.4 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Capítulo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 27
3.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Análise das publicações selecionadas no âmbito da saúde . . . . . . . . . . 29
3.1.2 Aplicação de Processamento de Linguagem Natural em áreas diversas . . . 33
3.2 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Capítulo 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 METOLOLOGIA APLICADA . . . . . . . . . . . . . . . . . . . . . . 37
4.1 Análise e criação do Dicionário . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Elaboração do banco de dados estruturado . . . . . . . . . . . . . . . 38
4.2.1 Coleta dos dados na base de dados do AGHU . . . . . . . . . . . . . . . . 40
4.3 Processo de mineração de texto . . . . . . . . . . . . . . . . . . . . . 41
4.4 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Capítulo 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5 FERRAMENTA DESENVOLVIDA . . . . . . . . . . . . . . . . . . . 44
5.1 Mineração de texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.1.1 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.1.2 Recuperação de dados específicos da obstetrícia . . . . . . . . . . . . . . . 46
5.1.3 Similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.4 Dicionário e estruturação . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Capítulo 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6 AVALIAÇÃO E RESULTADOS . . . . . . . . . . . . . . . . . . . . . 53
6.1 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Capítulo 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 58
7.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.2 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.4 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.4.1 Contribuições Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.4.2 Dificuldades Enfrentadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
9
1 Introdução
A escrita pictórica surgiu há 3000 anos a.C. com a sua representação via desenhos
ou pinturas rupestres (ANDRADE, 2001, p. 1), sendo a primeira forma de registro do
conhecimento humano. A escrita alfabética só é registrada a partir de 1500 a.C. Ao longo
deste período, as civilizações possuíam seus rituais de cura, baseando-se no conhecimento
ritualístico. Entretanto, apenas no século V a.C. com Hipócrates, a Medicina passa a ser
tratada como ciência, refutando fatores mitológicos e gerando conhecimento lógico na
busca de explicações para a natureza da doença (GUSMÃO, 2004, p. 6).
Neste sentido, os registros terapêuticos do enfermo passaram a ser inseridos em
papel, formando o prontuário do paciente, tornando-se o documento essencial para garantir
uma assistência integral e continuada e fornecendo o histórico da sua saúde. Com o desen-
volvimento da informática e suas tecnologias em diversas áreas, houve uma disseminação de
prontuários eletrônicos para o registro e o acompanhamento das atividades realizadas pelo
profissional ao paciente no ramo da saúde. Dessa forma, caracterizando um crescimento
rápido do armazenamento de dados clínicos pelos profissionais multidisciplinares, alterando
a maneira de utilizar este dados, assim, trazendo também a necessidade do resgate eficiente
da informação.
Normalmente, as anamneses e evoluções dos pacientes são elaboradas pelos profissi-
onais da saúde em campos de texto livre, formulando a sua narrativa clínica e variando o
nível de detalhamento devido à sua experiência diária (CARVALHO, 2017). A anamnese,
segundo a Resolução do Conselho Federal de Medicina (CFM) no 2.056/201, Capítulo IX,
deve conter campos mínimos como: a identificação do paciente, queixa principal, históricos,
exames e conduta. De acordo com Brasil (2016, p. 8), a utilização de registros eletrônicos,
em detrimento ao prontuário manual em papel, é um processo irreversível e traz consigo
inúmeros benefícios como a capacidade de armazenamento em pequenos espaços. Além
disso, melhora a forma de fazer pesquisa, podendo cruzar dados padronizados, rapidamente,
otimizando os resultados e o tempo de investigação. Contudo, a livre inserção de textos
escritos acaba sendo um obstáculo para a geração de conhecimento útil a fim de ajudar no
entendimento da situação clínica e, consequentemente, no tratamento do paciente devido
à dificuldade na recuperação da informação.
Desse modo, uma tomada de decisão apoiada por dados relevantes e de rápido
acesso, melhora a qualidade do serviço assistencial prestado, podendo gerar economia sobre
os insumos consumidos, reduzindo o custo operacional da instituição. Em geral, os sistemas
fornecem este tipo de mecanismo por meio da recuperação e processamento dos dados, já
que são capazes de superar restrições cognitivas humanas. Todavia, comumente, os compu-
Capítulo 1. Introdução 10
tadores são númericos e não projetados para realizar processamento sobre estruturas livres,
assim, consultas Structured Query Language (SQL), linguagem normalmente utilizada
para manipular base de dados relacional, dificilmente, são utilizadas para manipular textos
livres, sendo ineficientes (CHU, 2002), fornecendo retornos inviáveis sobre este tipo de
dado.
Com isso, a técnica de mineração de texto pode ser uma ferramenta eficaz para
este cenário. Ela está inserida no contexto do Data Mining ou Mineração de Dados, sendo
capaz de fornecer informação qualitativa a partir da exploração de um grande volume
de dados. Logo, obtem relacionamentos inesperados, gerando informação nova, útil e
compreensível para o seu proprietário, a partir da identificação de modelos ou padrões
(HAND; MANNILA; SMYTH, 2001, p. 6). Os modelos são formados a partir do pré-
processamento dos dados e dos algoritmos de mineração. Ao final do processo, devem
refletir o comportamento dos dados estudados.
A mineração de dados direciona para a aplicação de algoritmos específicos sobre
bases de dados a fim de descobrir conhecimento útil (KDD, 2019). Desse modo, segue
passos como a preparação, seleção e transformação de dados, incorporando conhecimento
para a interpretação adequada dos resultados, fornecendo e garantindo informação útil
dos dados extraídos (PISA; TEIXEIRA, 2017, p. 15). Uma abordagem é o tratamento
de dados não estruturados como os dados escritos. Sendo uma técnica interdisciplinar,
envolvendo a recuperação da informação, o aprendizado de máquina, a estatística, a
linguística computacional e a mineração de dados.
A Mineração de Textos é uma técnica utilizada para compreender a linguagem dos
documentos escritos, lidando com a imprecisão, incerteza e abreviação de termos, além
do sentido e da semântica das palavras. Métodos como a Recuperação da Informação,
Extração da Informação e Processamento da Linguagem Natural (PLN) são exemplos
de Mineração de Textos. Segundo Bulegon e Moro (2010, p. 52), o PLN envolve quatro
etapas, sendo realizadas na seguinte ordem: análise morfológica, análise sintática, análise
semântica e análise pragmática. Além disso, há inúmeras técnicas para extrair e classificar
as informações textuais, tais como: teoria da possibilidade, máquina de vetores, redes
neurais e ontologias.
Portanto, no contexto dos serviços prestados ao paciente internado em instituição
hospitalar, mesmo havendo um direcionamento para a narração do atendimento clínico e
suas terminologias, o prontuário eletrônico é construído de acordo com a experiência do
profissional, seguindo a escrita da sua linguagem natural. Apesar de provocar dificuldades
quando é necessário fornecer resultados sumarizados, gráficos e estatísticos, é ainda a
melhor maneira do médico registrar o estado do paciente já que está livre para adicionar
qualquer dado (MARTHA; CAMPOS; SIGULEM, 2010, p. 64). Por sua vez, utilizando a
Mineração de Texto é possível identificar padrões indexáveis, resgatando estas informações.
1.1 Problema
A Maternidade Escola Januário Cicco (MEJC) presta serviços de atendimento
ambulatorial e de internação à população via Sistema Único de Saúde (SUS). Desse
modo, utiliza sistemas fornecidos pelo Ministério da Saúde, tais como: o Sistema de
Informações sobre Nascidos Vivos (SISNASC) e o Sistema de Vigilância Alimentar e
Nutricional (SISVAN). Com relação ao sistema assistencial, as informações são inseridas
via o Aplicativo de Gestão dos Hospitais Universitários (AGHU), fornecido pela Empresa
Brasileira de Serviços Hospitalares (EBSERH), sendo, atualmente, o principal software
para acompanhamento do paciente. Em decorrência dessa realidade, ela se torna detentora
de um grande volume de dados, tanto estruturados como não estruturados.
Levando em consideração apenas os pacientes internados, em média, são trata-
dos 1.500 pessoas por mês, entre gestantes, puérperas, recém-nascidos e clínica cirúr-
gica/ginecológica. Apesar da implantação do AGHU ser considerada recente, agosto de
2014, a base de dados já apresenta cerca de 75.000 registros, aumentando a cada dia.
Dessa maneira, o problema é evidênciado quando há necessidade de analisar as
informações inseridas no sistema assistencial (AGHU), principalmente, com relação as
avaliações médicas escritas. A ferramenta não dispõe de relatórios ou meios de pesquisa
que proporcionem um cruzamento de informações relevantes. Assim, a análise de padrões
importantes como as queixas, os sinais, os sintomas, o diagnóstico, o grupos de riscos e as
condutas, torna-se uma tarefa dispendiosa, sendo necessária a avaliação individual de cada
prontuário. Além disso, por se tratar de um hospital-escola, há uma demanda constante
sobre esses dados, normalmente, requisitados pelas pesquisas desenvolvidas na instituição.
Contudo, pela dificuldade no resgate dos mesmos, os resultados finais acabam se baseando
em pequenas amostragens recuperadas por meio da análise dos prontuários físicos (em
papel), podendo levar ao seu comprometimento, quando aplicado em larga escala.
1.2 Justificativa
Diante das circunstâncias apresentadas, é notória a necessidade de se construir novas
estruturas a partir da análise das anamneses médicas, como também expõe a dificuldade
para o resgate deste dado. Manualmente, é um trabalho inviável e, via sistema, utilizando
a maioria dos Sistemas de Prontuário Eletrônico (PEP), a tarefa deixa gargalos. Com isso,
há uma necessidade crescente para trabalhar este conteúdo, realizando o processamento
dos textos.
Desse modo, é possível levantar questionamentos, tais como: quais as técnicas de
PLN são utilizadas em mineração de texto e qual é a mais adequada para o contexto da
saúde? A aplicação de PLN poderá atuar sobre a interpretação clínica do paciente, ajudando
na identificação de padrões de patologias e, consequentemente, no seu tratamento? Dessa

forma, também proporcionará uma base de pesquisa, em constante evolução, estruturada e
produzindo informação útil para ser reutilizada pelos profissionais da saúde, os estudantes
da instituição e para a gestão hospitalar?
Além disso, com o tratamento, cruzamento e padronização das informações, prova-
velmente, será possível delinear um método terapêutico mais assertivo, a partir da detecção
precoce do diagnóstico clínico. Assim, diminuir o tempo de permanência do paciente,
trazendo mais segurança e economia para a instituição. Todavia, cabe ao médico a decisão
final sobre a escolha do tratamento (MADRUGA; SOUZA, 2011), o sistema é apenas uma
ferramenta de suporte à decisão.
Portanto, este projeto pretende apresentar as técnicas existentes, identificando
a mais adequada para extrair informações úteis do registro clínico de pacientes adultos
internados. Assim, desenvolver um software para executar os procedimentos já citados,
convertendo as informações não estruturadas em estruturadas, e fornecer uma base de
pesquisa para a Maternidade Escola Januário Cicco. Como a base de dados analisada
possui a mesma estrutura para os três hospitais universitários da Universidade Federal do
Rio Grande do Norte (UFRN), é possível que o sistema seja extensível a todos.
1.3 Objetivos
O objetivo principal deste projeto é propor uma ferramenta para recuperar termos
clínicos das anamneses e estruturá-los de forma a relacionar com os padrões do diagnóstico
patológico para posterior utilização em estudos complementares, identificando assim, as
técnicas mais adequadas ao processo de Mineração de Texto neste contexto.
A fim de atingir este objetivo principal, almeja-se alcançar os seguintes objetivos
secundários:
• Identificar os atuais modelos de Mineração de Texto (Text Mining) com base na

literatura existente;
• Verificar a aplicabilidade da Mineração de Texto no processamento de linguagem

natural baseada na dinâmica médico-paciente;
• Analisar as etapas de pré-processamento e processamento e dos dados e seus resulta-

dos, considerando:
1. Testar diferentes maneiras de capturar o dado, verificando o nível de perdas

durante o processo;
2. Realizar a conversão dos dados não estruturados para uma versão estruturada.
• Propor um Modelo de Dados capaz de armazenar a informação estruturada;
• Desenvolver e disponibilizar uma ferramenta para a busca destes dados, criando uma
base de pesquisa para a instituição.
1.4 Metodologia
De acordo com os objetivos propostos, a metodologia pretende seguir as diretrizes
abaixo:
• Estudar as técnicas de mineração de texto existentes na literatura, focando no

Processamento de Linguagem Natural (PLN);
• Avaliar a aplicabilidade da técnica nos prontuários eletrônicos e se combinações de

técnicas podem trazer resultados mais eficientes;
• De acordo com os resultados encontrados, analisar a relevância entre as técnicas

utilizadas no processo de estruturação dos dados;
• Verificar se o processo de conversão de dados não estruturados para estruturados não

está ocasionando perda de informação útil, utilizando uma avaliação entre o processo
manual de extração de dados e a captura por meio da ferramenta desenvolvida.
1.5 Organização do Trabalho

O trabalho foi dividido em 7 capítulos, sendo composto o restante do documento
na seguinte estrutura:
• O Capítulo 2 expõe os conceitos gerais sobre o prontuário e a anamnese, além

dos passos necessários para estruturar uma informação não estruturada com suas
respectivas técnicas.
• O Capítulo 3 apresenta a metodologia utilizada como base para adquirir conhecimento

sobre as técnicas aplicadas nos trabalhos relacionados, reforçando a temática principal
do trabalho.
• O Capítulo 4 contêm o desenvolvimento da metodologia aplicada no trabalho,

delineando os métodos seguidos em cada etapa de estruturação do dado, levando à
formação da base para o armazenamento dos dados capturados.
• O Capítulo 5 específica o desenvolvimento da ferramenta, aplicando a metodologia

descrita no capítulo anterior e demosntrando o algoritmo de similaridade utilizado
para comparar as palavras.
• O Capítulo 6 apresenta como a pesquisa foi desenvolvida para avaliar os resultados

obtidos pelo sistema no processo de estruturação da anamnese.
• O último capítulo apresenta as considerações finais, as contribuições e as pespectivas

de trabalhos futuros.
15
2 Conceitos Relacionados
A fim de proporcionar uma melhor compreensão dos conceitos relacionados ao

trabalho, esta seção apresenta uma breve descrição dos principais termos e técnicas
abordadas para a fundamentação deste trabalho. Dessa forma, mesmo estabelecendo uma
visão superficial, torna-se necessário apresentar determinadas peculiaridades do prontúario
para a saúde, além das informações relevantes para o entendimento da Mineração de Texto
e das suas técnicas.
2.1 O prontuário do paciente

O prontuário é o documento legal no qual deve constar todos os dados do aten-
dimento prestado ao paciente, tanto pelo registro assistêncial da internação quanto pelo
atendimento em consultório, tornado-se um arquivo essencial para a integralização da
assistência. Além disso, é caracterizado pelas informações sociais, demográficas e sócio-
econômicas. É definido no Artigo 1o da Resolução de no 1.638/2002 do CFM como: um
arquivo único formado pela reunião das informações dos sinais e imagens geradas pelos
fatos, acontecimentos e situações sobre a assistência prestada e da saúde do enfermo. É
sigiloso e científico, possibilitando a comunicação entre a equipe multiprofissional afim
de propagar a continuidade do cuidado (BRASIL, 2002). Para Pinto e Sales (2017, p.
499), é uma memória escrita sobre os dados clínicos e não clínicos do enfermo. Contêm
uma história, servindo de elo de comunicação entre as diferentes equipes da instituição e
com o paciente. Desse modo, resumindo o entendimento destas definições, o prontuário é
escrito de forma colaborativa, registrando os aspectos físicos, mentais e sociais do paciente
(GALVÃO; RICARTE, 2011), mesmo considerando a decisão médica como a provedora do
diagnóstico clínico.
Considera-se dados clínicos, as informações sobre o acompanhamento do estado
da saúde do indivíduo, sendo formadas a proporção que é assistido: exames de imagem e
laboratoriais, anamnese, evolução, prescrição, avaliação dos sinais vitais e riscos e sumário
de alta. Já as informações não clínicas estão ligadas à movimentação administrativa,
estando desvinculadas ao estado de saúde. São dados relacionados à atividades nutricionais,
de farmácia, de manutenção, de aplicação de protocolos e materiais consumidos (PINTO;
SALES, 2017).
No cotidiano da organização, a documentação do prontuário é a base para cobranças
junto as pactuações da saúde nas três esferas, corrobora nas ações judiciais e é a fonte de
pesquisa para os acadêmicos. Segundo a Resolução no 2056/2013, Capítulo X, do CFM, o
prontuário deve conter: anamnese, folhas de prescrição e evolução exclusivos para médicos
Capítulo 2. Conceitos Relacionados 16
e enfermeiros e folhas de assentamento evolutivo comum para os demais profissionais da

saúde. Assim, é considerado um registro complexo, contendo informações ou evidências
quanto ao modo de produção, conteúdo, organização e disponibilização. Mesmo em papel
ou eletrônico, exige planejamento organizacional, trabalho cooperativo e permanente entre
gestão, profissionais da saúde e da informação afim de sistematizar os dados do prontuário
(GALVÃO; RICARTE, 2012, p. 45).
Como apresentado na Figura 1, o prontuário é um canal de comunicação entre
os diversos setores da instituição, sejam eles administrativos, assistenciais ou de ensino.
Torna-se a ferramenta principal para obtenção de dados, gerando conhecimento entre
diferentes áreas, assim é possível classificá-lo como um instrumento interdisciplinar.
Figura 1 – Comunicação entre o prontuário e os setores.

Fonte: Adaptado de Silva et al. (2008)
Portanto, a centralização do conhecimento reunido neste documento pelos profissi-

onais da saúde, pode ser utilizada para formular sínteses automatizadas de dados úteis de
acordo com a necessidade destes profissionais e da gestão do estabelecimento de sáude.
Assim, apoiar uma melhor condução das decisões para solucionar os casos.
2.1.1 Anamnese
Sendo, normalmente, o primeiro instrumento de avaliação médica, é obrigatório para
qualquer tipo de atendimento, tornando-se fundamental para a indicação do diagnóstico
clínico. Por meio do diálogo com o paciente, dos exames preliminares, dos sinais e sintomas,
o profissional realiza a anotação, escrita ou digitada, do seu atendimento. A partir da
sua interpretação, indica um ou mais diagnósticos, levando a um tratamento. Além disso,
também há a necessidade de compreender o histórico clínico familiar e pessoal (BEATO
FILHO, 1994, p 41).
Conforme a Resolução no 2056/2013, Capítulo XI, do CFM, há uma regulamentação
sobre os requisitos mínimos para a elaboração da anamnese. Determina a necessidade de
apresentar informações como: a identificação do paciente (nome, idade, filiação, estado
civil), queixa principal para servir de base para a conduta, história da doença atual,
familiar e pessoal, exame físico e complementar e hipóteses diagnósticas, além da conduta
e do diagnóstico. Este modelo pode ser adaptado de acordo com a experiência profissional
de cada um ou por designação do estabelecimento de saúde, instituindo um modelo único.
Desse modo, para a maioria dos sistemas de prontuário eletrônico, a anamnese é
formada pela livre inserção de dados no campo de texto. Assim, segue o ideal de que uma
padronização poderia comprometer a avaliação do estado do paciente, reduzindo o seu
vocabulário e não sendo possível registrar determinadas reações do enfermo (MARTHA;
CAMPOS; SIGULEM, 2010, p. 64). Contudo, também pode levar a ocorrência de erros
provocados pelo registro mal elaborado. As abreviaturas dos termos e a introdução de
siglas podem gerar informações equivocadas, comprometendo o atendimento pelo corpo
clínico. Além disso, como o prontuário e os seus registros são atemporais e legais, as
consultas a estes dados para estudos posteriores podem ser comprometidas.
2.2 Mineração de Texto ou Text Mining

Segundo Carvalho (2017, p. 47), esse conceito já era utilizado desde a década de
50 por Hans Peter Luhn, engenheiro e pesquisador da IBM. No seu artigo A Business
Intelligence System publicado no IBM Journal of Research and Development em 1958,
propõe a criação de um sistema para tornar a máquina inteligente. Dessa forma, realizar um
auto resumo e auto codificação de documentos para a criação de perfis de interesse para a
organização. Os documentos seriam recebidos, resumidos e categorizados automaticamente
por meio de um padrão de palavras, sendo enviados para o destino correto.
Nesta pespectiva, a mineração de texto aborda um conjunto de técnicas para a
recuperação da informação: navegando, organizando e descobrindo dados a partir de bases
textuais. É um ramo do Aprendizado de Máquina ou Machine Learning e da tradicional
descoberta de dados em bases estruturadas (ARANHA; PASSOS, 2006, p. 2). Também
é considerado um processo de descoberta de conhecimento por meio das palavras, frases

e texto, realizando a extração e a análise dos termos. Para tal, aplica-se algoritmos
computacionais a fim de capturar, processar e apresentar informações implícitas formadas
por associações ou agrupamentos. Normalmente, esses dados não seriam capturados pelos
métodos de consultas tradicionais (MORAIS; AMBRÓSIO, 2007, p. 1). Assim, é uma
forma de extrair informações úteis, por meio da compreensão de padrões ou tendências
em dados não estruturados, a partir de um grande volume de dados.
Para este grande volume de informação disponível, é necessário ferramentas de
processamento automático, já que para o ser humano tratá-la individualmente, torna-se
um trabalho inviável. Desse modo, o processamento deve fornecer uma descoberta de
conhecimento eficiente, assim, a tarefa torna-se viável com o uso de computadores e
softwares específicos. Como expressa Morais e Ambrósio (2007, p. 2), a Descoberta do
Conhecimento Apoiada por Computador ou Knowledge Discovery (KD) tem como objetivo
principal manipular uma massa de dados para apoiar as pessoas na aquisição de novos
conhecimentos.
De acordo com os autores, basicamente a descoberta de conhecimento pode ser
dividida em duas áreas: a Descoberta de Conhecimento em Dados Estruturados ou
Knowledge Discovery and Data Mining (KDD) e a Descoberta de Conhecimento em Dados
não Estruturados ou Knowledge Discovery from Text (KDT), como representado na Figura
2.
Figura 2 – Tipos de Descoberta de Conhecimento.

Fonte: Morais e Ambrósio (2007)
O KDT é a área responsável por realizar os procedimentos de mineração sobre os

textos, objetivando descobrir uma padronização invisível explicitamente, contudo existente
nos escritos. Está diretamente ligado ao Processamento de Linguagem Natural (PNL),
utilizando os mecanismos de linguagem computacional, sendo o foco para o desenvolvimento
do estudo para a avaliação do conteúdo presente nas anamneses médicas.
O PLN pode ser tratado de duas formas: análise semântica ou análise estatística.
Para a primeira, há uma ligação direta com a área da linguística, realizando o tratamento
das palavras de acordo com a morfologia e sintaxe semelhante a análise humana (CARVA-
LHO, 2017, p. 52), detectando sinônimos, corrigindo palavras e reduzindo ambiguidade
(ARANHA; PASSOS, 2006, p. 4). Para a segunda, é medido a frequência de ocorrência
dos termos ao longo dos dados analisados. Apesar dessa divisão, não são abordagens
multualmente exclusivas, elas podem se complementar.
De acordo com Aranha, Passos e Vellasco (2007) e Morais e Ambrósio (2007), é
possível segmentar o KDT nas seguintes etapas: seleção de documentos (coleta), preparação
dos dados escolhendo a abordagem (análise semântica ou estatística) para aplicar o
pré-processamento e indexação/normalização. Com estas fases desenvolvidas, é possível
converter os dados não estruturados em estruturados. Estas etapas estão apresentadas na
Figura 3.
Figura 3 – Etapas do KDT.

Fonte: Adaptado de Aranha, Passos e Vellasco (2007, p. 19)
A fase de coleta será aplicada sobre a base de dados do AGHU, local onde se
encontra armazenado as informações da anamnese, por meio de acesso direto ao servidor.
2.2.1 A etapa de Pré-Processamento

Nesta etapa, os dados coletados precisam ser preparados a fim de torná-los utilizáveis,
melhorando a sua qualidade e organizando-os, principalmente, para a etapa de mineração
de dados, mantendo os dados com a maior quantidade de caracteres com significância para o
estudo. Para tanto, é necessário aplicar métodos para extração e integração, transformação,
limpeza, seleção e redução de volume. Desse modo, o processo deve ser cuidadoso para que
a manipulação dos dados não provoque perda de informação. Assim, é possível a obtenção
de uma configuração estruturada dos dados em formato texto, gerando uma tabela com a
relação entre o atributo e o valor.
Segundo Aranha, Passos e Vellasco (2007), o pré-processamento normalmente
significa: classificar as palavras segundo a classe gramatical, dividir o texto em palavras,
remover as stop-words e aplicar técnicas de stemming. A classificação das palavras, segundo
a sua semelhança, pode ser semântica - quando tem a mesma forma, são opostas ou usadas
no mesmo contexto - ou léxica, possuindo uma sequência de caracteres igual ou similar.
Entre as técnicas existentes, há a tokenização. Conforme Xavier, Silva e Gomes

(2015, p.85), é o primerio processamento realizado nesta etapa, consistindo na divisão do
fluxo textual em unidades mínimas, os tokens. Estes são formados a partir da remoção do
espaços, formando as palavras e os símbolos. Além disso, a análise léxica atua removendo
sinais de pontuação e dígitos, convertendo as letras maiúsculas em minúsculas. Por exemplo,
a frase “Útero com nódulos.” seria convertida em “utero” “com” “nodulos”.
O processo de stop-words consiste na remoção de palavras que não agregam valor
ao texto, ou seja, não possuem informações relevantes.Fazem parte deste grupo os artigos,
preposições, verbos auxiliares e pronomes, além de palavras com frequência constante de
apresentação nos documentos, sendo utilizadas em praticamente todos os textos do grupo
analisado. Assim, formam-se as stoplist. Após este processamento, o retorno da frase é
“utero” “nodulos”.
Segundo Gomes, Vellasco e Passos (2013), de 40% a 50% das palavras do texto
são removidas devido ao stop-words. Apesar de reduzir a quantidade de informação para
tratamento nas próximas etapas, também dificulta o processo de busca. A pesquisa por
termos compostos exatos como “isolamento de contato”, não retornaria resultado já que a
preposição “de” fora removida.
Além disso, o processo de stemming prevê a diminuição das variações morfológicas,
removendo sufixos e prefixos das palavras, dessa maneira conserva o radical. Neste caso,
identifica outros termos com o mesmo radical como de mesmo significado por meio das
variações de gênero, plural, flexões verbais ou variantes sintaticamente similares entre si.
Assim, considerando o exemplo, a sua estrutura final para este processo é “uter” “nodul”.
Segundo Morais e Ambrósio (2007), a técnica de stemming pode dificultar buscas
por termos específicos, devido a retirada de parte da palavra. Outro problema pode ser
provocado pela retirada incorreta de um sufixo, overstemming (por exemplo, a palavra
“gramática” poderia ser abreviada para “grama”) ou pela remoção incompleta do sufixo,
understemming.
A figura 4 representa a sequência de passos para a aplicação de algoritmo de
stemming em língua portugresa. Está é apenas uma possível forma de aplicar este algoritmo.
Figura 4 – Algoritmo de Stemming.

Fonte: Morais e Ambrósio (2007, p. 16)
Resumidamente, o algoritmo remove o “s” das palavras no plural, assim como o

“a” das palavras femininas, tornando-as masculinas, e o “mente” dos advérbios. No caso
dos aumentativos e diminutivos, remove os sufixos, assim como para uma lista de nomes
(substantivos e adjetivos) e verbos. Em caso de palavras que ainda não foram avaliadas
nas etapas anteriores, remove a última vogal (“a”, “e” e “o”) e, por fim, remove acentos.
Estas técnicas reduzem a dimensionalidade do cenário de estudo, focando no
tratamento do conteúdo semântico das palavras que concentram o conhecimento relevante
do texto (MORAIS; AMBRÓSIO, 2007). Desse modo, a redução do escopo pode levar
ao aumento do desempenho do modelo, reduzindo custos computacionais e otimizando a
compreensão do resultado final.
2.2.2 Medidas de Similaridade

Como medidas de similaridade, é possível citar: a distância de Levenshtein, a
cosseno e Jaro-Wrinkler.
Na primeira, o algoritmo de Levenshtein faz a comparação entre duas palavras,
medindo quantas modificações são necessárias (inclusão, remoção ou alterações) para
torná-las iguais. Encontrando um resultado zero, significa a descoberta da igualdade entre
as palavras (GOMAA; FAHMY, 2013). Sua resolução, normalmente, é expressa na forma
de matriz, sendo a fórmula definida por:





max(i,

j) if min(i, j) = 0

leva,b (i − 1, j) + 1

 

leva,b =






min 
leva,b (i, j − 1) + 1 otherwise
 
a,b (i − 1, j − 1) + 1(ai 6=bj )

 lev

Quando ai = bj , o valor da função é zero, caso contrário, seu valor será o menor
valor entre os calculados nas funções. O leva ,b (i, j) é a distância entre o primeiro “i”
caracter de “a” e o primeiro “j” caracter de “b”.
Sendo necessário calcular a medida de Levenshtein entre as palavras “veto” e “feto”,
por exemplo, é notório a necessidade de apenas 1 modificação, “v” em “f”. Entretanto,
aplicando a fórmula, tem-se que os caracteres da posição i = 1 e j = 1, “v” e “f”, são
diferentes, então:
 






 lev (0, 1) + 1
 a,b
=2
leva,b (1, 1) = min leva,b (1, 0) + 1 = 2
 

 lev (0, 0) + 1 = 1

a,b
Então, o resultado da expressão acima é 1. Já para i = 2 e j = 2, “e” e “e”, como

ai = bj , o seu resultado é zero. Assim, o grau de similaridade entre as palavras é de 3/4
ou 75%.
Já na segunda, há o cálculo do ângulo entre dois vetores, A e B, de termos variando
entre 0 e 1. A medida mais próxima a 1, indica a maior similaridade (MAIA; SOUZA,
2008). O ângulo entre o dois vetores não supera 90 graus. Sendo definida como:
(1)A.B = kAk kBk .cosΘ
n P
A.B Ai Bi
(2) cos Θ = = qP i=1 qP
kAk kBk n 2 n 2
i=1 Ai i=1 Bi
Neste caso, “Ai ” e “Bi ” são componentes dos vetores A e B.

Considerando dois documentos todos com frequência única dos termos, é possível
representar o documento A contendo os termos “soro, feto, consciente e exame” e o
documento B “soro, feto e exame”. Para a similaridade cosseno, a frequência dos termos
em A é {1,1,1,1}, já para B, {1,1,0,1}, pois este não contem a palavra “consciente”. Assim,
pode ser calculado:
1?1+1?1+1?0+1?1 3
√ √ = √ √ = 0, 83
12 2 2 2 2 2 2
+1 +1 +1 ? 1 +1 +1 +0 2 4? 3
Portanto, a similaridade entre os dois documentos é de 83%.

Na última, a similaridade fundamenta-se na ordem e número de caracteres comuns
entre duas cadeias de caracteres. É semelhante a distância Jaro, porém emprega um peso
ao seu cálculo quando os termos comparados possuem o mesmo prefixo, ou seja, são
considerados mais semelhantes (DEZEMBRO, 2019, p.12). Sua definição é dada por:
(1)d = 1 − simw
(2)simw = simj + lp(1 − simj )

 0
(3)simj =
m m m−t

1 + +
3 |s1 | |s2 | m
O “simj ” é o cálculo da distância Jaro entre duas strings. O “m” é o número de

caracteres correspondentes, o “t” a metade do número de modificações e “|s1 |” e “|s2 |” os
comprimentos das strings. Sendo “p” um fator escalável constante, não devendo superar
0,25. Normalmente, inicia com 0,1. Além disso, “l” é o tamanho do prefixo, podendo atingir
no máximo 4 caracteres.
Realizando o cálculo de semelhança entre os termos “veto” e “feto”, tem-se:
1 3 3 3−1 2, 17

simj = + + = = 0, 72
3 4 4 3 3
simw = 0, 72 + 3 ? 0, 1(1 − 0, 72) = 0, 804
Assim, o valor da semelhança entre “veto” e “feto” para Jaro-Wrinkler é de 80,4%.
2.2.3 A etapa de Indexação/Normalização

A fase de indexação tem como meta a identificação de similaridade de significado
entre as entidades ou palavras, formando os índices, estabelecendo a representatividade
do conhecimento abstraídos dos documentos analisados e produzindo relacionamentos do
conteúdo por palavras-chave.
Os índices podem ser baseados em medidas de frequência da escrita das entidades
no decorrer do documento analisado. O processo facilita a busca de conteúdo por meio
das palavras-chaves (ARANHA; PASSOS; VELLASCO, 2007, p. 48).
De acordo com Carvalho (2017, p. 56), Gomes, Vellasco e Passos (2013, p. 65) e
Morais e Ambrósio (2007, p. 14), o documento avaliado e indexado a partir de entidades
diferentes, pode corresponder ao vocabulário estruturado de uma determinada cultura.

Logo, para a área específica, há uma facilidade para o usuário localizar as informações,
pois os termos são comuns. Neste caso, a ilha de conhecimento deve conter um grupo de
palavras usuais. Assim, tornando a indexação mais especializada.
Essas técnicas resultam da análise mais profunda do textos. Identificam e relacionam
fatos, a fim de formar padrões, obtendo a percepção de uma leitura por um humano
(ARANHA; PASSOS; VELLASCO, 2007, p. 48).
Assim, para o processo de indexação, é necessário realizar o cálculo de relevância dos
termos. Cada entidade, possui um grau de importância de acordo com a sua frequência de
utilização. Normalmente, os mais importantes em significado são os com maior constância
de apresentação. Basicamente, segue a visão de dois paradigmas: quanto maior a frequência
de utilização de um termo no documento, mais relevante ele é para este documento e
quanto mais um termo se apresenta em uma coleção de documentos, menos significativo é
para diferenciar os documentos (FARIAS; COLAÇO JÚNIOR; COSTA, 2014). Segue o
Modelo do Espaço Vetorial, formando um conjunto de termos extraídos do documento
no espaço Euclidiano, a partir disso, são calculados os pesos de acordo com a frequência
dos termos no documento (GOMES; VELLASCO; PASSOS, 2013, p. 65). Então, para a
medida do grau de significado de uma palavra no texto, é medido o seu peso, portanto, é
criada uma função de avaliação: frequência linear das palavras. As medidas normalmente
utilizadas são: frequência absoluta, frequência relativa e frequência inversa de documentos
(TF-IDF) (MORAIS; AMBRÓSIO, 2007).
A frequência absoluta ou frequência do termo ou term frequency (TF) é a medida
com o peso mais simples. Apenas considera a quantidade de vezes que um termo é utilizado
no documento. Não distingue, em uma coleção de documentos, o termo que aparece em
mais documentos, só a sua constância.
A frequência relativa estabelece uma relação entre a quantidade de palavras do
documento e a frequência de um termo no documento. Desse modo, divide a quantidade
de ocorrênicas de uma determinada palavra pela quantidade total de palavras do texto no
documento.
Por fim, para a frequência inversa de documento ou inverse document frequency
(IDF), os cálculos das frequências anteriores são utilizados. Assim, é capaz de aumentar a
relevância de termos que aparecem em poucos documentos e diminuir a importância de
termos que aparecem em muitos. O cálculo é realizado conforme a Figura 5.
Figura 5 – Cálculo de IDF.

Fonte: Morais e Ambrósio (2007, p. 19)
Segundo os autores, dependendo da aplicação ou do modelo proposto, uma técnica

será mais adequada do que a outra. Contudo, não há estudos apresentando a superioridade
entre elas.
2.3 Os Descritores em Ciência da Saúde - DeCS

Os dicionários de vocábulos (Thesaurus) são utilizados como uma técnica de
identificação de termos (MORAIS; AMBRÓSIO, 2007). Seu conceito envolve as definições
de sinônimos, abreviações, acrônicos, relacionamentos e hierarquias relativas aos termos,
sendo associada a cada um, uma lista de entidades. Além disso, ajuda na identificação de
palavras específicas (termos simples) e de termos compostos (LOPES, 2004, p. 23).
O DeCS foi desenvolvido pela Medical Subject Headings (MeSH) da U. S. National
Library of Medicine para a indexação de artigos de revistas científicas, livros, anais de
congressos, relatórios técnicos, e outros tipos de materiais, assim como para ser usado na
pesquisa e recuperação de assuntos da literatura científica. Contêm dados referentes aos
termos médicos e das áreas de Saúde Pública, Homeopatia, Ciência e Saúde e Vigilância
Sanitária.
Uma abordagem é a indexação temática organizada em 3 estágios: termos indexa-
dores, termos preferidos e termos não preferidos. O primeiro aborda as entidades simples
ou compostas que representam um conceito no dicionário. O segundo são agrupados
hierarquicamente e indexam conceitos. Já o terceiro, faz referência ao termo preferido,
estando ligado à sua estrutura (LOPES, 2004, p. 28).
Desse modo, o dicionário ajuda na identificação de erros de ortografia e na localiza-
ção das informação devido ao uso comum dos termos entre os usuários da área.
2.4 Considerações
A temática deste capítulo foi voltada para os conceitos relacionados ao desenvolvi-
mento do trabalho. Assim, foram abordadas informações sobre o prontuário do paciente
com o objetivo de apresentar a sua importância para o contexto de uma instituição

hospitalar, além das definições sobre o KDT. Para tal, houve a estruturação das suas
etapas e definição de possíveis métodos para a mineração de texto. Dessa forma, será
necessário testar diferentes algoritmos, afim de escolher o que melhor represente o domínio
do problema.
Portanto, é importante avaliar as técnicas gerais do pré-processamennto, como o
processo de tokenização, e, principalmente, a aplicabilidade dos algoritmos de medidas
de similaridade e de Stemming, verificando as suas metodologias inseridas no contexto
médico. Com isso, responder aos seguintes questionamentos desse trabalho:
• Quais as técnicas de PLN são utilizadas em mineração de texto e qual é a mais

adequada para o contexto da saúde?
• A aplicação de PLN poderá atuar sobre a interpretação clínica do paciente, ajudando

na identificação de padrões de patologias e, consequentemente, no seu tratamento?
• Proporcionará uma base de pesquisa estruturada e produzindo informação útil para

ser reutilizada pelos profissionais da saúde, os estudantes da instituição e para a
gestão hospitalar?
27
3 Trabalhos Relacionados
Este capítulo foi elaborado com o objetivo de realizar uma revisão na literatura sobre
trabalhos desenvolvidos, utilizando técnicas de mineração de texto aplicadas à prontuários
eletrônicos de pacientes, assim como à outros domínios. A pesquisa foi centralizada
nessa temática, sendo descartados trabalhos com foco direcionado a mineração de dados,
utilizando apenas a mineração de texto como uma pequena etapa do processo, assim
contendo poucas informações sobre a técnica. Além disso, foi possível verificar o uso de
algoritmos e bibliotecas para atuação sobre Processamento de Linguagem Natural. Assim,
também houve a possibilidade de encontrar ferramentas livres, proprietárias e desenvolvidas
pelos pesquisadores. Contudo, não foram descatados trabalhos com o tratamento manual
dos dados em formato texto.
A pesquisa foi direcionada para estudos do tema na área da saúde com o resgate da
informação, principalmente, de prontuários eletrônicos de pacientes. Entretanto, trabalhos
com foco na saúde e com aquisição de dados de outras fontes, como coleta em períodicos,
também foram analisados. Portanto, a partir da pesquisa, é possível apresentar os aspectos
relevantes dos trabalhos acadêmicos e artigos científicos relacionados aos objetivos do
trabalho.
3.1 Metodologia
Esta pesquisa foi elaborada por meio de uma revisão da literatura. A sua finalidade
concentrou-se em reunir os estudos publicados e discutir a respeito das técnicas e tecnologias
aplicadas para realizar a conversão automática de dados não estruturados em dados
estruturados, ou seja, o tratamento de informações textuais sobre os dados clínicos do
paciente. Foi realizado o levantamento dos estudos nas bases de dados Google Scholar,
Springer, PubMed, Elsevier e IEEE. Dessa maneira, foram aplicados nos mecanismos
de busca, os seguintes descritores e suas combinações, em português: Aprendizado de
máquina, Mineração de textos, Processamento de linguagem Natural, Prontuário Eletrônico
de Paciente e anamnese. E na língua inglesa: Machine Learning, Text Mining, Natural
Language Processing, Electronic Patient Record e anamnesis. Assim, a principal string de
busca, em inglês, foi (“machine learning” AND “Text Mining” AND “Natural Language
Processing” AND (“Electronic Patient Record” OR anamnesis)), sendo utilizada a mesma
estrutura para a versão em português quando inserida no Google Scholar.
Após a etapa de definição das bases e descritores, foram delimitados os critérios de
seleção, como: estudos publicados em português e inglês; artigos originais que apresentassem
argumentos sobre a temática referente à pesquisa proposta, colaborando com as respostas
Capítulo 3. Trabalhos Relacionados 28
das perguntas de pesquisa e publicados entre os períodos de 2010 a 2019, conforme

demonstrado na Figura 6.
Figura 6 – Diagrama do fluxo de seleção das publicações.

Fonte: Autor.
Utilizando-se os descritores e os critérios de seleção, foram encontradas 193 publi-

cações, entre artigos, dissertações e teses. Após a leitura dinâmica dos títulos, resumos e
introduções foram excluídos os estudos que não atendiam as regras de seleção (artigos de
revisão, anais de eventos e fora da área da saúde) e artigos duplicados, permanecendo 45
trabalhos. Em seguida, foi efetuada a leitura criteriosa de cada artigo selecionado. Foram
excluídos os que não respondiam à pergunta de pesquisa ou estavam direcionados para
predição ou descrição de dados, assim, a amostra foi rezudida, compondo 18 estudos para
investigação neste contexto.
Porém, houve a necessidade de verificar a aplicação de mineração de texto em outras
áreas, ampliando o processo metodológico, então, também foram analisados trabalhos do
Symposium in Information and Human Language Technology (STIL) 2019, sendo uma
importante conferência. Dessa forma, foi possível estudar as técnicas comumente aplicadas
no Brasil e as suas áreas de atuação em PLN, além de verificar se há atuação de técnicas
mais específicas, de acordo com os cenários avaliados, ou se uma técnica consegue envolver
as particularidades distintas entre elas. Assim, 14 trabalhos foram selecionados e oito
examinados com maior profundidade.
A tabela abaixo representa o resumo dos 26 trabalhos selecionados para aprofunda-
Tabela 1 – Resumo dos trabalhos selecionados
Autor Ano Publicação Abrangência Objetivo

Britto et al. 2019 Conferência Culinária Recomendação
Britto e Pacífico 2019 Conferência Análise de sentimentos Classificação
Cesar, Vellasco e Figuei- 2019 Conferência Falhas em equipamen- Mineração de
redo tos Texto
Correia et al. 2019 Conferência Mídia social Classificação
Grechishcheva, Efimov e 2019 Conferência Saúde Estruturação
Metsker
Kongburan et al. 2019 Periódico Saúde Clustering
Oliveira, Arruda e Mendes 2019 Conferência Mídia social Classificação
Rodrigues, Junior e Lo- 2019 Conferência Mídia social Classificação
bato
Silva, Lochter e Almeida 2019 Conferência Mídia social Classificação
Sodré e Oliveira 2019 Conferência Sumarização Regressão
Downs et al. 2018 Conferência Saúde Classificação
Ehrentraut et al. 2018 Periódico Saúde Classificação
Guan et al. 2018 Conferência Saúde Classificação
Metsker et al. 2018 Conferência Saúde Clustering
Carvalho 2017 Dissertação Saúde Estruturação
Cho, Choi e Le 2017 Periódico Saúde Estruturação
Hoogendoorn et al. 2017 Periódico Saúde Classificação
Tsumoto et al. 2017 Conferência Saúde Classificação
Weegar, Nigard e Dalianis 2017 Periódico Saúde Estruturação
Dahl, Ozkan e Dalianis 2016 Periódico Saúde Estruturação
Moharasar e Ho 2016 Conferência Saúde Classificação
Fleuren e Alkema 2015 Periódico Saúde Estruturação
Pollettini et al. 2014 Periódico Saúde Estruturação
Eriksson et al. 2013 Periódico Saúde Estruturação
Boytcheva 2011 Conferência Saúde Classificação
Aramaki et al. 2010 Periódico Saúde Regressão
mento sobre os seus objetivos, técnicas e tecnologias utilizadas.
3.1.1 Análise das publicações selecionadas no âmbito da saúde

De acordo com Grechishcheva, Efimov e Metsker (2019), foi desenvolvido um algo-
ritmo em Python para extração de palavras-chave dos prontuários eletrônicos, objetivando
estruturar uma base de dados para representar o estado de saúde dos pacientes após
um acidente vascular cerebral. Então, utilizando métodos de PLN, foi desenvolvido uma
biblioteca para o cenário, armazenando os tokens correspondentes para as palavras-chave.
Realizou-se o pré-processamento do texto e a medida da frequência inversa (TF-IDF) afim
de produzir a extração de palavras-chave com base na análise semântica.
A fim de relacionar os resumos de diagnósticos e os medicamentos prescritos para
reduzir a mortalidade de pacientes em UTI, o trabalho de Kongburan et al. (2019) propôs

um método de indexação em Bag-of-Entities, baseado em Named Entity Recognition
(NER), sendo considerado mais eficiente que os tradicionais Bag-of-Words (BoW) e Bag-
of-Bigrams(BoB). Desse modo, realizou a tokenização para obter os termos e o cálculo de
TF-IDF para formação dos índices, construindo a sua base de conhecimento.
Já para Metsker et al. (2018), o estudo pretende recuperar as informações do
prontuário do paciente com Síndrome Coronariana Aguda, identificando as especificidades
de sua estrutura semântica, afim de desenvolver algoritmos para a sua interpretação,
utilizando métodos de PNL. As informações são retiradas de documentos como o resumo
do ecocardiografia. O algoritmo segue etapas como a tokenização e formação de termos
por meio de comparação com uma biblioteca de dados específica para a síndrome. Com
isso, os dados são comparados com modelos de processos direcionados a eventos como:
baixo nível de hemoglobina.
Desenvolver e avaliar uma ferramenta, utilizando técnicas de PLN, para identificação
de risco de suicídio em pacientes com distúrbios do espectro do autismo, foi o objetivo
do estudo de Downs et al. (2018). Como primeiro passo, realizou a análise manual dos
registros médicos para recuperar os termos usados como indicação de suicídio, criando uma
biblioteca. Assim, desenvolveu uma ferramenta para processar PLN, utilizando métodos de
classificação para definir os termos encontrados como positivo ou negativo para o suicídio.
A prososta de Ehrentraut et al. (2018) é elaborar um sistema para detecção de
infecções hospitalares adquiridas a partir da análise dos prontuários eletrônicos. Com isso,
na etapa de pré-processamento, foram aplicadas as técnicas de: TF-IDF, lematização,
stemming e remoção de stop-word. Com a biblioteca de termos disponível, houve o
treinamento, na etapa de classificação, utilizando Naive Bayes e Árvore de Decisão.
De acordo com Guan et al. (2018), os registros das informações médicas são
pouco padronizadas e formadas por dados privados do paciente, desse modo, o estudo
pretende desenvolver um modelo para gerar um conjunto de dados textuais sintétizados
a partir dos registros. Assim, é possível fornecer uma padronização para detecção de
doenças. Analisaram as informações pessoais, tais como: queixa principal, histórico de
doenças presentes e passadas e diagnóstico de admissão. Foram removidos os dados
pessoais e aplicada a biblioteca TensorFlow com Python para dimensionar os termos.
Como treinamento, foram utilizadas técnicas de Redes Neurais.
O artigo de Hoogendoorn et al. (2017) pretende, a partir da análise de registros
sobre a saúde mental de pacientes, criar um modelo preditivo para detectar sintomas de
ansiedade ou fobia social. As informações coletadas estavam contidas em e-mails enviados
aos terapeutas do hospital em estudo. Assim, utilizando a biblioteca Python NLTK obteve:
o tempo de resposta do paciente ao terapeuta e a lista de termos empregados por meio de
tokenização e remoção das stop-words. Com relação a frequências das palavras, optaram por
analisar se um determinado termo surge em registros de outros pacientes, caso contrário,

era descartado. Segundo os autores, uma alternativa seria usar a técnica do cálculo de
TF-IDF. Com esses resultados, foi aplicado regressão linear para ciração de modelos
preditivos.
Já no trabalho de Cho, Choi e Lee (2017), é proposto uma abordagem para
normalizar as entidades biológicas, como nomes de doenças e nomes de plantas, usando
termos para representar espaços semânticos. Para tal, utilizou a técnica do NER, com
uso da ferramenta NERresearch, e stemming, utilizando o algoritmo Porter Stemming do
Apache Lucene, para estruturar o dicionário necessário. Assim, aplicou redes neurais na
fase de mineração de dados.
O estudo de Carvalho (2017) objetivou: investigar a aplicabilidade da metodologia
de mineração de textos para a extração de informações provenientes da anamnese de
prontuários eletrônicos do paciente divulgados no ciberespaço, assim como garantir a
qualidade na recuperação de informações. Após a coleta das anamneses no ciberespaço, foi
realizada o processamento do texto com o auxílio da ferramenta Excel do pacote Microsoft
Office 365. Aplicou-se as seguintes técnicas sequencialmente: tokenização, remoção de stop-
word, normalização por meio de stemming utilizando o aplicativo Stemmer e o cálculo da
frequência absoluta dos termos. Dessa forma, foi elaborado uma lista dos termos utilizados,
descrevendo sinais e sintomas, medicamentos e siglas, levando à sumarização ordenada
pela frequência. Então um protótipo foi desenvolvido, sendo realizada a comparação das
anamneses criadas no sistema com o processo de mineração de texto manual e por meio
do algoritmo. O estudo aborda problemas referentes à escrita livre.
Por meio de mineração de texto em sumário de altas médicas, o trabalho de Tsumoto
et al. (2017) pretende desenvolver um método para classificá-los segundo o diagnóstico.
Os autores consideram o resumo de alta um documento com uma estrutura textual mais
controlada entre os documentos produzidos para atender ao paciente. Assim, realizam a
análise morfológica, utilizando a aplicação MeCab1 , para gerar as palavras-chave. Calculam
a distância dos termos com o TF-IDF. Por fim, aplicam métodos como o Random Forest e
Deep Learning como métodos de classificação.
Os autores Weegar, Nigard e Dalianis (2017) desenvolveram uma ferramenta para
extrair os dados não estruturados dos laudos de câncer de próstata, armazenando-os numa
base estruturada. O sistema foi desenvolvido em Java utilizando o conceito da criação
de regras próprias. Para tal, realizou uma classificação de acordo com o Gleason Score2
e as características da biópsia. O pré-processamento realizou a tokenização e a medida
1
Mecab é um sistema de análise morfológica. Ele lê frases japonesas, as segmenta em seqüências
de morfemas e as envia para a saída padrão com informações adicionais (pronúncia, informações
semânticas, etc.), disponível em https://directory.fsf.org/wiki/MeCab
2
É uma análise anatomopatológica sobre o câncer de próstata. Normalmente, quanto maior a pontuação,
pior o prognóstico.
de Levenshtein para os tokens. Como resultado final, obteve um laudo mais estruturado,
contudo ainda necessitando de trabalho manual para codificar o texto.
Para o trabalho de Dahl, Ozkan e Dalianis (2016), a proposta foi desenvolvida pela
apresentação e avaliação de um algoritmo próprio para o Processamento de Linguagem
Natural sobre laudos de câncer de próstata na Noreuga. A partir da avaliação de 25 laudos
de patologistas, foi desenvolvido um algoritmo em Python baseado em regras devido ao
número pequeno de amostras, utilizando o Gleason Score para mensurar os dados, método
também aplicado em Weegar, Nigard e Dalianis (2017). Como um laudo pode conter
informações de várias biópsias, o algoritmo foi desenvolvido de forma recursiva. As duas
regras básicas eram identificação da classificação do câncer, maligno ou benigno, e em
qual lado se encontrava. Dessa maneira, utilizaram o processo de tokenização para obter
os termos dos laudos, obtendo como resultado alguns falsos positivos, devido à falhas no
processo de formação dos prefixos.
Em Moharasar e Ho (2016), realizou-se a análise dos registros hospitalares escritos
em prontuário eletrônico a fim de organizar e relacionar eventos clínicos (progresso de
doença, sintomas, efeito de medicamentos, tratamento) em uma linha temporal. Dessa
maneira, o processo foi dividido em dois estágios: extração das expressões temporais
utilizando Conditional Random Fields (CRFs) como data, duração, hora e frequência
e recuperação dos eventos relacionados ao tempo. No primeiro estágio, foi aplicado o
sistema HeidelTime3 , desenvolvido em Java. No segundo, para o PLN, aplicaram-se a
lematização por meio de um algoritmo em Python, formando os termos e, em seguida,
o agrupamento semântico adotando o conceito de identificador único com a ferramenta
MetaMap, formando uma biblioteca de termos.
O artigo de Fleuren e Alkema (2015) foi produzido com o objetivo de apresentar as
técnicas utilizadas pela mineração de texto. Com isso, descreve etapas como a recuperação
da informação, o NER para a formação de palavras-chave e a extração da informação
textual por meio de métodos de co-ocorrência ou PLN, sendo este descrito como mais
eficiente para o processo. Como exemplo, cita a ferramenta MEDIE4 utilizada para buscar,
nos resumos do MEDLINE, as interações medicamentosas.
O trabalho de Pollettini et al. (2014) objetivou: construir um sistema para alertar
os profissionais de saúde sobre problemas de desenvolvimento humano, como doenças
cardiovasculares, obesidade e diabetes tipo 2, ao se expor um paciente durante a primeira
infância (até os 3 anos) a determinados riscos. Com isso, o sistema prepara e atualiza,
3
É um marcador temporal em vários idiomas desenvolvido no Grupo de Pesquisa de Sistemas de Banco
de Dados da Universidade de Heidelberg. Extrai expressões temporais de documentos e as normaliza
de acordo com o padrão TIMEX3. Disponível em https://code.google.com/archive/p/heideltime/.
4
Mecanismo de pesquisa para recuperar correlações biomédicas do MEDLINE com base na indexação,
utilizando técnicas de Processamento de Linguagem Natural e mineração de texto. Disponível em
http://www.nactem.ac.uk/medie/.
periodicamente, uma coleção de artigos científicos sobre o domínio de fatores de risco gené-
ticos e epigenéticos para doenças crônicas, realizando pré-processamento das informações
a partir de: remoção de stop-words, processamento de n-gramas com a biblioteca Python
NLTK e o cálculo de TF-IDF para os pesos dos termos. Além disso, utiliza a formação de
um modelo de espaço vetorial para processar a semelhança entre os termos dos documentos,
criando uma matriz a partir dos pesos dos termos encontrados pelo TF-IDF. Assim, cada
documento é representado por um vetor vetorial, sendo o conceito a dimensão de um vetor
formado por uma matriz de termos.
A publicação de Eriksson et al. (2013) investiga eventos adversos provocados
por medicamentos descritos nos registros dos pacientes, avaliando uma relação entre o
medicamento e o efeito adverso. Para criação do dicionário, foi realizado o processo manual
de análise do medicamento com as informaçoes de efeitos adversos inseridas pelo fabricante.
Assim, foi analisado os registros médicos de um hospital psiquiátrico da Noruega, realizando
lemantização e tokenização para a comparação com a biblioteca.
A aplicação de técnicas de PLN por Boytcheva (2011) objetivou realizar um
mapeamento automático para detecção de doenças e diagnósticos de acordo com a 10a
Revisão da Classificação Internacional de Doenças (CID-10). O principal método aplicado
foi a Máquina de Vetores com suporte a multiclasse.
Por fim, assim como o estudo de Eriksson et al. (2013), Aramaki et al. (2010)
também teve como objetivo investigar os eventos adversos de medicamentos prescritos e os
seus efeitos a partir de PNL sobre os registros clínicos. Dessa forma, o processo foi dividido
em duas etapas: identificação de termos utilizando NER - forma um tipo de dicionário
de dados - sobre PLN e extração da relação entre o medicamento e o seu efeito adverso,
aplicando métodos baseado em padrão e máquina de vetor. Como resultado, foi obtido um
cruzamento entre identificação do efeito, droga e a relação entre eles. Entretanto, houve
uma baixa precisão na identificação entre o medicamento e o seu efeito adverso quando
comparado com a identificação dos medicamentos, sendo justificado pela pluralidade de
sinônimos para se referir a um mesmo sintoma.
3.1.2 Aplicação de Processamento de Linguagem Natural em áreas diversas

O tabalho de Correia et al. (2019) teve como objetivo analisar os valores humanos
com base em mensagens compartilhadas no Twitter e da aplicação de um questionario sobre
esses valores. Na etapa de pré-processamento, houve a remoção de: URLs, identificação do
usuário, hashtags, pontuações, dígitos, Retweets, espaços em branco repetidos e linhas em
branco. Além disso, todo o texto foi convertido em minúsculo, removido os acentos e as
stop-words e a técnica de stemming foi aplicada com o uso da biblioteca NLTK do Python.
De posse dos resultados, foram aplicados os treinamentos utilizando classificação com
regressão logísitca, random forest e SVC, obtendo como melhor resultado uma acurácia de
60%.
Apesar de também analisar dados oriundos do Twitter, o artigo de Silva, Lochter e
Almeida (2019) propõe uma técnica para melhor extrair as informações de sentimento,
realizando normalização léxica, indexação semântica e desambiguação, afim de aumentar o
número de amostras para classificação. O cojunto das três técnicas é chamado de expansão
semântica. A primeira diminui o ruído, realizando a troca de termos com grafias erradas
pelas corretas, utilizando um dicionário léxico. A segunda cria o conjunto de sinônimos
para a atuação da terceira etapa: seleciona os termos do conjunto de sinonimos pertinentes
à mensagem.
Assim como Correia et al. (2019) e Silva, Lochter e Almeida (2019), o estudo de
Oliveira, Arruda e Mendes (2019) envolve extração de informações sobre o Twitter, contudo
utiliza técnicas de classificação para a identificação automática de Postagens Relacionadas
ao Uso da rede social. Para tratamento dos dados, utilizou Python com as bibliotecas
NLTK e Pandas provendo a limpeza dos dados: remoção de hastags com menção ao usuário,
hiperlinks, pontuação e stop-words, além de correção ortográfica, padronização de palavras
(termos escristo como “amoooo”, foi padronizado para “amo”) e redução ao radical.
A aplicação de mineração de texto no trabalho de Cesar, Vellasco e Figueiredo
(2019) possibilitou a análise de falhas ocorridas em equipamentos de plataformas de
perfuração de poços marítimos. Dessa forma, na etapa de pré-processamento, formou um
lista de termos compostos, removeu os termos de menor relevância, removeu acentuação
e nomes próprios, além de aplicar o algoritmo de Porter - utilizado para o cálculo de
stemming. Para indexação, avaliou três métricas: TF, boleano (presença ou não de um
termo) e TF-IDF para formar a matriz de termos.
O artigo de Britto et al. (2019) propôs a criação de uma base de dados sobre receitas
em português a fim de proporcionar o desenvolvimento do Sistema de Recomendações de
Receitas. Com isso, após a coleta das receitas na web, necessitou remover os documentos
duplicados pela análise do título da receita, converter o texto em minúsculas, separar
os ingredientes, tratar as abreviações e erros ortográficos e remover os dados numéricos.
Também desenvolveu dois dicionários léxicos, um para tratar o estado do ingrediente
(moído, cozido) e o outro o tipo de medida. Por fim, de posse da lista de ingredientes e
formada a matriz e realizado o cálculo da frequência dos termos com TF-IDF.
Aplicar diferentes algoritmos de regressão para estimar a relevância das frases
contidas na coleção documentos extraídos de artigos de notícias brasileiros, a fim de
formular um resumo, foi o objetivo do trabalho de Sodré e Oliveira (2019). Para o
pré-processamento, foi utilizado a ferramenta Spacy levando a: segmentação das frases,
tokenização, reconhecimento de entidades nomeadas e remoção de stop-words. Com a
biblioteca NLTK, foi aplicado o stemming. Em seguida, para o cálculo de relevância dos
termos, foram aplicadas 9 técnicas: TF, TF-IDF, centralidade das sentenças, entidades
nomeadas, posição das sentenças, similariade com o título, Bushy Path, similaridade
agregada e TextRank. Com estes resultados, foram aplicados os métodos de regressão afim
de avaliar a melhor técnica para o trabalho.
No projeto de Rodrigues, Junior e Lobato (2019), houve a análise dos comentários
acerca de notícias relacionadas às deficiências físicas, mentais e de aprendizado para
identificar quais os principais tópicos discutidos e seus posicionamentos. Assim, a partir da
recuperação das informações, converteu as palavras para minúsculo e aplicou remoção de
stop-words, acentuações, números, caracteres especiais, pontuação e saudações por meio
da biblioteca NLTK do Python. Além disso, verificou a análise de sentimentos com a
biblioteca Polyglot e cálculo de relevância de termos com TF-IDF, formando a matriz de
termos. Também foi desenvolvido uma classificação manual para categorizar os comentários
em: informativo, ofensivo, relato de experiência, indignação e outros.
O artigo de Britto e Pacífico (2019) objetiva: a criação de uma base de dados em
português para análise de sentimentos extraídos dos comentários de usuários de aplicativos
móveis, sendo obtidos da loja de aplicativos da Apple. Dessa forma, procedeu com a
transformação dos termos para minúsculo e, com o uso da biblioteca NLTK, realizou:
remoção de letras repetidas, correção ortográfica, remoção de hashtags, links e stop-words.
Com relação à frequência dos termos, aplicou o modelo Bag-of-Words. Por fim, seguiu
com o treinamento utilizando os seguintes classificadores: Naive Bayes, árvore de decisão,
random forest, regressão logística, máquina de vetores, redes neurais simples e Long
Short-Term Memory (LSTM). Os algoritmos de rede neural, LSTM e o de regressão
obtiveram os melhores resultados médios.
3.2 Considerações
A partir da investigação realizada nas bases de pesquisa, foi possível elencar,
selecionar e analisar os trabalhos já desenvolvidos com a proposta de tratamento sobre
conteúdo textual. Assim, destacar as técnicas, ferramentas, algoritmos e bibliotecas prontas
em determinadas linguagens de programação, utilizados, conjuntamente, para promover a
mineração de texto.
Entre as técnicas mais utilizadas tanto no âmbito da saúde quanto nas outras
áreas estão o cálculo do TF-IDF, a tokenização e remoção de stop-words, sendo citados
explicitamente em 11, 10 e 9 dos 26 trabalhos, respectivamente. Entretando, alguns
estudos não evidenciam as técnicas aplicadas, apenas informam sobre a ferramenta ou
algoritmo empregados. No geral, realizam o tratamento do texto, transformando-o em
termos sem acento, pontuação ou numeração e os convertem em letras minúsculas. Além
disso, praticamente, todos constroem uma biblioteca de termos ou utilizam uma existente
a fim de proporcionar a aplicação do estudo, desse modo, tornando-se um dos pilares da
mineração de texto. Mesmo os trabalhos que pretendem criar modelos com a aplicação de
algoritmos de classificação, regressão, clusterização ou sumarização sobre texto, devem
antes realizar esses tratamentos.
Como problemas enfrentados, a maioria dos autores relatam a falta de estrutura
textual, uso de abreviaturas e linguagem própria de cada profissional da saúde quando
estes prescrevem a sua avaliação clínica. Contudo, apesar dessas dificultades, há inúmeros
trabalhos em setores diferentes aplicados na saúde.
Na pesquisa em língua portuguesa realizada no Google Scholar, a maioria dos
trabalhos dessa temática, mesmo em cenários diferentes da saúde, apresentam-se sobre
o modelo de dissertações ou teses. Sendo assim, os artigos são concentrados na área do
aprendizado de máquina.
Portanto, as técnicas aplicadas nas publicações focam na análise estatística do
conteúdo. Neste trabalho será aplicado tanto a análise estatística como a semântica, a fim
de tratar as informações da anamnese médica, buscando a relação entre sinais, sintomas,
exames e diagnóstico.
Com isso, para a criação de uma base estruturada, a partir de documentos textuais,
é necessário : a tokenização, remoção de stop-words, aplicação do algoritmo de stemming e
a aplicação de algoritmos de similaridade, o cálculo da relevância dos termos com TF-IDF e
a comunicação com a biblioteca DeCS, a fim de produzir o diciónario de dados do trabalho.
37
4 Metolologia Aplicada
A partir do conhecimento dos processos empregados nos estudos relacionados e das

características encontradas nas anamneses, o capítulo objetiva justificar a metodologia
desenvolvida, a fim de extrair os dados textuais presentes nas anamneses da Maternidade
Escola Januário Cicco, e construir uma base de dados experimental, assim realizando o
processo de estruturação das informações. Com isso, é possível detalhar como a mineração
de texto foi empregada nas etapas do trabalho.
4.1 Análise e criação do Dicionário

Como primeira etapa para elaboração da mineração de texto, foram analisadas
cerca de 5.000 anamneses, dados coletados no período entre janeiro de 2016 e fevereiro de
2020, de pacientes de obstetrícia (grávidas e puérperas), todas pacientes que necessitaram
de internamento após o atendimento médico. Assim, 12 características, no geral, foram
encontradas nos documentos, informações de: presença de sintoma, negação de sintoma,
medicação em uso, medicação administrada, medicação prescrita, conduta aplicada, co-
morbidade/doença encontrada, uso de droga, encaminhamento entre instituições/cidades,
exame, alergia e características gerais como tipo sanguíneo e fator Rh, parto múltiplo e
solicitação de laqueadura tubária. Todavia, cada atendimento é formulado de acordo com
a experiência ou direcionamento do profissional, portanto, podendo variar com um número
maior ou menor de informações.
Esse agrupamento de dados foi baseado no conteúdo de Montenegro e Filho (2013),
livro base da obstetrícia que define o processo de avaliação do paciente no momento do
atendimento, como também na Resolução no 2056/2013 do CFM, mencionada no Capítulo
2, e nos conhecimentos técnicos, no início do levantamento das informações, de uma médica,
duas enfermeiras e um farmacêutico da MEJC.
Desse modo, foi possível definir quais termos são considerados como principais e
quais são os seus sinônimos para cada uma das características. O apoio dos profissionais
da saúde foi decisivo para essa etapa, levando ao desenvolvimento do dicionário de dados.
Portanto, houve a coleta e a comparação manual entre os documentos, não sendo necessário
aplicação de algoritmos de sumarização.
Capítulo 4. Metolologia Aplicada 38
4.2 Elaboração do banco de dados estruturado

Após a definição dos parâmetros selecionados na anamnese, foi elaborado a estrutura
do banco de dados, como apresentado nas Figuras 7 e 8.
Figura 7 – Diagrama de classe para estruturação da Anamnese.

Fonte: Autor.
Os modelos das Figuras 7 e 8 representam a consolidação do estudo, levando

ao cumprimento da meta global: possibilitar a estruturação dos elementos inseridos
manualmente na anamnese médica. As classes destacadas em azul e verde representam
o dicionário. A primeira - encaminhamento, sintoma, droga, conduta, exame, negação,
doença e medicamento - são as classes principais e a outra, classes com iniciais de “alcunha”,
guardam os sinônimos da principal. Utilizando essa relação, quando é identificado no
documento um dado de sinômino “dor de cabeça”, por exemplo, a relação desse sintoma
inserido na classe AtendimentoSintoma é “cefaléia”, palavra-chave que caracteriza o sintoma.
Assim, há a possibilidade de direcionar informações iguais, porém com nomenclaturas
diferentes, para um único identificador, facilitando o processo de recuperação da informação
quando se desenvolve estudos a partir de coleta de dado específico ou cruzamento de
informações.
Além disso, no grupo considerado como características gerais, há tanto informações
pessoais (grupo sanguíneo) como também informações ligadas à especialidade, assim, esses
dados específicos dependem do tipo do atendimendo. Dessa maneira, foi criada a classe
obstetrícia para guardar as informações que a caracterizam. Sendo necessário estruturar
informações de outra especialidade, será preciso construir a classe dessa especialidade,
relacionando-a com o atendimento.
Figura 8 – Representação para dados dos exames.

Fonte: Autor.
Na Figura 8, além do dado do exame aplicado, também é preciso inserir o seu

resultado. Dessa maneira, foi analisado e enquadrado os resultados dos exames em 4 grupos
de referência: numérico, booleano, seleção de resultados com um único resultado (char)
e com vários resultados e descritivos, detalhes específicos do exame que apresentam a
opinião do responsável pelo laudo, não sendo possível um direcionamento específico do
resultado para agrupá-lo.
4.2.1 Coleta dos dados na base de dados do AGHU

Como as informações não estruturadas são armazenadas na base de dados do
AGHU, foi desenvolvido uma rotina na aplicação servidora para acessá-las uma única vez,
diariamente, considerando um horário específico, como representado na figura abaixo. Dessa
maneira, à meia noite, a aplicação acessa as anamneses das pacientes que tiveram alta no
dia anterior, realizando as etapas da mineração e armazenando o resultado estruturado na
base do projeto.
Figura 9 – Diagrama de componentes.

Fonte: Autor.
Assim, os dados são capturados via base de dados do AGHU, via comunicação direta,
e tratados no sistema. Desse modo, é notória a dependência do sistema das informações
do AGHU, necessitando manter esta ligação, a fim de atualizar a base da ferramenta.
Os componentes de pré-processamento e similaridade são os responsáveis por tratar
e estruturar a base textual. Foram divididos em duas etapas, representando as etapas
globais do processo. Assim, podem contribuir para o reuso e aplicação de testes, facilitando
o processo de integração, caso sejam desenvolvidos novos módulos ou utilizados por novos
sistemas.
O primeiro componente, pré-processamento, representa todo o processo de limpeza
para redução da dimensionalidade do texto. Já o segundo, consome os termos produzidos
pelo pré-processamento, promovendo a comparação entre os dados da anamnese e os dados
do dicionário, verificando as semelhanças.
4.3 Processo de mineração de texto

No Capítulo 2 e nos trabalhos relacionados, foram mencionadas diversar técnicas
utilizadas no processo de pré-processamento do dado, entre elas: tokenização, remoção
de stop-word, análise morfológica, stemming, além de cálculo de frequência de termo
para os trabalhos que necessitaram de sumarização. Para a metodologia do trabalho,
determinadas técnicas poderiam prejudicar o resultado final da estruturação, sendo assim,
como demostrado na Figura 10, as subetapas marcadas de vermelho, não foram aplicadas.
Figura 10 – Etapas da mineração.

Fonte: Autor.
Apesar da área da saúde conter inúmeras palavras compostas, o processo de

tokenização foi utilizado. Para não desvincular a relação entre as palavras e não ocorrer
desconexão do conteúdo semântico, a sequência dos tokens foi mantida. Assim, quando é
necessário analisar se há significado formado por um termo compostos, analisa-se tanto
a avaliação do token individualmente, como a sua combinação com os seus antecessores,
reconstituindo a expressão. Por exemplo, “sulfato de magnesio”, transforma-se em “sulfato”,
“de” e “magnesio”. Ao se analisar o último token, primeiro é avaliado a expressão completa
“sulfato de magnesio”, depois “de magnesio”, por fim “magnesio”. Dessa maneira, não foi
aplicado a remoção de stop-word, pois parte do contéudo poderia ser perdido.
A análise morfológica também não foi totalmente aplicada. Principalmente quando
é estudado o resultado dos exames. Há representações a partir de símbolos, como “movi-
mentação fetal: - ou +”, o sinal “-” refere-se à ausência de movimentação fetal, indicando
um possível aborto dependendo da idade gestacional, enquanto o sinal “+” significa feto
ativo. Além disso, há um conjunto de exames com resultados númericos e não inteiros,
assim, o “.” ou a “,” podem indicar a casa decimal de um desses resultados. Outra infor-
mação empregada pelo “+” é a indicação do tempo da idade gestacional no momento do
atendimento, "34+5", significando uma gestação de 34 semanas e 5 dias. Portanto, desse
processo, o única técnica aplicada foi a remoção dos acentos e cedilha, sendo o dicionário
construído sem o uso desses caracteres.
Entre os procedimentos aplicados no stemming, o único utilizado foi a remoção do
plural das palavras, levando-as para o singular. Contudo, foi criada uma lista de exceção
e armazenada como uma tabela do banco de dados. Termos como “AIDS” e “HAS” são
siglas que podem representar uma informação do dicionário, assim, a identificação do “s”
no final da palavra não pode ser removida. Do mesmo modo, há palavras que são escritas
naturalmente como representantes do conceito plural: “sífilis”, “herpes” e “diabetes”, por
isso, não podem ser reduzidas ao singular.
Ainda com relação à técnica, não houve remoção ou redução de verbos. Em várias
etapas do processo de estruturação, os verbos serviram como indicadores das características
encontradas no documento. A expressão “nega” aponta para os sintomas não detectados
pela paciente, já “uso” determina os medicamentos utilizados para outras comorbidades ou
para os sintomas atuais. Então, é possível selecionar trechos de busca a partir do encontro
dessas informações, independente de local (início, meio ou fim) aonde está escrito ou da
quantidade de vezes que o indicador é empregado. Por fim, o processo de estruturação não
foi realizado seguindo a redução das palavras ao seu radical.
O algoritmo de similaridade foi utilizado como técnica para verificar termos ou
expressões que foram mal escritas ou foram escritas no masculino e armazenadas no
feminino. Entre os 3 algoritmos apresentados no capítulo 2, a medida cosseno foi descartada
já que é melhor empregada quando se compara dois documentos para verificar a semelhança
entre eles, de acordo com a frequência de termos expressos em cada documento. Já entre
as distâncias Jaro-Wrinkler e Levenshtein o objetivo final é semelhante, medir a distância
entre duas strings, assim foi esolhido o algoritmo de Levenshtein como utilizado em Santos
(2018).
4.4 Considerações
Com a análise das anamneses e construção do dicionário, foi possível compreender
a complexidade das informações do documento e como esses dados são utilizados para
a condução do atendimento da paciente. Não só para as tarefas diárias, como também
para as pesquisas desenvolvidas pelos estudantes de graduação e pós-graduação. Desse
modo, os dados foram agrupados em categorias e, a partir delas e como se relacionam ao
atendimento, o banco de dados foi produzido. Além disso, como o projeto manipula dados
assistenciais, ou seja, dados de natureza sigilosa e protegida pela Lei Geral de Proteção de
Dados, o sistema desenvolvido necessitou ser instalado e utilizado apenas dentro da rede
interna da instituição.
Para o levantamento dos procedimentos de mineração de texto, foram estudados
e selecionados aqueles que poderiam fornecer o melhor resultado para a estruturação da
informação, visando utilizar os métodos que não promovessem a perda de dado, levando
ao comprometimento do produto final.
44
5 Ferramenta Desenvolvida
Para aplicar a metodologia, foi desenvolvida uma ferramenta capaz de executar

as tarefas discutidas no capítulo anterior. Assim, neste capítulo, é possível apresentar
os detalhes das implementações para cada técnica e tecnologia utilizada. Além disso,
discurtir sobre os resultados obtidos a partir da comparação manual das anamneses e da
estruturação automática por meio da ferramenta.
5.1 Mineração de texto

De posse das informações não estruturadas extraídas das anamneses do AGHU, é
preciso seguir com os métodos para estruturá-las, assim é aplicado as etapas da mineração
de texto. O projeto foi desenvolvido na linguagem Java, sendo aplicado o padrão de projeto
Facade na sua construção e uma arquitetura Model-View-Controller (MVC). Para a rotina,
foi desenvolvido uma tarefa assíncrona que executa o método da estruturação no horário
previamente estabelecido.
5.1.1 Pré-processamento
Normalmente, a primeira etapa do processo de mineração trata da limpeza dos
dados, reduzindo o fluxo textual para otimizar o processo de estruturação ou análise
textual. Todavia, como mencionado no tópico 4.3, a etapa de pre-processamento não
removeu caracteres especiais, sinais de pontuação ou números já que podem representar
informações úteis para a anamnese. Além disso, foram desenvolvidos dois métodos para
verificar se determinados símbolos ou sinais de pontuação estavam ligados diretamente à
números ou palavras na posição do caracter imediatamente posterior a sua escrita. Tais
métodos são aplicados dentro do primeiro processo, a tokenização do texto.
A primeira ação da tokenização removeu os espaços vazios do texto e, logo após,
transformou o fluxo textual em tokens. A partir disso, cada token é analisado pelos métodos
da Figura 11.
Capítulo 5. Ferramenta Desenvolvida 45
Figura 11 – Fluxo dos algoritmos.

Fonte: Autor.
O método 01 identifica se, após um dos símbolos encontrados (“.” ou “,” ou “+”
ou “\” ou “/”), há dígito. Não sendo encontrado, é retornado a posição do caracter para
separar as informações: de um token, são formados dois. O objetivo é separar informações
que foram escritas sem espaçamento, “AU=36cm,ACF=130bpm”, sendo dividido em
“AU=36cm,” e “ACF=130bpm”. Já no segundo, método 02, o objetivo é separar qualquer
caracter após, “:”, “=” ou “(”, assim, “AU=36cm”, é representado pelos tokens “AU=” e
“36cm”. Esses passos foram necessários para melhorar a organização do encadeamento do
texto, facilitando processos posteriores como a comparação ou busca de informação tanto
para a similaridade quanto para a comparação direta com o dicionário.
Em seguida, cada token foi analisado para transformá-lo do plural para o singular.
Assim, a partir do entendimento das regras gramaticais para a formação do plural das
palavras, definiu-se, como proposta para o contexto do estudo, quatro regras e suas soluções,
conforme tabela abaixo.
Tabela 2 – Regras para transformar do plural para o singular
Regra/Solução Descrição
Regra 1 Palavras terminadas com “ões”, “ãos” ou “ães”
Solução 1 Transformar em “ao”
Regra 2 Palavras terminadas com “es” precedidas de “l”, “r”, “s” ou “z”
Solução 2 Remover o “es”
Regra 3 Palavras terminadas com “is” precedidas de vogal
Solução 3 Remover o “is” e adicionar “l” ao final
Regra 4 Palavras terminadas com “s”
Solução 4 Remover “s”
A execução do algoritmo seguiu a sequência definida na Tabela 2, da regra 1 para

a regra 4. Desse modo, as primeiras análises verificam se a palavra termina com “s” e
não faz parte das exceções, em caso positivo, é analisado regra por regra até encontrar
a sua, executar a transformação e analisar o próximo token. Por fim, o último método
do pré-processamento é a substituição dos caracteres acentuados e cedilha para o seu

representante sem o caracter especial.
Portanto, ao final dessa etapa, o processo de limpeza reduz o texto apenas com a
remoção dos espaçamentos em branco, gerando tokens no formato minúsculo, sem acentos
e reduzidos ao singular, quando necessário. Além disso, podem ser criado novos tokens, de
acordo com as condições dos métodos citados anteriormente.
5.1.2 Recuperação de dados específicos da obstetrícia

Como há dados específicos para pacientes obstétricas, foi inserida essa etapa para
o processo de estruturação. Dados como idade gestacional, número de gestações, partos e
abortos realizados, além da data da última menstruação e se foi realizado acompanhamento
de pré-natal são comuns para esse tipo de atendimento, formando o conjunto de dados
agrupado como características gerais. Dessa maneira, esse tipo de informação foi separado
do contexto natural da avaliação de um paciente.
Para a coleta dos dados, não foi utilizado o dicionário já que são informações
direcionadas tendo como resultados amostras númericas, booleanas ou de variação deli-
mitada como o grupo sanguíneo (A, B, O ou AB). Assim, para cada dado específico, foi
desenvolvido um método. Entre eles, o método grupoSanguineo busca a informação da
classificação ABO como demostrado na figura abaixo.
Figura 12 – Fluxo para busca do tipo sanguíneo.

Fonte: Autor.
O processo inicia-se com a verificação da palavra-chave que identifica a escrita do

dado sanguíneo no token: “aborh”, “gs”, “ts”, “abo”, “rh”, “classificacao”, “tipagem” ou
“grupo”. No caso dos três últimos termos, ainda é necessário verificar se o próximo termo é
“sanguineo” ou “sanguinea”. Sendo encontrado, a rotina é interrompida e são guardadas

duas posições: a do primeiro identificador (p1) e do próximo termo a ser analisado (p2).
Neste último caso, a posição é a soma da posição do primeiro identificador acrescido de 1 ou
acrescido de 2, para os casos de palavra composta como “classificacao sanguinea”, portanto,
seguindo o fluxo textual, a próxima informação deve conter o dado do tipo sanguíneo.
Neste ponto há duas possibilidades, a String p2 pode conter o dado sanguíneo com a
informação do fator Rh, “AB+”, ou pode conter apenas o sangue. Então, inicialmente, é
verificado se o primeiro caracter corresponde a um grupo sanguíneo, em caso afirmativo, é
analisado o tamanho de p2 para identificar em qual das duas condições anteriores o termo
se encontra. Para o grupo “AB”, é preciso refazer a análise. Em cada passo, é guardado a
posição final das informações encontradas (p3), portanto, ao final, é aplicado um processo
de remoção dos tokens encontrados, sendo aplicado da posição final (p3) até a posição
inicial (p1).
A decisão de iniciar por esta etapa e, logo após, seguir para os itens do dicionário,
foi baseada na forma como as informações dessa categoria se apresentam na anamnese:
normalmente, inicializam a escrita do atendimento médico. Assim, encontrado o dado,
o rotina de análise dos tokens é encerrada, não necessitando varrer toda a cadeia, o
método segue com as suas ações até chamar o próximo. Portanto, os outros métodos da
subetapa seguem uma ideia semelhante: identificar a informação que a caracteriza como
específica do contexto e, a partir das suas formatações comumente encontradas, realizar
os procedimentos necessários para a extração da informação e seguir com o processo de
limpeza dos dados já analisados. Desse modo, a medida que os métodos são processados,
ocorre a diminuição do texto a ser analisado no próximo passo, podendo otimizar as etapas
da estruturação.
5.1.3 Similaridade
Sendo escolhido a distância Levenshtein como medida para o cálculo de similaridade,
uma pesquisa foi realizada, objetivando avaliar os algoritmos existentes, principalmente, os
desenvolvidos na linguagem Java. Algoritmos de outras linguagens utilizando bibliotecas
específicas da linguagem foram descartados. Dessa maneira, o algoritmo encontrado na
página de Bhojasia (2016) foi adaptado e usado conforme Figura 13.
Figura 13 – Algoritmo de similaridade - Levenshtein.

Fonte: Autor.
O método possui dois parâmetros: “String x” e “ArrayList<String> tokens”. Sendo

“x” a palavra simples ou composta que será comparada com os termos de “tokens” carregados
com as informações do dicionário. Assim, cada palavra do dicionário é comparada com a
String, realizando a análise de cada letra do termo de tokens com cada letra de “x”, sendo
igual o valor das mudanças não é alterado, sendo diferentes ou havendo mais ou menos
letras em x, é acrescentado 1 à diferença.
No ínicio, é criado o array “custo” com o tamanho da palavra do token + 1. No
primeiro ciclo de comparação, aramazena-se o valor “0” (encontrou igualdade) ou “1”
(encontrou diferença) na posição 1 de custo após finalizar o laço mais interno. A medida
que ocorrem as outras comparações letra a letra, a esse valor é acresentado 1 ou é repetido
na próxima posição de custo o valor armazenado anteriormente. Ao final do ciclo, a última
posição de custo contém a quantidade de mudanças necessárias, dessa maneira, é possível
calcular o percentual de semelhança entre “x” e cada token.
5.1.4 Dicionário e estruturação

As características restantes da anamnese são selecionadas nesta fase, finalizando
o processo de mineração e estruturação do texto. Os métodos possuem um padrão de
desenvolvimento conforme as seguintes ações: verifica se há termo que representa a
característica, seleciona os dados do dicionário, realiza a comparação entre o termo e o
dicionário e remove o trecho encontrado.
Como já mencionado no capítulo 4, a primeira ação visa encontrar um termo

característico da propriedade avaliada, por exemplo, o medicamento, é um atributo comum
ao medicamento em uso, medicamento aplicado e ao medicamento prescrito, ou seja, o
medicamento é uma classe com 3 características diferentes para o atendimento. Encontrar
os medicamentos presentes no documento seria mais simples, contudo é preciso associá-
lo à propriedade específica. Assim, como é comum encontrar palavras que anunciam
determinada característica, essa ação de verificação foi a primeira aplicada ao algoritmo.
Figura 14 – Busca pelo indicador de cada dicionário.

Fonte: Autor.
O sistema armazena uma lista de termos comuns da característica: “portadora”,

“comorbidade”, “diagnostico” representam, por exemplo, indicadores de doença. Conforme
a figura acima, o método verifica se existe ocorrência dessas palavras, além de realizar
o cálculo de similaridade para tais termos quando não encontra correspondência direta.
Sendo encontrada, cada trecho de código é armazenado para posterior análise. Desse modo,
é aplicado a segunda ação: selecionar o dicionário de termos, principais e seus sinônimos,
para comparar se existe semelhança.
Na terceira ação, é preciso não só verificar cada token, como também, a sua
relação com o seu posterior, formando as palavras compostas. A partir do primeiro token
retornado, é feito a busca na base, havendo correspondência direta ou por similaridade, o
item principal do dicionário é selecionado para posterior armazenamento, relacionando o
atendimento da paciente ao item encontrado. Em seguida, é analisado o próximo token de
forma composta, seu antecessor com o token atual, e, logo após, o token atual.
Figura 15 – Formação e análise da palavra simples/composta.

Fonte: Autor.
A Figura 15 representa a saída após o processo de avaliação do trecho “diabetes

melitus gestacional”. O termo “melitus” foi escrito erroneamente necessitando aplicar
o algoritmo de similaridade. O processo de limpeza transformou a frase em 3 tokens e
removeu o “s” de “melitus” já que a palavra considerada como exceção à regra do plural
é “mellitus”. Como é possível observar, o primeiro token é analisado, “diabetes”, sendo
encontrado o seu correspondente no dicionário “diabetes mellitus”. Já no segundo, ocorre a
avaliação composta, “diabetes melitu”, e a individual, “melitu”. Mesmo sendo encontrado
um correspondente no dicionário, “diabetes mellitus”, a informação não fica armazenada
porque, anteriormente, já havia sido capturada. Por fim, avaliando o terceiro token, tem-se:
“diabetes melitu gestacional”, “melitu gestacional” e “gestacional”, sendo detectado a
comorbidade “diabetes mellitus gestacional”.
Além disso, a última linha representa a comorbidade inserida no banco estruturado.
Apesar de encontrar duas informações no dicionário, como a palavra “diabetes mellitus”
está contida na palavra “diabetes mellitus gestacional”, é desconsiderado o primeiro dado,
caso contrário, as duas seriam inseridas.
Na ação anterior, são armazenadas as posições inicial e final do trecho analisado
quando a informação é encontrada, assim, é possível removê-lo ao final, realizando a quarta
e última sub-tarefa.
Para a avaliação dos exames, a sequência é a mesma, sendo adicionado apenas uma
etapa, anterior à remoção do trecho analisado e encontrado. Logo, é realizada a etapa
de busca do resultado do exame. Para o sistema, mesmo que se identifique um exame,
contudo, não se encontre um resultado, o exame não é aramazenado.
Figura 16 – Etapa adicional de verificação para exame.

Fonte: Autor.
Como apresenta a Figura 16, após a identificação do exame, é chamado um

novo método de acordo com as divisões das tipos de resultados de exame. Para os que
possuem resultado do tipo seleção (texto), também se verifica nome compostos e cálculo
de similaridade.
Figura 17 – Apresentação dos dados estruturados.

Fonte: Autor.
Dessa maneira, após os passos anteriores, a anamnese pode ser representada de

forma estruturada como demonstrado na imagem acima. No topo da figura está o texto
escrito pelo médico e, logo em seguida, a ferramenta com os dados estruturados.
5.2 Considerações
A partir do procedimento de estruturação da anamnese, foi possível relacionar as
informações entre sinônimos e siglas, além de capturar os dados escritos errados com a
utilização do algoritmo de Levenshtein. Assim, proporcionou o agrupamento dos dados,
possibilitando a geração de novas informações.
53
6 Avaliação e Resultados
Objetivando avaliar a ferramenta desenvolvida, foram selecionadas aleatoriamente

30 anamneses, sendo entregues para 4 médicos obstetras da MEJC: 2 profissionais com
vínculos efetivos na instituição e 2 residentes. Cada um recebeu as mesmas documentações
e fizeram o processo de seleção manual dos dados da anamnese, de acordo com as 12
categorias levantadas. O procedimento consistia em circular ou sublinhar cada dado
considerado relevante e dentro das condições.
Figura 18 – Legenda para destacar as informações da anamnese.

Fonte: Autor.
Conforme Figura 18, foi desenvolvida uma legenda de cores na qual cada cor
representa uma categoria, desse modo, foi entregue uma coleção hidrocor para cada
profissional e a legenda para a atividade. A meta da pesquisa é verificar quantos dados de
cada categoria são selecionados de forma manual e quantos são encontrados pela ferramenta.
Assim, é possível mensurar o nível de assertividade do projeto.
Para cada grupo, sistema e profissionais, foi contabilizado um ponto quando se
identificava uma informação correta dentre as categorias da anamnese avaliada. Para
tal, a comparação foi baseada a partir de uma anamnese modelo identidificada por um
especialista da área. Se fosse identificada uma informação não relevante, por exemplo idade,
a pontuação não era contabilizada. Esse tipo de dado já é uma informação estruturada no
AGHU, data de nascimento, portanto, irrelevante para o estudo.
Erros como uma identificação equivocada, “nega alergia” sendo destacada em
cinza, alergia, e não como azul claro, negação, tanto ocorridos pelo sistema ou pelos
participantes, não foram contabilizados. Entretanto, no caso dos medicamentos, mesmo
sendo identificado um medicamento considerado como administrado no modelo, sendo
marcado como prescrito ou em uso por exemplo, o medicamento foi contabilizado, pois o
dado foi encontrado e pertence ao conjunto global medicamento, apenas foi categorizado
erroneamente. Além disso, informações duplicadas no documento foram contabilizadas
apenas uma vez. Desse modo, o total de acertos de cada um foi dividido pelo total de
Capítulo 6. Avaliação e Resultados 54
itens do modelo e o resultado, o percentual de acerto das 30 anamneses por grupo, foi
submetido ao teste estatístico de Kruskal-Wallis.
As anamneses representam o conjunto dos dados analisados pelos 4 profissionais e
o sistema, assim, foram testadas considerando as seguintes hipóteses:
• H0 : Se o percentual de acerto é igual (P1 = P2 = P3 = P4 = S), onde “P” representa

as pessoas e “S” o sistema;
• H1 : Se há pelo menos um grupo diferente.
A análise descritiva dos percentuais de conformidade foi realizada por meio da

mediana, percentis 25 (P25) e 75 (P75) e de diagramas do tipo boxplot. O teste de
Kruskal-Wallis foi executado para determinar se haviam diferenças nos percentuais de
conformidade das anamneses entre os cinco grupos: P1, P2, P3, P4 e S.
Figura 19 – Distribuição dos percentuais de conformidades das anamneses por grupo

Fonte: Autor.
A Figura 19 representa o resultado da avaliação considerando as 12 categorias. A

partir desse resultado, verifica-se que o grupo do sistema apresentou a menor acurácia,
90,16% , tendo os menores percentis do conjunto, entre 84,29% e 94,12%. Sendo o grupo
que, no geral, atingiu o menor percentual de acerto com um alcance entre 72% e 100%.
Já os grupos P1, P2 e P4 apresentam resultados semelhantes com alcance entre 80% e
100% de acerto e tendência central de, praticamente, 94%, sendo P4 o conjunto com maior
variabilidade entre os participantes. Por fim, o grupo P3 apresenta o resultado com a
maior mediana, 94,43%, porém evidenciou um resultado fora dos limites, outlier.
Figura 20 – Comparação entre a avalição P3 e o modelo

Fonte: Autor.
Conforme Figura 20, o modelo destacou a ocorrência de 10 itens: 2 da categoria

geral, 1 de encaminhamento, 1 de medicamento em uso, 3 de exames e 3 de condutas.
O conjunto P3 detectou corretamente apenas 7, não informando o encaminhamento e 2
das 3 condutas. Assim, determinando um percentual de acerto de 70%, fora da faixa de
tendência dos resultados.
Por fim, após a aplicação do teste de Kruskal-Wallis, o nível de significância foi
de 95%, evidenciando que não foram observadas diferenças estatísticas significativas na
distribuição entre os grupos, H(4) = 8,737, p = 0,068, portanto, a hipótese H0 foi aceita.
O fato do sistema atingir os menores valores percentuais está diretamente relacio-
nado à categoria dos exames. Normalmente, a distribuição dos exames é dividida em: físico,
laboratorial e complementar. Para o primeiro e segundo, a ferramenta consegue detectar
com maior precisão já que os seus resultados, geralmente, são numéricos ou booleanos. Já
o último, representa exames como a ultrassonografia e cardiotografia. Comumente, são
realizados durante o atendimento, porém o resultado depende do que se deseja avaliar
como: peso fetal, sexo fetal, quantidade de líquido aminiótico, posição da placenta e outros.
Além disso, há a ocorrência do registro de histórico de resultados anteriores desses exames,
aumentando o número de itens coletados. Assim, a categoria exame é um ponto no qual o
sistema necessita de modificações para melhorar a captura e inserção desses dados.
Dessa maneira, a ferramenta possui uma menor detecção de itens na categoria
exame, diminuindo o seu percentual de acerto, assim, um novo teste estatístico foi realizado,
utilizando as mesmas hipóteses e removendo essa categoria para observar o comportamento
do sistema.
Figura 21 – Distribuição dos percentuais de conformidades das anamneses por grupo sem
exame
Fonte: Autor.
Comparando os resultados das Figuras 19 e 21, percebe-se a elevação dos valores para
o grupo Sistema, obtendo o segundo maior valor para a mediana, 92,86%, e uma redução
para o conjunto P2, 86,34%. Além disso, há uma menor variabilidade nos resultados
para todos os grupos, tornando-os mais aproximados. Contudo foram evidenciados 2
outliers. Com relação ao teste de Kruskal-Wallis, foi comprovado que não foram observadas
diferenças significativas na distribuição dos percentuais de acerto entre os grupos, H(4) =
7,576, p = 0,108, sendo aceita novamente a hipótese H0 . Assim, sem aplicar a categoria de
exame, o resultado passou de 6,8% para 10,8%, melhorando o grau de igualdade entre os
grupos e, consequentemente, a assertividade do sistema.
No outlier do participante P2, o modelo detectou 27 itens: 2 de dados gerias, 1
negacação, 1 comorbidade, 1 medicamento em uso, 1 encaminhamento, 5 sintomas, 9
exames, 1 medicamento administrado e 6 condutas. Já o participante informou 18 itens não
grifando o item de negação, sintoma (destacado em preto, erroneamente) e medicamento
administrado, além de informar apenas 7 exames. Já no outlier do Sistema, o modelo
informou 12 itens e o sistema apenas 7 itens.
6.1 Considerações
Em média, os participantes levaram cerca de 2 horas para verificar os dados, ou
seja, 1 anamnese era analisada a cada 4 minutos. Os principais relatos foram de cansaço e
de repetição automática das ações após a leitura de uma quantidade considerável de dados.
Provalmente, esses fatores provocaram a desatenção no momento de destacar a informação.
Como já mencionado anteriormente, houveram vários casos em que o dado “nega alergia”
foi destacado na cor cinza, gerando um erro na avaliação. Além disso, quando a escrita
seguia uma estrutura de texto corrido, sem tópicos, algumas informações de sintoma,
negação e conduta passavam despercebidas, não sendo destacadas, como observados nas
figuras anteriores. Por outro lado, os medicamentos, normalmente, foram todos destacados,
independentemente do dado ser informado na categoria correta. Com relação ao sistema,
as 30 documentações foram analisadas em 5 minutos.
Com relação a mudança do resultado com a aplicação do teste estatístico com a
categoria exame e sem ela, a mudança deve-se a maneira como a informação é apresentada
no documento: abaixo do relato da paciente, topificada e informando qual o exame realizado
e o seu resultado. Ou seja, normalmente, está escrita na região central do documento,
isolando-se dos outros dados. Então, há um direcionamento para encontrar tal informação
naquela parte específica do texto.
Por fim, os testes mostram que a hipótese de não haver diferenças siginificativas
entre os grupos foi aceita para os dois casos, portanto o sistema pode ser equiparado à
uma análise realizada por um ser humano, atingindo mais um objetivo do sistema: verificar
a eficiência e o desempenho da metodologia em anamnese de prontuários eletrônicos do
paciente.
58
7 Considerações Finais
De acordo com as informações já apresentadas anteriormente, este último capítulo

sintetiza os conceitos, a metodologia, os estudos analisados, o desenvolvimento da ferra-
menta e os resultados encontrados, levando as possíveis conclusões adquiridas. Além disso,
contem uma lista das contribuições e possibilidades de trabalhos futuros, como também os
aspectos positivos e desafios enfrentados durante o desenvolvimento do estudo.
7.1 Conclusões
Nos capítulos iniciais, foi introduzida e justificada a escolha da proposta de trabalho,
sendo exposto o problema atualmente enfrentado na Maternidade Escola Januário Cicco e,
consequentemente, por outros hospitais da rede EBSERH. Com isso, houve a procura dos
conceitos relacionados para a solução do problema a fim de atingir os objetivos propostos.
Assim, foi descrito o processo e as diferentes técnicas existentes para o tratamento do
dado não estruturado utilizando a mineração de texto com o Processamento de Linguagem
Natural.
Já no terceiro capítulo, foi apresentada a metodologia para a busca nas bases de
pesquisa, descrevendo as regras para a escolha dos trabalhos relacionados. Dessa maneira,
possibilitou encontrar estudos que aplicaram a mineração de texto na área da saúde,
além de artigos de outras áreas, verificando a prática dos conceitos abordados no capítulo
anterior. Assim, foi identificado as principais técnicas utilizadas na área como o cálculo de
TF-IDF, a tokenização e a remoção de stop-words. Com relação ao uso de ferramentas,
a maior partes dos trabalhos produziu a sua própria, embora alguns tenha realizado o
processo manual com cálculos desenvolvidos em software de planilhas. Por fim, geralmente,
constroem ou utilizam uma biblioteca de termos para realizar o objetivo do estudo.
Nos dois capítulos seguintes, o desenvolvimento da proposta do trabalho foi de-
talhado. Com o conhecimento proporcionado pelo desenvolvimento dos capítulos 2 e 3,
houve uma fundamentação e direcionamento para as fases necessárias a fim de se estru-
turar uma base textual. Desse modo, o capítulo 4 expõe a metodologia aplicada para a
construção da base estruturada, sendo elaborada 38 classes das quais metade compõe
o dicionário. Também define os metódos utilizados nas etapas do pré-processamento à
estruturação, além de definir o algoritmo de Levenshtein para o cálculo de similaridade.
Já o capítulo 5 apresenta como a metodologia foi aplicada na construção da ferramenta:
as regras do pré-processamento, a regra da redução do plural, a etapa da aquisição dos
dados obstétricos, o algoritmo de similaridade em java e o tratameto dos tokens para a
captura de palavras composta e o seu relacionamento com o dicionário, sendo armazenada
Capítulo 7. Considerações Finais 59
a informação estruturada.
Por fim, no sexto capítulo, foi elaborado uma pesquisa com o objetivo de avaliar o
grau de assertividade da ferramenta desenvolvida. Após a avaliação manual das anamneses
pelos médicos e pelo sistema, foi aplicado o teste estatístico de Kruskal-Wallis, sendo a
aceita a hipótese de não haver diferenças significativas entre os grupos nos dois testes.
Portanto, mesmo havendo siglas, abreviações e erros de grafia na escrita do docu-
mento médico, a ferramenta conseguiu obter uma padronização satisfatória, representando
um ponto positivo para o produção do estudo.
7.2 Contribuições
Por meio da conclusão desta pesquisa, foram elencadas as seguintes contribuições:
1. Definição dos elementos presentes nas anamneses utilizados para a captura da

informação, levando a formação do dicionário;
2. Definição das classes e dos atributos mais relevantes para a guarda do dado;
3. Pesquisa e investigação das técnicas específicas para a mineração de texto;
4. Desenvolvimento da metolodogia e da ferramenta para o processo de extração do

conhecimento presente no campo textual da anamnese;
5. Elaboração de um método de pesquisa para avaliar o nível de assertividade da

ferramenta proposta.
Desse modo, é possível relacionar as propostas apresentadas com os resultados

obtidos pelo estudo da seguinte forma:
• A fim de identificar os dados relevantes da anamnese, foi realizado um estudo

aprofundado não só baseado na experiência profissional dos médicos, como também
apoiado pela metodologia da área da sáude e no estudo da própria documentação,
como detalhado no capitulo 4 e regramentos mencionados no capítulo 2, assim, foi
destacado as 12 categorias, atendendo a definição dos itens 1 e 2;
• A revisão bibliográfica do capítulo 3 foi primordial para entender e avaliar quais as

metodologias são utilizadas para a mineração de texto e quais poderiam ser utilizadas
para o contexto do trabalho, direcionando o estudo para atingir os objetivos do
capítulo 1, além de oferecer referências e definições para a desenvolvimento da
metodologia aplicada na construção da ferramenta desritas nos capítulos 4 e 5, sendo
atendidos os itens 3 e 4;
• Por fim, o capítulo 6 descreve como foi possível avaliar os métodos executados na
ferramenta para estruturar o campo textual da anamnese, fazendo uma comparação
entre a detecção manual dos dados e a análise automática, assim, atendendo ao
estabelecido no item 5.
7.3 Trabalhos Futuros

Após o desenvolvimento desse estudo, há viabilidade para expandir trabalhos,
criando variações ou extensões da plataforma:
• É possível avaliar a aplicabilidade da estruturação do texto para os dados das

evoluções médicas (avaliações diárias do estado do paciente durante o processo de in-
ternação hospitalar), como também para organizar os dados das anamneses/evoluções
das outras áreas da saúde: enfermagem, fisioterapia, nutrição, psicologia e outras
equipes assistenciais.
• Melhorar a performance da ferramenta para o tratamento dos exames complemen-

tares, além de expandir o dicionário de termos para outras especialidades médicas,
capturando assim novos dados.
• Utilizar as técnicas de Mineração de Texto levantadas no trabalho para o tratamento

de dados clínicos, utilizando ontologias.
• Por fim, a ferramenta pode apoiar novos trabalhos a partir do cruzamento das
informações armazenadas no banco de dados estruturado, ajudando aos pesquisadores
da instituição: gestão, funcionários, graduandos e pós-graduandos.
7.4 Considerações
O estudo realizado contribuiu para verificar e detalhar a riqueza dos dados presentes
em campos textuais como a anamnese, sendo uma fonte de informação importante para
a área da saúde, tanto para o tratamento do paciente como para a conduta da gestão e
pesquisa clínica, embora, quando trabalhada como um dado não estruturado, dificulte a
sua manipulação e a extração de resultados mais corretos.
7.4.1 Contribuições Adicionais

Com o desenvolvimento deste trabalho, houve a utilização de técnicas ainda não
aplicadas pela EBSERH para o levantamento de informações a partir da mineração de
texto, podendo utilizar e ampliar a ferramenta para a aplicação em outros hospitais da
rede. No geral, foi construído uma nova estrutura de dados para a instituição, servindo de
base para outros estudos.
7.4.2 Dificuldades Enfrentadas

Uma das maiores dificuldades foi trabalhar com uma grande quantidade de dados
contendo diversas siglas, abreviaturas e sinônimos, necessitando entender cada uma e
relacioná-la à categoria correta. Principalmente, quando se analisa os medicamentos já
que vários são escritos utilizando o nome comercial, sendo preciso associá-lo ao princípio
ativo. Esses problemas foram contornados com a ajuda de profissionais como médicos,
enfermeiros e farmacêuticos, além de pesquisa na literatura da área da saúde. Ainda, em
decorrência da pandemia do COVID-19, houve dificuldade para conseguir profissionais
médicos para responder à pesquisa, reuní-los e aplicar a coleta das respostas.
62
Referências
ANDRADE, L. M. A escrita, uma evolução para a humanidade. In: Linguagem em

Discurso. Santa Catarina, Brasil: Revista Linguagem em (Dis)curso, 2001. p. 1. Citado
na página 9.
ARAMAKI, E. et al. Extraction of adverse drug effects from clinical records. Medinfo,
p. 1–5, 2010. Citado na página 33.
ARANHA, C.; PASSOS, E. A tecnologia de mineração de textos. RESI - Revista Elerônica

de Sistemas de Informação, v. 5, p. 1–7, 2006. Citado 2 vezes nas páginas 17 e 19.
ARANHA, C. N.; PASSOS, E. P.; VELLASCO, M. M. Uma Abordagem de Pré-

Processamento Automático para Mineração de Textos em Português: sob o enfoque da
inteligência computacional. 1-143 p. Tese (Doutorado) — Pontífica Universidade Católica
do Rio de Janeiro - PUC-RIO, Rio de Janeiro, Brasil, 2007. Disponível em: <https:
//www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=10081@1>.
Citado 3 vezes nas páginas 19, 23 e 24.
BEATO FILHO, C. C. Práticas de glosa e anamnese. PHYSIS - Revista de Saúde Coletiva,

v. 1, p. 41–56, 1994. Disponível em: <http://www.scielo.br/pdf/physis/v4n1/03.pdf>.
Citado na página 17.
BHOJASIA, M. Java program to implement levenshtein distance com-

puting algorithm. 2016. Disponível em: <https://www.sanfoundry.com/
java-program-implement-levenshtein-distance-computing-algorithm/>. Citado
na página 47.
BOYTCHEVA, S. Automatic matching of ICD-10 codes to diagnoses in discharge letters.

In: Proceedings of the Second Workshop on Biomedical Natural Language Processing.
Hissar, Bulgaria: Association for Computational Linguistics, 2011. p. 11–18. Disponível
em: <https://www.aclweb.org/anthology/W11-4203>. Citado na página 33.
BRASIL. Resolução CFM no 1638/02. Brasília, Brasil: Conselho Federal de Medicina.,

2002. 1 p. Disponível em: <http://www.portalmedico.org.br/resolucoes/cfm/2002/1638_
2002.htm>. Citado na página 15.
BRASIL. Manual de certificação para Sistemas de Registro Eletrônico em Saúde. Brasil:

Conselho Federal de Medicina. Sociedade Brasileira de Informática em Saúde, 2016. 8 p.
BRITTO, L. F. S. et al. A text analysis approach for cooking recipe classification based
on brazilian portuguese documents. Brazilian Conference on Intelligent Systems, Oct.
2019. Citado na página 34.
BRITTO, L. F. S.; PACÍFICO, L. D. S. Sentiment analysis for mobile app reviews in

brazilian portuguese. Brazilian Conference on Intelligent Systems, Oct. 2019. Citado na
página 35.
Referências 63
BULEGON, H.; MORO, C. M. A. Mineração de texto e o processamento de linguagem

natural em sumários de alta hospitalar. Journal of Health Informatics, São Paulo, Brasil,
p. 51–56, 06 2010. Disponível em: <http://www.jhi-sbis.saude.ws/ojs-jhi/index.php/
jhi-sbis/article/view/5/58>. Citado na página 10.
CARVALHO, R. C. d. Aplicação de técnicas de mineração de texto na recuperação da
informação clínica em prontuário eletrônico do paciente. 16 – 18 p. Dissertação (Mestrado)
— Universidade Estadual Paulista, Marília, Brasil, 2017. Citado 5 vezes nas páginas 9, 17,
19, 23 e 31.
CESAR, M. V. G.; VELLASCO, M. M. B. R.; FIGUEIREDO, K. Classificação de falhas
de equipamentos de unidade de intervenção em construção de poços marítimos por meio
de mineração textual. Brazilian Conference on Intelligent Systems, Oct. 2019. Citado na
página 34.
CHO, H.; CHOI, W.; LEE, H. A method for named entity normalizationin biomedical
articles: application to diseasesand plants. In: BMC Bioinformatics. [S.l.: s.n.], 2017.
CHU, S. Information retrieval and health/clinical management. Yearbook of Medical
Informatics, v. 11, p. 271–275, 08 2002. Citado na página 10.
CORREIA, S. E. B. et al. Human values classification in social network using machine
learning. Brazilian Conference on Intelligent Systems, Oct. 2019. Citado 2 vezes nas
páginas 33 e 34.
DAHL, A.; OZKAN, A.; DALIANIS, H. Pathology text mining - on norwegian prostate
cancer reports. IEEE, p. 1–4, 2016. Citado na página 32.
DEZEMBRO, D. G. Uma medida de similaridade híbrida para correspondência aproximada
de múltiplos padrões. Dissertação (Mestrado) — Universidade de São Paulo, Ribeirão
Preto, Brasil, 2019. Citado na página 23.
DOWNS, J. et al. Detection of suicidality in adolescents with autism spectrum disorders:
Developing a natural language processing approach for use in electronic health records.
Journal of the American Medical Informatics Association, p. 641 – 649, 2018. 6th
International Young Scientist Conference on Computational Science, YSC 2017, 01-03
November 2017, Kotka, Finland. Disponível em: <https://www-ncbi-nlm-nih-gov.ez18.
periodicos.capes.gov.br/pmc/articles/PMC5977628/pdf/2729763.pdf>. Citado na página
30.
EHRENTRAUT, C. et al. Detecting hospital-acquired infections: A document
classification approach using support vector machines and gradient tree boosting.
Health Informatics Journal, v. 24, n. 1, p. 24–42, 2018. Disponível em: <https:
//doi.org/10.1177/1460458216656471>. Citado na página 30.
ERIKSSON, R. et al. Dictionary construction and identification of possible adverse
drug events in Danish clinical narrative text. Journal of the American Medical
Informatics Association, v. 20, n. 5, p. 947–953, 05 2013. ISSN 1527-974X. Disponível em:
<https://doi.org/10.1136/amiajnl-2013-001708>. Citado na página 33.
FARIAS, M. A.; COLAÇO JÚNIOR, M.; COSTA, E. d. B. Introdução à mineração
textual de dados. SQL Magazine, p. 1–25, 2014. Citado na página 24.
Referências 64
FLEUREN, W. W.; ALKEMA, W. Application of text mining in the biomedical domain.

Methods, v. 74, p. 97 – 106, 2015. ISSN 1046-2023. Text mining of biomedical literature.
Disponível em: <http://www.sciencedirect.com/science/article/pii/S1046202315000274>.
GALVÃO, M. C. B.; RICARTE, I. L. M. O prontuário eletônico do paciente no
século xxi: contribuições necessárias da ciência da informação. Revista de Ciência
da Informação e Documentação, v. 2, n. 2, p. 77–100, dez 2011. Disponível em:
<http://www.revistas.usp.br/incid/article/view/42353>. Citado na página 15.
GALVÃO, M. C. B.; RICARTE, I. L. M. Prontuário do Paciente. Rio de Janeiro, Brasil:
Grupo Gen - Guanabara Koogan, 2012. 346 p. Citado na página 16.
GOMAA, W.; FAHMY, A. A survey of text similarity approaches. international journal
of Computer Applications, v. 68, 04 2013. Citado na página 21.
GOMES, N. d. O.; VELLASCO, M. M.; PASSOS, E. P. Categorização de Textos -
Estudo de Caso: Documentos de Pedidos de Patente no Idioma Português. 1-294 p. Tese
(Doutorado) — Pontífica Universidade Católica do Rio de Janeiro - PUC-RIO, Rio de
Janeiro, Brasil, 2013. Disponível em: <https://www.maxwell.vrac.puc-rio.br/colecao.php?
strSecao=resultado&nrSeq=23851@1>. Citado 3 vezes nas páginas 20, 23 e 24.
GRECHISHCHEVA, S.; EFIMOV, E.; METSKER, O. Risk markers identification in
ehr using natural language processing: hemorrhagic and ischemic stroke cases. Procedia
Computer Science, v. 156, p. 142 – 149, 2019. ISSN 1877-0509. 8th International
Young Scientists Conference on Computational Science, YSC2019, 24-28 June 2019,
Heraklion, Greece. Disponível em: <http://www.sciencedirect.com/science/article/pii/
S1877050919311081>. Citado na página 29.
GUAN, J. et al. Generation of synthetic electronic medical record text. In: 2018 IEEE
International Conference on Bioinformatics and Biomedicine (BIBM). [S.l.: s.n.], 2018. p.
374–380. Citado na página 30.
GUSMÃO, S. História da medicina: evolução e importância. In: . Minas Gerais, Brasil:
Jornal Brasileiro de Neurocirurgia, 2004. p. 6. Citado na página 9.
HAND, D.; MANNILA, H.; SMYTH, P. Principles of Data Mining. Massachusetts,
Estados Unidos: Massachusetts Institute of Technology, 2001. 6-7 p. Citado na página 10.
HOOGENDOORN, M. et al. Predicting social anxiety treatment outcome based on
therapeutic email conversations. IEEE Journal of Biomedical and Health Informatics,
v. 21, n. 5, p. 1449–1459, Sep. 2017. Citado na página 30.
KDD. KDD: bringing together the data mining, data science and analytics community.
2019. Disponível em: <https://www.kdd.org>. Citado na página 10.
KONGBURAN, W. et al. Enhancing predictive power of cluster-boosted regression with
text-based indexing. IEEE Access, v. 7, p. 43394–43405, 2019. Citado na página 30.
LOPES, M. C. Mineração de Dados Textuais Utilizando Técnicas de Clustering
para o Idiama Português. 1-191 p. Tese (Doutorado) — Universidade Federal
do Rio de Janeiro - UFRJ, Rio de Janeiro, Brasil, 2004. Disponível em: <http:
//www.coc.ufrj.br/pt/teses-de-doutorado/148-2004/980-maria-celia-santos-lopes>.
Referências 65
MADRUGA, C. M. D.; SOUZA, E. S. Manual de orientações básicas para

prescrição médica. Brasilia, Brasil: [s.n.], 2011. 1-66 p. Disponível em: <http:
//portal.cfm.org.br/images/stories/biblioteca/cartilhaprescrimed2012.pdf>. Citado na
página 12.
MAIA, L. C. G.; SOUZA, R. R. Medidas de similaridade en documentos eletrônicos. IX

ENANCIB - Diversidade Cultural e Políticas de Informação, p. 1–15, 2008. Disponível em:
<http://enancib.ibict.br/index.php/enancib/ixenancib/paper/viewFile/3123/2249>.
MARTHA, A. S.; CAMPOS, C. J. R.; SIGULEM, D. Recuperação de informações em

campos de texto livres de prontuários eletrônicos do paciente baseada em semelhança
semântica e ortográfica. Journal of Health Informatics, São Paulo, Brasil, p. 63–71, 09
2010. Disponível em: <http://www.jhi-sbis.saude.ws/ojs-jhi/index.php/jhi-sbis/article/
view/50>. Citado 2 vezes nas páginas 10 e 17.
METSKER, O. et al. Pattern-based mining in electronic health records for complex

clinical process analysis. Procedia Computer Science, v. 119, p. 197 – 206, 2018.
ISSN 1877-0509. 6th International Young Scientist Conference on Computational
Science, YSC 2017, 01-03 November 2017, Kotka, Finland. Disponível em:
<http://www.sciencedirect.com/science/article/pii/S1877050917323876>. Citado na
página 30.
MOHARASAR, G.; HO, T. B. A semi-supervised approach for temporal information

extraction from clinical text. In: 2016 IEEE RIVF International Conference on Computing
Communication Technologies, Research, Innovation, and Vision for the Future (RIVF).
[S.l.: s.n.], 2016. p. 7–12. Citado na página 32.
MONTENEGRO, C. A. B.; FILHO, J. d. R. Obstetrícia. Rio de Janeiro, Brasil:

Guanabara Koogan Ltda, 2013. 121-127 p. Citado na página 37.
MORAIS, E. A. M.; AMBRÓSIO, A. P. Mineração de Textos. Goiás, Brasil: [s.n.],

2007. 1-30 p. Disponível em: <http://www.inf.ufg.br/sites/default/files/uploads/
relatorios-tecnicos/RT-INF_005-07.pdf>. Citado 7 vezes nas páginas 18, 19, 20, 21, 23,
24 e 25.
OLIVEIRA, H. C. de; ARRUDA, A. M.; MENDES, M. S. Automatic identification

of postings related to the use through deep learning models. Brazilian Conference on
Intelligent Systems, Oct. 2019. Citado na página 34.
PINTO, V. B.; SALES, O. M. M. Proposta de aplicabilidade da preservação digital

ao prontuário eletrônico do paciente. RDBCI: Revista Digital de Biblioteconomia
e Ciência da Informação, v. 15, n. 2, p. 489–507, abr. 2017. Disponível em:
<https://periodicos.sbu.unicamp.br/ojs/index.php/rdbci/article/view/8646311>. Citado
na página 15.
PISA, I. T.; TEIXEIRA, F. O. Especialização em Informática em Saúde: Base

de dados em saúde. São Paulo, Brasil: [s.n.], 2017. Disponível em: <https:
//is.uab.unifesp.br/@/edicao-5/pluginfile.php/302/mod_resource/content/5/
UABIS2017-BasesdeDadosemSaúde.pdf>. Citado na página 10.
Referências 66
POLLETTINI, J. T. et al. Surveillance for the prevention of chronicdiseases through

information association. In: BMC Medical Genomics. [S.l.: s.n.], 2014. Citado na página
32.
RODRIGUES, L. D. F.; JUNIOR, A. B.; LOBATO, F. M. F. Disability-related news:

An analysis of user-generated content on social media posts. Brazilian Conference on
Intelligent Systems, Oct. 2019. Citado na página 35.
SANTOS, D. S. d. Uma Plataforma Distribuída de Mineração de Dados para Big Data:

um Estudo de Caso Aplicado à Secretaria de Tributação do Rio Grande do Norte. 45 p.
Dissertação (Mestrado) — Universidade Federal do Rio Grande do Norte, Natal, Brasil,
2018. Citado na página 42.
SILVA, J. C. et al. Fluxo da informação, a partir dos prontuários para a gestão

das organizações em saúde: um estudo de caso na liga norte riograndense contra o
câncer. XI Semead - Empreendedorismo em organizações, p. 1–13, 2008. Disponível em:
<http://sistema.semead.com.br/11semead/resultado/trabalhosPDF/872.pdf>. Citado na
página 16.
SILVA, R. M.; LOCHTER, J. V.; ALMEIDA, T. A. Improving distributed vector

representation of short and noisy texts in the context of online classification. Brazilian
Conference on Intelligent Systems, Oct. 2019. Citado na página 34.
SODRÉ, L. C.; OLIVEIRA, H. T. A. de. Evaluating regression algorithms for automatic

text summarization in brazilian portuguese. Brazilian Conference on Intelligent Systems,
Oct. 2019. Citado na página 34.
TSUMOTO, S. et al. Mining text for disease diagnosis. Procedia Computer Science,
v. 122, p. 1133 – 1140, 2017. ISSN 1877-0509. 5th International Conference on
Information Technology and Quantitative Management, ITQM 2017. Disponível em:
<http://www.sciencedirect.com/science/article/pii/S1877050917327382>. Citado na
página 31.
WEEGAR, R.; NIGARD, J.; DALIANIS, H. Efficient encoding of pathology reports using
natural language processing. Springer, p. 1–6, 2017. Citado 2 vezes nas páginas 31 e 32.
XAVIER, B. M.; SILVA, A. D.; GOMES, G. Uma arquitetura hibrida para a indexação de
documentos do diário oficial do municípiode cachoeiro de itapemirim. Scielo, p. 83–95, 2015.
Disponível em: <http://www.scielo.br/pdf/tinf/v27n1/0103-3786-tinf-27-01-00083.pdf>.

Aplicacaomineracaotexto Benicio 2020

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aplicacaomineracaotexto Benicio 2020

Enviado por

Direitos autorais:

Formatos disponíveis

Diego Henrique Pegado Benicio

Aplicação de Mineração de Texto e

Aplicação de Mineração de Texto e Processamento de

Dissertação de Mestrado apresentada ao Pro-

Universidade Federal do Rio Grande do Norte – UFRN

Orientador: Prof. Dr. João Carlos Xavier Júnior

Benício, Diego Henrique Pegado.

Dissertação (mestrado) - Universidade Federal do Rio Grande

1. Mineração de texto - Dissertação. 2. Processamento de

RN/UF/BCZM CDU 004.774.6

Elaborado por Ana Cristina Cavalcanti Tinoco - CRB-15/262

Autor: Diego Henrique Pegado Benicio

O prontuário do paciente é o documento essencial para garantir uma assistência integral

Author: Diego Henrique Pegado Benicio

The patient’s medical record is the essential document to ensure comprehensive

Figura 1 – Comunicação entre o prontuário e os setores. . . . . . . . . . . . . . . . 16

Tabela 1 – Resumo dos trabalhos selecionados . . . . . . . . . . . . . . . . . . . . 29

AGHU Aplicativo de Gestão dos Hospitais Universitários

CFM Conselho Federal de Medicina

DeCS Descritores em Ciência da Saúde

EBSERH Empresa Brasileira de Serviços Hospitalares

IDF Frequência Invertida do Documento

KDD Knowledge Discovery and Data Mining

KDT Knowledge Discovery from Text

K-NN K Nearest Neighbor

MEJC Maternidade Escola Januário Cicco

MLP Multilayer Preception

NER Named Entity Recognition

PEP Sistema de Prontuário Eletrônico

PLN Processamento da Linguagem Natural

SRI Sistema de Recuperação da Informação

SUS Sistema Único de Saúde

TF-IDF Frequência Linear das Palavras

na identificação de padrões de patologias e, consequentemente, no seu tratamento? Dessa

• Identificar os atuais modelos de Mineração de Texto (Text Mining) com base na

• Verificar a aplicabilidade da Mineração de Texto no processamento de linguagem

• Analisar as etapas de pré-processamento e processamento e dos dados e seus resulta-

1. Testar diferentes maneiras de capturar o dado, verificando o nível de perdas

• Propor um Modelo de Dados capaz de armazenar a informação estruturada;

• Estudar as técnicas de mineração de texto existentes na literatura, focando no

• Avaliar a aplicabilidade da técnica nos prontuários eletrônicos e se combinações de

• De acordo com os resultados encontrados, analisar a relevância entre as técnicas

• Verificar se o processo de conversão de dados não estruturados para estruturados não

1.5 Organização do Trabalho

• O Capítulo 2 expõe os conceitos gerais sobre o prontuário e a anamnese, além

• O Capítulo 3 apresenta a metodologia utilizada como base para adquirir conhecimento

• O Capítulo 4 contêm o desenvolvimento da metodologia aplicada no trabalho,

• O Capítulo 5 específica o desenvolvimento da ferramenta, aplicando a metodologia

• O Capítulo 6 apresenta como a pesquisa foi desenvolvida para avaliar os resultados

• O último capítulo apresenta as considerações finais, as contribuições e as pespectivas

A fim de proporcionar uma melhor compreensão dos conceitos relacionados ao

2.1 O prontuário do paciente

e enfermeiros e folhas de assentamento evolutivo comum para os demais profissionais da

Figura 1 – Comunicação entre o prontuário e os setores.

Portanto, a centralização do conhecimento reunido neste documento pelos profissi-

2.2 Mineração de Texto ou Text Mining

é considerado um processo de descoberta de conhecimento por meio das palavras, frases

Figura 2 – Tipos de Descoberta de Conhecimento.

O KDT é a área responsável por realizar os procedimentos de mineração sobre os

Figura 3 – Etapas do KDT.

2.2.1 A etapa de Pré-Processamento

Entre as técnicas existentes, há a tokenização. Conforme Xavier, Silva e Gomes

Figura 4 – Algoritmo de Stemming.