Escolar Documentos
Profissional Documentos
Cultura Documentos
Natal-RN
2020
Diego Henrique Pegado Benicio
Natal-RN
2020
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede
Resumo
Abstract
NB Naive Bayes
TF Frequência do Termo
Capítulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1 Problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Organização do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . 13
Capítulo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 CONCEITOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 15
2.1 O prontuário do paciente . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.1.1 Anamnese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 Mineração de Texto ou Text Mining . . . . . . . . . . . . . . . . . . 17
2.2.1 A etapa de Pré-Processamento . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 Medidas de Similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 A etapa de Indexação/Normalização . . . . . . . . . . . . . . . . . . . . . 23
2.3 Os Descritores em Ciência da Saúde - DeCS . . . . . . . . . . . . . . 25
2.4 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Capítulo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . 27
3.1 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Análise das publicações selecionadas no âmbito da saúde . . . . . . . . . . 29
3.1.2 Aplicação de Processamento de Linguagem Natural em áreas diversas . . . 33
3.2 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Capítulo 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4 METOLOLOGIA APLICADA . . . . . . . . . . . . . . . . . . . . . . 37
4.1 Análise e criação do Dicionário . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Elaboração do banco de dados estruturado . . . . . . . . . . . . . . . 38
4.2.1 Coleta dos dados na base de dados do AGHU . . . . . . . . . . . . . . . . 40
4.3 Processo de mineração de texto . . . . . . . . . . . . . . . . . . . . . 41
4.4 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Capítulo 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5 FERRAMENTA DESENVOLVIDA . . . . . . . . . . . . . . . . . . . 44
5.1 Mineração de texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.1.1 Pré-processamento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.1.2 Recuperação de dados específicos da obstetrícia . . . . . . . . . . . . . . . 46
5.1.3 Similaridade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.1.4 Dicionário e estruturação . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Capítulo 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6 AVALIAÇÃO E RESULTADOS . . . . . . . . . . . . . . . . . . . . . 53
6.1 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Capítulo 7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
7 CONSIDERAÇÕES FINAIS . . . . . . . . . . . . . . . . . . . . . . . 58
7.1 Conclusões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.2 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
7.3 Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.4 Considerações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.4.1 Contribuições Adicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
7.4.2 Dificuldades Enfrentadas . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
9
1 Introdução
A escrita pictórica surgiu há 3000 anos a.C. com a sua representação via desenhos
ou pinturas rupestres (ANDRADE, 2001, p. 1), sendo a primeira forma de registro do
conhecimento humano. A escrita alfabética só é registrada a partir de 1500 a.C. Ao longo
deste período, as civilizações possuíam seus rituais de cura, baseando-se no conhecimento
ritualístico. Entretanto, apenas no século V a.C. com Hipócrates, a Medicina passa a ser
tratada como ciência, refutando fatores mitológicos e gerando conhecimento lógico na
busca de explicações para a natureza da doença (GUSMÃO, 2004, p. 6).
Neste sentido, os registros terapêuticos do enfermo passaram a ser inseridos em
papel, formando o prontuário do paciente, tornando-se o documento essencial para garantir
uma assistência integral e continuada e fornecendo o histórico da sua saúde. Com o desen-
volvimento da informática e suas tecnologias em diversas áreas, houve uma disseminação de
prontuários eletrônicos para o registro e o acompanhamento das atividades realizadas pelo
profissional ao paciente no ramo da saúde. Dessa forma, caracterizando um crescimento
rápido do armazenamento de dados clínicos pelos profissionais multidisciplinares, alterando
a maneira de utilizar este dados, assim, trazendo também a necessidade do resgate eficiente
da informação.
Normalmente, as anamneses e evoluções dos pacientes são elaboradas pelos profissi-
onais da saúde em campos de texto livre, formulando a sua narrativa clínica e variando o
nível de detalhamento devido à sua experiência diária (CARVALHO, 2017). A anamnese,
segundo a Resolução do Conselho Federal de Medicina (CFM) no 2.056/201, Capítulo IX,
deve conter campos mínimos como: a identificação do paciente, queixa principal, históricos,
exames e conduta. De acordo com Brasil (2016, p. 8), a utilização de registros eletrônicos,
em detrimento ao prontuário manual em papel, é um processo irreversível e traz consigo
inúmeros benefícios como a capacidade de armazenamento em pequenos espaços. Além
disso, melhora a forma de fazer pesquisa, podendo cruzar dados padronizados, rapidamente,
otimizando os resultados e o tempo de investigação. Contudo, a livre inserção de textos
escritos acaba sendo um obstáculo para a geração de conhecimento útil a fim de ajudar no
entendimento da situação clínica e, consequentemente, no tratamento do paciente devido
à dificuldade na recuperação da informação.
Desse modo, uma tomada de decisão apoiada por dados relevantes e de rápido
acesso, melhora a qualidade do serviço assistencial prestado, podendo gerar economia sobre
os insumos consumidos, reduzindo o custo operacional da instituição. Em geral, os sistemas
fornecem este tipo de mecanismo por meio da recuperação e processamento dos dados, já
que são capazes de superar restrições cognitivas humanas. Todavia, comumente, os compu-
Capítulo 1. Introdução 10
tadores são númericos e não projetados para realizar processamento sobre estruturas livres,
assim, consultas Structured Query Language (SQL), linguagem normalmente utilizada
para manipular base de dados relacional, dificilmente, são utilizadas para manipular textos
livres, sendo ineficientes (CHU, 2002), fornecendo retornos inviáveis sobre este tipo de
dado.
Com isso, a técnica de mineração de texto pode ser uma ferramenta eficaz para
este cenário. Ela está inserida no contexto do Data Mining ou Mineração de Dados, sendo
capaz de fornecer informação qualitativa a partir da exploração de um grande volume
de dados. Logo, obtem relacionamentos inesperados, gerando informação nova, útil e
compreensível para o seu proprietário, a partir da identificação de modelos ou padrões
(HAND; MANNILA; SMYTH, 2001, p. 6). Os modelos são formados a partir do pré-
processamento dos dados e dos algoritmos de mineração. Ao final do processo, devem
refletir o comportamento dos dados estudados.
A mineração de dados direciona para a aplicação de algoritmos específicos sobre
bases de dados a fim de descobrir conhecimento útil (KDD, 2019). Desse modo, segue
passos como a preparação, seleção e transformação de dados, incorporando conhecimento
para a interpretação adequada dos resultados, fornecendo e garantindo informação útil
dos dados extraídos (PISA; TEIXEIRA, 2017, p. 15). Uma abordagem é o tratamento
de dados não estruturados como os dados escritos. Sendo uma técnica interdisciplinar,
envolvendo a recuperação da informação, o aprendizado de máquina, a estatística, a
linguística computacional e a mineração de dados.
A Mineração de Textos é uma técnica utilizada para compreender a linguagem dos
documentos escritos, lidando com a imprecisão, incerteza e abreviação de termos, além
do sentido e da semântica das palavras. Métodos como a Recuperação da Informação,
Extração da Informação e Processamento da Linguagem Natural (PLN) são exemplos
de Mineração de Textos. Segundo Bulegon e Moro (2010, p. 52), o PLN envolve quatro
etapas, sendo realizadas na seguinte ordem: análise morfológica, análise sintática, análise
semântica e análise pragmática. Além disso, há inúmeras técnicas para extrair e classificar
as informações textuais, tais como: teoria da possibilidade, máquina de vetores, redes
neurais e ontologias.
Portanto, no contexto dos serviços prestados ao paciente internado em instituição
hospitalar, mesmo havendo um direcionamento para a narração do atendimento clínico e
suas terminologias, o prontuário eletrônico é construído de acordo com a experiência do
profissional, seguindo a escrita da sua linguagem natural. Apesar de provocar dificuldades
quando é necessário fornecer resultados sumarizados, gráficos e estatísticos, é ainda a
melhor maneira do médico registrar o estado do paciente já que está livre para adicionar
qualquer dado (MARTHA; CAMPOS; SIGULEM, 2010, p. 64). Por sua vez, utilizando a
Mineração de Texto é possível identificar padrões indexáveis, resgatando estas informações.
Capítulo 1. Introdução 11
1.1 Problema
A Maternidade Escola Januário Cicco (MEJC) presta serviços de atendimento
ambulatorial e de internação à população via Sistema Único de Saúde (SUS). Desse
modo, utiliza sistemas fornecidos pelo Ministério da Saúde, tais como: o Sistema de
Informações sobre Nascidos Vivos (SISNASC) e o Sistema de Vigilância Alimentar e
Nutricional (SISVAN). Com relação ao sistema assistencial, as informações são inseridas
via o Aplicativo de Gestão dos Hospitais Universitários (AGHU), fornecido pela Empresa
Brasileira de Serviços Hospitalares (EBSERH), sendo, atualmente, o principal software
para acompanhamento do paciente. Em decorrência dessa realidade, ela se torna detentora
de um grande volume de dados, tanto estruturados como não estruturados.
Levando em consideração apenas os pacientes internados, em média, são trata-
dos 1.500 pessoas por mês, entre gestantes, puérperas, recém-nascidos e clínica cirúr-
gica/ginecológica. Apesar da implantação do AGHU ser considerada recente, agosto de
2014, a base de dados já apresenta cerca de 75.000 registros, aumentando a cada dia.
Dessa maneira, o problema é evidênciado quando há necessidade de analisar as
informações inseridas no sistema assistencial (AGHU), principalmente, com relação as
avaliações médicas escritas. A ferramenta não dispõe de relatórios ou meios de pesquisa
que proporcionem um cruzamento de informações relevantes. Assim, a análise de padrões
importantes como as queixas, os sinais, os sintomas, o diagnóstico, o grupos de riscos e as
condutas, torna-se uma tarefa dispendiosa, sendo necessária a avaliação individual de cada
prontuário. Além disso, por se tratar de um hospital-escola, há uma demanda constante
sobre esses dados, normalmente, requisitados pelas pesquisas desenvolvidas na instituição.
Contudo, pela dificuldade no resgate dos mesmos, os resultados finais acabam se baseando
em pequenas amostragens recuperadas por meio da análise dos prontuários físicos (em
papel), podendo levar ao seu comprometimento, quando aplicado em larga escala.
1.2 Justificativa
Diante das circunstâncias apresentadas, é notória a necessidade de se construir novas
estruturas a partir da análise das anamneses médicas, como também expõe a dificuldade
para o resgate deste dado. Manualmente, é um trabalho inviável e, via sistema, utilizando
a maioria dos Sistemas de Prontuário Eletrônico (PEP), a tarefa deixa gargalos. Com isso,
há uma necessidade crescente para trabalhar este conteúdo, realizando o processamento
dos textos.
Desse modo, é possível levantar questionamentos, tais como: quais as técnicas de
PLN são utilizadas em mineração de texto e qual é a mais adequada para o contexto da
saúde? A aplicação de PLN poderá atuar sobre a interpretação clínica do paciente, ajudando
Capítulo 1. Introdução 12
1.3 Objetivos
O objetivo principal deste projeto é propor uma ferramenta para recuperar termos
clínicos das anamneses e estruturá-los de forma a relacionar com os padrões do diagnóstico
patológico para posterior utilização em estudos complementares, identificando assim, as
técnicas mais adequadas ao processo de Mineração de Texto neste contexto.
A fim de atingir este objetivo principal, almeja-se alcançar os seguintes objetivos
secundários:
• Desenvolver e disponibilizar uma ferramenta para a busca destes dados, criando uma
base de pesquisa para a instituição.
1.4 Metodologia
De acordo com os objetivos propostos, a metodologia pretende seguir as diretrizes
abaixo:
2 Conceitos Relacionados
2.1.1 Anamnese
Sendo, normalmente, o primeiro instrumento de avaliação médica, é obrigatório para
qualquer tipo de atendimento, tornando-se fundamental para a indicação do diagnóstico
clínico. Por meio do diálogo com o paciente, dos exames preliminares, dos sinais e sintomas,
o profissional realiza a anotação, escrita ou digitada, do seu atendimento. A partir da
sua interpretação, indica um ou mais diagnósticos, levando a um tratamento. Além disso,
também há a necessidade de compreender o histórico clínico familiar e pessoal (BEATO
FILHO, 1994, p 41).
Conforme a Resolução no 2056/2013, Capítulo XI, do CFM, há uma regulamentação
sobre os requisitos mínimos para a elaboração da anamnese. Determina a necessidade de
apresentar informações como: a identificação do paciente (nome, idade, filiação, estado
civil), queixa principal para servir de base para a conduta, história da doença atual,
familiar e pessoal, exame físico e complementar e hipóteses diagnósticas, além da conduta
e do diagnóstico. Este modelo pode ser adaptado de acordo com a experiência profissional
de cada um ou por designação do estabelecimento de saúde, instituindo um modelo único.
Desse modo, para a maioria dos sistemas de prontuário eletrônico, a anamnese é
formada pela livre inserção de dados no campo de texto. Assim, segue o ideal de que uma
padronização poderia comprometer a avaliação do estado do paciente, reduzindo o seu
vocabulário e não sendo possível registrar determinadas reações do enfermo (MARTHA;
CAMPOS; SIGULEM, 2010, p. 64). Contudo, também pode levar a ocorrência de erros
provocados pelo registro mal elaborado. As abreviaturas dos termos e a introdução de
siglas podem gerar informações equivocadas, comprometendo o atendimento pelo corpo
clínico. Além disso, como o prontuário e os seus registros são atemporais e legais, as
consultas a estes dados para estudos posteriores podem ser comprometidas.
O PLN pode ser tratado de duas formas: análise semântica ou análise estatística.
Para a primeira, há uma ligação direta com a área da linguística, realizando o tratamento
das palavras de acordo com a morfologia e sintaxe semelhante a análise humana (CARVA-
LHO, 2017, p. 52), detectando sinônimos, corrigindo palavras e reduzindo ambiguidade
(ARANHA; PASSOS, 2006, p. 4). Para a segunda, é medido a frequência de ocorrência
dos termos ao longo dos dados analisados. Apesar dessa divisão, não são abordagens
multualmente exclusivas, elas podem se complementar.
De acordo com Aranha, Passos e Vellasco (2007) e Morais e Ambrósio (2007), é
possível segmentar o KDT nas seguintes etapas: seleção de documentos (coleta), preparação
dos dados escolhendo a abordagem (análise semântica ou estatística) para aplicar o
pré-processamento e indexação/normalização. Com estas fases desenvolvidas, é possível
converter os dados não estruturados em estruturados. Estas etapas estão apresentadas na
Figura 3.
A fase de coleta será aplicada sobre a base de dados do AGHU, local onde se
encontra armazenado as informações da anamnese, por meio de acesso direto ao servidor.
max(i,
j) if min(i, j) = 0
leva,b (i − 1, j) + 1
leva,b =
min
leva,b (i, j − 1) + 1 otherwise
a,b (i − 1, j − 1) + 1(ai 6=bj )
lev
Quando ai = bj , o valor da função é zero, caso contrário, seu valor será o menor
valor entre os calculados nas funções. O leva ,b (i, j) é a distância entre o primeiro “i”
caracter de “a” e o primeiro “j” caracter de “b”.
Sendo necessário calcular a medida de Levenshtein entre as palavras “veto” e “feto”,
por exemplo, é notório a necessidade de apenas 1 modificação, “v” em “f”. Entretanto,
aplicando a fórmula, tem-se que os caracteres da posição i = 1 e j = 1, “v” e “f”, são
diferentes, então:
lev (0, 1) + 1
a,b
=2
leva,b (1, 1) = min leva,b (1, 0) + 1 = 2
lev (0, 0) + 1 = 1
a,b
n P
A.B Ai Bi
(2) cos Θ = = qP i=1 qP
kAk kBk n 2 n 2
i=1 Ai i=1 Bi
1?1+1?1+1?0+1?1 3
√ √ = √ √ = 0, 83
12 2 2 2 2 2 2
+1 +1 +1 ? 1 +1 +1 +0 2 4? 3
Capítulo 2. Conceitos Relacionados 23
(1)d = 1 − simw
0
(3)simj =
m m m−t
1 + +
3 |s1 | |s2 | m
1 3 3 3−1 2, 17
simj = + + = = 0, 72
3 4 4 3 3
2.4 Considerações
A temática deste capítulo foi voltada para os conceitos relacionados ao desenvolvi-
mento do trabalho. Assim, foram abordadas informações sobre o prontuário do paciente
Capítulo 2. Conceitos Relacionados 26
3 Trabalhos Relacionados
Este capítulo foi elaborado com o objetivo de realizar uma revisão na literatura sobre
trabalhos desenvolvidos, utilizando técnicas de mineração de texto aplicadas à prontuários
eletrônicos de pacientes, assim como à outros domínios. A pesquisa foi centralizada
nessa temática, sendo descartados trabalhos com foco direcionado a mineração de dados,
utilizando apenas a mineração de texto como uma pequena etapa do processo, assim
contendo poucas informações sobre a técnica. Além disso, foi possível verificar o uso de
algoritmos e bibliotecas para atuação sobre Processamento de Linguagem Natural. Assim,
também houve a possibilidade de encontrar ferramentas livres, proprietárias e desenvolvidas
pelos pesquisadores. Contudo, não foram descatados trabalhos com o tratamento manual
dos dados em formato texto.
A pesquisa foi direcionada para estudos do tema na área da saúde com o resgate da
informação, principalmente, de prontuários eletrônicos de pacientes. Entretanto, trabalhos
com foco na saúde e com aquisição de dados de outras fontes, como coleta em períodicos,
também foram analisados. Portanto, a partir da pesquisa, é possível apresentar os aspectos
relevantes dos trabalhos acadêmicos e artigos científicos relacionados aos objetivos do
trabalho.
3.1 Metodologia
Esta pesquisa foi elaborada por meio de uma revisão da literatura. A sua finalidade
concentrou-se em reunir os estudos publicados e discutir a respeito das técnicas e tecnologias
aplicadas para realizar a conversão automática de dados não estruturados em dados
estruturados, ou seja, o tratamento de informações textuais sobre os dados clínicos do
paciente. Foi realizado o levantamento dos estudos nas bases de dados Google Scholar,
Springer, PubMed, Elsevier e IEEE. Dessa maneira, foram aplicados nos mecanismos
de busca, os seguintes descritores e suas combinações, em português: Aprendizado de
máquina, Mineração de textos, Processamento de linguagem Natural, Prontuário Eletrônico
de Paciente e anamnese. E na língua inglesa: Machine Learning, Text Mining, Natural
Language Processing, Electronic Patient Record e anamnesis. Assim, a principal string de
busca, em inglês, foi (“machine learning” AND “Text Mining” AND “Natural Language
Processing” AND (“Electronic Patient Record” OR anamnesis)), sendo utilizada a mesma
estrutura para a versão em português quando inserida no Google Scholar.
Após a etapa de definição das bases e descritores, foram delimitados os critérios de
seleção, como: estudos publicados em português e inglês; artigos originais que apresentassem
argumentos sobre a temática referente à pesquisa proposta, colaborando com as respostas
Capítulo 3. Trabalhos Relacionados 28
de Levenshtein para os tokens. Como resultado final, obteve um laudo mais estruturado,
contudo ainda necessitando de trabalho manual para codificar o texto.
Para o trabalho de Dahl, Ozkan e Dalianis (2016), a proposta foi desenvolvida pela
apresentação e avaliação de um algoritmo próprio para o Processamento de Linguagem
Natural sobre laudos de câncer de próstata na Noreuga. A partir da avaliação de 25 laudos
de patologistas, foi desenvolvido um algoritmo em Python baseado em regras devido ao
número pequeno de amostras, utilizando o Gleason Score para mensurar os dados, método
também aplicado em Weegar, Nigard e Dalianis (2017). Como um laudo pode conter
informações de várias biópsias, o algoritmo foi desenvolvido de forma recursiva. As duas
regras básicas eram identificação da classificação do câncer, maligno ou benigno, e em
qual lado se encontrava. Dessa maneira, utilizaram o processo de tokenização para obter
os termos dos laudos, obtendo como resultado alguns falsos positivos, devido à falhas no
processo de formação dos prefixos.
Em Moharasar e Ho (2016), realizou-se a análise dos registros hospitalares escritos
em prontuário eletrônico a fim de organizar e relacionar eventos clínicos (progresso de
doença, sintomas, efeito de medicamentos, tratamento) em uma linha temporal. Dessa
maneira, o processo foi dividido em dois estágios: extração das expressões temporais
utilizando Conditional Random Fields (CRFs) como data, duração, hora e frequência
e recuperação dos eventos relacionados ao tempo. No primeiro estágio, foi aplicado o
sistema HeidelTime3 , desenvolvido em Java. No segundo, para o PLN, aplicaram-se a
lematização por meio de um algoritmo em Python, formando os termos e, em seguida,
o agrupamento semântico adotando o conceito de identificador único com a ferramenta
MetaMap, formando uma biblioteca de termos.
O artigo de Fleuren e Alkema (2015) foi produzido com o objetivo de apresentar as
técnicas utilizadas pela mineração de texto. Com isso, descreve etapas como a recuperação
da informação, o NER para a formação de palavras-chave e a extração da informação
textual por meio de métodos de co-ocorrência ou PLN, sendo este descrito como mais
eficiente para o processo. Como exemplo, cita a ferramenta MEDIE4 utilizada para buscar,
nos resumos do MEDLINE, as interações medicamentosas.
O trabalho de Pollettini et al. (2014) objetivou: construir um sistema para alertar
os profissionais de saúde sobre problemas de desenvolvimento humano, como doenças
cardiovasculares, obesidade e diabetes tipo 2, ao se expor um paciente durante a primeira
infância (até os 3 anos) a determinados riscos. Com isso, o sistema prepara e atualiza,
3
É um marcador temporal em vários idiomas desenvolvido no Grupo de Pesquisa de Sistemas de Banco
de Dados da Universidade de Heidelberg. Extrai expressões temporais de documentos e as normaliza
de acordo com o padrão TIMEX3. Disponível em https://code.google.com/archive/p/heideltime/.
4
Mecanismo de pesquisa para recuperar correlações biomédicas do MEDLINE com base na indexação,
utilizando técnicas de Processamento de Linguagem Natural e mineração de texto. Disponível em
http://www.nactem.ac.uk/medie/.
Capítulo 3. Trabalhos Relacionados 33
periodicamente, uma coleção de artigos científicos sobre o domínio de fatores de risco gené-
ticos e epigenéticos para doenças crônicas, realizando pré-processamento das informações
a partir de: remoção de stop-words, processamento de n-gramas com a biblioteca Python
NLTK e o cálculo de TF-IDF para os pesos dos termos. Além disso, utiliza a formação de
um modelo de espaço vetorial para processar a semelhança entre os termos dos documentos,
criando uma matriz a partir dos pesos dos termos encontrados pelo TF-IDF. Assim, cada
documento é representado por um vetor vetorial, sendo o conceito a dimensão de um vetor
formado por uma matriz de termos.
A publicação de Eriksson et al. (2013) investiga eventos adversos provocados
por medicamentos descritos nos registros dos pacientes, avaliando uma relação entre o
medicamento e o efeito adverso. Para criação do dicionário, foi realizado o processo manual
de análise do medicamento com as informaçoes de efeitos adversos inseridas pelo fabricante.
Assim, foi analisado os registros médicos de um hospital psiquiátrico da Noruega, realizando
lemantização e tokenização para a comparação com a biblioteca.
A aplicação de técnicas de PLN por Boytcheva (2011) objetivou realizar um
mapeamento automático para detecção de doenças e diagnósticos de acordo com a 10a
Revisão da Classificação Internacional de Doenças (CID-10). O principal método aplicado
foi a Máquina de Vetores com suporte a multiclasse.
Por fim, assim como o estudo de Eriksson et al. (2013), Aramaki et al. (2010)
também teve como objetivo investigar os eventos adversos de medicamentos prescritos e os
seus efeitos a partir de PNL sobre os registros clínicos. Dessa forma, o processo foi dividido
em duas etapas: identificação de termos utilizando NER - forma um tipo de dicionário
de dados - sobre PLN e extração da relação entre o medicamento e o seu efeito adverso,
aplicando métodos baseado em padrão e máquina de vetor. Como resultado, foi obtido um
cruzamento entre identificação do efeito, droga e a relação entre eles. Entretanto, houve
uma baixa precisão na identificação entre o medicamento e o seu efeito adverso quando
comparado com a identificação dos medicamentos, sendo justificado pela pluralidade de
sinônimos para se referir a um mesmo sintoma.
60%.
Apesar de também analisar dados oriundos do Twitter, o artigo de Silva, Lochter e
Almeida (2019) propõe uma técnica para melhor extrair as informações de sentimento,
realizando normalização léxica, indexação semântica e desambiguação, afim de aumentar o
número de amostras para classificação. O cojunto das três técnicas é chamado de expansão
semântica. A primeira diminui o ruído, realizando a troca de termos com grafias erradas
pelas corretas, utilizando um dicionário léxico. A segunda cria o conjunto de sinônimos
para a atuação da terceira etapa: seleciona os termos do conjunto de sinonimos pertinentes
à mensagem.
Assim como Correia et al. (2019) e Silva, Lochter e Almeida (2019), o estudo de
Oliveira, Arruda e Mendes (2019) envolve extração de informações sobre o Twitter, contudo
utiliza técnicas de classificação para a identificação automática de Postagens Relacionadas
ao Uso da rede social. Para tratamento dos dados, utilizou Python com as bibliotecas
NLTK e Pandas provendo a limpeza dos dados: remoção de hastags com menção ao usuário,
hiperlinks, pontuação e stop-words, além de correção ortográfica, padronização de palavras
(termos escristo como “amoooo”, foi padronizado para “amo”) e redução ao radical.
A aplicação de mineração de texto no trabalho de Cesar, Vellasco e Figueiredo
(2019) possibilitou a análise de falhas ocorridas em equipamentos de plataformas de
perfuração de poços marítimos. Dessa forma, na etapa de pré-processamento, formou um
lista de termos compostos, removeu os termos de menor relevância, removeu acentuação
e nomes próprios, além de aplicar o algoritmo de Porter - utilizado para o cálculo de
stemming. Para indexação, avaliou três métricas: TF, boleano (presença ou não de um
termo) e TF-IDF para formar a matriz de termos.
O artigo de Britto et al. (2019) propôs a criação de uma base de dados sobre receitas
em português a fim de proporcionar o desenvolvimento do Sistema de Recomendações de
Receitas. Com isso, após a coleta das receitas na web, necessitou remover os documentos
duplicados pela análise do título da receita, converter o texto em minúsculas, separar
os ingredientes, tratar as abreviações e erros ortográficos e remover os dados numéricos.
Também desenvolveu dois dicionários léxicos, um para tratar o estado do ingrediente
(moído, cozido) e o outro o tipo de medida. Por fim, de posse da lista de ingredientes e
formada a matriz e realizado o cálculo da frequência dos termos com TF-IDF.
Aplicar diferentes algoritmos de regressão para estimar a relevância das frases
contidas na coleção documentos extraídos de artigos de notícias brasileiros, a fim de
formular um resumo, foi o objetivo do trabalho de Sodré e Oliveira (2019). Para o
pré-processamento, foi utilizado a ferramenta Spacy levando a: segmentação das frases,
tokenização, reconhecimento de entidades nomeadas e remoção de stop-words. Com a
biblioteca NLTK, foi aplicado o stemming. Em seguida, para o cálculo de relevância dos
termos, foram aplicadas 9 técnicas: TF, TF-IDF, centralidade das sentenças, entidades
Capítulo 3. Trabalhos Relacionados 35
nomeadas, posição das sentenças, similariade com o título, Bushy Path, similaridade
agregada e TextRank. Com estes resultados, foram aplicados os métodos de regressão afim
de avaliar a melhor técnica para o trabalho.
No projeto de Rodrigues, Junior e Lobato (2019), houve a análise dos comentários
acerca de notícias relacionadas às deficiências físicas, mentais e de aprendizado para
identificar quais os principais tópicos discutidos e seus posicionamentos. Assim, a partir da
recuperação das informações, converteu as palavras para minúsculo e aplicou remoção de
stop-words, acentuações, números, caracteres especiais, pontuação e saudações por meio
da biblioteca NLTK do Python. Além disso, verificou a análise de sentimentos com a
biblioteca Polyglot e cálculo de relevância de termos com TF-IDF, formando a matriz de
termos. Também foi desenvolvido uma classificação manual para categorizar os comentários
em: informativo, ofensivo, relato de experiência, indignação e outros.
O artigo de Britto e Pacífico (2019) objetiva: a criação de uma base de dados em
português para análise de sentimentos extraídos dos comentários de usuários de aplicativos
móveis, sendo obtidos da loja de aplicativos da Apple. Dessa forma, procedeu com a
transformação dos termos para minúsculo e, com o uso da biblioteca NLTK, realizou:
remoção de letras repetidas, correção ortográfica, remoção de hashtags, links e stop-words.
Com relação à frequência dos termos, aplicou o modelo Bag-of-Words. Por fim, seguiu
com o treinamento utilizando os seguintes classificadores: Naive Bayes, árvore de decisão,
random forest, regressão logística, máquina de vetores, redes neurais simples e Long
Short-Term Memory (LSTM). Os algoritmos de rede neural, LSTM e o de regressão
obtiveram os melhores resultados médios.
3.2 Considerações
A partir da investigação realizada nas bases de pesquisa, foi possível elencar,
selecionar e analisar os trabalhos já desenvolvidos com a proposta de tratamento sobre
conteúdo textual. Assim, destacar as técnicas, ferramentas, algoritmos e bibliotecas prontas
em determinadas linguagens de programação, utilizados, conjuntamente, para promover a
mineração de texto.
Entre as técnicas mais utilizadas tanto no âmbito da saúde quanto nas outras
áreas estão o cálculo do TF-IDF, a tokenização e remoção de stop-words, sendo citados
explicitamente em 11, 10 e 9 dos 26 trabalhos, respectivamente. Entretando, alguns
estudos não evidenciam as técnicas aplicadas, apenas informam sobre a ferramenta ou
algoritmo empregados. No geral, realizam o tratamento do texto, transformando-o em
termos sem acento, pontuação ou numeração e os convertem em letras minúsculas. Além
disso, praticamente, todos constroem uma biblioteca de termos ou utilizam uma existente
a fim de proporcionar a aplicação do estudo, desse modo, tornando-se um dos pilares da
Capítulo 3. Trabalhos Relacionados 36
mineração de texto. Mesmo os trabalhos que pretendem criar modelos com a aplicação de
algoritmos de classificação, regressão, clusterização ou sumarização sobre texto, devem
antes realizar esses tratamentos.
Como problemas enfrentados, a maioria dos autores relatam a falta de estrutura
textual, uso de abreviaturas e linguagem própria de cada profissional da saúde quando
estes prescrevem a sua avaliação clínica. Contudo, apesar dessas dificultades, há inúmeros
trabalhos em setores diferentes aplicados na saúde.
Na pesquisa em língua portuguesa realizada no Google Scholar, a maioria dos
trabalhos dessa temática, mesmo em cenários diferentes da saúde, apresentam-se sobre
o modelo de dissertações ou teses. Sendo assim, os artigos são concentrados na área do
aprendizado de máquina.
Portanto, as técnicas aplicadas nas publicações focam na análise estatística do
conteúdo. Neste trabalho será aplicado tanto a análise estatística como a semântica, a fim
de tratar as informações da anamnese médica, buscando a relação entre sinais, sintomas,
exames e diagnóstico.
Com isso, para a criação de uma base estruturada, a partir de documentos textuais,
é necessário : a tokenização, remoção de stop-words, aplicação do algoritmo de stemming e
a aplicação de algoritmos de similaridade, o cálculo da relevância dos termos com TF-IDF e
a comunicação com a biblioteca DeCS, a fim de produzir o diciónario de dados do trabalho.
37
4 Metolologia Aplicada
Assim, os dados são capturados via base de dados do AGHU, via comunicação direta,
e tratados no sistema. Desse modo, é notória a dependência do sistema das informações
do AGHU, necessitando manter esta ligação, a fim de atualizar a base da ferramenta.
Os componentes de pré-processamento e similaridade são os responsáveis por tratar
e estruturar a base textual. Foram divididos em duas etapas, representando as etapas
Capítulo 4. Metolologia Aplicada 41
globais do processo. Assim, podem contribuir para o reuso e aplicação de testes, facilitando
o processo de integração, caso sejam desenvolvidos novos módulos ou utilizados por novos
sistemas.
O primeiro componente, pré-processamento, representa todo o processo de limpeza
para redução da dimensionalidade do texto. Já o segundo, consome os termos produzidos
pelo pré-processamento, promovendo a comparação entre os dados da anamnese e os dados
do dicionário, verificando as semelhanças.
“sulfato de magnesio”, depois “de magnesio”, por fim “magnesio”. Dessa maneira, não foi
aplicado a remoção de stop-word, pois parte do contéudo poderia ser perdido.
A análise morfológica também não foi totalmente aplicada. Principalmente quando
é estudado o resultado dos exames. Há representações a partir de símbolos, como “movi-
mentação fetal: - ou +”, o sinal “-” refere-se à ausência de movimentação fetal, indicando
um possível aborto dependendo da idade gestacional, enquanto o sinal “+” significa feto
ativo. Além disso, há um conjunto de exames com resultados númericos e não inteiros,
assim, o “.” ou a “,” podem indicar a casa decimal de um desses resultados. Outra infor-
mação empregada pelo “+” é a indicação do tempo da idade gestacional no momento do
atendimento, "34+5", significando uma gestação de 34 semanas e 5 dias. Portanto, desse
processo, o única técnica aplicada foi a remoção dos acentos e cedilha, sendo o dicionário
construído sem o uso desses caracteres.
Entre os procedimentos aplicados no stemming, o único utilizado foi a remoção do
plural das palavras, levando-as para o singular. Contudo, foi criada uma lista de exceção
e armazenada como uma tabela do banco de dados. Termos como “AIDS” e “HAS” são
siglas que podem representar uma informação do dicionário, assim, a identificação do “s”
no final da palavra não pode ser removida. Do mesmo modo, há palavras que são escritas
naturalmente como representantes do conceito plural: “sífilis”, “herpes” e “diabetes”, por
isso, não podem ser reduzidas ao singular.
Ainda com relação à técnica, não houve remoção ou redução de verbos. Em várias
etapas do processo de estruturação, os verbos serviram como indicadores das características
encontradas no documento. A expressão “nega” aponta para os sintomas não detectados
pela paciente, já “uso” determina os medicamentos utilizados para outras comorbidades ou
para os sintomas atuais. Então, é possível selecionar trechos de busca a partir do encontro
dessas informações, independente de local (início, meio ou fim) aonde está escrito ou da
quantidade de vezes que o indicador é empregado. Por fim, o processo de estruturação não
foi realizado seguindo a redução das palavras ao seu radical.
O algoritmo de similaridade foi utilizado como técnica para verificar termos ou
expressões que foram mal escritas ou foram escritas no masculino e armazenadas no
feminino. Entre os 3 algoritmos apresentados no capítulo 2, a medida cosseno foi descartada
já que é melhor empregada quando se compara dois documentos para verificar a semelhança
entre eles, de acordo com a frequência de termos expressos em cada documento. Já entre
as distâncias Jaro-Wrinkler e Levenshtein o objetivo final é semelhante, medir a distância
entre duas strings, assim foi esolhido o algoritmo de Levenshtein como utilizado em Santos
(2018).
Capítulo 4. Metolologia Aplicada 43
4.4 Considerações
Com a análise das anamneses e construção do dicionário, foi possível compreender
a complexidade das informações do documento e como esses dados são utilizados para
a condução do atendimento da paciente. Não só para as tarefas diárias, como também
para as pesquisas desenvolvidas pelos estudantes de graduação e pós-graduação. Desse
modo, os dados foram agrupados em categorias e, a partir delas e como se relacionam ao
atendimento, o banco de dados foi produzido. Além disso, como o projeto manipula dados
assistenciais, ou seja, dados de natureza sigilosa e protegida pela Lei Geral de Proteção de
Dados, o sistema desenvolvido necessitou ser instalado e utilizado apenas dentro da rede
interna da instituição.
Para o levantamento dos procedimentos de mineração de texto, foram estudados
e selecionados aqueles que poderiam fornecer o melhor resultado para a estruturação da
informação, visando utilizar os métodos que não promovessem a perda de dado, levando
ao comprometimento do produto final.
44
5 Ferramenta Desenvolvida
5.1.1 Pré-processamento
Normalmente, a primeira etapa do processo de mineração trata da limpeza dos
dados, reduzindo o fluxo textual para otimizar o processo de estruturação ou análise
textual. Todavia, como mencionado no tópico 4.3, a etapa de pre-processamento não
removeu caracteres especiais, sinais de pontuação ou números já que podem representar
informações úteis para a anamnese. Além disso, foram desenvolvidos dois métodos para
verificar se determinados símbolos ou sinais de pontuação estavam ligados diretamente à
números ou palavras na posição do caracter imediatamente posterior a sua escrita. Tais
métodos são aplicados dentro do primeiro processo, a tokenização do texto.
A primeira ação da tokenização removeu os espaços vazios do texto e, logo após,
transformou o fluxo textual em tokens. A partir disso, cada token é analisado pelos métodos
da Figura 11.
Capítulo 5. Ferramenta Desenvolvida 45
O método 01 identifica se, após um dos símbolos encontrados (“.” ou “,” ou “+”
ou “\” ou “/”), há dígito. Não sendo encontrado, é retornado a posição do caracter para
separar as informações: de um token, são formados dois. O objetivo é separar informações
que foram escritas sem espaçamento, “AU=36cm,ACF=130bpm”, sendo dividido em
“AU=36cm,” e “ACF=130bpm”. Já no segundo, método 02, o objetivo é separar qualquer
caracter após, “:”, “=” ou “(”, assim, “AU=36cm”, é representado pelos tokens “AU=” e
“36cm”. Esses passos foram necessários para melhorar a organização do encadeamento do
texto, facilitando processos posteriores como a comparação ou busca de informação tanto
para a similaridade quanto para a comparação direta com o dicionário.
Em seguida, cada token foi analisado para transformá-lo do plural para o singular.
Assim, a partir do entendimento das regras gramaticais para a formação do plural das
palavras, definiu-se, como proposta para o contexto do estudo, quatro regras e suas soluções,
conforme tabela abaixo.
Regra/Solução Descrição
Regra 1 Palavras terminadas com “ões”, “ãos” ou “ães”
Solução 1 Transformar em “ao”
Regra 2 Palavras terminadas com “es” precedidas de “l”, “r”, “s” ou “z”
Solução 2 Remover o “es”
Regra 3 Palavras terminadas com “is” precedidas de vogal
Solução 3 Remover o “is” e adicionar “l” ao final
Regra 4 Palavras terminadas com “s”
Solução 4 Remover “s”
5.1.3 Similaridade
Sendo escolhido a distância Levenshtein como medida para o cálculo de similaridade,
uma pesquisa foi realizada, objetivando avaliar os algoritmos existentes, principalmente, os
desenvolvidos na linguagem Java. Algoritmos de outras linguagens utilizando bibliotecas
específicas da linguagem foram descartados. Dessa maneira, o algoritmo encontrado na
página de Bhojasia (2016) foi adaptado e usado conforme Figura 13.
Capítulo 5. Ferramenta Desenvolvida 48
5.2 Considerações
A partir do procedimento de estruturação da anamnese, foi possível relacionar as
informações entre sinônimos e siglas, além de capturar os dados escritos errados com a
utilização do algoritmo de Levenshtein. Assim, proporcionou o agrupamento dos dados,
possibilitando a geração de novas informações.
53
6 Avaliação e Resultados
Conforme Figura 18, foi desenvolvida uma legenda de cores na qual cada cor
representa uma categoria, desse modo, foi entregue uma coleção hidrocor para cada
profissional e a legenda para a atividade. A meta da pesquisa é verificar quantos dados de
cada categoria são selecionados de forma manual e quantos são encontrados pela ferramenta.
Assim, é possível mensurar o nível de assertividade do projeto.
Para cada grupo, sistema e profissionais, foi contabilizado um ponto quando se
identificava uma informação correta dentre as categorias da anamnese avaliada. Para
tal, a comparação foi baseada a partir de uma anamnese modelo identidificada por um
especialista da área. Se fosse identificada uma informação não relevante, por exemplo idade,
a pontuação não era contabilizada. Esse tipo de dado já é uma informação estruturada no
AGHU, data de nascimento, portanto, irrelevante para o estudo.
Erros como uma identificação equivocada, “nega alergia” sendo destacada em
cinza, alergia, e não como azul claro, negação, tanto ocorridos pelo sistema ou pelos
participantes, não foram contabilizados. Entretanto, no caso dos medicamentos, mesmo
sendo identificado um medicamento considerado como administrado no modelo, sendo
marcado como prescrito ou em uso por exemplo, o medicamento foi contabilizado, pois o
dado foi encontrado e pertence ao conjunto global medicamento, apenas foi categorizado
erroneamente. Além disso, informações duplicadas no documento foram contabilizadas
apenas uma vez. Desse modo, o total de acertos de cada um foi dividido pelo total de
Capítulo 6. Avaliação e Resultados 54
itens do modelo e o resultado, o percentual de acerto das 30 anamneses por grupo, foi
submetido ao teste estatístico de Kruskal-Wallis.
As anamneses representam o conjunto dos dados analisados pelos 4 profissionais e
o sistema, assim, foram testadas considerando as seguintes hipóteses:
Figura 21 – Distribuição dos percentuais de conformidades das anamneses por grupo sem
exame
Fonte: Autor.
Comparando os resultados das Figuras 19 e 21, percebe-se a elevação dos valores para
o grupo Sistema, obtendo o segundo maior valor para a mediana, 92,86%, e uma redução
para o conjunto P2, 86,34%. Além disso, há uma menor variabilidade nos resultados
para todos os grupos, tornando-os mais aproximados. Contudo foram evidenciados 2
outliers. Com relação ao teste de Kruskal-Wallis, foi comprovado que não foram observadas
diferenças significativas na distribuição dos percentuais de acerto entre os grupos, H(4) =
7,576, p = 0,108, sendo aceita novamente a hipótese H0 . Assim, sem aplicar a categoria de
exame, o resultado passou de 6,8% para 10,8%, melhorando o grau de igualdade entre os
grupos e, consequentemente, a assertividade do sistema.
No outlier do participante P2, o modelo detectou 27 itens: 2 de dados gerias, 1
negacação, 1 comorbidade, 1 medicamento em uso, 1 encaminhamento, 5 sintomas, 9
exames, 1 medicamento administrado e 6 condutas. Já o participante informou 18 itens não
grifando o item de negação, sintoma (destacado em preto, erroneamente) e medicamento
administrado, além de informar apenas 7 exames. Já no outlier do Sistema, o modelo
informou 12 itens e o sistema apenas 7 itens.
6.1 Considerações
Em média, os participantes levaram cerca de 2 horas para verificar os dados, ou
seja, 1 anamnese era analisada a cada 4 minutos. Os principais relatos foram de cansaço e
Capítulo 6. Avaliação e Resultados 57
de repetição automática das ações após a leitura de uma quantidade considerável de dados.
Provalmente, esses fatores provocaram a desatenção no momento de destacar a informação.
Como já mencionado anteriormente, houveram vários casos em que o dado “nega alergia”
foi destacado na cor cinza, gerando um erro na avaliação. Além disso, quando a escrita
seguia uma estrutura de texto corrido, sem tópicos, algumas informações de sintoma,
negação e conduta passavam despercebidas, não sendo destacadas, como observados nas
figuras anteriores. Por outro lado, os medicamentos, normalmente, foram todos destacados,
independentemente do dado ser informado na categoria correta. Com relação ao sistema,
as 30 documentações foram analisadas em 5 minutos.
Com relação a mudança do resultado com a aplicação do teste estatístico com a
categoria exame e sem ela, a mudança deve-se a maneira como a informação é apresentada
no documento: abaixo do relato da paciente, topificada e informando qual o exame realizado
e o seu resultado. Ou seja, normalmente, está escrita na região central do documento,
isolando-se dos outros dados. Então, há um direcionamento para encontrar tal informação
naquela parte específica do texto.
Por fim, os testes mostram que a hipótese de não haver diferenças siginificativas
entre os grupos foi aceita para os dois casos, portanto o sistema pode ser equiparado à
uma análise realizada por um ser humano, atingindo mais um objetivo do sistema: verificar
a eficiência e o desempenho da metodologia em anamnese de prontuários eletrônicos do
paciente.
58
7 Considerações Finais
7.1 Conclusões
Nos capítulos iniciais, foi introduzida e justificada a escolha da proposta de trabalho,
sendo exposto o problema atualmente enfrentado na Maternidade Escola Januário Cicco e,
consequentemente, por outros hospitais da rede EBSERH. Com isso, houve a procura dos
conceitos relacionados para a solução do problema a fim de atingir os objetivos propostos.
Assim, foi descrito o processo e as diferentes técnicas existentes para o tratamento do
dado não estruturado utilizando a mineração de texto com o Processamento de Linguagem
Natural.
Já no terceiro capítulo, foi apresentada a metodologia para a busca nas bases de
pesquisa, descrevendo as regras para a escolha dos trabalhos relacionados. Dessa maneira,
possibilitou encontrar estudos que aplicaram a mineração de texto na área da saúde,
além de artigos de outras áreas, verificando a prática dos conceitos abordados no capítulo
anterior. Assim, foi identificado as principais técnicas utilizadas na área como o cálculo de
TF-IDF, a tokenização e a remoção de stop-words. Com relação ao uso de ferramentas,
a maior partes dos trabalhos produziu a sua própria, embora alguns tenha realizado o
processo manual com cálculos desenvolvidos em software de planilhas. Por fim, geralmente,
constroem ou utilizam uma biblioteca de termos para realizar o objetivo do estudo.
Nos dois capítulos seguintes, o desenvolvimento da proposta do trabalho foi de-
talhado. Com o conhecimento proporcionado pelo desenvolvimento dos capítulos 2 e 3,
houve uma fundamentação e direcionamento para as fases necessárias a fim de se estru-
turar uma base textual. Desse modo, o capítulo 4 expõe a metodologia aplicada para a
construção da base estruturada, sendo elaborada 38 classes das quais metade compõe
o dicionário. Também define os metódos utilizados nas etapas do pré-processamento à
estruturação, além de definir o algoritmo de Levenshtein para o cálculo de similaridade.
Já o capítulo 5 apresenta como a metodologia foi aplicada na construção da ferramenta:
as regras do pré-processamento, a regra da redução do plural, a etapa da aquisição dos
dados obstétricos, o algoritmo de similaridade em java e o tratameto dos tokens para a
captura de palavras composta e o seu relacionamento com o dicionário, sendo armazenada
Capítulo 7. Considerações Finais 59
a informação estruturada.
Por fim, no sexto capítulo, foi elaborado uma pesquisa com o objetivo de avaliar o
grau de assertividade da ferramenta desenvolvida. Após a avaliação manual das anamneses
pelos médicos e pelo sistema, foi aplicado o teste estatístico de Kruskal-Wallis, sendo a
aceita a hipótese de não haver diferenças significativas entre os grupos nos dois testes.
Portanto, mesmo havendo siglas, abreviações e erros de grafia na escrita do docu-
mento médico, a ferramenta conseguiu obter uma padronização satisfatória, representando
um ponto positivo para o produção do estudo.
7.2 Contribuições
Por meio da conclusão desta pesquisa, foram elencadas as seguintes contribuições:
2. Definição das classes e dos atributos mais relevantes para a guarda do dado;
• Por fim, o capítulo 6 descreve como foi possível avaliar os métodos executados na
ferramenta para estruturar o campo textual da anamnese, fazendo uma comparação
entre a detecção manual dos dados e a análise automática, assim, atendendo ao
estabelecido no item 5.
• Por fim, a ferramenta pode apoiar novos trabalhos a partir do cruzamento das
informações armazenadas no banco de dados estruturado, ajudando aos pesquisadores
da instituição: gestão, funcionários, graduandos e pós-graduandos.
7.4 Considerações
O estudo realizado contribuiu para verificar e detalhar a riqueza dos dados presentes
em campos textuais como a anamnese, sendo uma fonte de informação importante para
a área da saúde, tanto para o tratamento do paciente como para a conduta da gestão e
pesquisa clínica, embora, quando trabalhada como um dado não estruturado, dificulte a
sua manipulação e a extração de resultados mais corretos.
rede. No geral, foi construído uma nova estrutura de dados para a instituição, servindo de
base para outros estudos.
Referências
ARAMAKI, E. et al. Extraction of adverse drug effects from clinical records. Medinfo,
p. 1–5, 2010. Citado na página 33.
BRITTO, L. F. S. et al. A text analysis approach for cooking recipe classification based
on brazilian portuguese documents. Brazilian Conference on Intelligent Systems, Oct.
2019. Citado na página 34.
TSUMOTO, S. et al. Mining text for disease diagnosis. Procedia Computer Science,
v. 122, p. 1133 – 1140, 2017. ISSN 1877-0509. 5th International Conference on
Information Technology and Quantitative Management, ITQM 2017. Disponível em:
<http://www.sciencedirect.com/science/article/pii/S1877050917327382>. Citado na
página 31.
WEEGAR, R.; NIGARD, J.; DALIANIS, H. Efficient encoding of pathology reports using
natural language processing. Springer, p. 1–6, 2017. Citado 2 vezes nas páginas 31 e 32.
XAVIER, B. M.; SILVA, A. D.; GOMES, G. Uma arquitetura hibrida para a indexação de
documentos do diário oficial do municípiode cachoeiro de itapemirim. Scielo, p. 83–95, 2015.
Disponível em: <http://www.scielo.br/pdf/tinf/v27n1/0103-3786-tinf-27-01-00083.pdf>.
Citado na página 20.