Você está na página 1de 19

Universidade do Estado do Rio de Janeiro

Centro de Tecnologia e Ciências


Faculdade de Engenharia

Gabrielle dos Santos Alves

O uso de machine learning para prever a


evolução de pacientes no pós AVC

Rio de Janeiro
2024
Gabrielle dos Santos Alves

O uso de machine learning para prever a


evolução de pacientes pós AVC

Projeto de Graduação
apresentado, como requisito
parcial para obtenção do Grau de
Engenheiro, à Faculdade de
Engenharia da Universidade do
Estado do Rio de Janeiro. Área de
concentração Produção.

Orientador: Prof. Dr. Valter de Assis Moreno Jr


Coorientadora: Prof. Dra. Ana Heloísa de Medeiros

Rio de Janeiro
2024
LISTA DE ABREVIATURAS E DE SIGLAS

AVC Acidente Vascular Cerebral


Fundação Carlos Chagas Filho de Amparo à Pesquisa do
FAPERJ Rio de Janeiro

IA Inteligência Artificial

Laboratório de Recuperação Funcional após Acidente


LABAVC/UFRJ Vascular Cerebral da Universidade Federal do Rio de
Janeiro
ML Machine Learning
UERJ Universidade do Estado do Rio de Janeiro
LISTA DE FIGURAS

Figura 1 – Hierarquia de Aprendizado 9


Figura 2 – Regressão Linear x Regressão Múltipla 11
Figura 3 – Exemplo de Árvore de Decisão 12
Figura 4 – Redes Neurais Artificiais 13
SUMÁRIO

INTRODUÇÃO ....................................................................................................... 5
Contexto e Relevância da Pesquisa ................................................................... 5
Objetivos ............................................................................................................... 6
Delimitações da Pesquisa ................................................................................... 6
Estrutura do Trabalho .........................................................................................14
1. REVISÃO DA LITERATURA ...................................................................15
1.1 MACHINE LEARNING ....................................................................................15
2. PROCEDIMENTOS METODOLÓGICOS .................................................21
2.1 OBJETIVO DA PESQUISA.............................................................................21
2.2 ETAPAS DA PESQUISA ................................................................................21
REFERÊNCIAS.....................................................................................................24
INTRODUÇÃO

Contexto e Relevância da Pesquisa

O Acidente Vascular Cerebral (AVC), também conhecido como derrame


cerebral, ocorre quando os vasos responsáveis por levar sangue ao cérebro se
rompem ou entopem, o que acarreta a paralisia da área cerebral que ficou sem
circulação sanguínea (Ministério da Saúde). Em termos de impacto social,
anualmente, mais de 13 milhões de pessoas em escala global sofrem um AVC. E
dessas, 70% não retornam ao trabalho devido às suas sequelas e 50% ficam
dependentes de outras pessoas no dia a dia. (World Stroke Organization, 2022).
Além da extrema relevância social que tange à saúde global, a motivação do
projeto também se faz pela minha trajetória profissional e motivação pessoal. Sendo
assim, o interesse no tema de neuroreabilitação de pacientes pós-AVC se iniciou em
2021, quando fui convidada a participar de um projeto para disciplina de Projeto do
Empreendimento, ministrada pelo Prof. Dr. André Ribeiro, onde um grupo de alunos
foi responsável por elaborar um plano de negócios para um empreendimento
embrionário de telereabilitação de pacientes com disfunções neurológicas. Uma das
idealizadoras de tal empreendimento era a Profa. Dra. Ana Medeiros, e foi assim que
eu e ela tivemos nosso primeiro contato.
Logo após a conclusão da disciplina, fui convidada pela Profa. Dra. Ana
Medeiros a participar como bolsista de iniciação tecnológica do projeto MOVIT –
Soluções em Telereabilitação, fomentado pelo edital Doutor Empreendedor da
Fundação Carlos Chagas Filho de Amparo à Pesquisa do Rio de Janeiro (FAPERJ),
iniciado em janeiro de 2021. A MOVIT, que viria a se constituir como empresa
oficialmente no cartório em setembro de 2022, tem como missão alavancar a
eficiência dos processos e a qualidade dos serviços prestados a partir de soluções
tecnológicas personalizadas para fisioterapeutas que atuem na assistência, na
pesquisa e no ensino. Mais especificamente, a startup tem como objetivo auxiliar o
profissional e pesquisador no acompanhamento e tratamento de seus pacientes,
contribuindo para identificar seu prognóstico, observar e quantificar sua evolução e
facilitar a comunicação profissional-paciente.
No entanto, o prognóstico de pacientes que sofreram de AVC é complexo e
imprevisível, dificultando que os profissionais de saúde consigam prescrever
tratamentos de reabilitação que atendam as reais necessidades daquele paciente
(Ramazanu, 2021). Nesse sentido, esse trabalho de conclusão de curso tem como
objetivo desenvolver um algoritmo de machine learning que consiga prever a
evolução de pacientes em reabilitação pós-AVC. Assim, o programa é capaz de
auxiliar o profissional de saúde a prescrever o tratamento com maior assertividade.

Objetivos

Este Projeto de Graduação tem como propósito central realizar a previsão da


evolução de pacientes pós AVC a partir de um algoritmo de aprendizagem de
máquina. Assim, podemos dividir o objetivo principal nos seguintes subobjetivos:
1. Reunir uma base de dados de no mínimo 700 linhas, garantindo a precisão do
algoritmo.
2. Identificar quais as variáveis (features) que mais influenciam na evolução do
paciente.
3. Avaliar o algoritmo e obter pelo menos 75% de precisão no modelo.

Delimitações da Pesquisa

Utilizar um conjunto de dados grande o suficiente para a construção do


modelo preditivo pode levar a uma melhor precisão e à capacidade do modelo de
generalizar (Abdularaheem, 2015). Assim, torna-se evidente como o tamanho do
banco de dados utilizado no desenvolvimento de algoritmos de Machine Learning
influenciam diretamente na precisão e qualidade do programa.
Dessa forma, como esse trabalho de conclusão de curso visa realizar um
projeto completo dentro da área ciência de dados, a coleta da base de dados
também será realizada no seu desenvolvimento. Devido ao fato de o público-alvo do
projeto ser extremamente restrito, ou seja, composto por pacientes que receberam
tratamento de reabilitação pós-AVC, a etapa de coleta de informações é um desafio
significativo. Ademais, como tais dados médicos não estão disponíveis publicamente
na internet, faz-se necessário o acesso a hospitais e/ou clínicas para coletá-los,
aumentando ainda mais a dificuldade na obtenção dos dados.
No entanto, acredita-se que com o auxílio da Profa. Dra. Ana Medeiros,
coorientadora do projeto e pesquisadora associada ao Laboratório de
Recuperação Funcional após Acidente Vascular Cerebral da Universidade
Federal do Rio de Janeiro (LabAVC/UFRJ), será possível reunir os dados
necessários. Assim, iremos utilizar os dados dos pacientes do LabAVC/UFRJ
para desenvolver o projeto.

Estrutura do Trabalho

Este Projeto de Graduação foi organizado em cinco partes incluindo a


Introdução, onde abordamos suas principais características.
O capítulo 1 apresenta a Revisão de Literatura, no qual iremos abordar
obras já publicadas sobre as duas temáticas principais: a reabilitação do
paciente no pós- AVC e o uso de Machine Learning no auxílio de previsões.
Além disso, também serão apresentados artigos e pesquisas que mesclam os
dois temas, utilizando a aprendizagem de máquina para estudar o Acidente
Vascular Cerebral.
O capítulo 2 versa sobre os procedimentos metodológicos aplicados no
desenvolvimento do presente trabalho. Nele será apresentada a forma como
foi conduzida a pesquisa e as técnicas e ferramentas empregadas no processo
de elaboração do projeto.
O capítulo 3 do trabalho de conclusão de curso é destinado para o
registro de todo o desenvolvimento do projeto, abordando todas as suas
etapas. Nesse sentido, o capítulo detalha: (i) o processo de coleta de dados –
metodologia empregada e desafios enfrentados; (ii) tratamento dos dados
anteriormente coletados – detalhando a etapa de limpeza e padronização do
banco de dados; (iii) análise exploratória dos dados – identificação de variáveis
relevantes e tendências; (iv) construção e treinamento do modelo –
evidenciando o desenvolvimento do modelo de machine learning; (v) a
avaliação do modelo – avaliação sobre a precisão alcançada.
Já a última parte do trabalho destina-se às conclusões do projeto,
contemplando os resultados alcançados e objetivos atingidos. Além disso, serão
apresentadas as orientações para implementação do modelo.
1. REVISÃO DA LITERATURA

No capítulo de Revisão da Literatura iremos abordar a fundamentação teórica


para o desenvolvimento do trabalho. Nesse sentido, temos como objetivo fornecer
uma definição e explicação cara sobre o que é Machine Learning, qual a sua
relevância para tomada de decisões e diferenciar os distintos tipos de Aprendizagem
de Máquina e respetivos seus propósitos.

1.1 MACHINE LEARNING

Algoritmos de Machine Learning, ou Aprendizagem de Máquina, são


sistemas baseados em inteligência artificial (IA) capazes de tomar decisões de
forma autônoma, sem a interferência humana. Assim, os sistemas de ML são
projetados para aprender a partir dos dados que são consumidos por ele,
criando modelos aptos a realizar previsões e classificações de novos dados,
adaptando-se de forma independente baseada em sua própria experiência
(Goodman, 2018).

Os sistemas de Machine Learning podem ser classificados em quatro


categorias distintas, cada um possuindo abordagens e técnicas para lidar com
diferentes problemas e conjuntos dados. São eles: Aprendizado
supervisionado, aprendizado não-supervisionado, aprendizado semi-
supervisionado e aprendizado por reforço. No entanto, os dois primeiros são os
mais utilizados, sendo ainda divididos em subgrupos, como na figura abaixo:

Figura 1: Hierarquia de Aprendizado

Fonte: CARVALHO et al (2011)


Na próxima seção iremos abordar cada uma dessas diferentes
metodologias e suas aplicações.

1.1.1. Aprendizado supervisionado

O aprendizado supervisionado em Machine Learning é aquele que utiliza


dados previamente rotulados. Nesse sentido, o especialista fornece ao algoritmo
dados que possuam uma entrada e saída correspondente, informando, assim,
as conclusões que devem ser geradas (Hamaguti, 2022). Dessa forma, o
sistema é capaz de utilizar tais exemplos para mapear as entradas e saídas
desejadas, a partir dos padrões observados.

Os de sistemas de Machine Learning Supervisionado são capazes de


analisar as características de novos dados de entrada e gerar uma saída
correspondente. Essa abordagem pode ser dividida em duas categorias:
classificação e regressão.

1.1.1.1 Classificação

Em modelos de classificação, o objetivo é atribuir uma categoria a um


conjunto de dados baseando-se em seus atributos. Um exemplo prático de
modelo de classificação que utilizamos no dia a dia é a funcionalidade dos
principais canais de e-mail de classificar e-mails como spam ou “não spam”.
Nesse caso, o algoritmo utiliza os atributos do e-mail, como o corpo, assunto e
remetente para determinar quais são aqueles que podem ser classificados como
spam, e assim poder filtrá-los da caixa de entrada (BASSI, 2019).

1.1.1.2 Regressão

Já em modelos de regressão, diferentemente dos de classificação, os


dados de saída não são categóricos, mas sim numéricos. Dessa forma, o
algoritmo estabelece uma relação entre as variáveis dependentes e
independentes, a fim de gerar previsões numéricas. As variáveis preditoras, ou
independentes, são as que influenciam a variável de saída, e as variáveis alvo,
ou dependentes, são as que desejamos prever.

Um exemplo de modelo de regressão é um algoritmo capaz de analisar a


variabilidade nos preços dos ativos no mercado de capitais, baseando se em
demonstrações financeiras, nos fatores macroeconômicos e nas técnicas de
avaliação (GONÇALVES, 2022).
Os modelos de regressão também são divididos em dois subgrupos
principais: regressão simples e múltipla. A primeira é utilizada quando somente
uma variável preditora é disponibilizada para a realização do modelo, enquanto
a regressão múltipla é utilizada quando diversas variáveis independentes são
utilizadas para realizar a predição. Assim como exemplificado na imagem
abaixo:

Figura 2: Regressão Linear x Regressão Múltipla

Fonte: DAMACENO, 2020.

Como visto a priori, nesse trabalho de conclusão de curso temos o


objetivo de relacionar as características de um sujeito – como idade, imc,
gênero, etc. - com sua evolução em escalas quantitativas de reabilitação
mundialmente conhecidas. Nesse sentido, como o propósito do projeto é
relacionar inúmeras variáveis com o valor de classificação em cada escala, ou
seja, uma variável dependente contínua, iremos utilizar o modelo de regressão
múltipla.

1.1.1.3 Árvore de Decisão

“Uma árvore de decisão representa uma função que toma como entrada
um vetor de valores de atributos e retorna uma “decisão” — um valor de saída
único.” (RUSSEL e NORVIG, 2014). Assim, a árvore de decisão é amplamente
utilizada dentro de modelos de aprendizagem supervisionados, tanto dentro
classificações como regressões. Ela funciona como um fluxograma,
esquematizando os possíveis resultados de uma série de escolhas e facilitando
a tomada de decisão.

A árvore de decisão é composta por inúmeras ramificações, chamadas de


nós. Dessa forma, o algoritmo elabora a árvore com base nos exemplos de
estrada e saída, selecionando os atributos (features) de maior relevância para o
conjunto de dados e realiza testes para realocarem os dados em diferentes
ramificações da árvore.

Figura 3: Exemplo de Árvore de Decisão

Fonte: Oliveira, Leandro M. et al., 2019

1.1.1.4 Redes Neurais Artificiais (RNA)

Redes Neurais Artificiais são modelos computacionais utilizados para


realizar tarefas complexa de processamento e tomada de decisão, inspirados
pelo cérebro humano (HAYKIN, 2001). A RNA cria seu próprio sistema
adaptável que aprende com seus erros continuamente, capaz de realizar
cálculos complexos a partir do processamento sucessivo em cada etapa. Elas
são compostas por um conjunto interconectado de unidades computacionais –
os neurónios ou nós, onde cada um desses recebe entradas e realiza cálculos
fornecendo uma saída que é transmitida para outros neurónios.
Figura 3: Exemplo de Árvore de Decisão

Fonte: JONHSON, 2020

1.1.2. Aprendizado Não-supervisionado

Na aprendizagem de máquina classificada como não-supervisionada,


diferentemente como na supervisionada, os dados não são rotulados
previamente, de forma que o sistema deve ser capaz de identificar os padrões
por conta própria, tendo em vista que não é fornecido nenhum dado de saída
específico (MITCHELL, 1997).

Nesse contexto, o objetivo dos algoritmos de aprendizado não-


supervisionado é explorar justamente os padrões observados dos dados, sendo
capaz de fornecer informações relevantes sobre o banco fornecido, auxiliando
na tomada de decisões. Dessa forma, nesse tipo de modelo a avaliação dos
dados é um tanto quanto subjetiva, e irá depender da interpretação do
engenheiro.

1.1.2.1 Agrupamento - Clustering

O modelo de aprendizado não-supervisionado mais utilizado é o modelo


de clusterização ou agrupamento. Nesses sistemas, o algoritmo faz o trabalho
de agrupar os dados, formando grupos similares, clusters (MONARD e
BARANAUSKAS, 2003). Diferentemente do aprendizado supervisionado, esse
algoritmo não utiliza rótulos ou categorias previamente definidas.

1.1.2.2 Sumarização

O objetivo dos algoritmos de sumarização é o de encontrar uma


descrição simples e compacta para um conjunto de dados (CARVALHO, 2017).
Esse sistema é mais utilizado para realizar uma exploração iterativa dos dados,
preservando as principais informações e características relevantes. A
sumarização é comumente utilizada para grandes e complexas bases de dados,
auxiliando em simplificar a visualização dos dados.

1.1.2.3 Associação

Já os sistemas de associação têm como finalidade encontrar padrões,


relações ou associações entre itens de uma base de dados. Um exemplo do uso
de sumarização é procurar itens que são frequentemente comprados juntos em
uma base de dados de vendas.

1.1.3. Aprendizado semi-supervisionado

Os sistemas de Machine Learning do tipo semi-supervisionado utilizam a


aprendizagem a partir de um conjunto de dados com informações relevantes de
cada classe. Nesse processo, é feita a comparação entre os dados e os
mesmos são metrificados com base nas suas semelhanças para que sejam
rotulados utilizando dados já rotulados. Um exemplo para este tipo de
aprendizado é a utilização de algoritmos desta categoria para identificar fraudes
em transações realizadas com cartão de crédito (HAMAGUTI e BREVE, 2022).

1.1.4 Aprendizado por reforço

Os sistemas de Machine Learning utilizam a aprendizagem por reforço a


partir de sucessivas interações e dependendo das circunstâncias as quais a
ação será executada, o sistema toma uma decisão. Neste tipo de aprendizado,
o procedimento é repetido diversas vezes até que a máquina seja ábil para
decidir a ação mais adequada para cada cenário possível. (AFONSECA et. al.,
2008).
2. PROCEDIMENTOS METODOLÓGICOS

Nesse capítulo, iremos abordar a metodologia utilizada para o


desenvolvimento do projeto. Nesse sentimos, comentaremos sobre o obejtivo da
pesquisa, a abordagem que adotamos e também discutimos sobre a metodologia
aplicada em cada uma das etapas do desenvolvimento do projeto.

2.1 OBJETIVO DA PESQUISA

A pesquisa experimental ocorre quando se manipula diretamente as variáveis


relacionadas com o objeto de estudo, proporcionando a análise da relação entre as
causas e os efeitos de determinado fenômeno (CERVO e BERVIAN, 2007). Sendo
assim, tal abordagem é realizada a partir da delimitação de um objeto de estudo e a
seleção de variáveis que são capazes de influenciá-lo.

Dessa forma, podemos classificar como abordagem adotada para o


desenvolvimento desse trabalho de conclusão de curso a experimental.

2.2 ETAPAS DA PESQUISA

No capítulo de metodologia, também se faz necessário abordar sobre as


etapas que iremos seguir para realizar o trabalho.

2.2.1. Coleta de dados

Como nosso projeto consiste em utilizar um banco de dados real, a etapa


inicial é a etapa de coleta de dados. Nessa fase do projeto, iremos separar os
prontuários físicos referente aos pacientes que já tiveram AVC e iremos digitalizar os
dados presentes para uma planilha. Nesse primeiro momento, os dados brutos irão
ser digitalizados, sem nos preocuparmos com nenhuma padronização ou tratamento
dos mesmos.

Além disso, é importante ressaltar que a autorização para o uso dos


prontuários foi devidamente cedida pelo médico responsável, e qualquer tipo de
informação sensível ou comprometedora não será utilizada, preservando a
anonimidade do paciente.
2.2.2. Tratamento de Dados

Na segunda etapa, iremos tratar os dados coletados anteriormente, de forma


a garantir a qualidade e confiabilidades das informações. Como os dados transcritos
são totalmente manuais e as anotações são feitas por profissionais diferentes, a
etapa de tratamento apresenta bastante desafios.

Nessa fase, iremos manualmente remover as duplicatas, corrigindo erros de


digitação cometidos pelos profissionais e, primordialmente, iremos padronizar o
conteúdo. Depois, já utilizando bibliotecas do Python, iremos preencher os dados
vazios e excluir as colunas que não são pertinentes para nossa análise.

2.2.3. Análise Exploratória dos Dados

Com a base já limpa, iremos realizar a análise exploratória dos dados,


utilizando técnicas de visualização de dados para representar as informações de
forma clara e intuitiva. Assim, com módulos como o matplotlib do Python, vamos
fazer estudos sobre os atributos dos pacientes, correlacionando os dados de saúde
com a evolução no pós-AVC.

2.2.4. Construção e Treinamento do Modelo


Na etapa de Construção e Treinamento do Modelo, iremos separar a base em
conjuntos de treinamento e teste, de forma que o algoritmo seja capaz de generalizar
novos dados de forma eficaz.
Depois, iremos analisar sobre a seleção do algoritmo de Machine Learning
que será mais adequado para a base de dados coleta. A princípio, temos o foco de
utilizar o método de regressão, porém, com a base de dados limpa e a análise
exploratória de dados já feita, será possível visualizar com mais clareza o método
mais pertinente.

2.2.5. Avaliação do Modelo


Por fim, vamos realizar a avaliação do modelo de Machine Learning
construído, para analisar a qualidade do algoritmo.

Como indicadores utilizados, iremos focar nos seguintes: Accuracy – mede a


proporção correta de previsões feitas em relação ao total; Recall – mensura a
proporção de verdadeiros positivos em relação a todos os pacientes que realmente
possuem evolução positiva, incluindo os casos que foram previstos corretamente e
os falsos negativos; Precision – funciona e forma similar ao Recall, porém medindo a
proporção de verdadeiros positivos em relação a todos os pacientes previstos como
positivos e F1-score – combina os dois índices citados anteriormente em somente
uma métrica.
REFERÊNCIAS

Abdulraheem, A. Arshah, R. A. Evaluating the Effect of Dataset Size on Predictive


Model Using Supervised Learning Technique. International Journal of Computer
Systems & Software Engineering. Malaysia, 2015.

Bigoto, M. Avaliação de Modelos de Machine Learning para Predição da


Temperatura Crítica de Supercondutores. Lorena, 2020.

Carvalho, A. C. P. L. F. Aprendizagem de Máquina, ICMC-USP, 2017.

Dada, E. G., Bassi, J. S., Chiroma, H., Abdulhamid, S. M., Adetunmbi, A. O., &
Ajibuwa, O. E.. Machine learning for email spam filtering: review, approaches and
open research problems. Heliyon, 5(6), 2019.

Feigin, V. L. et al. World Stroke Organization (WSO): Global Stroke Fact Sheet 2022.
International Journal of Stroke 2022, Vol. 17(1) 18–29.

Fleck, L., Tavares, M. H. F., EYNG, E., HELMANN, A. C., Andrade, M. A. M. Redes
Neurais Artificiais: Princípios Básicos. Revista Eletrônica Científica Inovação e
Tecnologia da Universidade Tecnológica Federal do Paraná, v. 1, n. 13, p. 47-57,
jan./jun. 2016.

Gonçalves, G. Comparação de modelos de Machine Learning para previsão de


preço de fechamento de uma ação do setor bancário listada na B3. 2022.

Hamaguti, É. K.; Breve, F. A. Introdução sobre Machine Learning e Deep Learning.


[s.d.]. 11° Jornacitec, 2022.

Haykin, S. Redes Neurais- Princípios e Práticas. BOOKMAN, São Paulo, 2ª ed.


2001. 900 p.

Mitchell, T. M. Machine Learning. New York: McGraw-Hill, 1997.

Monard, M. C.; BARANAUSKAS, J. A. Conceitos sobre Aprendizado de Máquina.


[s.d.].
Oliveira, L. M. R. Inteligência Artificial Aplicada a Detecção de Fake News. São Luís,
2019. Trabalho de Conclusão de Curso - Universidade Federal do Maranhão.

Ramazanu, S., Chiang, V. C. L. Struck by a Storm: Reflections on the Perceived


Uncertainties of Poststroke Recovery. Journal of Neuroscience Nursing 53(3):p
143-144, Junho 2021.

Rezende, S. Sistemas inteligentes: fundamentos e aplicações. [s.l.] Editora Manole


Ltda, 2003.

Silva, C. G. R. Avaliação da Qualidade da Informação na Area da Saúde: Aplicação


de Algoritmos de Aprendizado de Máquina, 2017.

Você também pode gostar