Você está na página 1de 6

Experiências e aprendizado : Estudo de Caso da Pósgraduação de Ciência de dados e saúde

digital da Universidade Federal de Pernambuco, turma 1.

Amy Cruz1, Leonardo Evangelista2; Mabel Lima3; Rafael Gurgel4


1Universidade Federal de Pernambuco, Pernambuco, Brasil
2 Universidade Federal de Pernambuco, Pernambuco, Brasil

3
Universidade Federal de Pernambuco, Pernambuco, Brasil
5
Universidade Federal de Pernambuco, Pernambuco, Brasil
, leonardo.earaujo.pos@ufpe.br, rafael.rgurgel.pos@ufpe.br
Resumo.

Este estudo analisa os resultados do curso de Especialização em Ciências de Dados e Saúde


Digital da Universidade Federal de Pernambuco, focado na aplicação de técnicas de otimização
para melhorar diagnósticos de câncer bucal. Utilizando dados do Instituto Nacional de Câncer e
métodos como Fuzzy C-Means, Partition Membership e Particle Swarm Optimization, o curso
demonstrou como a seleção de atributos influencia positivamente a precisão dos modelos
preditivos. Os resultados destacam os modelos SVM e Random Forest, que atingiram uma precisão
média de 93.13% com o uso completo dos atributos selecionados, enfatizando a importância da
seleção de atributos na eficácia dos modelos de aprendizado de máquina. Este trabalho sublinha
o valor da integração de ciências de dados na prática clínica e na educação interdisciplinar.
Palavras-chave: Ciência de dados, saúde digital, otimização de atributos, diagnóstico de câncer,
aprendizado de máquina.

Abstract.

This study examines the outcomes of the Specialization in Data Science and Digital Health at the
Federal University of Pernambuco, focusing on the application of optimization techniques to improve
oral cancer diagnoses. Utilizing data from the National Cancer Institute and methods such as Fuzzy
C-Means, Partition Membership, and Particle Swarm Optimization, the course demonstrated how
attribute selection positively influences the accuracy of predictive models. The findings highlight the
models SVM and Random Forest, which achieved an average precision of 93.13% with the full use
of selected attributes, emphasizing the importance of attribute selection in the effectiveness of
machine learning models. This work underscores the value of integrating data science in clinical
practice and interdisciplinary education.
Keywords: Data science, digital health, attribute optimization, cancer diagnosis, machine learning.

1. Introdução Pernambuco. A especialização foi


Este documento apresenta os resultados e concebida para fornecer uma plataforma
experiências acumuladas pelos interdisciplinar, combinando uma ampla
estudantes da primeira turma do curso de variedade de conhecimentos e
Especialização em Ciências de Dados e experiências profissionais para enriquecer
Saúde Digital da Universidade Federal de o aprendizado mútuo e a aplicação prática
das competências adquiridas.
1
Iniciado em 10 de abril de 2023, o curso Sobre esses dados foram aplicados Fuzzy
ofereceu 360 horas de formação acadêmica C-Means, Partition Membership e Particle
divididas em diversos módulos que abrangem Swarm Optimization
desde a Introdução à Educação a Distância até
Inteligência Artificial e Reconhecimento de Justificativo (problemática)
Padrões. Com uma classe diversificada de 56 A justificativa para o diagnóstico de câncer
alunos, provenientes de várias áreas do bucal envolve a rápida evolução da
conhecimento e diferentes estágios de carreira
inteligência artificial (IA) e sua aplicação
acadêmica e profissional, o curso foi
cada vez mais frequente na área médica.
estruturado para maximizar a troca de
conhecimentos e fomentar uma compreensão
Isso é particularmente notável na melhoria
abrangente dos desafios e oportunidades na da precisão e eficácia dos diagnósticos de
interseção entre ciência de dados e saúde câncer bucal. Diante do grande volume de
digital. pesquisas publicadas, um artigo de revisão
tem o papel crucial de compilar as
A interação entre alunos de diferentes
informações mais relevantes e recentes,
formações criou um ambiente rico em
apontar as lacunas existentes no
debates e aprendizado coletivo, permitindo
conhecimento atual que necessitam de
que as sessões síncronas, realizadas
investigação futura e contribuir para a
quinzenalmente, evoluíssem para
formulação de políticas públicas e
discussões profundas sobre as aplicações
diretrizes clínicas.
práticas da teoria ensinada. Este artigo
detalha os resultados de aprendizado de Resultados obtidos na classificação
cada módulo e as impressões dos alunos Fuzzy C-Means
sobre sua jornada educacional,
destacando tanto os aspectos positivos O Fuzzy C-Means, Partition Membership e
quanto os desafios enfrentados durante o Particle Swarm Optimization são
curso. algoritmos de aprendizado não
supervisionado que fazem uma
Este relato busca não apenas documentar
clasterização dos dados , eles não são
a experiência da turma, mas também servir classificdores pos se só.
como referência para o aprimoramento
contínuo do programa e para interessados Os resultados das métricas de avaliação
em futuras edições da especialização. de Fuzzy C-Means para cada configuração
de parâmetros são apresentados na tabela
2. DESCRIÇÃO DA SOLUÇÃO a seguir.
n m FPC Silhouett Calinski- Davies- Centroides (PCA)
clusters e Harabasz Bouldin

Metodologia 2 1.5 0.7122 0.2454 74.0324 1.7051 (-1.87, 0.02); (2.04, -0.10)

2 2 0.5368 0.2454 74.0324 1.7051 (-1.14, 0.01); (1.22, -0.05)


Os autores escolheram a base dados do 2 2.5 0.5000 0.2454 74.0324 1.7051 (0.03, -0.00); (-0.03, 0.00)
INCA (Instituto Nacial de Câncer) sendo 3 1.5 0.5166 0.2483 50.3697 2.3723 (-2.27, -0.03); (1.78, -0.05); (1.76, 0.00)
extraido dados direcionados ao câncer de 3 2 0.3620 0.2181 42.9694 1.6581 (0.95, -0.01); (-1.58, -0.04); (0.91, -0.01)

boca, como localização, idade, cor de pele, 3 2.5 0.3334 0.2454 74.0324 1.7051 (0.01, 0.00); (0.09, -0.00); (-0.10, 0.00)

tamanho, genero, consumo de álccol e 4 1.5 0.4376 0.1627 41.4939 2.2981 (-2.02, -0.85); (2.12, -0.51); (2.02, 0.35);
(-2.01, 0.81)
diagnóstico [1]. 4 2 0.2688 0.2454 74.0324 1.7051 (0.77, 0.00); (-1.72, -0.10); (0.71, 0.01);
(0.63, 0.02)
4 2.5 0.2501 0.2454 74.0324 1.7051 (-0.15, 0.00); (0.04, -0.00); (0.10, -0.00);
(0.01, 0.00)

2
Tabela 1: Métricas de avaliação para diferentes proporcionou um aumento significativo na
configurações de n clusters e m, incluindo os
acurácia, devido à sua eficácia em
valores dos centróides dos clusters.
selecionar subconjuntos de dados que
Partition Membership realçam as características importantes
para a classificação. Já no caso do
Antes da aplicação do Partition RandomForest com 50 árvores, a acurácia
Membership permaneceu no seu máximo com a
aplicação do Partion Membership,
J48: A acurácia foi de 91.1392% indicando que o algoritmo já operava no
RandomForest : A acurácia foi de 100% seu potencial máximo sem necessidade de
modificação. Esses resultados sugerem
SVM: A acurácia foi de 84.3882% que o Partition Membership poderia
também beneficiar o desempenho do SVM,
Resultados obtidos após a seleção de promovendo melhorias ou mantendo a alta
atributos eficácia, embora uma confirmação precisa
requeira dados específicos que não estão
Os resultados depois da aplicação de disponíveis.
Partition Membership
Particle Swarm Optimization
J48: A acurácia melhorou para 97.4684%

RandomForest: A acurácia se manteve Os resultados do estudo indicam que os


em 100% modelos SVM e Random Forest, que
SVM utilizaram a totalidade dos atributos
escolhidos pelo PSO (Particle Swarm
Não foi fornecida a acurácia exata após a Optimization), apresentaram o melhor
aplicação do Partition Membership para o desempenho, com uma precisão média de
SVM no snippet fornecido, mas é possível 93.13% nas previsões. Quando a
inferir mudanças baseadas no contexto quantidade de atributos utilizados foi
geral e na natureza das outras melhorias reduzida para 50% e 10%, os modelos
observadas. ainda assim mantiveram uma boa
performance, embora com uma ligeira
A seção de resultados do artigo discute os
queda na precisão.
efeitos da aplicação do Partion
Membership em diferentes algoritmos de Quanto aos modelos SVM que
aprendizado de máquina, embora os empregaram kernels específicos, como o
dados específicos de acurácia para o SVM polinomial de segundo grau e o linear, eles
não estejam disponíveis. Observa-se que, alcançaram resultados moderados, com
mesmo sem esses dados, é possível supor precisões médias de 71.62% e 70.93%,
que houve mudanças no desempenho do respectivamente. Por outro lado, o modelo
SVM, baseando-se nas melhorias vistas SVM que usou o kernel RBF e os modelos
em outros contextos. Para o algoritmo J48, baseados em técnicas Bayesianas, como
a implementação dessa técnica

3
a Bayes Net e o Naive Bayes, exibiram as de partição fuzzy (FPC) ao aumentar o m,
menores precisões dentre os avaliados. as configurações de dois clusters
mantiveram valores altos de FPC,
indicando uma separação mais clara e
definida dos dados. Adicionalmente,
Média da Porcentagem de índices como Silhouette, Calinski-
Modelo Previsões Corretas (%)
Harabasz e Davies-Bouldin, quando
aplicados a dois clusters, mostraram-se
estáveis, sem grande perda de qualidade
SVM Random Forest (100) 93.13
mesmo com alterações em m, sugerindo
uma consistência superior na formação
SVM Random Forest (50) 92.95 dos clusters que não foi vista em
configurações com mais clusters. A análise
dos centróides, especialmente após
SVM Random Forest (10) 91.50 aplicação da PCA, confirmou uma
distinção mais nítida entre eles em duas
configurações de clusters, enquanto um
SVM Kernel Polinomial Grau 2 71.62
aumento no número de clusters tendia a
agrupar alguns centróides, indicando uma
SVM Kernel Linear 70.93 possível subdivisão artificial dos dados.
Com base nesses achados, conclui-se que
para o conjunto de dados em questão, dois
Naive Bayes 66.93 clusters representam o ponto ideal para a
aplicação do fuzzy c-means, otimizando a
clareza na separação dos grupos e
SVM Kernel RBF 61.59
reduzindo a complexidade do modelo,
evitando assim o sobreajuste.
Bayes Net 58.04
Recomenda-se o uso dessa configuração
em análises futuras para uma exploração
mais aprofundada dos padrões nos dados.
No que diz respeito ao tempo de
3. DISCUSSÕES treinamento, observou-se variações antes
e depois da introdução do Partion
Membership, com um aumento notável no
O estudo revelou que o algoritmo fuzzy c-
tempo de treinamento do modelo
means mostra uma interação complexa
RandomForest. Esse aumento, de 0.07
entre o número de clusters, o parâmetro de
para 0.14 segundos, pode ser atribuído ao
fuzzificação m, e diferentes critérios de
processamento adicional necessário
desempenho. Dentre as várias
devido aos dados transformados pelo
configurações analisadas, a que se
Partion Membership, aumentando a
destacou foi a de dois clusters, por várias
complexidade dos dados e o tempo
razões. Em primeiro lugar, foi notado que,
necessário para treinar os modelos. No
apesar da diminuição geral do coeficiente
4
entanto, esse impacto é considerado métodos de clusterização fuzzy para
pequeno e aceitável, dado os ganhos em garantir análises claras e úteis.
acurácia e robustez do modelo. A implementação do algoritmo de
Finalmente, a análise de diversos modelos Membership Partition resultou em
de aprendizado de máquina otimizados via melhorias notáveis na precisão para os
seleção de atributos usando o algoritmo de algoritmos J48 e manteve alto
otimização por enxame de partículas desempenho no RandomForest. Embora
(PSO) revelou insights importantes sobre a não haja dados específicos para o SVM
performance desses modelos em tarefas após a aplicação, a tendência indica
de classificação. Os modelos testados benefícios potenciais. O impacto no tempo
incluíram variações do SVM com de treinamento foi mínimo, justificando o
diferentes kernels, Random Forest com custo computacional adicional devido ao
diferentes níveis de seleção de atributos e aumento de desempenho.
modelos Bayesianos como Bayes Net e A análise conclui que o modelo SVM
Naive Bayes, todos mostrando resultados Random Forest, com todos os atributos
valiosos em termos de eficácia na selecionados pelo PSO, é a opção mais
classificação. promissora devido à sua alta precisão.
Esta escolha é corroborada pela
4. CONSIDERAÇÕES FINAIS performance geralmente alta, mas outras
considerações como complexidade do
modelo, custo computacional, facilidade de
A conclusão do artigo destaca que a
interpretação e requisitos do projeto
escolha de parâmetros como o número de
também devem ser levadas em conta na
clusters e o expoente de ponderação é
seleção do modelo.
crucial para a eficácia dos modelos de
Finalmente, o texto ressalta a eficácia da
clusterização. Estudos demonstraram que
seleção de atributos em aprimorar o
alterações no expoente de ponderação
desempenho dos modelos de aprendizado
afetam significativamente os resultados de
de máquina, reforçando a relevância de
métricas como Fuzzy Partition Coefficient
técnicas de pré-processamento de dados e
(FPC), Silhouette, Calinski-Harabasz e
otimização para o desenvolvimento de
Davies-Bouldin. Por exemplo, um modelo
modelos precisos e eficientes em tarefas
com dois clusters e um expoente de
de classificação.
ponderação de 1.5 mostrou ser muito
eficiente, conforme evidenciado por altos
valores nas métricas mencionadas. No Agradecimentos
entanto, aumentar o número de clusters
não necessariamente melhorou essas Gostaríamos de expressar nossa gratidão
métricas, sugerindo que um número maior a todos que contribuíram para a realização
de clusters pode não ser adequado para deste estudo e o sucesso do curso de
determinados conjuntos de dados. Esses Especialização em Ciências de Dados e
resultados sublinham a importância de Saúde Digital na Universidade Federal de
uma seleção cuidadosa de parâmetros nos Pernambuco. Um agradecimento especial

5
ao corpo docente e aos estudantes da
primeira turma, cujo empenho e dedicação
foram essenciais para o enriquecimento
das discussões e resultados aqui
apresentados. Agradecemos também ao
Instituto Nacional de Câncer (INCA) pela
disponibilização dos dados que formaram
a base deste estudo. Nossa gratidão se
estende aos revisores deste artigo, cujos
comentários e sugestões foram de grande
valia para o aprimoramento do manuscrito.
Por fim, agradecemos ao suporte
financeiro e administrativo da Universidade
Federal de Pernambuco, que foi
fundamental para a execução e sucesso
do programa.
Este trabalho não teria sido possível sem o
ambiente colaborativo e de apoio que
essas organizações e indivíduos
proporcionaram.

REFERÊNCIAS

1. Câncer no Brasil – Dados dos Registros


de Base Populacional. Disponível em:
<https://www.inca.gov.br/publicacoes/li
vros/cancer-no-brasil-dados-dos-
registros-de-base-populacional>.
Acesso em: 9 abr. 2024.
2. SANTANA, G. S. DE et al. Diagnóstico
precoce do câncer bucal com
inteligência artificial: Uma revisão
integrativa. Research, Society and
Development, v. 10, n. 5, p.
e57310513319, 2021.

3. TEMPORÃO, J. G. et al. Desafios


atuais e futuros do uso da medicina de
precisão no acesso ao diagnóstico e
tratamento de câncer no Brasil.
Cadernos de saúde pública, v. 38, n.
10, 2022.

Você também pode gostar