Você está na página 1de 5

Experiêcias e aprendizado : Estudo de Caso da Pósgraduação de Ciência de

dados e saúde digital da Universidade Federal de Pernambuco, turma 1.


Amy Cruz1, Leonardo Evangelista2; Mabel Lima3; Rafael Gurgel4
1
Universidade Federal de Pernambuco, Pernambuco, Brasil
2
Universidade Federal de Pernambuco, Pernambuco, Brasil
3
Universidade Federal de Pernambuco, Pernambuco, Brasil
5
Universidade Federal de Pernambuco, Pernambuco, Brasil
lopescruz1986@gmail.com, mabelmartinslima@gmail.com, leonardo.earaujo.pos@ufpe.br,
rafael.rgurgel.pos@ufpe.br
Resumo.
Este estudo analisa os resultados do curso de Especialização em Ciências de Dados e Saúde Digital da
Universidade Federal de Pernambuco, focado na aplicação de técnicas de otimização para melhorar
diagnósticos de câncer bucal. Utilizando dados do Instituto Nacional de Câncer e métodos como Fuzzy C-
Means, Partition Membership e Particle Swarm Optimization, o curso demonstrou como a seleção de
atributos influencia positivamente a precisão dos modelos preditivos. Os resultados destacam o SVM
Random Forest, que atingiu uma precisão de 93.13% com o uso completo dos atributos selecionados,
enfatizando a importância da seleção de atributos na eficácia dos modelos de aprendizado de máquina.
Este trabalho sublinha o valor da integração de ciências de dados na prática clínica e na educação
interdisciplinar.
Palavras-chave: Ciência de dados, saúde digital, otimização de atributos, diagnóstico de câncer,
aprendizado de máquina.

Abstract.
This study examines the outcomes of the Specialization in Data Science and Digital Health at the Federal
University of Pernambuco, focusing on the application of optimization techniques to improve oral cancer
diagnoses. Utilizing data from the National Cancer Institute and methods such as Fuzzy C-Means, Partition
Membership, and Particle Swarm Optimization, the course demonstrated how attribute selection positively
influences the accuracy of predictive models. The findings highlight the SVM Random Forest, which
achieved a precision of 93.13% with the full use of selected attributes, emphasizing the importance of
attribute selection in the effectiveness of machine learning models. This work underscores the value of
integrating data science in clinical practice and interdisciplinary education.
Keywords: Data science, digital health, attribute optimization, cancer diagnosis, machine learning.

1. Introdução aprendizado mútuo e a aplicação prática das


Este documento apresenta os resultados e competências adquiridas.
experiências acumuladas pelos estudantes da Iniciado em 10 de abril de 2023, o curso ofereceu
primeira turma do curso de Especialização em 360 horas de formação acadêmica divididas em
Ciências de Dados e Saúde Digital da diversos módulos que abrangem desde a
Universidade Federal de Pernambuco. A Introdução à Educação a Distância até
especialização foi concebida para fornecer uma Inteligência Artificial e Reconhecimento de
plataforma interdisciplinar, combinando uma Padrões. Com uma classe diversificada de 56
ampla variedade de conhecimentos e alunos, provenientes de várias áreas do
experiências profissionais para enriquecer o conhecimento e diferentes estágios de carreira
acadêmica e profissional, o curso foi estruturado
para maximizar a troca de conhecimentos e
1
fomentar uma compreensão abrangente dos O Fuzzy C-Means, Partition Membership e
desafios e oportunidades na interseção entre Particle Swarm Optimization são algoritmos de
ciência de dados e saúde digital. aprendizado não supervisionado que fazem uma
clasterização dos dados , eles não são
A interação entre alunos de diferentes formações
classificdores pos se só.
criou um ambiente rico em debates e aprendizado
coletivo, permitindo que as sessões síncronas, Os resultados das métricas de avaliação de Fuzzy
realizadas quinzenalmente, evoluíssem para C-Means para cada configuração de parâmetros
discussões profundas sobre as aplicações são apresentados na tabela a seguir.
práticas da teoria ensinada. Este artigo detalha os n m FPC Silhouett Calinski- Davies- Centroides (PCA)
clusters e Harabasz Bouldin
resultados de aprendizado de cada módulo e as 2 1.5 0.7122 0.2454 74.0324 1.7051 (-1.87, 0.02); (2.04, -0.10)

impressões dos alunos sobre sua jornada 2 2 0.5368 0.2454 74.0324 1.7051 (-1.14, 0.01); (1.22, -0.05)

educacional, destacando tanto os aspectos 2 2.5 0.5000 0.2454 74.0324 1.7051 (0.03, -0.00); (-0.03, 0.00)

positivos quanto os desafios enfrentados durante 3 1.5 0.5166 0.2483 50.3697 2.3723 (-2.27, -0.03); (1.78, -0.05); (1.76, 0.00)

3 2 0.3620 0.2181 42.9694 1.6581 (0.95, -0.01); (-1.58, -0.04); (0.91, -0.01)
o curso.
3 2.5 0.3334 0.2454 74.0324 1.7051 (0.01, 0.00); (0.09, -0.00); (-0.10, 0.00)
Este relato busca não apenas documentar a 4 1.5 0.4376 0.1627 41.4939 2.2981 (-2.02, -0.85); (2.12, -0.51); (2.02, 0.35);
(-2.01, 0.81)
experiência da turma, mas também servir como 4 2 0.2688 0.2454 74.0324 1.7051 (0.77, 0.00); (-1.72, -0.10); (0.71, 0.01);
(0.63, 0.02)
referência para o aprimoramento contínuo do 4 2.5 0.2501 0.2454 74.0324 1.7051 (-0.15, 0.00); (0.04, -0.00); (0.10, -0.00);
(0.01, 0.00)
programa e para interessados em futuras edições
da especialização. Tabela 1: Métricas de avalia¸c˜ao para diferentes
configura¸c˜oes de n clusters e m, incluindo os valores
2. DESCRIÇÃO DA SOLUÇÃO dos centr´oides dos clusters.

Partition Membership

Metodologia
Antes da aplicação do Partition Membership
Os autores escolheram a base dados do INCA
(Instituto Nacial de Câncer) sendo extraido dados J48: A acurácia foi de 91.1392%
direcionados ao câncer de boca, como
localização, idade, cor de pele, tamanho, genero, RandomForest : A acurácia foi de 100%
consumo de álccol e diagnóstico [1].
SVM: A acurácia foi de 84.3882%
Sobre esses dados foram aplicados Fuzzy C-
Means, Partition Membership e Particle Swarm Resultados obtidos após a seleção de
Optimization atributos

Justificativo (problemática) Os resultados depois da aplicação de Partition


A justificativa para o diagnóstico de câncer bucal Membership
envolve a rápida evolução da inteligência artificial J48: A acurácia melhorou para 97.4684%
(IA) e sua aplicação cada vez mais frequente na
área médica. Isso é particularmente notável na RandomForest: A acurácia se manteve em 100%
melhoria da precisão e eficácia dos diagnósticos
de câncer bucal. Diante do grande volume de SVM
pesquisas publicadas, um artigo de revisão tem o
Não foi fornecida a acurácia exata após a
papel crucial de compilar as informações mais aplicação do Partion Membership para o SVM no
relevantes e recentes, apontar as lacunas snippet fornecido, mas é possível inferir
existentes no conhecimento atual que necessitam mudanças baseadas no contexto geral e na
de investigação futura e contribuir para a natureza das outras melhorias observadas.
formulação de políticas públicas e diretrizes
clínicas. A seção de resultados do artigo discute os efeitos
Resultados obtidos na classificação da aplicação do Partion Membership em
diferentes algoritmos de aprendizado de máquina,
Fuzzy C-Means
embora os dados específicos de acurácia para o
2
SVM não estejam disponíveis. Observa-se que,
mesmo sem esses dados, é possível supor que
houve mudanças no desempenho do SVM, Média da Porcentagem de
baseando-se nas melhorias vistas em outros Modelo Previsões Corretas (%)
contextos. Para o algoritmo J48, a implementação
dessa técnica proporcionou um aumento
significativo na acurácia, devido à sua eficácia em
SVM Random Forest (100) 93.13
selecionar subconjuntos de dados que realçam as
características importantes para a classificação.
Já no caso do RandomForest com 50 árvores, a
SVM Random Forest (50) 92.95
acurácia permaneceu no seu máximo com a
aplicação do Partion Membership, indicando que o
algoritmo já operava no seu potencial máximo
sem necessidade de modificação. Esses SVM Random Forest (10) 91.50

resultados sugerem que o Partion Membership


poderia também beneficiar o desempenho do
SVM, promovendo melhorias ou mantendo a alta SVM Kernel Polinomial Grau 2 71.62
eficácia, embora uma confirmação precisa
requeira dados específicos que não estão
disponíveis. SVM Kernel Linear 70.93

Particle Swarm Optimization

Naive Bayes 66.93


Os resultados do estudo indicam que os modelos
SVM e Random Forest, que utilizaram a totalidade
dos atributos escolhidos pelo PSO (Particle SVM Kernel RBF 61.59
Swarm Optimization), apresentaram o melhor
desempenho, com uma precisão média de
93.13% nas previsões. Quando a quantidade de
Bayes Net 58.04
atributos utilizados foi reduzida para 50% e 10%,
os modelos ainda assim mantiveram uma boa
performance, embora com uma ligeira queda na
precisão.
3. DISCUSSÕES
Quanto aos modelos SVM que empregaram
kernels específicos, como o polinomial de
O estudo revelou que o algoritmo fuzzy c-means
segundo grau e o linear, eles alcançaram
mostra uma interação complexa entre o número
resultados moderados, com precisões médias de
de clusters, o parâmetro de fuzzificação m, e
71.62% e 70.93%, respectivamente. Por outro
diferentes critérios de desempenho. Dentre as
lado, o modelo SVM que usou o kernel RBF e os
várias configurações analisadas, a que se
modelos baseados em técnicas Bayesianas, como
destacou foi a de dois clusters, por várias razões.
a Bayes Net e o Naive Bayes, exibiram as
Em primeiro lugar, foi notado que, apesar da
menores precisões dentre os avaliados.
diminuição geral do coeficiente de partição fuzzy
(FPC) ao aumentar o m, as configurações de dois
clusters mantiveram valores altos de FPC,
indicando uma separação mais clara e definida
dos dados. Adicionalmente, índices como
Silhouette, Calinski-Harabasz e Davies-Bouldin,
quando aplicados a dois clusters, mostraram-se
estáveis, sem grande perda de qualidade mesmo
3
com alterações em m, sugerindo uma expoente de ponderação é crucial para a eficácia
consistência superior na formação dos clusters dos modelos de clusterização. Estudos
que não foi vista em configurações com mais demonstraram que alterações no expoente de
clusters. A análise dos centróides, especialmente ponderação afetam significativamente os
após aplicação da PCA, confirmou uma distinção resultados de métricas como Fuzzy Partition
mais nítida entre eles em duas configurações de Coefficient (FPC), Silhouette, Calinski-Harabasz e
clusters, enquanto um aumento no número de Davies-Bouldin. Por exemplo, um modelo com
clusters tendia a agrupar alguns centróides, dois clusters e um expoente de ponderação de 1.5
indicando uma possível subdivisão artificial dos mostrou ser muito eficiente, conforme evidenciado
dados. Com base nesses achados, conclui-se que por altos valores nas métricas mencionadas. No
para o conjunto de dados em questão, dois entanto, aumentar o número de clusters não
clusters representam o ponto ideal para a necessariamente melhorou essas métricas,
aplicação do fuzzy c-means, otimizando a clareza sugerindo que um número maior de clusters pode
na separação dos grupos e reduzindo a não ser adequado para determinados conjuntos
complexidade do modelo, evitando assim o de dados. Esses resultados sublinham a
sobreajuste. Recomenda-se o uso dessa importância de uma seleção cuidadosa de
configuração em análises futuras para uma parâmetros nos métodos de clusterização fuzzy
exploração mais aprofundada dos padrões nos para garantir análises claras e úteis.
dados. A implementação do algoritmo de Membership
No que diz respeito ao tempo de treinamento, Partition resultou em melhorias notáveis na
observou-se variações antes e depois da precisão para os algoritmos J48 e manteve alto
introdução do Partion Membership, com um desempenho no RandomForest. Embora não haja
aumento notável no tempo de treinamento do dados específicos para o SVM após a aplicação, a
modelo RandomForest. Esse aumento, de 0.07 tendência indica benefícios potenciais. O impacto
para 0.14 segundos, pode ser atribuído ao no tempo de treinamento foi mínimo, justificando o
processamento adicional necessário devido aos custo computacional adicional devido ao aumento
dados transformados pelo Partion Membership, de desempenho.
aumentando a complexidade dos dados e o tempo A análise conclui que o modelo SVM Random
necessário para treinar os modelos. No entanto, Forest, com todos os atributos selecionados pelo
esse impacto é considerado pequeno e aceitável, PSO, é a opção mais promissora devido à sua
dado os ganhos em acurácia e robustez do alta precisão. Esta escolha é corroborada pela
modelo. performance geralmente alta, mas outras
Finalmente, a análise de diversos modelos de considerações como complexidade do modelo,
aprendizado de máquina otimizados via seleção custo computacional, facilidade de interpretação e
de atributos usando o algoritmo de otimização por requisitos do projeto também devem ser levadas
enxame de partículas (PSO) revelou insights em conta na seleção do modelo.
importantes sobre a performance desses modelos Finalmente, o texto ressalta a eficácia da seleção
em tarefas de classificação. Os modelos testados de atributos em aprimorar o desempenho dos
incluíram variações do SVM com diferentes modelos de aprendizado de máquina, reforçando
kernels, Random Forest com diferentes níveis de a relevância de técnicas de pré-processamento de
seleção de atributos e modelos Bayesianos como dados e otimização para o desenvolvimento de
Bayes Net e Naive Bayes, todos mostrando modelos precisos e eficientes em tarefas de
resultados valiosos em termos de eficácia na classificação.
classificação.
Agradecimentos
4. CONSIDERAÇÕES FINAIS
Gostaríamos de expressar nossa gratidão a todos
que contribuíram para a realização deste estudo e
A conclusão do artigo destaca que a escolha de o sucesso do curso de Especialização em
parâmetros como o número de clusters e o Ciências de Dados e Saúde Digital na
Universidade Federal de Pernambuco. Um
4
agradecimento especial ao corpo docente e aos
estudantes da primeira turma, cujo empenho e
dedicação foram essenciais para o
enriquecimento das discussões e resultados aqui
apresentados. Agradecemos também ao Instituto
Nacional de Câncer (INCA) pela disponibilização
dos dados que formaram a base deste estudo.
Nossa gratidão se estende aos revisores deste
artigo, cujos comentários e sugestões foram de
grande valia para o aprimoramento do manuscrito.
Por fim, agradecemos ao suporte financeiro e
administrativo da Universidade Federal de
Pernambuco, que foi fundamental para a
execução e sucesso do programa.
Este trabalho não teria sido possível sem o
ambiente colaborativo e de apoio que essas
organizações e indivíduos proporcionaram.

REFERÊNCIAS

1. Câncer no Brasil – Dados dos Registros de


Base Populacional. Disponível em:
<https://www.inca.gov.br/publicacoes/livros/ca
ncer-no-brasil-dados-dos-registros-de-base-
populacional>. Acesso em: 9 abr. 2024.
2. SANTANA, G. S. DE et al. Diagnóstico
precoce do câncer bucal com inteligência
artificial: Uma revisão integrativa. Research,
Society and Development, v. 10, n. 5, p.
e57310513319, 2021.

3. TEMPORÃO, J. G. et al. Desafios atuais e


futuros do uso da medicina de precisão no
acesso ao diagnóstico e tratamento de câncer
no Brasil. Cadernos de saúde pública, v. 38, n.
10, 2022.

Você também pode gostar