Você está na página 1de 21

Seminário de Aplicações de KDD

Douglas Martins
Erick Birkholz
Gabriel Burich
Enhancing Healthcare through Data Mining
Techniques

KUMAR, Sobhit; KUMAR, Rahul. Enhancing Healthcare through


Data Mining Techniques. The Computer Bulletin. Oxônia, p. 210-
217. jun. 2023.

08/08/2023
Problema
• Atualmente 145 milhões de pessoas no mundo têm diabetes.

• 5% da população da índia possui esta doença.

• Estágios avançados podem causar cegueira, problemas no coração, etc.

• O diagnóstico da diabetes e a identificação do tipo (I ou II) é um problema.

• Um médico deve analisar muitos fatores antes do diagnóstico real do


diabetes, levando a uma tarefa difícil.

08/08/2023
Solução proposta
• O uso de algoritmos de mineração de dados em grandes massas de dados
relacionados à saúde podem ajudar a identificar padrões e trazer “insights” a
médicos.

• Esses métodos são de grande ajuda na área de diagnóstico médico.

• A solução proposta é um projeto de detecção automatizada de diabéticos


usando técnicas de aprendizado de máquina e mineração de dados.

• Também se propõe em usar diferentes algoritmos e realizar uma


comparação entre eles.

08/08/2023
Algoritmos utilizados
• Foram utilizados algoritmos de classificação e clusterização:
• Gaussian Naïve Bayes (Probabilistic Classification):
• Fácil implementação, não requer treinamento, possível de utilizar com dados em
tempo real.

• OPTICS Algorithm (Ordering Points to Identify Cluster Structure):


• Algoritmo para encontrar agrupamentos baseados em densidade.

• BIRCH Algorithm (Balanced Iterative Reducing and Clustering using


Hierarchies)
• Algoritmo capaz de sumarizar um grande dataset

08/08/2023
Comparação entre algoritmos
• Foi calculado usando precisão, recall e pontuações F1.
• A precisão usada para determinar quando os valores de Falso Positivo são
altos.
• O recall calcula o percentual dos dados realmente positivos rotulados como
Positivos
• Pontuação F1 calculada com base na precisão e recall com a finalidade de
calcular a qualidade geral do modelo.

O algoritmo identificado como melhor para o


problema é o Optics

08/08/2023
Resultados
• Demonstra a utilidade de algoritmos de mineração de dados (Naïve Bayes Gaussiano, BIRCH e
OPTICS) na previsão da doença diabética.

• Uso de BIRCH e OPTICS para agrupar pessoas semelhantes.

• Observação de que o OPTICS é eficiente para o diagnóstico de diabetes quando comparado a


diferentes técnicas de agrupamento.

• O trabalho auxilia médicos no diagnóstico precoce e tratamento da doença, visando redução de


custos e tratamento mais eficaz; perspectiva de expansão para mais algoritmos de classificação
no futuro.
(Afirmação dos autores sem validações)

08/08/2023
Machine learning and data mining in
manufacturing

Dogan A, Birant D. Machine learning and data mining in


manufacturing. Expert Systems with Applications. 2021 Mar
15;166:114060.

08/08/2023
Problemática
• As fábricas modernas usam poderosos sistemas de aquisição de dados para coletar
e transferir eletronicamente dados de quase todos os processos da organização.
• Muitas variáveis de fabricação são continuamente medidas em vários estágios e
seus valores são armazenados nos bancos de dados das organizações.
• Esses dados podem estar relacionados às características dos produtos, máquinas,
linha de produção (ou seja, qual máquina foi usada com quais parâmetros de
configuração), os recursos humanos que operam a linha de produção (ou seja, o
nível de experiência do trabalhador, tipo de turno) , matérias-primas que são
utilizadas no processo, meio ambiente (umidade, temperatura, etc.), sensores
acoplados às máquinas (vibração, força, pressão, tensão, etc.), falhas/manutenções
das máquinas, qualidade do produto e outros fatores.

08/08/2023
Problema
• Como gerar valor sobre todos estes dados coletados e catalogado de
diferentes formas em diferentes databases, com diferentes tamanhos e
formatações?

08/08/2023
Solução
• Uso de Machine Learning para o Data Mining seguindo estudo aplicado com
KDD para realizar o método proposto é realizado em três fases:
• Na primeira etapa, os classificadores de vetores de suporte (SVM) são
implementados com quatro métodos kernel diferentes, como função linear, função
polinomial, função de base radial e funções sigmóides para classificar itens de dados.
• Na segunda etapa, a avaliação do subconjunto do classificador é aplicada à seleção
de recursos, juntamente com a classificação SVM para otimizar os vetores de recursos
e isso obtém a precisão máxima.
• Na terceira etapa, introduzindo uma nova abordagem do kernel que gera a máxima
precisão na classificação em comparação com os outros quatro métodos do kernel.

08/08/2023
Algoritmos utilizados
• Abordagem Supervisionada:
• Esta abordagem utiliza técnicas de
processamento de texto e imagens
juntamente com algoritmos de
aprendizado de máquina supervisionada
que fazem uso de frases e imagens já
rotuladas que servem para treinamento
e teste, chamadas de modelos. Com isto,
novos textos e imagens podem ser
classificados utilizando os modelos já
treinados
• Deep learning, Ensemble learning e
Linkage learning

08/08/2023
Resultado
• Sistemas inteligentes para apoiar a tomada de decisão eficaz
• Programas para agendar linha de produção simultânea
• Insights para manutenção de máquinas e previsão de falha
• Seletor automático com base em contexto e avaliação da qualidade
do produto
• Estimativa do consumo de energia das máquinas
• Detecção de defeitos....

08/08/2023
Identifying the Most Important Factors in Determining the
Osteoporosis in Women Using Data Mining Techniques

SALAMAT, Mohammadreza; SALAMAT, Amirhossein; SATTARI,


Mohammad; ASGARI, Mehdi. Identifying the Most Important
Factors in Determining the Osteoporosis in Women Using Data
Mining Techniques. Acta Medica Iranica. DOI,
10.18502/acta.v61i4.13174. jul. 2023.

08/08/2023
Problema
• Predição e identificação de osteoporose
• Identificar as características que influenciam o desenvolvimento da doença
• Risco de osteoporose em mulheres
• Osteoporose é quatro vezes mais comum em mulheres do que em homens
• Dados incompletos e pré-processamento
• Presença de dados incompletos no conjunto de dados
• Seleção de características relevantes
• Entender quais fatores estão associados à doença e a desenvolver modelos mais
eficazes
• Interpretabilidade dos resultados
• Compreender como as características selecionadas estão relacionadas à osteoporose
é fundamental para tornar os resultados úteis

08/08/2023
Algoritmos
• Random Forest (Floresta Aleatória)
• Aprendizado de máquina que cria várias árvores de decisão aleatórias e combina suas previsões para obter um
resultado mais robusto e geralmente mais preciso
• Decision Tree (Árvore de Decisão)
• Estruturas hierárquicas que ajudam a tomar decisões com base em várias condições. Segue um fluxo de "sim" ou "não"
• Support Vector Machine (Máquina de Vetores de Suporte)
• Classificação que procura encontrar um hiperplano que melhor separa as classes de dados no espaço multidimensional.
Utilizado para classificação binária
• Neural Network (Rede Neural)
• Modelos inspirados no funcionamento do cérebro humano*
• Naive Bayes
• Probabilístico que se baseia no Teorema de Bayes para calcular a probabilidade condicional das classes com base nas
características dos dados
• Linear Regression (Regressão Linear)
• Método de análise estatística que modela a relação entre uma variável dependente e uma ou mais variáveis
independentes. Usado tanto para previsão quanto para entender a relação entre as variáveis

08/08/2023
Dataset
• Mulheres
• 8.258 (2011 — 2019)
• 6.766 tem osteopenia
• 1.428 não tinham

08/08/2023
Critérios para resultados
• Acurácia (Accuracy)
• Mede a proporção de previsões corretas em relação ao total de previsões feitas.
Quanto maior a acurácia, mais precisas são as previsões do modelo
• Precisão (Precision)
• Proporção de previsões positivas corretas (verdadeiros positivos) em relação ao total
de previsões positivas feitas (verdadeiros positivos + falsos positivos). Ela indica a
capacidade do modelo de evitar falsos positivos
• Área Sob a Curva (AUC)
• Avalia o desempenho geral do modelo, considerando tanto a taxa de verdadeiros
positivos quanto a taxa de falsos positivos em diferentes limiares de classificação.
Quanto maior a AUC, melhor é a capacidade do modelo de distinguir entre classes
positivas e negativas

08/08/2023
Resultados

08/08/2023
Conclusão
• Pessoas com mais de 50 anos, pode ser prevista com sucesso usando
técnicas de mineração de dados
• Support Vector Machine obteve o melhor desempenho
• Seguido por outros métodos como Decision Tree e Neural Network, em termos de
acurácia e AUC de precisão
• Características mais relevantes para a previsão da osteoporose:
• Idade, peso, dor nas costas, atividade física baixa, fratura anterior e data da
menopausa
• Ajudando a identificar pacientes em risco de osteoporose e tomar medidas
preventivas para reduzir a probabilidade de desenvolver a doença

08/08/2023
Seminário de Aplicações de KDD

Douglas Martins
Erick Birkholz
Gabriel Burich

Você também pode gostar