Seminario Aplicacoes KDD Douglas Martins Eric Birkholz Gabriel Burich

Seminário de Aplicações de KDD
Douglas Martins
Erick Birkholz
Gabriel Burich
Enhancing Healthcare through Data Mining
Techniques
KUMAR, Sobhit; KUMAR, Rahul. Enhancing Healthcare through

Data Mining Techniques. The Computer Bulletin. Oxônia, p. 210-
217. jun. 2023.
08/08/2023
Problema
• Atualmente 145 milhões de pessoas no mundo têm diabetes.
• 5% da população da índia possui esta doença.
• Estágios avançados podem causar cegueira, problemas no coração, etc.
• O diagnóstico da diabetes e a identificação do tipo (I ou II) é um problema.
• Um médico deve analisar muitos fatores antes do diagnóstico real do

diabetes, levando a uma tarefa difícil.
08/08/2023
Solução proposta
• O uso de algoritmos de mineração de dados em grandes massas de dados
relacionados à saúde podem ajudar a identificar padrões e trazer “insights” a
médicos.
• Esses métodos são de grande ajuda na área de diagnóstico médico.
• A solução proposta é um projeto de detecção automatizada de diabéticos

usando técnicas de aprendizado de máquina e mineração de dados.
• Também se propõe em usar diferentes algoritmos e realizar uma

comparação entre eles.
08/08/2023
Algoritmos utilizados
• Foram utilizados algoritmos de classificação e clusterização:
• Gaussian Naïve Bayes (Probabilistic Classification):
• Fácil implementação, não requer treinamento, possível de utilizar com dados em
tempo real.
• OPTICS Algorithm (Ordering Points to Identify Cluster Structure):

• Algoritmo para encontrar agrupamentos baseados em densidade.
• BIRCH Algorithm (Balanced Iterative Reducing and Clustering using

Hierarchies)
• Algoritmo capaz de sumarizar um grande dataset
08/08/2023
Comparação entre algoritmos
• Foi calculado usando precisão, recall e pontuações F1.
• A precisão usada para determinar quando os valores de Falso Positivo são
altos.
• O recall calcula o percentual dos dados realmente positivos rotulados como
Positivos
• Pontuação F1 calculada com base na precisão e recall com a finalidade de
calcular a qualidade geral do modelo.
O algoritmo identificado como melhor para o

problema é o Optics
08/08/2023
Resultados
• Demonstra a utilidade de algoritmos de mineração de dados (Naïve Bayes Gaussiano, BIRCH e
OPTICS) na previsão da doença diabética.
• Uso de BIRCH e OPTICS para agrupar pessoas semelhantes.
• Observação de que o OPTICS é eficiente para o diagnóstico de diabetes quando comparado a

diferentes técnicas de agrupamento.
• O trabalho auxilia médicos no diagnóstico precoce e tratamento da doença, visando redução de

custos e tratamento mais eficaz; perspectiva de expansão para mais algoritmos de classificação
no futuro.
(Afirmação dos autores sem validações)
08/08/2023
Machine learning and data mining in
manufacturing
Dogan A, Birant D. Machine learning and data mining in

manufacturing. Expert Systems with Applications. 2021 Mar
15;166:114060.
08/08/2023
Problemática
• As fábricas modernas usam poderosos sistemas de aquisição de dados para coletar
e transferir eletronicamente dados de quase todos os processos da organização.
• Muitas variáveis de fabricação são continuamente medidas em vários estágios e
seus valores são armazenados nos bancos de dados das organizações.
• Esses dados podem estar relacionados às características dos produtos, máquinas,
linha de produção (ou seja, qual máquina foi usada com quais parâmetros de
configuração), os recursos humanos que operam a linha de produção (ou seja, o
nível de experiência do trabalhador, tipo de turno) , matérias-primas que são
utilizadas no processo, meio ambiente (umidade, temperatura, etc.), sensores
acoplados às máquinas (vibração, força, pressão, tensão, etc.), falhas/manutenções
das máquinas, qualidade do produto e outros fatores.
08/08/2023
Problema
• Como gerar valor sobre todos estes dados coletados e catalogado de
diferentes formas em diferentes databases, com diferentes tamanhos e
formatações?
08/08/2023
Solução
• Uso de Machine Learning para o Data Mining seguindo estudo aplicado com
KDD para realizar o método proposto é realizado em três fases:
• Na primeira etapa, os classificadores de vetores de suporte (SVM) são
implementados com quatro métodos kernel diferentes, como função linear, função
polinomial, função de base radial e funções sigmóides para classificar itens de dados.
• Na segunda etapa, a avaliação do subconjunto do classificador é aplicada à seleção
de recursos, juntamente com a classificação SVM para otimizar os vetores de recursos
e isso obtém a precisão máxima.
• Na terceira etapa, introduzindo uma nova abordagem do kernel que gera a máxima
precisão na classificação em comparação com os outros quatro métodos do kernel.
08/08/2023
Algoritmos utilizados
• Abordagem Supervisionada:
• Esta abordagem utiliza técnicas de
processamento de texto e imagens
juntamente com algoritmos de
aprendizado de máquina supervisionada
que fazem uso de frases e imagens já
rotuladas que servem para treinamento
e teste, chamadas de modelos. Com isto,
novos textos e imagens podem ser
classificados utilizando os modelos já
treinados
• Deep learning, Ensemble learning e
Linkage learning
08/08/2023
Resultado
• Sistemas inteligentes para apoiar a tomada de decisão eficaz
• Programas para agendar linha de produção simultânea
• Insights para manutenção de máquinas e previsão de falha
• Seletor automático com base em contexto e avaliação da qualidade
do produto
• Estimativa do consumo de energia das máquinas
• Detecção de defeitos....
08/08/2023
Identifying the Most Important Factors in Determining the
Osteoporosis in Women Using Data Mining Techniques
SALAMAT, Mohammadreza; SALAMAT, Amirhossein; SATTARI,

Mohammad; ASGARI, Mehdi. Identifying the Most Important
Factors in Determining the Osteoporosis in Women Using Data
Mining Techniques. Acta Medica Iranica. DOI,
10.18502/acta.v61i4.13174. jul. 2023.
08/08/2023
Problema
• Predição e identificação de osteoporose
• Identificar as características que influenciam o desenvolvimento da doença
• Risco de osteoporose em mulheres
• Osteoporose é quatro vezes mais comum em mulheres do que em homens
• Dados incompletos e pré-processamento
• Presença de dados incompletos no conjunto de dados
• Seleção de características relevantes
• Entender quais fatores estão associados à doença e a desenvolver modelos mais
eficazes
• Interpretabilidade dos resultados
• Compreender como as características selecionadas estão relacionadas à osteoporose
é fundamental para tornar os resultados úteis
08/08/2023
Algoritmos
• Random Forest (Floresta Aleatória)
• Aprendizado de máquina que cria várias árvores de decisão aleatórias e combina suas previsões para obter um
resultado mais robusto e geralmente mais preciso
• Decision Tree (Árvore de Decisão)
• Estruturas hierárquicas que ajudam a tomar decisões com base em várias condições. Segue um fluxo de "sim" ou "não"
• Support Vector Machine (Máquina de Vetores de Suporte)
• Classificação que procura encontrar um hiperplano que melhor separa as classes de dados no espaço multidimensional.
Utilizado para classificação binária
• Neural Network (Rede Neural)
• Modelos inspirados no funcionamento do cérebro humano*
• Naive Bayes
• Probabilístico que se baseia no Teorema de Bayes para calcular a probabilidade condicional das classes com base nas
características dos dados
• Linear Regression (Regressão Linear)
• Método de análise estatística que modela a relação entre uma variável dependente e uma ou mais variáveis
independentes. Usado tanto para previsão quanto para entender a relação entre as variáveis
08/08/2023
Dataset
• Mulheres
• 8.258 (2011 — 2019)
• 6.766 tem osteopenia
• 1.428 não tinham
08/08/2023
Critérios para resultados
• Acurácia (Accuracy)
• Mede a proporção de previsões corretas em relação ao total de previsões feitas.
Quanto maior a acurácia, mais precisas são as previsões do modelo
• Precisão (Precision)
• Proporção de previsões positivas corretas (verdadeiros positivos) em relação ao total
de previsões positivas feitas (verdadeiros positivos + falsos positivos). Ela indica a
capacidade do modelo de evitar falsos positivos
• Área Sob a Curva (AUC)
• Avalia o desempenho geral do modelo, considerando tanto a taxa de verdadeiros
positivos quanto a taxa de falsos positivos em diferentes limiares de classificação.
Quanto maior a AUC, melhor é a capacidade do modelo de distinguir entre classes
positivas e negativas
08/08/2023
Resultados
08/08/2023
Conclusão
• Pessoas com mais de 50 anos, pode ser prevista com sucesso usando
técnicas de mineração de dados
• Support Vector Machine obteve o melhor desempenho
• Seguido por outros métodos como Decision Tree e Neural Network, em termos de
acurácia e AUC de precisão
• Características mais relevantes para a previsão da osteoporose:
• Idade, peso, dor nas costas, atividade física baixa, fratura anterior e data da
menopausa
• Ajudando a identificar pacientes em risco de osteoporose e tomar medidas
preventivas para reduzir a probabilidade de desenvolver a doença
08/08/2023
Seminário de Aplicações de KDD
Douglas Martins
Erick Birkholz
Gabriel Burich

Seminario Aplicacoes KDD Douglas Martins Eric Birkholz Gabriel Burich

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Seminario Aplicacoes KDD Douglas Martins Eric Birkholz Gabriel Burich

Enviado por

Direitos autorais:

Formatos disponíveis

Seminário de Aplicações de KDD

KUMAR, Sobhit; KUMAR, Rahul. Enhancing Healthcare through

• 5% da população da índia possui esta doença.

• Estágios avançados podem causar cegueira, problemas no coração, etc.

• O diagnóstico da diabetes e a identificação do tipo (I ou II) é um problema.

• Um médico deve analisar muitos fatores antes do diagnóstico real do

• Esses métodos são de grande ajuda na área de diagnóstico médico.

• A solução proposta é um projeto de detecção automatizada de diabéticos

• Também se propõe em usar diferentes algoritmos e realizar uma

• OPTICS Algorithm (Ordering Points to Identify Cluster Structure):

• BIRCH Algorithm (Balanced Iterative Reducing and Clustering using

O algoritmo identificado como melhor para o

• Uso de BIRCH e OPTICS para agrupar pessoas semelhantes.

• Observação de que o OPTICS é eficiente para o diagnóstico de diabetes quando comparado a

• O trabalho auxilia médicos no diagnóstico precoce e tratamento da doença, visando redução de

Dogan A, Birant D. Machine learning and data mining in

SALAMAT, Mohammadreza; SALAMAT, Amirhossein; SATTARI,

Você também pode gostar