Escolar Documentos
Profissional Documentos
Cultura Documentos
Douglas Martins
Erick Birkholz
Gabriel Burich
Enhancing Healthcare through Data Mining
Techniques
08/08/2023
Problema
• Atualmente 145 milhões de pessoas no mundo têm diabetes.
08/08/2023
Solução proposta
• O uso de algoritmos de mineração de dados em grandes massas de dados
relacionados à saúde podem ajudar a identificar padrões e trazer “insights” a
médicos.
08/08/2023
Algoritmos utilizados
• Foram utilizados algoritmos de classificação e clusterização:
• Gaussian Naïve Bayes (Probabilistic Classification):
• Fácil implementação, não requer treinamento, possível de utilizar com dados em
tempo real.
08/08/2023
Comparação entre algoritmos
• Foi calculado usando precisão, recall e pontuações F1.
• A precisão usada para determinar quando os valores de Falso Positivo são
altos.
• O recall calcula o percentual dos dados realmente positivos rotulados como
Positivos
• Pontuação F1 calculada com base na precisão e recall com a finalidade de
calcular a qualidade geral do modelo.
08/08/2023
Resultados
• Demonstra a utilidade de algoritmos de mineração de dados (Naïve Bayes Gaussiano, BIRCH e
OPTICS) na previsão da doença diabética.
08/08/2023
Machine learning and data mining in
manufacturing
08/08/2023
Problemática
• As fábricas modernas usam poderosos sistemas de aquisição de dados para coletar
e transferir eletronicamente dados de quase todos os processos da organização.
• Muitas variáveis de fabricação são continuamente medidas em vários estágios e
seus valores são armazenados nos bancos de dados das organizações.
• Esses dados podem estar relacionados às características dos produtos, máquinas,
linha de produção (ou seja, qual máquina foi usada com quais parâmetros de
configuração), os recursos humanos que operam a linha de produção (ou seja, o
nível de experiência do trabalhador, tipo de turno) , matérias-primas que são
utilizadas no processo, meio ambiente (umidade, temperatura, etc.), sensores
acoplados às máquinas (vibração, força, pressão, tensão, etc.), falhas/manutenções
das máquinas, qualidade do produto e outros fatores.
08/08/2023
Problema
• Como gerar valor sobre todos estes dados coletados e catalogado de
diferentes formas em diferentes databases, com diferentes tamanhos e
formatações?
08/08/2023
Solução
• Uso de Machine Learning para o Data Mining seguindo estudo aplicado com
KDD para realizar o método proposto é realizado em três fases:
• Na primeira etapa, os classificadores de vetores de suporte (SVM) são
implementados com quatro métodos kernel diferentes, como função linear, função
polinomial, função de base radial e funções sigmóides para classificar itens de dados.
• Na segunda etapa, a avaliação do subconjunto do classificador é aplicada à seleção
de recursos, juntamente com a classificação SVM para otimizar os vetores de recursos
e isso obtém a precisão máxima.
• Na terceira etapa, introduzindo uma nova abordagem do kernel que gera a máxima
precisão na classificação em comparação com os outros quatro métodos do kernel.
08/08/2023
Algoritmos utilizados
• Abordagem Supervisionada:
• Esta abordagem utiliza técnicas de
processamento de texto e imagens
juntamente com algoritmos de
aprendizado de máquina supervisionada
que fazem uso de frases e imagens já
rotuladas que servem para treinamento
e teste, chamadas de modelos. Com isto,
novos textos e imagens podem ser
classificados utilizando os modelos já
treinados
• Deep learning, Ensemble learning e
Linkage learning
08/08/2023
Resultado
• Sistemas inteligentes para apoiar a tomada de decisão eficaz
• Programas para agendar linha de produção simultânea
• Insights para manutenção de máquinas e previsão de falha
• Seletor automático com base em contexto e avaliação da qualidade
do produto
• Estimativa do consumo de energia das máquinas
• Detecção de defeitos....
08/08/2023
Identifying the Most Important Factors in Determining the
Osteoporosis in Women Using Data Mining Techniques
08/08/2023
Problema
• Predição e identificação de osteoporose
• Identificar as características que influenciam o desenvolvimento da doença
• Risco de osteoporose em mulheres
• Osteoporose é quatro vezes mais comum em mulheres do que em homens
• Dados incompletos e pré-processamento
• Presença de dados incompletos no conjunto de dados
• Seleção de características relevantes
• Entender quais fatores estão associados à doença e a desenvolver modelos mais
eficazes
• Interpretabilidade dos resultados
• Compreender como as características selecionadas estão relacionadas à osteoporose
é fundamental para tornar os resultados úteis
08/08/2023
Algoritmos
• Random Forest (Floresta Aleatória)
• Aprendizado de máquina que cria várias árvores de decisão aleatórias e combina suas previsões para obter um
resultado mais robusto e geralmente mais preciso
• Decision Tree (Árvore de Decisão)
• Estruturas hierárquicas que ajudam a tomar decisões com base em várias condições. Segue um fluxo de "sim" ou "não"
• Support Vector Machine (Máquina de Vetores de Suporte)
• Classificação que procura encontrar um hiperplano que melhor separa as classes de dados no espaço multidimensional.
Utilizado para classificação binária
• Neural Network (Rede Neural)
• Modelos inspirados no funcionamento do cérebro humano*
• Naive Bayes
• Probabilístico que se baseia no Teorema de Bayes para calcular a probabilidade condicional das classes com base nas
características dos dados
• Linear Regression (Regressão Linear)
• Método de análise estatística que modela a relação entre uma variável dependente e uma ou mais variáveis
independentes. Usado tanto para previsão quanto para entender a relação entre as variáveis
08/08/2023
Dataset
• Mulheres
• 8.258 (2011 — 2019)
• 6.766 tem osteopenia
• 1.428 não tinham
08/08/2023
Critérios para resultados
• Acurácia (Accuracy)
• Mede a proporção de previsões corretas em relação ao total de previsões feitas.
Quanto maior a acurácia, mais precisas são as previsões do modelo
• Precisão (Precision)
• Proporção de previsões positivas corretas (verdadeiros positivos) em relação ao total
de previsões positivas feitas (verdadeiros positivos + falsos positivos). Ela indica a
capacidade do modelo de evitar falsos positivos
• Área Sob a Curva (AUC)
• Avalia o desempenho geral do modelo, considerando tanto a taxa de verdadeiros
positivos quanto a taxa de falsos positivos em diferentes limiares de classificação.
Quanto maior a AUC, melhor é a capacidade do modelo de distinguir entre classes
positivas e negativas
08/08/2023
Resultados
08/08/2023
Conclusão
• Pessoas com mais de 50 anos, pode ser prevista com sucesso usando
técnicas de mineração de dados
• Support Vector Machine obteve o melhor desempenho
• Seguido por outros métodos como Decision Tree e Neural Network, em termos de
acurácia e AUC de precisão
• Características mais relevantes para a previsão da osteoporose:
• Idade, peso, dor nas costas, atividade física baixa, fratura anterior e data da
menopausa
• Ajudando a identificar pacientes em risco de osteoporose e tomar medidas
preventivas para reduzir a probabilidade de desenvolver a doença
08/08/2023
Seminário de Aplicações de KDD
Douglas Martins
Erick Birkholz
Gabriel Burich