Escolar Documentos
Profissional Documentos
Cultura Documentos
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
Defesa de Doutorado
9 de fevereiro de 2021
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 1 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
Sumário
Introdução
Conceitos Básicos
Conclusão
Seção 1 Introdução
Introdução
Controle celular por sinais de expressão gênica (transcrição)
Introdução
Rede de regulação gênica
A é preditor de A
A é preditor de B
A e B são preditores de C
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 5 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
Introdução
Sinais de expressão gênica (transcrição)
t1 t2 t3 ... tM
gene1 3.35 2.12
3.42 ... 1.23
gene2 2.46 4.12
5.15 ... 1.33
gene3 3.63 4.14
2.18 ... 2.87
gene4 3.56 4.16
0.12 ... 1.60
gene5 2.12 2.14
3.17 ... 2.12
.
.
.
.
. .
geneN 3.12 2.72 1.20 ... 0.52
NM
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 6 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
Introdução
Motivação
Introdução
Desafios
Desafios:
• Inferência de parâmetros de uma rede regulatória a partir de
dados experimentais.
• Poucas observações disponíveis (dezenas) para muitas variáveis
(milhares).
• Muitas instâncias não observadas.
• Alto erro de estimação das probabilidades condicionais de um
gene alvo dados seus genes preditores.
• Dados contêm ruído proveniente do processo de obtenção dos
dados de expressão.
Objetivos
• Objetivo Geral: Amenizar o problema da dimensionalidade no
contexto da inferência de redes gênicas modeladas como redes
discretas.
• Hipótese: Agrupar instâncias (valores) dos genes preditores em
classes de equivalência ajuda na estimação das probabilidades
condicionais.
• Objetivos específicos:
• Análise multiresolução
- Agrupamento de instâncias mal observadas.
• Desenvolver método de busca no reticulado de partições que
devolva a melhor partição (agrupamento).
• Agrupamentos baseados em conhecimento biológico a priori.
• Transferência de aprendizado supervisionado para estimar o
grau correto (dimensão do conjunto de preditores) de um gene
alvo.
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 9 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
Objetivos
• Objetivo Geral: Amenizar o problema da dimensionalidade no
contexto da inferência de redes gênicas modeladas como redes
discretas.
• Hipótese: Agrupar instâncias (valores) dos genes preditores em
classes de equivalência ajuda na estimação das probabilidades
condicionais.
• Objetivos específicos:
• Análise multiresolução
- Agrupamento de instâncias mal observadas.
• Desenvolver método de busca no reticulado de partições que
devolva a melhor partição (agrupamento).
• Agrupamentos baseados em conhecimento biológico a priori.
• Transferência de aprendizado supervisionado para estimar o
grau correto (dimensão do conjunto de preditores) de um gene
alvo.
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 9 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
Objetivos
• Objetivo Geral: Amenizar o problema da dimensionalidade no
contexto da inferência de redes gênicas modeladas como redes
discretas.
• Hipótese: Agrupar instâncias (valores) dos genes preditores em
classes de equivalência ajuda na estimação das probabilidades
condicionais.
• Objetivos específicos:
• Análise multiresolução
- Agrupamento de instâncias mal observadas.
• Desenvolver método de busca no reticulado de partições que
devolva a melhor partição (agrupamento).
• Agrupamentos baseados em conhecimento biológico a priori.
• Transferência de aprendizado supervisionado para estimar o
grau correto (dimensão do conjunto de preditores) de um gene
alvo.
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 9 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
Objetivos
• Objetivo Geral: Amenizar o problema da dimensionalidade no
contexto da inferência de redes gênicas modeladas como redes
discretas.
• Hipótese: Agrupar instâncias (valores) dos genes preditores em
classes de equivalência ajuda na estimação das probabilidades
condicionais.
• Objetivos específicos:
• Análise multiresolução
- Agrupamento de instâncias mal observadas.
• Desenvolver método de busca no reticulado de partições que
devolva a melhor partição (agrupamento).
• Agrupamentos baseados em conhecimento biológico a priori.
• Transferência de aprendizado supervisionado para estimar o
grau correto (dimensão do conjunto de preditores) de um gene
alvo.
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 9 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
Objetivos
• Objetivo Geral: Amenizar o problema da dimensionalidade no
contexto da inferência de redes gênicas modeladas como redes
discretas.
• Hipótese: Agrupar instâncias (valores) dos genes preditores em
classes de equivalência ajuda na estimação das probabilidades
condicionais.
• Objetivos específicos:
• Análise multiresolução
- Agrupamento de instâncias mal observadas.
• Desenvolver método de busca no reticulado de partições que
devolva a melhor partição (agrupamento).
• Agrupamentos baseados em conhecimento biológico a priori.
• Transferência de aprendizado supervisionado para estimar o
grau correto (dimensão do conjunto de preditores) de um gene
alvo.
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 9 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
Objetivos
• Objetivo Geral: Amenizar o problema da dimensionalidade no
contexto da inferência de redes gênicas modeladas como redes
discretas.
• Hipótese: Agrupar instâncias (valores) dos genes preditores em
classes de equivalência ajuda na estimação das probabilidades
condicionais.
• Objetivos específicos:
• Análise multiresolução
- Agrupamento de instâncias mal observadas.
• Desenvolver método de busca no reticulado de partições que
devolva a melhor partição (agrupamento).
• Agrupamentos baseados em conhecimento biológico a priori.
• Transferência de aprendizado supervisionado para estimar o
grau correto (dimensão do conjunto de preditores) de um gene
alvo.
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 9 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
Conceitos Básicos
Modelagem de redes gênicas – Contextualização
Conceitos Básicos
Modelagem de redes gênicas – Redes Booleanas (BN)
Conceitos Básicos
Modelagem de redes gênicas – Redes Booleanas Probabilísticas (PBN)
Conceitos Básicos
Modelagem de redes gênicas – Redes Gênicas Probabilísticas (PGN)
Conceitos Básicos
Inferência de redes gênicas
g1
? g3
g2
Conceitos Básicos
Inferência de redes gênicas
g1
? g3
g2
Conceitos Básicos
Reconhecimento de padrões
x2
y
x1
..
.
xn
Conceitos Básicos
Reconhecimento de padrões
x2
y
x1
..
.
xn
Conceitos Básicos
Função critério: Entropia condicional média
• Minimizar entropia
Conceitos Básicos
Inferência de redes de regulação gênica – Tabela de frequências
Tabela de frequências
g1 g2 f (Y = 0) f (Y = 1)
0 0 1 0
0 1 0 0
1 0 0 0
1 1 0 0
Conceitos Básicos
Inferência de redes de regulação gênica – Tabela de frequências
Tabela de frequências
g1 g2 f (Y = 0) f (Y = 1)
0 0 1 0
0 1 0 0
1 0 0 0
1 1 0 1
Conceitos Básicos
Inferência de redes de regulação gênica – Tabela de frequências
Tabela de frequências
g1 g2 f (Y = 0) f (Y = 1)
0 0 9 2
0 1 1 7
1 0 0 3
1 1 1 4
Conceitos Básicos
Inferência de redes de regulação gênica – Problema da dimensionalidade
Agrupamento Linear
• Define k + 1
hiperplanos de corte no
reticulado.
• Redução da
dimensionalidade de 2k
para k + 1.
Figura: Corte no reticulado
Booleano representando uma das
possíveis partições lineares
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 24 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
0 1 0 0 1 0 0 0 0 1
1 0 0 1 0 1 0 0 1 0
0 1 0 1 0 0 1 0 1 0
0 0 0 0 0 0 0 1 0 0
0 0 1 0 0 0 0 1 0 0
TP Verdadeiro Positivo
TN Verdadeiro Negativo
FP Falso Positivo
FN Falso Negativo
0 1 0 0 1 0 0 0 0 1
1 0 0 1 0 1 0 0 1 0
0 1 0 1 0 0 1 0 1 0
0 0 0 0 0 0 0 1 0 0
0 0 1 0 0 0 0 1 0 0
TP Verdadeiro Positivo
TN Verdadeiro Negativo
FP Falso Positivo
FN Falso Negativo
0 1 0 0 1 0 0 0 0 1
1 0 0 1 0 1 0 0 1 0
0 1 0 1 0 0 1 0 1 0
0 0 0 0 0 0 0 1 0 0
0 0 1 0 0 0 0 1 0 0
TP Verdadeiro Positivo
TN Verdadeiro Negativo
FP Falso Positivo
FN Falso Negativo
0 1 0 0 1 0 0 0 0 1
1 0 0 1 0 1 0 0 1 0
0 1 0 1 0 0 1 0 1 0
0 0 0 0 0 0 0 1 0 0
0 0 1 0 0 0 0 1 0 0
TP Verdadeiro Positivo
TN Verdadeiro Negativo
FP Falso Positivo
FN Falso Negativo
0 1 0 0 1 0 0 0 0 1
1 0 0 1 0 1 0 0 1 0
0 1 0 1 0 0 1 0 1 0
0 0 0 0 0 0 0 1 0 0
0 0 1 0 0 0 0 1 0 0
TP Verdadeiro Positivo
TN Verdadeiro Negativo
FP Falso Positivo
FN Falso Negativo
0 1 0 0 1 0 0 0 0 1
1 0 0 1 0 1 0 0 1 0
0 1 0 1 0 0 1 0 1 0
0 0 0 0 0 0 0 1 0 0
0 0 1 0 0 0 0 1 0 0
TP Verdadeiro Positivo
TN Verdadeiro Negativo
FP Falso Positivo
FN Falso Negativo
2TP
F − SCORE =
2TP + FP + FN
1.00
0.75
F−SCORE
0.50
0.25
0.00
SA
LG
GLSFS
CG
SA
LG
GLSFS
CG
Métodos de agrupamento
1.0
0.9
0.8
Taxa de acerto
0.7
0.6
0.5
SA
LG
GLSFS
CG
SA
LG
GLSFS
CG
Métodos de agrupamento
• Matriz de confusão
• Erro quadrático médio
Gabarito SA LG GLSFS CG
30
3
2
Grau Gabarito
50
3
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
Grau Inferência
IM
3
2
Grau Gabarito
KNN
3
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
Grau Inferência
IM
3
2
Grau Gabarito
KNN
3
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
Grau Inferência
1.00
0.75
30
0.50
0.25
FSCORE
0.00
1.00
0.75
50
0.50
0.25
0.00
IM
KNN
IM
KNN
IM
KNN
IM
KNN
Ajuste de Grau
1.0
0.9
0.8
30
0.7
0.6
Taxa de acerto
0.5
1.0
0.9
0.8
50
0.7
0.6
0.5
IM
KNN
IM
KNN
IM
KNN
IM
KNN
Ajuste de Grau
Parâmetro Valores
Classificador k-nn
- 250 redes artificiais com 50 genes (funções aleatórias)
- Topologia Erdös-Renyi
Dados treinamento
- Grau médio hkgab i = 3;
- 4 conjunto de dados com 50 amostras temporais
- Via glicolítica (nós amarelos).
Genes Alvos
- Plastídeo - apicoplasto (nós verdes)
Recorte da rede ”Pais”, ”avôs”, e ”filhos” dos genes alvos.
Parâmetro Valores
Algoritmo de busca Busca Exaustiva até d = 2, SFS até d = 6
- Classificador k-nn
- Redes artificiais com 50 genes
Transferência de aprendizado - Topologia Erdös-Renyi
- Grau médio hkgab i = 3
- 4 conjunto de dados com 50 amostras temporais
- Numero de janelas: 5 janelas
Validação cruzada - Dados de treinamento 38 amostras
- Dados de teste: quatro de 8 e uma de 6
Método de validação Taxa de acerto nos dados de teste.
1.0
0.9
Taxa de acerto
Método
0.8 SA
LG
0.7 CG
GLSFS
0.6
0.5
1 2 3 4 5 6 7 8
Tempo
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 56 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
0.8
IM
KNN
0.7
1 2 3 4 5 6 7 8
Tempo
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 57 / 67
Introdução
Conceitos Básicos
Agrupamento de instâncias em classes de equivalência
Resultados experimentais para dados simulados
Resultados para transferência de aprendizado dos graus Universidade Federal do ABC
Resultados para microarrays de Plasmodium falciparum
Conclusão
Seção 7 Conclusão
Conclusão
Considerações finais
Conclusão
Considerações finais
Conclusão
Considerações finais
Conclusão
Considerações finais
Conclusão
Considerações finais
Conclusão
Considerações finais
Conclusão
Considerações finais
Conclusão
Trabalhos futuros
Conclusão
Trabalhos futuros
Conclusão
Trabalhos futuros
Conclusão
Trabalhos futuros
Conclusão
Trabalhos futuros
Conclusão
Trabalhos futuros
Conclusão
Síntese das contribuições
Conclusão
Síntese das contribuições
Conclusão
Síntese das contribuições
Conclusão
Síntese das contribuições
Conclusão
Síntese das contribuições
Conclusão
Síntese das contribuições
Conclusão
Síntese das contribuições
Conclusão
Síntese das contribuições
Agradecimentos
Referências
Bishop, C. M. (2006).
Pattern Recognition and Machine Learning.
Springer.
Hecker, M., Lambeck, S., Toepfer, S., van Someren, E., and Guthke, R. (2009).
Gene regulatory network inference: data integration in dynamic models-a review.
Biosystems, 96:86–103.
Kauffman, S. A. (1969).
Homeostasis and differentiation in random genetic control networks.
Nature, 224(215):177–178.
Martins-Jr., D. C. (2008).
Seleção de características e predição intrinsecamente multivariada em identificação de redes de
regulação gênica.
PhD thesis, Instituto de Matemática e Estatística - Universidade de São Paulo, Rua do Matão,
1010.
Montoya-Cubas, C. F., Martins-Jr, D. C., Santos, C. S., and Barrera, J. (2015).
Linear grouping of predictor instances to infer gene networks.
Network Modeling Analysis in Health Informatics and Bioinformatics, 4:34.
Reis, M. S. (2012).
Minimização de curvas decomponíveis em curvas em U definidas sobre cadeias de posets -
algoritmos e aplicações.
PhD thesis, Instituto de Matemática e Estatística - Universidade de São Paulo, Rua do Matão,
1010.
Fernando Montoya 9 de fevereiro de 2021 Defesa de Doutorado 67 / 67