Você está na página 1de 85

UM META-MODELO PARA REPRESENTAÇÃO

DE DADOS BIOLÓGICOS MOLECULARES E
SUPORTE AO PROCESSO DE ANOTAÇÃO DE
VARIANTES GENÉTICAS

Andreza Leite de Alencar
Orientador: Vinícius Garcia
Co-Orientador: Vanilson Burégio

CIn.ufpe.br
INTRODUÇÃO E MOTIVAÇÃO

O universo digital dobra a cada 2 anos

Em 2013 o mundo criou um escalonamento de

4.4 zettabytes de dados

4.400.000.000.000.000.000.000
Zetta Exa Peta Tera Giga Mega Kilo Byte

CIn.ufpe.br
INTRODUÇÃO E MOTIVAÇÃO

Universo Digital X Healthcare

é40% ao ano é48% ao ano

GenBank dobra a cada 18 meses
Análise ainda enfrenta desafios

CIn.ufpe.br
INTRODUÇÃO E MOTIVAÇÃO

Análise dos dados genéticos:

• Avaliação de qualidade dos dados brutos,

• Alinhamento de leitura a um genoma de referência,

• Identificação da variante,

• Anotação das variantes

CIn.ufpe.br
INTRODUÇÃO E MOTIVAÇÃO

Anotação = Informações biológicas + Dados Clínicos

Variante + Doença

CIn.ufpe.br
PROBLEMA

CIn.ufpe.br
PROBLEMA

• Consultas a um conjunto distribuído e heterogêneo de bases de
dados.
• Depende do time de bioinformática para preparo dos dados.
• Etapa mais custosa do processo de análise.

• Não existem padrões ou normas claras comuns para
representação e consumo destes dados.
– Semi-estruturados, sem esquema explícito, várias versões.

CIn.ufpe.br
PERGUNTA DE PESQUISA

Como representar o conjunto distribuído e heterogêneo de bases
de dados biológicos moleculares possibilitando a construção de
ferramentas e utilitários, de maneira produtiva e com
qualidade, para dar suporte ao processo de análise destes dados?

CIn.ufpe.br
METODOLOGIA

CIn.ufpe.br
METODOLOGIA - QIP
Quality Improvement Paradigm
1.Caracterizar
o ambiente

6. Empacotar 2. Definir
a experiência objetivos

5. Analisar 3. Escolher
resultados processo

4. Executar

CIn.ufpe.br
TRABALHOS RELACIONADOS

CIn.ufpe.br
TRABALHOS RELACIONADOS
Representação

Modelos

Evolução

Implementação

Visualização

Automatização

2000 2004 2009 2010 2016 2018
BigData Web 2.0 NoSQL
BALKO LIU LIU MASSEROLI GenDB
et al et al et al et al

CIn.ufpe.br
TRABALHOS RELACIONADOS
Representação

Esquema
Global

Meta-modelo

2000 2004 2009 2010 2016 2018
BigData Web 2.0 NoSQL
GenDB
BALKO LIU LIU MASSEROLI
et al et al et al et al

CIn.ufpe.br
TRABALHOS RELACIONADOS
Modelos

Relacional

NoSQL

2000 2004 2009 2010 2016 2018
BigData Web 2.0 NoSQL
GenDB
BALKO LIU LIU MASSEROLI
et al et al et al et al

CIn.ufpe.br
METODOLOGIA - QIP
Quality Improvement Paradigm
1.Caracterizar
o ambiente

6. Empacotar 2. Definir
a experiência objetivos

5. Analisar 3. Escolher
resultados processo

4. Executar

CIn.ufpe.br
OBJETIVO

CIn.ufpe.br
OBJETIVO
Analisar o conjunto de dados envolvido no processo de
anotação de variantes e definir uma representação
formal para estes dados, permitindo o desenvolvimento
automatizado de ferramentas e utilitários de bancos de
dados.

CIn.ufpe.br
OBJETIVOS ESPECÍFICOS

1. Identificar um processo para guiar a análise e engenharia do domínio.

2. Realizar a engenharia do domínio para identificar as características e
requisitos necessários para projeto e implementação da plataforma do
domínio.

3. Projetar e implementar um processo de inferência de esquema.

4. Projetar diagramas para os esquemas e implementar ferramentas que
suportem sua visualização.

5. Criar bases de dados, ferramentas e mapeadores.

CIn.ufpe.br
METODOLOGIA - QIP
Quality Improvement Paradigm
1.Caracterizar
o ambiente

6. Empacotar
a experiência
2. Definir
objetivos

5. Analisar 3. Escolher
resultados processo

4. Executar

CIn.ufpe.br
UM PROCESSO PARA ENGENHARIA DE
DOMÍNIO BASEADA EM MODELOS
COM FOCO NA QUALIDADE

CIn.ufpe.br
PROCESSO

CIn.ufpe.br
PROCESSO: Critérios de Qualidade
Critérios Propriedades
Qualidade Empírica Compreensibilidade e Simplicidade
Qualidade Sintática Corretude e Integridade
Qualidade Semântica Completude, Validade, Integridade, Integração, Reuso
e Minimalisação
Qualidade Pragmática Compreensibilidade
Qualidade Organizacional Flexibilidade, Integração e Implementabilidade

Realizar experimentos e observações

Identificar Métricas

Indicadores + Análise Fatorial

CIn.ufpe.br
PROCESSO : Avaliação :
Indicador de Qualidade
• Análise Fatorial
– Redução de dados: correlação variáveis observadas à Fatores

– 𝐼𝑄(𝐹𝑘𝑛) é o índice de qualidade do especialista 𝑛 no fator 𝑘;
– 𝑗 é o número de variáveis no fator 𝑘;
– |𝑝𝑖| é o módulo da carga fatorial da variável 𝑖 no fator 𝑘; e
– 𝑥𝑖 é a nota da variável 𝑖 no fator 𝑘.

• Variáveis observadas = Propriedades

• Fatores = Critérios de Qualidade

CIn.ufpe.br
METODOLOGIA – QIP

1.Caracterizar
o ambiente

6. Empacotar 2. Definir
a experiência objetivos ✔

5. Analisar 3. Escolher
resultados processo ✔
4. Executar

CIn.ufpe.br
PROCESSO

CIn.ufpe.br
ANÁLISE : ESQUEMAS

• Documentos semi-estruturados

• Fontes disponibilizadas em versões

• Versões possuem instâncias de variantes (Entidades)
– 𝑉 (𝐸0,𝐸1, ...,𝐸𝑛)
– 𝐸(𝑎 , 𝑎 ...𝑎 ).
0 1 𝑛

• Atributos são pares nome e valor (𝑛𝑖, 𝑣𝑖)

– Valor
• Atômico, outro atributo, listas

• Associação – referência a outra entidade
– Não implementada nas fontes analisadas

CIn.ufpe.br
ANÁLISE : ESQUEMAS
• ESTRUTURA DE ÁRVORE
– Um nó raiz possui nós filhos para cada entidade que possuem nós filhos
para cada atributo.
– Nós para valores atômicos ou valores de referências não possuem nós
filhos (se tornam nós folhas).
– Nós para outros atributos ou entidades embutidas tem um nó filho para
cada atributo e/ou entidade.
– Nós para arrays tem nós filhos para cada elemento do array.
– As arestas partindo de um nó entidade possuem os nomes dos atributos
e os nós subsequentes possuem os seus valores.
– As arestas partindo de um nó Versão possuem os atributos
identificadores das entidades.

CIn.ufpe.br
ANÁLISE : ESQUEMAS

CIn.ufpe.br
ANÁLISE : ESQUEMAS

CIn.ufpe.br
ANÁLISE : ESQUEMAS

• A natureza sem esquema fixo dos dados

• Diferentes objetos do mesmo tipo de entidade possuem
variações em seus esquemas.

– Versão: Fonte e Entidade

• Existência de versões à esquemas versionados

CIn.ufpe.br
ANÁLISE : ESQUEMAS VERSIONADOS

• Esquema da Versão da fonte
– com as representações das diversas versões de suas entidades;

• Esquema da Fonte
– com a união dos esquemas de todas as suas versões; e

• Esquema da Entidade
– com a junção de todos os atributos presentes nas entidades de mesmo
tipo

CIn.ufpe.br
PROCESSO

Analysis

CIn.ufpe.br
PROJETO : GenDB

GenDB - UM META-MODELO PARA
REPRESENTAÇÃO DE
DADOS BIOLÓGICOS MOLECULARES

CIn.ufpe.br
PROJETO : GenDB

• Expressar um conjunto de dados semi-estruturado
– Heterogêneo e distribuído

• Técnicas de MDE
– Engenharia de Domínio, Meta-modelagem

• Eclipse Modeling Framework (EMF)
– Ecore

CIn.ufpe.br
PROJETO : GenDB

CIn.ufpe.br
PROJETO : GenML

GenML - UMA LINGUAGEM DE MODELAGEM
PARA ESQUEMAS DE DADOS BIOLÓGICOS
MOLECULARES

CIn.ufpe.br
GeML – Princípios
• Claridade Semiótica,
– correspondência de 1:1 entre os construtores semânticos e os símbolos gráficos
• Discriminação Perceptiva,
– diferentes símbolos devem ser claramente distinguidos um do outro
• Transparência Semântica,
– representações visuais em que sua aparência sugira o significado
• Gerenciamento da Complexidade,
– mecanismos explícitos para lidar com a complexidade
• Integração Cognitiva,
– mecanismos explícitos para suportar a integração de informação entre os diferentes diagramas
• Expressividade Visual
– uma gama completa de variáveis e capacidades visuais devem ser utilizadas
• Codificação Dupla
– elementos de texto podem complementar os elementos gráficos
• Economia Gráfica
– o número de diferentes símbolos gráficos devem ser cognitivamente gerenciáveis

CIn.ufpe.br
PROJETO : GenML
• 8 princípios de Moody - Notação Visual
– Ex: Claridade Semiótica, integração cognitiva, expressividade visual
• Visualização e criação de modelos
– Diagramas de esquemas
• Diagramas em duas técnicas visuais
– Contêineres e Árvore
• Validação de Diagramas
– Diagramas em conformidade com o meta-modelo

CIn.ufpe.br
PROJETO: GeML – Ferramenta
Diagrama da Fonte::Contêiner

CIn.ufpe.br
PROJETO : GeML – Ferramenta
Diagrama da Entidade::Contêiner

CIn.ufpe.br
PROJETO : GeML – Ferramenta
Diagrama da Fonte::Árvore

CIn.ufpe.br
PROJETO : ARQUITETURA

ARQUITETURA DA PLATAFORMA
DO DOMÍNIO

CIn.ufpe.br
PROJETO : ARQUITETURA

Lambda

CIn.ufpe.br
PROJETO : ARQUITETURA

CIn.ufpe.br
PROJETO : ARQUITETURA

CIn.ufpe.br
PROJETO : ARQUITETURA

CIn.ufpe.br
PROJETO : ARQUITETURA

Meta Layer

possui os componentes e artefatos de MDE necessários para
representação dos dados.

Extração de esquemas Geração de Modelos

CIn.ufpe.br
PROJETO : ARQUITETURA

CIn.ufpe.br
Processo

Analysis
✔ Design

CIn.ufpe.br
IMPLEMENTAÇÃO

IMPLEMENTAÇÃO DE REFERÊNCIA
DA PLATAFORMA
META LAYER

CIn.ufpe.br
IMPLEMENTAÇÃO : META LAYER

CIn.ufpe.br
IMPLEMENTAÇÃO – META LAYER
• Descoberta dos esquemas
– Engenharia Reversa
– Identificação de Entidades, Atributos e Tipos de dados
– XML à grafo rotulado
• Recursivamente percorrido
• Esquemas são transformados (𝑇2𝑀) para um modelo
– modelo.gendb em conformidade com o meta-modelo
– Xtext gramática e Xtend geração de modelos
• Modelos são visualizados na Ferramenta de Modelagem
– Diagramas GenML
• Transformação (𝑀2𝑇) para criação de bases de dados
– Código JavaScript - Mapeador ODM e Base MongoDB

CIn.ufpe.br
Processo

Analysis
✔ Design
✔ ✔
Implementation

CIn.ufpe.br
METODOLOGIA – QIP

1.Caracterizar
o ambiente

6. Empacotar 2. Definir
a experiência objetivos ✔

5. Analisar 3. Escolher
resultados processo ✔
4. Executar✔

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS

• Estudo de Caso
– Prova de Conceito
• Validação da plataforma do domínio
– Avaliação da Qualidade do GenDB
• Questionário com Especialistas
– Avaliação de Uso da GenML
• Observação Participante com Desenvolvedores

• Experimento Controlado
– Demostrar a execução e exercitar o algoritmo de inferência

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
ESTUDO DE CASO :: Prova de Conceito

• Avaliação da Plataforma
– Verificar os possíveis impactos e justificar sua adoção
– Desenvolvimento das principais camadas e da ferramenta ClinGen

• Implementada pela equipe Genômika
– Com as recomendações definidas em conjunto com esta pesquisa

• Redução do tempo para diagnósticos
– Diagnóstico 24 horas a 48 horas à 3 horas

• Permite REanálises

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
ESTUDO DE CASO::QUESTIONÁRIO

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Indicadores de Qualidade

Análise Fatorial
• Verificar a adequabilidade da base de dados;
– Força da correlação (>0,3) e comunalidade (>0,4)

• Determinar a técnica de extração e o número dos fatores(componentes) a
serem extraídos;
– Análise de Componentes Principais
– Eigenvalue (>1) - critério de Kaiser

• Decidir o tipo de rotação dos fatores (componentes).
– rotação ortogonal Varimax
– visualização da relação entre as variáveis e os componentes

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Indicadores de Qualidade:: Análise Fatorial

• Cria-se primeiramente o índice de qualidade de cada fator para
cada especialista
– Variáveis observadas = Propriedades
– Fatores = Critérios de Qualidade

• Normaliza os dados para uma escala padrão
• Reduz os valores de todos os escores a um único valor
– Média aritmética

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Indicadores de Qualidade

Análise Fatorial
• O índice de cada fator (escore) é salvo como uma variável (𝐼𝑄(
𝐹𝑘𝑛)) que apresenta um valor para cada caso observado
• Normaliza os dados para uma escala padrão

• Reduz os valores de todos os escores a um único valor
– Média aritmética

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Indicador de Qualidade Empírica
>0.3 >0.4

eigenvalue >1

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Indicador de Qualidade Semântica

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Indicador de Qualidade Semântica

Qualidade Semântica (QS)

• QS – Conhecimento do Domínio
– referente ao conhecimento específico do domínio
– Completude, Validade, Integração e Minimalisação

• QS – Aplicabilidade
– referente a aplicabilidade do meta-modelo
– Reuso e Integridade

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Indicador de QS – Conhecimento do Domínio

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Indicador de QS – Aplicabilidade

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Indicador de Qualidade Organizacional

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Indicador de Qualidade Pragmática

• Qualidade Pragmática Social
– Compreensibilidade

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Indicadores de Qualidade

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Observação Participante

• 𝑇𝑀 - Tempo de Modelagem
• 𝐶𝑂 - Consultas ao Observador
• 𝑃𝑈 - Problemas de Usabilidade
• 𝐸𝐶 - Erros de Compreensão
• 𝐷𝑁𝑉 - Diagrama Não Validado
• 𝐸𝐴 - Erros de Aplicação
• 𝐸𝐹 - Erros da Ferramenta
• 𝐷𝐼 - Diagramas Incompletos

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Observação Participante

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Observação Participante

• 𝑇𝑀 - Tempo de Modelagem
• 𝐶𝑂 - Consultas ao Observador
• 𝑃𝑈 - Problemas de Usabilidade
• 𝐸𝐶 - Erros de Compreensão
• Validação da ferramenta evita
– 𝐷𝑁𝑉 - Diagrama Não Validado
– 𝐸𝐴 - Erros de Aplicação
– 𝐸𝐹 - Erros da Ferramenta
• Nenhum usuário deixou de completar a tarefa
– 𝐷𝐼 - Diagramas Incompletos

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Experimento Controlado
• Variáveis Observadas
– 𝑉1 - Tempo de CPU;
– 𝑉2 - Consumo de memória, medido em MB (Mega Bytes); e
– 𝑉3 - Tempo de execução do algoritmo (Wall Clock Time)
• Variáveis Independentes
– Arquivos diversos
• 15MB (1.491 instâncias), 30MB (3.122 instâncias), 60MB (6.284 instâncias),
120MB (12.572 instâncias), 180MB (18.519 instâncias)
• Ambiente
– Processador Intel Core i7 4-core e 16GB de memória RAM
• Tratamento
– Ruby
– Java

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Experimento Controlado

• Hipótese Nula (H0)
– 𝐻01 : 𝑉1(𝑇1) = 𝑉1(𝑇2)
– 𝐻02 : 𝑉2(𝑇1) = 𝑉2(𝑇2)
– 𝐻03 : 𝑉3(𝑇1) = 𝑉3(𝑇2)

• Hipótese Alternativa (H1)
– 𝐻11 : 𝑉1(𝑇1) ≠ 𝑉1(𝑇2)
– 𝐻12 : 𝑉2(𝑇1) ≠ 𝑉2(𝑇2)
– 𝐻13 : 𝑉3(𝑇1) ≠ 𝑉3(𝑇2)

CIn.ufpe.br
AVALIAÇÃO E RESULTADOS
Experimento Controlado

CIn.ufpe.br
METODOLOGIA – QIP

1.Caracterizar
o ambiente

6. Empacotar 2. Definir
a experiência objetivos ✔


5. Analisar 3. Escolher
resultados processo ✔
4. Executar✔

CIn.ufpe.br
CONSIDERAÇÕES FINAIS E
TRABALHOS FUTUROS

CIn.ufpe.br
CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS
ATENDIMENTO AOS OBJETIVOS

• Objetivo 1 - Identificar um Processo para Análise e
Engenharia de Domínio
• Objetivo 2 - Realizar a Engenharia do Domínio de Análise de
Dados Biológicos Moleculares
• Objetivo 3 - Projetar e Implementar um Processo de Inferência
de Esquemas
• Objetivo 4 - Projetar Diagramas e Implementar uma
Ferramenta para Visualização dos Esquemas
• Objetivo 5 - Criar Bases de Dados a Partir dos Esquemas
Inferidos

CIn.ufpe.br
CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS
VANTAGENS DE USAR MDE

• Representar informações em um alto nível de abstração

• Geração automatizada de código

• Ferramental para construção de DSLs

• Independência de plataforma

CIn.ufpe.br
CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS
CONTRIBUIÇÕES

• Análise dos tipos de esquemas para bases de dados biológicos moleculares;

• Meta-modelo para representação de bases de dados biológicos moleculares;

• Diagramas para visualização de esquemas versionados das bases;

• Linguagem de modelagem para visualização dos diagramas de esquemas;

• Arquitetura de referência do domínio;

• Processo para engenharia de domínio com diretrizes de qualidade;

• Guia para verificação da qualidade de modelos conceituais; e

• Aplicação de técnicas de MDE no contexto de engenharia de dados.

CIn.ufpe.br
CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS
TRABALHOS FUTUROS

• Aplicar o meta-modelo em outros sistemas e contextos

• Geração de esquemas e validadores de dados.

• Diferenciação de versões e evolução

• Mecanismos de navegação para visualização de esquemas

• Automatização do workflow

• Melhoria do desempenho e Otimização das ferramentas

• Migração de dados para Persistência Poliglota

• Refinar avaliação de qualidade de modelos conceituais

CIn.ufpe.br
CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS
PUBLICAÇÕES

• ALENCAR, A. L.; BURÉGIO, V.; FREITAS CARACIOLO, M. J.; GARCIA, V. A
centralized platform for access of heterogeneous data on human genome repositories for
supporting clinical decisions. In: Proceedings of the Satellite Events of the 31st
Brazilian Symposium on Databases - I Database Systems Industry Day Workshop
(DSIDW). Brazilian Computer Society, 2016. p.106. ISBN 978-85-7669-343-7.
• ALENCAR, A. L.; BURÉGIO, V.; FREITAS CARACIOLO, M. J.; GARCIA, V. A
centralized platform on human genome for supporting clinical decisions. In: XV
Congresso Brasileiro de Informática em Saúde. Sociedade Brasileira de Informática
em Saúde, 2016. p.569 – 577. ISSN 2178-2857
• ALENCAR, A. L.; BURÉGIO, V.; FREITAS CARACIOLO, M. J.; GARCIA, V. A
centralized platform on human genome for supporting clinical decisions. In: Journal of
Health Informatics. Brazilian Health Informatics Society, 2016. p.569 – 577. ISSN
2175-4411.

CIn.ufpe.br
CONSIDERAÇÕES FINAIS E TRABALHOS FUTUROS
PUBLICAÇÕES PLANEJADAS

1. GenDB – A Meta-model for Representing Biomolecular Data and
Supporting the Process of Genetic Variants Annotation

2. GeML – A Domain Specific Modeling Language for Biomolecular Data
Schemas

3. Towards a Quality Approach for Model-driven Domain Engineering and
Assesment of Conceptual Models

4. Inferring XML Data Schemas with Model-Driven Engineering Techniques

5. Generating Document-Oriented Database Schemas with Model-Driven
Engineering Techniques.

CIn.ufpe.br
METODOLOGIA – QIP

1.Caracterizar
o ambiente


6. Empacotar 2. Definir
a experiência objetivos ✔


5. Analisar 3. Escolher
resultados processo ✔
4. Executar✔

CIn.ufpe.br
UM META-MODELO PARA REPRESENTAÇÃO
DE DADOS BIOLÓGICOS MOLECULARES E
SUPORTE AO PROCESSO DE ANOTAÇÃO DE
VARIANTES GENÉTICAS

Andreza Leite de Alencar
Orientador: Vinícius Garcia
Co-Orientador: Vanilson Burégio

CIn.ufpe.br