Você está na página 1de 21

Projeto de ferramenta para estruturao e

anlise de informaes de bancos de dados


biolgicos
Yasmmin Crtes Martins
Roteiro
O que so os bancos de
dados biolgicos (para
protenas, sequncias,
genomas completos)

Aplicaes dos dados destes
bancos

Exemplos e bancos de dados
a serem utilizados na
ferramenta

Importncia da ferramenta


Objetivos da ferramenta

Processo da ferramenta

Mtodos e assistentes (APIs e
softwares) a serem utilizados
nas etapas de construo.

Etapas de construo

Possveis resultados
O que so bancos de dados
biolgicos
So informaes biolgicas que com o
avano da tecnologia puderam ser
descobertas por diversos laboratrios e
centros de pesquisas.

E que geraram uma enorme quantidade de
dados, como por exemplo o projeto de
decodificao completa do genoma
humano.
O que so bancos de dados
biolgicos
Existem, nos dias atuais, vrios bancos de
dados deste tipo, que armazenam
informaes diferentes, como bases,
nucleotdeos, protenas, expresses
gnicas, mutaes, etc.

Formatos de arquivos: Arquivos de texto,
pginas html, anotaes de sequncias, e
mais recentemente o uso de bancos de
dados relacionais.
Aplicaes dos dados destes dbs
(Caso brasileiro - FioCruz)
Em parceria com outras instituies e laboratrios
internacionais, foi montado e est sendo
estudado/analisado o dataset com a linhagem
gentica do trypanossoma cruzi (T. cruzi).

Objetivos:
Tcnicas de genotipagem
Compreenso da populao gentica
Sequenciamento do genoma do T. cruzi
Diagnsticos imunolgicos especficos
Linhas de pesquisa associadas (resultados
clnicos; infeco congnita, capacidade de
infeco celular; suscetibilidade aos
medicamentos)
Aplicaes dos dados destes dbs
(Caso chins Evoluo gentica e
adaptaes aquticas)
No Rio Yangtze da China, h uma espcie aqutica
denominada golfinho de rio Yangtze que importante
para a conservao de animais aquticos e
ecossistema neste rio. Contudo ela foi reconhecida
como funcionalmente extinta.

Ento foi feito um rascunho de alta qualidade e trs
genomas re-sequenciados desta espcie para anlise.

Objetivos e resultados:
Relgio e adaptaes moleculares em cetceos.
Baixo nmero de polimorfismos heterozigticos de
nucleotdeos em relao aos outros genomas de
mamferos.
O gargalo que gerou isso, ocorreu na ltima era
glacial, coincidindo com a rpida queda de
temperatura e um aumento global uniforme no
nvel do mar.
Aplicaes dos dados destes dbs
(Caso chins Evoluo gentica e
adaptaes aquticas)
Exemplos de bds biolgicos
GenBank Sequence Database
Responsvel: National Center for
Biotechnology Information (NCBI) at the
National Library of Medicine (NLM), National
Institutes of Healthy (NIH).

Contm sequncias de nucleotdeos,
disponibilizando os dados em diferentes
formas, e mostrando publicaes a respeito de
anlises e estudos com as sequncias.

Exemplos de bds biolgicos
EMBL Nucleotide Sequence Database
Responsvel: EMBL OutStation The
Bioinformatics Institute

Contm sequncias de nucleotdeos, os tipos
de dados contidos so diferentes do banco
anterior, este possui mais detalhes.
Possui opo de gerar XML, porm no cobre
todas as informaes, mas adianta a traduo.
Importncia da ferramenta
-Tipos diferentes de armazenar informaes
que so complementares e similares entre si.
-Formatos diferentes que necessitam de
leituras especficos.
-Dificulta a integrao entre bases de dados
diferentes.
-Consulta complexa, para as pessoas que no
so habituadas.
-Necessidade de algo que facilite a interligao
das informaes e busca mais fcil e rpida
de dados.
Objetivos da ferramenta
-Prover os dados de diferentes bases (por
enquano apenas NCBI e EMBL), em um
padro de dados nico, RDF.

-Aps ter uma quantidade de dados
devidamente classificados e organizados,
prover uma interface de consulta amigvel.

-Estabelecer links semnticos entre sequncias
similares.
Processo da ferramenta
Arquivos
HTML
Crawler
verificando
os links
dentro dos
arquivos
-Extrao
de dados
Relevantes
-Parsing
HTML
para XML
Minerao
(agrupamento)
Gerao do
Arquivo
RDF
Construo de
interface de
consultas
APIs e softwares a serem utilizados na construo
da ferramenta
Xstream API java para leitura e escrita dos
arquivos XML.

RapidMiner 5.0 Software de minerao. A
partir dos dados dos arquivos XML,
classificar os dados usando a tarefa
classificao, para obter a rvore de
caractersticas dos conjuntos de dados.

Jena API java para leitura e escrita de
dados RDF, consulta por SPARQL, e
inferncia de novos dados.
Neo4j banco de dados orientado a grafo,
para permitir uma alternativa mais rpida de
acesso e consulta aos dados dos arquivos,
mas que possui o mesmo modelo e
estrutura. No caso, ser utilizado tanto a
API, quanto o software do banco de dados.
APIs e softwares a serem utilizados na construo
da ferramenta
Etapas de construo necessrias para a
ferramenta
Dados=>
-Obteno

-Rastreamento
de links

Fonte:
-NCBI
-GeoPept

-EMBL


Etapas de construo necessrias para a
ferramenta
1. Preparao destes dados para passar por
uma ferramenta de minerao de dados que
suportem dados no estruturados. Obter as
informaes que mais interessem como
verso, espcie, a sequncia em si.

2. Verificar duplicao de dados, para saber se
j foi analisada e representada aquela
informao.

Etapas de construo necessrias para a
ferramenta
3. Gravar a informao depois da minerao com seu
classificador, e ordem de relevncia, num arquivo
XML, para facilitar na representao destes dados
em um formato interopervel

4. Verificar se a ontologia para este domnio, a
geneOntology, cobre as informaes passveis de
descoberta, para sua estrututurao em
RDF+XML.
Se no houver classes/predicados suficientes,
propor novos.

Etapas de construo necessrias para a
ferramenta
5. Construir a ferramenta utilizando tcnicas
de inferncia e busca sparql, utilizando para
trabalhar com a web semntica a API Jena.
Podendo continuar utilizando arquivos fsicos
em rdf ou alimentar um banco de dados
orientado a grafo, como o neo4j.

6. Possibilidade de construir relaes do tipo
sameAs quando uma sequncia encontrada
tiver uma determinada similaridade com
outra durante as consultas.
Referncias
Seibel, Luiz Fernando; Lemos, Melissa; Lifschitz, Srgio.
Bancos de dados de genoma. SBBD 2000. Acesso em:
06/04/2014. Disponvel em:
http://139.82.24.35:81/seibel/hp/Tutorial%20SBBD2000
%20FinalRev.pdf

An European Union seventh framework program. Project
description. Acesso em: 06/04/2014. Disponvel em:
http://www.ki.se/chagasepinet/description.html

Xuming Zhou et al. Baiji genomes reveal low genetic
variability and new insights into secondary aquatic
adaptations. Nat Commun. Oct 29, 2013; 4: 2708.
Acesso em: 06/04/2014. Disponvel em:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3826649/

Referncias
NCBI National Center for Biotechnology Information.
REDICTED: LOW QUALITY PROTEIN: polycystic
kidney disease protein 1-like 2 [Lipotes vexillifer].
Acesso em: 06/04/2014. Disponvel em:
http://www.ncbi.nlm.nih.gov/protein/XP_007452617.1

EMBL. Homo sapiens (human) partial MHC HLA-Cw11
chain. Acesso em: 06/04/2014. Disponvel em:
http://www.ebi.ac.uk/ena/data/view/AAA00027

Apostila laboratrio java com testes, XML e design
patterns. Acesso em: 06/04/2014. Disponivel em:
http://www.caelum.com.br/apostila-java-testes-xml-
design-patterns/trabalhando-com-xml/#4-4-xstream


Referncias
Akthar Fareed, Hahne Caroline. RapidMiner 5 Operator Reference.
Acesso em: 06/04/2014. Disponvel em:
http://1xltkxylmzx3z8gd647akcdvov.wpengine.netdna-
cdn.com/wp-
content/uploads/2013/10/RapidMiner_OperatorReference_en.pdf

Apache Jena: A free and open source Java framework for building
Semantic Web and Linked Data applications. Acesso em:
06/04/2014. Disponvel em: https://jena.apache.org/

Chapter 32. Using Neo4j embedded in Java applications. Acesso em:
06/04/2014. Disponvel em:
http://docs.neo4j.org/chunked/stable/tutorials-java-embedded.html

Você também pode gostar