biolgicos Yasmmin Crtes Martins Roteiro O que so os bancos de dados biolgicos (para protenas, sequncias, genomas completos)
Aplicaes dos dados destes bancos
Exemplos e bancos de dados a serem utilizados na ferramenta
Importncia da ferramenta
Objetivos da ferramenta
Processo da ferramenta
Mtodos e assistentes (APIs e softwares) a serem utilizados nas etapas de construo.
Etapas de construo
Possveis resultados O que so bancos de dados biolgicos So informaes biolgicas que com o avano da tecnologia puderam ser descobertas por diversos laboratrios e centros de pesquisas.
E que geraram uma enorme quantidade de dados, como por exemplo o projeto de decodificao completa do genoma humano. O que so bancos de dados biolgicos Existem, nos dias atuais, vrios bancos de dados deste tipo, que armazenam informaes diferentes, como bases, nucleotdeos, protenas, expresses gnicas, mutaes, etc.
Formatos de arquivos: Arquivos de texto, pginas html, anotaes de sequncias, e mais recentemente o uso de bancos de dados relacionais. Aplicaes dos dados destes dbs (Caso brasileiro - FioCruz) Em parceria com outras instituies e laboratrios internacionais, foi montado e est sendo estudado/analisado o dataset com a linhagem gentica do trypanossoma cruzi (T. cruzi).
Objetivos: Tcnicas de genotipagem Compreenso da populao gentica Sequenciamento do genoma do T. cruzi Diagnsticos imunolgicos especficos Linhas de pesquisa associadas (resultados clnicos; infeco congnita, capacidade de infeco celular; suscetibilidade aos medicamentos) Aplicaes dos dados destes dbs (Caso chins Evoluo gentica e adaptaes aquticas) No Rio Yangtze da China, h uma espcie aqutica denominada golfinho de rio Yangtze que importante para a conservao de animais aquticos e ecossistema neste rio. Contudo ela foi reconhecida como funcionalmente extinta.
Ento foi feito um rascunho de alta qualidade e trs genomas re-sequenciados desta espcie para anlise.
Objetivos e resultados: Relgio e adaptaes moleculares em cetceos. Baixo nmero de polimorfismos heterozigticos de nucleotdeos em relao aos outros genomas de mamferos. O gargalo que gerou isso, ocorreu na ltima era glacial, coincidindo com a rpida queda de temperatura e um aumento global uniforme no nvel do mar. Aplicaes dos dados destes dbs (Caso chins Evoluo gentica e adaptaes aquticas) Exemplos de bds biolgicos GenBank Sequence Database Responsvel: National Center for Biotechnology Information (NCBI) at the National Library of Medicine (NLM), National Institutes of Healthy (NIH).
Contm sequncias de nucleotdeos, disponibilizando os dados em diferentes formas, e mostrando publicaes a respeito de anlises e estudos com as sequncias.
Exemplos de bds biolgicos EMBL Nucleotide Sequence Database Responsvel: EMBL OutStation The Bioinformatics Institute
Contm sequncias de nucleotdeos, os tipos de dados contidos so diferentes do banco anterior, este possui mais detalhes. Possui opo de gerar XML, porm no cobre todas as informaes, mas adianta a traduo. Importncia da ferramenta -Tipos diferentes de armazenar informaes que so complementares e similares entre si. -Formatos diferentes que necessitam de leituras especficos. -Dificulta a integrao entre bases de dados diferentes. -Consulta complexa, para as pessoas que no so habituadas. -Necessidade de algo que facilite a interligao das informaes e busca mais fcil e rpida de dados. Objetivos da ferramenta -Prover os dados de diferentes bases (por enquano apenas NCBI e EMBL), em um padro de dados nico, RDF.
-Aps ter uma quantidade de dados devidamente classificados e organizados, prover uma interface de consulta amigvel.
-Estabelecer links semnticos entre sequncias similares. Processo da ferramenta Arquivos HTML Crawler verificando os links dentro dos arquivos -Extrao de dados Relevantes -Parsing HTML para XML Minerao (agrupamento) Gerao do Arquivo RDF Construo de interface de consultas APIs e softwares a serem utilizados na construo da ferramenta Xstream API java para leitura e escrita dos arquivos XML.
RapidMiner 5.0 Software de minerao. A partir dos dados dos arquivos XML, classificar os dados usando a tarefa classificao, para obter a rvore de caractersticas dos conjuntos de dados.
Jena API java para leitura e escrita de dados RDF, consulta por SPARQL, e inferncia de novos dados. Neo4j banco de dados orientado a grafo, para permitir uma alternativa mais rpida de acesso e consulta aos dados dos arquivos, mas que possui o mesmo modelo e estrutura. No caso, ser utilizado tanto a API, quanto o software do banco de dados. APIs e softwares a serem utilizados na construo da ferramenta Etapas de construo necessrias para a ferramenta Dados=> -Obteno
-Rastreamento de links
Fonte: -NCBI -GeoPept
-EMBL
Etapas de construo necessrias para a ferramenta 1. Preparao destes dados para passar por uma ferramenta de minerao de dados que suportem dados no estruturados. Obter as informaes que mais interessem como verso, espcie, a sequncia em si.
2. Verificar duplicao de dados, para saber se j foi analisada e representada aquela informao.
Etapas de construo necessrias para a ferramenta 3. Gravar a informao depois da minerao com seu classificador, e ordem de relevncia, num arquivo XML, para facilitar na representao destes dados em um formato interopervel
4. Verificar se a ontologia para este domnio, a geneOntology, cobre as informaes passveis de descoberta, para sua estrututurao em RDF+XML. Se no houver classes/predicados suficientes, propor novos.
Etapas de construo necessrias para a ferramenta 5. Construir a ferramenta utilizando tcnicas de inferncia e busca sparql, utilizando para trabalhar com a web semntica a API Jena. Podendo continuar utilizando arquivos fsicos em rdf ou alimentar um banco de dados orientado a grafo, como o neo4j.
6. Possibilidade de construir relaes do tipo sameAs quando uma sequncia encontrada tiver uma determinada similaridade com outra durante as consultas. Referncias Seibel, Luiz Fernando; Lemos, Melissa; Lifschitz, Srgio. Bancos de dados de genoma. SBBD 2000. Acesso em: 06/04/2014. Disponvel em: http://139.82.24.35:81/seibel/hp/Tutorial%20SBBD2000 %20FinalRev.pdf
An European Union seventh framework program. Project description. Acesso em: 06/04/2014. Disponvel em: http://www.ki.se/chagasepinet/description.html
Xuming Zhou et al. Baiji genomes reveal low genetic variability and new insights into secondary aquatic adaptations. Nat Commun. Oct 29, 2013; 4: 2708. Acesso em: 06/04/2014. Disponvel em: http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3826649/
Referncias NCBI National Center for Biotechnology Information. REDICTED: LOW QUALITY PROTEIN: polycystic kidney disease protein 1-like 2 [Lipotes vexillifer]. Acesso em: 06/04/2014. Disponvel em: http://www.ncbi.nlm.nih.gov/protein/XP_007452617.1
Apache Jena: A free and open source Java framework for building Semantic Web and Linked Data applications. Acesso em: 06/04/2014. Disponvel em: https://jena.apache.org/
Chapter 32. Using Neo4j embedded in Java applications. Acesso em: 06/04/2014. Disponvel em: http://docs.neo4j.org/chunked/stable/tutorials-java-embedded.html