Escolar Documentos
Profissional Documentos
Cultura Documentos
DE DADOS EM BIOINFORMTICA
Luiz Fernando Picolo
IFMS Instituto Federal de Mato Grosso do Sul
Nova Andradina MS, Brasil
luizpicolo@luizpicolo.com.br
RESUMO
Com o aumento das informaes provenientes das reas biolgicas, a Biologia e a informtica
encontraram um ponto em comum, originando assim, a Bioinformtica. Este novo ramo da
cincia tem como objetivo utilizar o poder computacional para organizar e estruturar os dados
de forma compreensvel. Neste sentido, as tecnologias computacionais so utilizadas para
facilitar o processo de consulta, cruzamentos e agregaes de dados. Este artigo, buscou-se
demonstrar os Data Warehouses e suas contribuies para o armazenamento de dados em
Bioinformtica, por serem uma longa srie de vises de dados tiradas ao longo do tempo,
proporcionando aos pesquisadores informaes por meio da correlao entre os dados.
Palavras chave: Bioinformtica, Data Warehouse, Banco de Dados.
1. INTRODUO
Na sociedade contempornea a tecnologia no algo distante ou somente acessvel
aos grandes pensadores cientficos ou empresas, ela est presente nos afazeres comuns de
todos. A utilizao do celular, a televiso, ou o simples fato de se consultar a internet, nada
mas so do que exemplos do crescimento tecnolgico que se vive nos tempos atuais. Assim, a
tecnologia gerou mudanas que foram incorporadas e so utilizadas de forma quase
transparente pela sociedade.
Para Mattar Neto (2005), outro fato que merece ateno, e que sofreu mudanas
devido a computao, so os conceitos relacionados ao acmulo de informaes. Para o autor,
acumular informaes no deve ser compreendido como sinal de sabedoria, pois na era da
informtica, todas as informaes so armazenadas, disponibilizadas e transmitidas por
poderosos bancos de dados, os quais fazem parte deste cabedal tecnolgico da
contemporaneidade vigente. Para ele, a habilidade de estabelecer conexes entre as
informaes o fato primordial para a gerao de informaes relevantes sobre o tema que
pesquisado. Neste sentido, como afirma Mattar Neto (2005), a informtica caracteriza-se
como um nova tecnologia intelectual que potencializa no apenas a memria, mas tambm
diferentes formas de raciocnio e perspectivas sobre a informao. Logo, tratar informaes e
2
no somente acumul-las tornou-se a forma mais eficaz de se obter resultados satisfatrios.
Como na sociedade, e anloga as ideias de Mattar Neto (2005), as cincias biolgicas
tambm esto incorporadas a tecnologia e ao tratamento de seus dados e a gerao de
informaes relevantes. Segundo Rocha (2011), com o avano da biologia e da informtica,
ambas cincias encontraram entre si um ponto em comum. Est nova cincia que seria criada,
surgia a partir da necessidade da biologia de no apenas armazenar as informaes geradas,
mas tambm de tratar as memas com equipamentos de alta preciso. Tal cincia, criada em
meados dos anos 90, foi chamada de Bioinformtica. Por este motivo, h est similaridade
com os conceitos de Mattar Neto (2005), sendo que, a Bioinformtica busca utilizar o poder
computacional para armazenar e trata as informaes obtendo assim novos e relevantes
informaes.
Dentro deste contexto, a tecnologia dos Data Warehouses apresenta uma alternativa
para o tratamento das informaes em Bioinformtica. Um Data Warehouse, como ferramenta
computacional, absorve todos estes conceitos apresentados por Mattar Neto (2005), ou seja,
de no ser somente uma forma de armazenagem, mas sim uma ferramenta que amplia as
possibilidades e auxilia no cruzamento de informaes e tomada de decises.
Neste sentido, este artigo tem como objetivo demostrar um dos principais esforos
computacionais para sanar alguns destes problemas relacionados ao armazenamento e ao
tratamento das informaes. Portanto, para uma compreenso mais minuciosa, tratar-se-
especificadamente sobre os Data Warehouses e suas contribuies para o armazenamento de
informaes em Bioinformtica.
2. REVISO TERICA
Ao adentrar a teoria que embasa os meios pelos quais a informtica se liga as
pesquisas biolgicas, torna-se claro que a biologia, nos dias atuais, seria impossvel sem os
recursos que a computao proporciona, visto que, toda informao produzida, como no caso
das pesquisas genmicas, necessitam ser armazenadas, tratadas e, posteriormente, analisadas.
Logo, com o avano de ambas as partes, surge um ponto em comum que une as duas cincias
originalizando um novo ramo de pesquisa, a Bioinformtica.
A Bioinformtica pode ser compreendida como uma rea multidisciplinar. Segundo
Queiroz (2012), este ramo da cincia um campo de pesquisa que est em rpido crescimento
sendo desenvolvida para atender as necessidades da manipulao de grandes volumes de
3
dados genticos e bioqumicos, os quais, originam-se a partir dos esforos individuais de
vrios pesquisadores. Sua abrangncia se faz em diversos aspectos e em vrios campos
cientficos como: na fsica, na qumica, na biologia, cincia da computao, entre outros.
Outra caracterstica da Bioinformtica define-se por ser uma modalidade que envolve
aspectos de aquisio, processamento, armazenamento, distribuio, anlise e interpretao
das informaes. Assim, a Bioinformtica [] tem como objetivo desenvolver e aplicar
tcnicas computacionais no estudo da gentica, da biologia molecular e da bioqumica
(WIECZOREK e LEAL, 2006, p. 01) buscando a compreenso e a relao das diversas
informaes fracionadas e oriundas destas diversas reas biolgicas.
Portanto, a
tamanha
quantidade
de
informaes
necessitou-se
de
ferramentas
computacionais que pudessem sistematicamente armazenar tal quantidade de dados para que
os mesmos se tornassem fontes de estudos.
Neste sentido, Felix et al (2002, p. 05) expem que:
o grande volume de informao gerado pelos projetos de anlise de
1
2
3
O genoma (conjunto de genes de uma espcie) est contido na rea da cincia denominada gentica, que
responsvel pelo estudo da reproduo, herana, variao e de aspectos relacionados descendncia.
Disponvel em: <http://educar.sc.usp.br/licenciatura/2001/genoma/genoma.html>. Acessado em: 05 Dez 2012
Centro de Pesquisa e de sequenciamento de DNA britnico. <http://www.sanger.ac.uk/>
GenBank [] uma coleo anotada de todas as sequncias de DNA publicamente disponveis. Disponveis
em: <http://www.ncbi.nlm.nih.gov/genbank/>. Acessado em: 20 Dez 2012
4
transcriptomas4 tem tornado cada vez mais complexo o armazenamento e a
anlise dos dados. Para contornar tal dificuldade, devem ser implementados,
bancos de dados, que disponibilizem, de modo confivel, os dados e
ferramentas de anlise. (FELIX, 2002, p. 05)
5
de dados para descrever a estrutura das informaes contidas em seus bancos de dados.
Assim, o objetivo de se projetar um banco de dados acomodar informaes para que
usurios em potencial possam usufruir dos dados que o mesmo contm, de forma gil e
objetiva.
3. OBJETIVOS
O presente artigo apresenta os resultados de uma pesquisa que teve como objetivo
principal compreender o uso dos Data Warehouses para o armazenamento das informaes
provenientes da Bioinformtica atentando assim s discusses relacionadas aos aspectos deste
ramo cientfico e, em particular, para o auxlio do mesmo para futuras tomadas de decises e
conexo entre informaes.
Para a melhor compreenso do objetivo geral, foram definidos alguns objetivos
especficos: Compreender os relevantes que fazem a conexo entre a cincia biolgica e a
computao; Demostrar a contribuio dos Data Warehouses para a tomada de decises em
Bioinformtica; Descobrir como esto sendo estruturados os Data Warehouses para atender os
requisitos da Bioinformtica.
4. METODOLOGIA
A metodologia, com base nos conceitos de Gil (2010), adotada para a elaborao
deste artigo foi constituda da pesquisa bibliogrfica. Segundo o autor, toda pesquisa
acadmica requer em determinados momentos a realizao do trabalho caracterizado como
pesquisa bibliogrfica. A maioria das pesquisas so realizadas com base principalmente em
materiais obtidos em fontes bibliogrficas, permitindo ao investigador a cobertura de uma
gama de fenmenos maior que o mesmo poderia pesquisar diretamente.
A primeira etapa, a qual foi divida em duas sub-etapas, foi a busca de fontes
referentes ao tema proposto. Em primeiro momento foi feita a abordagem dos estudos
referentes a Bioinformtica e banco de dados, buscando a relao entre estas duas linhas de
pesquisa. Logo aps, realizou-se a busca de textos sobre os conceitos de Data Warehouses e
como os mesmos estavam sendo utilizados e estruturados para o armazenamento dos dados.
A segunda etapa se deu a leitura do material e o fichamento do mesmo. Aps o
fichamento se fez a organizao lgica dos assunto. A ltima etapa foi o relacionamento de
todas as ideias e a criao deste artigo.
6
5. DISCUSSO DOS RESULTADOS
Um problema a ser superado ao se tratar sobre banco de dados para Bioinformtica
que bancos de dados, segundo Wieczorek e Leal (2006), tm sido em grande parte usados para
administrar dados empresariais, nmeros simples, carter ou datas. Poucos bancos de dados
tiveram uma habilidade nativa para lidar com dados complexos, como dados multimdia,
texto, dados espaciais, ou dados genticos (sucesso de genes). Neste sentido, a busca, a
comparao e o armazenamento, como pode ser visualizado na Figura 1, de grandes cadeias
de caracteres se torna difcil de ser executada.
7
em padres genticos; a arquitetura de extensibilidade para armazenamento de dados
nativamente e execuo de estruturas de procura; tecnologias de integrao de dados para
habilitar questes heterogneas por fontes biolgicas distribudas, e tecnologias de portal de
Internet que possam permitir a publicao das informaes de pesquisas. Sendo que, para este
artigo, se focar apenas nas tecnologias de Warehousing para dados em padres genticos.
Segundo Takai, Italiano e Ferreira (2005) um Warehousing pode ser definido como
uma tcnica utilizada para recuperao e integrao de dados a partir de fontes distribudas,
autnomas e, possivelmente, heterogneas. Estes dados so armazenados em um grande
depsito chamado de Data Warehouse. Um Data Warehouse sumaria os dados que so
organizados em dimenses, disponibilizando-os para consultas e anlises por meio de
aplicaes OLAP (On-Line Analytical Processing ou processamento analtico online) e
sistemas de suporte deciso.
Para Bongiolo (2006) uma diferencial que se destaca entre um Data Warehouse e um
banco de dados transacional est no fato de que o segundo, como a prpria denominao
informa, armazena dados das transaes dirias nas quais so executadas operaes prdefinidas. Por este motivo os dados podem sofrer mudanas. J um Data Warehouse armazena
dados para anlise e tomada de deciso. Isso pode envolver consultas que variam em sua
complexidade, pois o mesmo contm dados histricos de anos.
Logo, algumas caractersticas necessrias para este ambiente de armazenamentos
so:
Integrao de dados de mltiplas fontes;
Facilitar o processo de consulta, cruzamentos e agregaes de dados;
Ser flexvel para suportar grandes mudanas e quantidade de informao; dentre
outras;
Estar disponvel para o acesso para que os usurios possam interagir com os dados
8
realizao de comparaes e pesquisas nas informaes contidas. Outra caracterstica bsica
est na sua integrao de dados. Como as informaes provenientes da Bioinformtica no
so oriundas apenas de uma fonte e sim de uma aglomerao de dados vindouros de
laboratrios biolgicos espalhados em vrios centros universitrios e laboratrios de pesquisa,
a integrao de dados proporcionada por um Data warehouse uma infra estrutura que permite
criar e manter uma viso consistente de vrias fontes de dados autnomas.
Entretanto, mesmo sendo bem aceita est abordagem para o tratamento dos
problemas da integrao de dados vindouros de fontes de dados distribudas e heterogneas,
Seibel (2000) aponta que est forma de integrao tambm no atende integrao de
informaes biolgicas com relao atualizao dos esquemas e tambm com relao
atualizao das instncias de dados (os pesquisadores precisam ter acesso aos dados mais
recentes).
Logo,
baseando-se na
afirmao
citada,
Seibel
(2000) prope
uma
Em 1996
9
mostra a Figura 2, devem ser atualizados para que estas modificaes sejam espelhadas no
Data Warehouse.
Wieczorek e Leal (2006) expe que, alm dos vrios problemas e solues j citados,
ainda h grandes desafios para a introduo desta abordagem, pois deve-se manter um Data
Warehouse extremamente funcional, mesmo integrando vrias fontes de dados que sofram
mudanas constantemente. Contudo, vrios pesquisadores se debruam sobre o assunto para
criar solues para tal situao.
O Data Warehouse, como foi afirmado por Banerjee (2000), uma tendncia para o
armazenamento de dados oriundos das pesquisas genmicas, pois os dados gerados no so
armazenados apenas em um banco de dados, mas espalhados em diversas instituies de
pesquisas espalhadas pelo mundo. Com a proliferao destes bancos de dados pblicos
que tem sido observado nos ltimos anos, os pesquisadores precisam de uma forma
fcil e intuitiva de acessar todos estes dados (BONGIOLO, 2006, p. 85). Logo, baseandose nestas informaes, nada mais plausvel que, com as cargas e recargas feitas em um Data
Warehouse, todos os laboratrios de pesquisas possam ter em mos uma cpia das
informaes para que os mesmos possam realizar suas pesquisas mediante aos dados
coletados. Outro fato que justifica a utilizao dos Data Warehouse que:
consultar [...] dados de forma distribuda tem seus problemas e
limitaes, como restries de recursos do servidor remoto, preocupao
com a segurana dos dados [...] pela rede, alm da logstica inerente a
10
consulta de bancos distribudos. Num ambiente assim, consultas distribudas
que gerem um grande volume de dados so difceis de processar, alm de
requerer que consultas complexas integrem dados heterogneos de fontes
distintas. (BONGIOLO, 2006, p. 85)
11
BONGIOLO, Elisngela. Anlise panormica da Bioinformtica no Brasil: Proposta da
gesto de pessoas para os laboratrios de pesquisa. Cricima, 2006. Disponvel em:
<http://www.bib.unesc.net/biblioteca/sumario/00002E/00002E38.pdf> Acessado em: 20 Dez
2012
CCO, Tatiana Mara. Implementando wrappers xml e relacional para o Codims. 2005.
Disponvel em: <http://codims.lprm.inf.ufes.br/publicacoes/Monografia_Tatiana.pdf>
Acessado em: 09 Dez 2012.
CRITCHLOW, Terence.; MUSICK, Ron.; SLEZAK, Tom. An Overview of Bioinformatics
Research at Lawrence Livermore National Laboratory. 2000. Disponvel em:
<http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.33.939&rep=rep1&type=pdf>
Acessado em: 20 Dez 2012.
FELIX, Juliana de Maria.; DRUMMOND, Rodrigo Duarte.; NOGUEIRA, Fbio Tebaldi
Silveira.; JUNIOR, Vicente Eugenio de Rosa. JORGE, Renato Atlio.; ARRUDA, Paulo.;
MENOSSI, Marcelo. Genoma Funcional. 2002. Disponvel em:
<http://ipe.cbmeg.unicamp.br/cafe/pub/felix-gf.pdf> Acessado em: 10 Dez 2012.
GIL, Antnio Carlos. Como elaborar projetos de pesquisa. 5. Ed. So Paulo: Atlas, 2010.
LIFSCHITZ, Srgio. Algumas Pesquisas em Bancos de Dados e Bioinformtica. PUC-Rio,
2006. Disponvel em: <http://www.natalnet.br/sbc2006/pdf/arq0271.pdf> Acessado em: 03
Dez 2012.
MATTAR NETO, Joo Augusto. Metodologia Cientfica na Era da Informtica. 2. ed. So
Paulo: Saraiva, 2005.
QUEIROZ, Alexandre. Apostila de Introduo Bioinformtica. Rio Grande do Norte:
UFRN, 2002. Disponvel em: <http://genfis40.esalq.usp.br/genfis/index.php?
option=com_phocadownload&view=category&download=10:introducao-abioinformatica&id=7:apostilas-e-artigos&Itemid=68> Acessado em: 11 Dez 2012.
ROCHA, Ccero Pinho. BANCO DE DADOS EM BIONINFORMTICA. UESPI, 2011.
Disponvel em: <http://artigocientifico.uol.com.br/uploads/artc_1194549401_86.pdf>
Acessado em: 14 Dez 2012.
SEIBEL, Luiz Fernando Bessa. Bio-AXS: Uma Arquitetura para Integrao de Fontes de
Dados e Aplicaes de Biologia Molecular. Disponvel em: <ftp://ftp.inf.pucrio.br/pub/docs/theses/02_PhD_seibel.pdf> Acessado em: 01 Dez 2012.
TAKAI, Osvaldo Kotaro.; ITALIANO, Isabel Cristina.; FERREIRA, Joo Eduardo.
Introduo a Banco de Dados. So Paulo: USP, 2005. Disponvel em:
<http://www.ime.usp.br/~jef/apostila.pdf> Acessado em: 17 Dez 2012.
WIECZOREK, Emilio Mario.; LEAL, Eduardo. Caminhos e Tendncias do uso de Bando
de Dados em Bioinformtica. CEULP, 2006. Disponvel em:
<ftp://www.ufv.br/DBG/material%20curso%20bioinfo/Leitura
%20Complementar/artigos/Caminhos%20e%20Tend%EAncias%20do%20uso%20de
%20Banco%20de20Dados%20em%20Bioinform%E1tica.pdf> Acessado em: 10 Dez 2012.