Você está na página 1de 4

VII Semana da Computao 3 Simpsio de Engenharia Eltrica Inovaes e Tendncias Tecnolgicas

Jata, 21 a 25 de novembro de 2011

APLICAO DE SGBDs RELACIONAIS NO ARMAZENAMENTO DOS NVEIS DE EXPRESSO GNICA DE ONCOGENES MEDIDOS POR MICROARRAY
Reslley Gabriel Oliveira Silva, Fabrcio Alves Rodrigues, Andr Bevilaqua, Franciny Medeiros Barreto, Thamer Horbylon Nascimento, Joo Eduardo Alves Ferreira, Laurence Rodrigues do Amaral laurence.amaral@gmail.com UFG / Universidade Federal de Gois

Palavras-chave: Bioinformtica, Dimensionalidade. Introduo

Bancos

de

Dados

Biolgicos,

SGBDs,

Alta

Com o avano cada vez mais rpido da Bioinformtica, a quantidade de informaes descobertas atingiu propores considerveis, levando necessidade de que estas informaes fossem organizadas e armazenadas para que pudessem ser utilizadas como base para outros estudos e consultas. A Bioinformtica trabalha frequentemente com grandes volumes de informao (Lorena e Carvalho, 2003). Devido a esta necessidade imposta pelos avanos na rea biolgica, os bancos de dados biolgicos se tornaram uma parte vital na literatura biolgica desde a chegada da World Wide Web (WWW). A escolha por SGBDs como meio para armazenar e gerenciar dados biolgicos pode ser vista como um caminho natural j que, devido aos avanos da tecnologia, houve um aumento no volume de dados armazenados (Lifschitz, 2006). Um dos problemas atuais ocorre devido inexistncia de um SGBD especfico para aplicaes em Bioinformtica. A maioria das ferramentas j criadas acessa dados diretamente de arquivos textos ou binrios, sem a utilizao de um SGBD, o que os impede de beneficiar-se de mecanismos eficazes de armazenamento, acesso eficiente a disco e gerenciamento inteligente da memria, entre outros (Lifschitz, 2007). Devido a estas dificuldades supracitadas, este trabalho tem por objetivo analisar dois SGBDs relacionais, MySQL (verso 5.5) e PostgreSQL (verso 9.0.3), popularmente utilizados no armazenamento de dados tradicionais. Desta forma, iremos utiliz-los para armazenar dados vindos de experimentos de microarray, dados estes dotados de alta dimensionalidade (1.000 colunas) e poucos registros (61 linhas). Os detalhes do dataset NCI60 sero descritos na seo seguinte, informaes sobre a aplicao que foi criada para inserir os dados biolgicos no MySQL e PostgreSQL sero descritos na seo Ambiente Desenvolvimento e os resultados obtidos sero descritos na seo Resultados. Dataset NCI60

VII Semana da Computao e 3 Simpsio de Engenharia Eltrica Instituto Federal de Educao, Cincia e Tecnologia de Gois Campus Jata.

VII Semana da Computao 3 Simpsio de Engenharia Eltrica Inovaes e Tendncias Tecnolgicas


Jata, 21 a 25 de novembro de 2011

O microarray de DNA uma metodologia utilizada para comparar a expresso de um grande nmero de genes simultaneamente (Carneiro e Carneiro, 2002). Como exemplo do resultado obtido por essa tcnica, podemos citar a base NCI60 (Ross et al, 2000) utilizada em nosso trabalho. Essa base de dados faz parte do NCI60 Cancer Microarray Project, projeto este, advindo da colaborao entre o laboratrio Brown/Bolstein do grupo John Weinstien's do Laboratory of Molecular Pharmacology e do Laboratory of Developmental Therapeutics, ambos pertencentes ao National Cancer Institute, nos EUA. Para a construo desta base, foram utilizados microarrays de cDNA na busca de expresses gnicas de aproximadamente 8.000 genes distintos. Estes genes, oriundos de 61 linhagens celulares, foram classificados em 9 (nove) classes de cncer: (1) mama, (2) sistema nervoso central, (3) clon, (4) leucemia, (5) melanoma, (6) pulmo, (7) ovrio, (8) renal e (9) clulas reprodutivas. Os nmeros entre parnteses referem-se ao cdigo utilizado para representar cada classe na base de dados. O nmero de ocorrncias de cada classe dado a seguir: mama (7), sistema nervoso central (6), clon (7), leucemia (6), melanoma (8), pulmo (9), ovrio (6), renal (8) e clulas reprodutivas (4), totalizando 61 amostras (Amaral, 2007). No trabalho de Ooi e Tan (Ooi e Tan, 2003) foi realizado um prprocessamento, no qual foram excludos genes que estavam em spots invlidos, de controle e vazios, totalizando 6.176 genes. Finalmente, partindo dos 6.176 genes prprocessados, Ooi e Tan chegaram a um dataset reduzido contendo 1.000 genes, os quais apresentaram os maiores valores de desvio padro na base NCI60. Estes genes foram indexados de 1 a 1.000. A Tabela 1 apresenta uma viso geral da base NCI60, composta pela expresso de 1.000 genes (colunas), medida para 61 amostras de clulas (linhas), sendo que cada amostra classificada em uma das nove classes de cncer citadas anteriormente (ltima coluna). Os dados de expresso gnica so valores do tipo ponto flutuante que podem assumir valores negativos e positivos, sendo obtidos atravs das intensidades dos pontos fluorescentes obtidos no micro arranjo.
Tabela 1. Viso geral da base NCI60 reduzida e utilizada nos experimentos de Ooi e Tan [Ooi e Tan, 2003]

Escolhemos a base NCI60 nesta anlise devido ao seu elevado grau de interesse dentro da rea de Bioinformtica. Segundo Xu e colaboradores (Xu et al, 2007), muito difcil propor regras ou critrios na determinao de um conjunto de genes que seja discriminantes no diagnstico de doenas, especialmente quando as bases de dados estudadas possuem um elevado nmero de classes, tais como a
VII Semana da Computao e 3 Simpsio de Engenharia Eltrica Instituto Federal de Educao, Cincia e Tecnologia de Gois Campus Jata.

VII Semana da Computao 3 Simpsio de Engenharia Eltrica Inovaes e Tendncias Tecnolgicas


Jata, 21 a 25 de novembro de 2011

complexa NCI60 (Ross et al, 2000). A base NCI60 considerada um desafio para os algoritmos de classificao por suas caractersticas peculiares: um nmero relativamente alto de classes (9) para um nmero relativamente baixo nmero de amostras (61), resultando em nmero baixo de amostras por classe, variando de 4 a 9 amostras por classe. Alm disso, at 2030 o cncer deve matar por ano, 13,2 milhes de pessoas em todo o mundo, nmeros estes apresentados pela Agncia Internacional para Pesquisa sobre Cncer das Naes Unidas (Iarc). Em 2008, o nmero de mortes por cncer chegou a 7,6 milhes. A pesquisa constatou ainda que sero diagnosticados 21,4 milhes de casos por ano nas prximas duas dcadas. Desta forma, torna-se importantssimo o estudo e desenvolvimento de bancos de dados e ferramentas de anlise e minerao de dados voltados para esta doena, fornecendo assim, ferramentas que possam auxiliar no prognstico do cncer. Ambiente desenvolvido Para armazenar os dados biolgicos da NCI60, estruturados em 61 linhas e 1.000 colunas (como descrito na seo Dataset NCI60), utilizamos uma nica tabela, contendo 1.001 atributos, sendo 1.000 atributos para os nveis de expresso e um atributo para a classe. A fim de automatizar este processo de construo e populao desta tabela, implementamos um software escrito em linguagem Java que possui dois principais mdulos, um primeiro que constri o script SQL de criao da tabela (instrues de "CREATE TABLE") e um segundo responsvel pela populao destes dados (instrues de "INSERT INTO"). De posse destes dois scripts, aplicamos os dois aos bancos de dados relacionais MySQL e PostgreSQL. Os resultados obtidos para estes dois bancos de dados sero abordados na seo Resultados. Resultados Primeiramente descreveremos os resultados obtidos no banco de dados MySQL. Ao aplicarmos o primeiro script, responsvel pela criao da tabela, recebemos a mensagem que a tabela no poderia ser criada devido ao elevado nmero de atributos encontrados no comando "CREATE TABLE". Tentando buscar este limite mximo, fomos retirando gradativamente os atributos encontrados, e chegamos ao nmero de 500 atributos. Isto , o banco de dados relacional MySQL consegue armazenar, em uma dada tabela, no mximo 500 atributos. Desta forma, encontramos o primeiro impedimento em utilizar o MySQL como repositrio de dados biolgicos para a NCI60. Caso o dataset analisado tenha mais de 500 atributos, devemos utilizar outro gerenciador de bancos de dados. Partindo desta constatao, instalamos o PostreSQL e executamos o primeiro script de criao de tabela. O script rodou perfeitamente, criando a tabela com 1.001 atributos no gerenciador de banco de dados. Aps a criao desta tabela, rodamos o segundo script populando esta tabela com os dados de expresso gnica. Concluses e Trabalhos Futuros

VII Semana da Computao e 3 Simpsio de Engenharia Eltrica Instituto Federal de Educao, Cincia e Tecnologia de Gois Campus Jata.

VII Semana da Computao 3 Simpsio de Engenharia Eltrica Inovaes e Tendncias Tecnolgicas


Jata, 21 a 25 de novembro de 2011

Partindo dos resultados apresentados na seo Resultados, podemos perceber que para esta base de dados em questo (NCI60) o SGBD MySQL no adequado pela sua limitao com relao ao nmero de atributos, sendo o PostgreSQL uma boa alternativa. Desta forma, iremos extender nossos experimentos a outros bancos de dados, tais como: Firebird, SQL Server, Oracle e DB2. Como observado nesta lista apresentada, alm de SGBDs open-source, expandiremos nossa anlise tambm aos SGBDs proprietrios, procedendo num primeiro momento a mesma anlise apresentada na seo anterior. De posse de uma lista de SGBDs que podem ser utilizados no armazenamento dos dados da NCI60, procederemos anlises levando em considerao velocidades de construo de tabela, insero e recuperao de dados. Para validar estes valores, usaremos medidas estatsticas como intervalo de confiana e executaremos os experimentos em uma mquina padro para todos os SGBDs. Alm destes experimentos acima descritos, utilizaremos outras bases biolgicas, comprovadamente no tradicionais, aplicando-os aos SGBDs selecionados buscando elencar quais so os melhores SGBDs relacionais para tais datasets biolgicos. Referncias Carneiro, N. P.; Carneiro, A. A.. A Era Genmica - Desvendando o Cdigo Gentico. UFLA, 2002. Amaral, L. R.. Minerao de regras para classicao de oncogenes medidos por microarray utilizando algoritmos genticos. Dissertao de mestrado, Psgraduao em Cincia da Computao, Universidade Federal de Uberlndia, 2007. Lifschitz, S. Algumas pesquisas em bancos de dados e bioinformtica. Anais do XXVI Congresso da SBC. Workshop de Biologia Computacional, Campo Grande, 2006. Lifschitz, S.. Gerenciadores de dados biolgicos: Genricos ou ad-hoc? Anais do XXVII Congresso da SBC. XXXIV Seminrio Integrado de Software e Hardware, Rio de Janeiro, 2007. Lorena, A. C.; de Carvalho, A. C. P. L. F.. Utilizao de tcnicas inteligentes em bioinformtica. Relatrio Tcnico, Universidade de So Paulo - ICMC, 2003. Ooi, C. H.; Tan, P.. Genetic algorithms applied to multi-class prediction for the analysis of gene expression data. Bioinformatics, 19, 1, 3744, 2003. Ross, D. T., Scherf, U., Eisen, M. B., Perou, C. M., Rees, C., Spellman, P., Iyer, V., Jeffrey, S. S., de Rijn, M. V., Waltham, M., Pergamenschikov, A., Lee, J. C. F., Lashkari, D., Shalon, D., Myers, T. G., Weinstein, J. N., Botstein, D., and Brown, P. O.. Systematic variation in gene expression patterns in human cancer cell lines. Nature Genetics, 2000. Xu, R.; Anagnostopoulos, G. C.; II, D. C. W.. Multiclass cancer classication using semisupervised ellipsoid artmap and particle swarm optimization with gene expression data. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 4, 1, 2007.

VII Semana da Computao e 3 Simpsio de Engenharia Eltrica Instituto Federal de Educao, Cincia e Tecnologia de Gois Campus Jata.

Você também pode gostar