Você está na página 1de 36

Estudo de Caso Sistemas de Informao On-line: A experincia do CRIA

Dora Ann Lange Canhos, Sidnei de Souza, Renato de Giovanni, Marinez Ferreira de Siqueira, Alexandre Marino, Rafael Lus Fonseca, Benedito Aparecido Cruz, Vanderlei Perez Canhos. Centro de Referncia em Informao Ambiental

Junho de 2005

ndice
1. Introduo...................................................................................................................................1 2. Sistemas Centralizados, Distribudos ou Mistos: Vantagens e Desvantagens.........................1 3. Padres e Protocolos em Informtica para Biodiversidade.......................................................3 4. Exemplo de Sistemas Centralizados no CRIA: SinBiota e SICol..............................................8 5. Exemplo de Sistemas Distribudos: a Rede speciesLink........................................................11 6. Ferramentas..............................................................................................................................16 7. Infra-estrutura...........................................................................................................................31 8. Sustentabilidade.......................................................................................................................32 9. Referncias...............................................................................................................................33

Junho de 2005

1. Introduo
O Centro de Referncia em Informao Ambiental (CRIA), uma sociedade civil, sem fins lucrativos, que tem como meta e estratgia a disseminao de informao, como ferramenta na organizao da comunidade cientfica e tecnolgica do pas. Atua especificamente na rea de informao biolgica, de interesse industrial e ambiental, e pretende, atravs de sua atuao, contribuir diretamente para a conservao e utilizao racional da biodiversidade no Brasil. A equipe do CRIA trabalha com sistemas de informao on-line desde 1985 quando tornou disponvel ao pblico o Catlogo Nacional de Linhagens atravs da rede implementada pelo Cirando, um projeto pioneiro criado pela Embratel, precursor da Internet no Brasil. Essa equipe participou ainda da discusso do Clearing-House Mechanism da Conveno sobre a Diversidade Biolgica (CDB) e foi responsvel pelo desenvolvimento da Rede Brasileira de Informao em Biodiversidade, a BINbr enquanto fazia parte da Base de Dados Tropical. Esse conhecimento deu equipe os subsdios necessrios para se responsabilizar pelo desenvolvimento e manuteno de 3 sistemas de informao sobre espcies e espcimes, dois dos quais do suporte ao programa Biota/Fapesp, O Instituto Virtual da Biodiversidade: o SinBiota e a rede de colees biolgicas speciesLink. O terceiro sistema est voltado a colees de interesse biotecnolgico. Trata-se do SICol (Sistema de Informao de Colees de Interesse Biotecnolgico) desenvolvido com recursos do Ministrio da Cincia e Tecnologia e suas agncias. Os trs sistemas apresentam vrias caractersticas distintas j que foram criados em momentos diferentes, como solues para problemas diferentes. O fato de cada um deles ter sido concebido como um sistema centralizado, distribudo ou misto o objeto de anlise desse documento.

2. Sistemas Centralizados, Distribudos ou Mistos: Vantagens e Desvantagens


No se pode dizer a priori qual a melhor arquitetura a ser adotada na definio de um sistema de informao. A escolha depende de uma srie de fatores como infra-estrutura disponvel (hardware e software), capacitao tcnica (humanware), conectividade, recursos disponveis e a sociologia da comunidade alvo. Um aspecto essencial , seja qual for a arquitetura escolhida, o autor ou provedor precisa ter total autonomia e domnio sobre seus dados. Ao autor cabem os crditos e a responsabilidade pela qualidade e veracidade dos dados. Ao gestor do sistema de informao (custodian) cabe a tarefa de garantir a integridade dos dados, respeitar eventuais restries por parte do autor, manter o sistema no ar com backup e controles de segurana de rede.

2.1.

Sistemas centralizados

Um sistema centralizado (figura 1) caracteriza-se por apresentar dados armazenados em um servidor central. Os autores ou provedores da informao enviam os seus dados ao servidor central seguindo um formato pr-estabelecido. Os dados providos pelos vrios participantes da rede, quando armazenados no servidor central, passam a ter a mesma estrutura e formato, constituindo uma base de dados nica e homognea.

Sistema Centralizado de Informao

Usurio

Sistema Central Provedores de dados

Figura 1. Esquema de um sistema centralizado de informao (CRIA, 2005)

Um sistema centralizado via-de-regra no exige do provedor grande capacitao tcnica em informtica nem uma infra-estrutura complexa. O fato de estar em um nico ambiente, torna o sistema facilmente controlvel, o que uma vantagem do ponto de vista do seu desenvolvimento e manuteno. Mas, uma das principais vantagens o desempenho. De modo geral, o tempo de resposta de buscas em bases de dados centralizadas muito menor se comparado ao de bases distribudas. O trabalho de otimizao das rotinas de busca muito mais fcil de ser tratado, j que depende apenas de fatores internos ao sistema e do tipo de banco de dados utilizado, e no de fatores externos como a performance da rede. A grande desvantagem a atualizao dos dados. muito difcil manter uma relao dinmica entre o provedor da informao e o gestor do sistema, mesmo quando cada provedor responsvel pelos seus dados e no h qualquer interferncia ou manipulao dos dados por parte do gestor. O rompimento dessa interao pode inclusive provocar um distanciamento entre o usurio e o provedor de dados j que, com o tempo, os dados podem ficar desatualizados ou at podem no mais responder s perguntas ou atender s necessidades do usurio. A autoria dos dados tambm pode ser menos evidente em sistemas centralizados. Isso pode trazer algum descontentamento e servir de desestmulo para a manuteno da parceria.

2.2.

Sistemas distribudos

Sistemas distribudos (figura 2) caracterizam-se por dados armazenados e gerenciados nos servidores dos prprios provedores da informao. Cabe a um portal receber as consultas dos usurios, distribu-las aos provedores, e depois integrar e devolver os resultados aos usurios.

Sistema Distribudo

Aplicativos: Gateway de Dados Catlogo Virtual Modelagem ....

Internet 2
Col 1 Col 2 Col 3

Figura 2. Esquema de um sistema distribudo

Uma grande vantagem de sistemas distribudos o fato dos dados estarem sempre atualizados, quase sempre em tempo real, j que o sistema faz acesso ao dado diretamente na sua fonte primria. A autoria e a responsabilidade pelos dados tambm evidenciada. Outro aspecto interessante a co-responsabilidade na manuteno do sistema on-line e a necessidade do estabelecimento de parcerias plenas entre o provedor de dados e o gestor do sistema de informao. As desvantagens mais importantes incluem a complexidade do sistema, que passa a depender de uma srie de fatores externos. O provedor em um sistema distribudo precisa ter uma boa infra-estrutura computacional capacitao em informtica, e uma conectividade Internet rpida e estvel. Para minimizar o efeito das variveis externas, a opo at pouco tempo atrs era a padronizao de hardware e software. Hoje, com o grande avano no desenvolvimento de padres e protocolos para a integrao de sistemas heterogneos, possvel integrar sistemas operacionais variados utilizando diferentes software.

3. Padres e Protocolos em Informtica para Biodiversidade


A adoo de padres e protocolos para a troca de dados e informaes sobre biodiversidade fundamental para a criao de sistemas interoperveis de informao. De uma maneira geral, podemos definir um padro como sendo algo definido ou em comum acordo ou por autoridade especfica para servir como modelo ou regra para determinado fim. Tem-se tambm como padro algo que o consenso geral estabeleceu como modelo. A World Wide Web Consortium (W3C)1, por exemplo, uma iniciativa que estuda padres para Web com o objetivo de garantir que as tecnologias fundamentais sejam compatveis entre si. A idia permitir que qualquer hardware ou software utilizado para acessar a Web possam trabalhar em conjunto. A W3C faz referncia sua meta como sendo interoperabilidade Web. Atravs da publicao aberta (no proprietria) de padres para linguagens e protocolos, estimulando a sua adoo e uso, a W3C busca evitar uma fragmentao que poderia comprometer a Web.

http://www.w3.org/

Um protocolo de comunicao pode ser definido como a descrio formal das regras e formatos de mensagem que dois sistemas devem obedecer para que possam se comunicar e interagir. Talvez os exemplos mais importantes e conhecidos sejam TCP/IP (Transmission Control Protocol / Internet Protocol), SMTP (Simple Mail Transfer Protocol), POP (Post Office Protocol) e IMAP (Internet Message Access Protocol). Esse conjunto de protocolos representa a base de toda a transmisso de dados na Internet desde a troca de emails e a transferncia de arquivos at a transmisso de dados em redes distribudas. Outros padres de linguagens que tambm merecem destaque no cenrio da Web so HTML (Hyper Text Markup Language) e XML (eXtensible Markup Language) os quais definem as regras de formatao da maioria dos documentos transmitidos atravs da Internet. No perodo que antecedeu a Web, os usurios precisavam de um determinado grau de competncia e conhecimento em computao para acessar diferentes sistemas de dados. Graas ao desenvolvimento de padres e protocolos, hoje, atravs de apenas um software (web browser) os usurios podem acessar praticamente qualquer sistema de informao disponvel na Internet, facilitando sobremaneira o acesso a sistemas verdadeiramente complexos de disseminao de dados e informaes. A complexidade passa a estar quase que exclusivamente no desenvolvimento dos sistemas e no no acesso aos dados e informaes. No caso de sistemas de informao para biodiversidade, e principalmente sob o ponto de vista da escala global com inmeros provedores distribudos ao redor do mundo servindo uma quantidade muito grande de dados heterogneos e inter-relacionados, fica evidente que padres e protocolos precisam ser desenvolvidos e adotados por toda a comunidade. Num futuro muito prximo podemos imaginar uma srie de redes temticas interligadas servindo dados para diferentes pblicos e fornecendo ferramentas que beneficiam diretamente os provedores originais (figura 3).

Figura 3. Cenrio envolvendo o uso de padres e protocolos

Um grupo que merece destaque no desenvolvimento de padres e protocolos para dados sobre espcies e espcimes o TDWG (International Working Group on Taxonomic Databases)2. O TDWG tem como misso promover um frum internacional para projetos sobre dados biolgicos, desenvolver e promover o uso de padres, e facilitar a troca de dados. So vrios grupos de trabalho em atividade que esto buscando estabelecer padres para: Dados de Colees Biolgicas Botnica Econmica Geografia Metadados de Colees Biolgicas Dados de imagens e observaes Padres para dados espaciais Estrutura de dados descritivos de espcies Nomes taxonmicos TCS Taxonomic Concept Transfer Schema SDD Structured Descriptive Data DarwinCore ABCD Access to Biological Collection Data DiGIR, BioCASe e TAPIR

Alguns padres que merecem destaque para dados de colees biolgicas so:

3.1.

TCS Taxonomic Concept Transfer Schema3

O TCS pretende servir como padro para troca de dados taxonmicos considerando as abordagens de diferentes grupos de usurios (taxonomistas, nomencladores, eclogos, etc). Utiliza XML (definido atravs de XML-Schema), e est neste momento aguardando a homologao pelo TDWG. O TCS est centrado na idia de conceito taxonmico, ou seja, a classificao de um grupo de organismos por uma pessoa num determinado momento. Cada conceito taxonmico envolve um nome e uma definio. Neste caso, os conceitos taxonmicos foram classificados em: definio original, reviso, conceito incompleto, agregado de conceitos e conceito nomenclatural (quando h uma referncia implcita a todos os conceitos que j usaram um mesmo nome). Documentos no padro TCS podero portanto conter conceitos, nomes e as relaes taxonmicas e nomenclaturais entre eles. J existe um prottipo em desenvolvimento cujo objetivo servir como repositrio de conceitos taxonmicos (TOS, Taxonomic Object Service4), onde pesquisadores podero realizar consultas e registrar novos dados. Num futuro prximo, cada conceito taxonmico poder vir a ter um identificador global nico que dever ser capaz de substituir a utilizao de nomes cientficos em protocolos de troca de dados.

2 3 4

http://www.tdwg.org/ http://www.soc.napier.ac.uk/tdwg/index.php http://seek.ecoinformatics.org/Wiki.jsp?page=SeekTaxonTools

3.2.

SDD Structured Descriptive Data5

O SDD pretende ser um padro para armazenamento e troca de dados descritivos de organismos (taxa e espcimes). Tambm utiliza o XML, definido atravs do XML-Schema. Documentos do tipo SDD podero armazenar os seguintes dados: Metadados sobre o documento Terminologia de dados descritivos (em mltiplas lnguas e tendo em vista mltiplos pblicos-alvo) Possibilidade de descrever categorias de organismos (Taxa) ou organismos especficos (espcimes / linhagens) Descries em linguagem natural com possibilidade de marcar texto Descries codificadas Chaves de identificao Recursos adicionais (glossrio, imagens, notas, referncias, etc)

Esse padro tambm est aguardando homologao pelo TDWG, sendo que j existe um prottipo para editar documentos SDD. A existncia de um padro para dados descritivos permitindo a integrao de dados de diferentes fontes ao redor do mundo dever facilitar enormemente o processo de identificao e mesmo de descrio de novas espcies.

3.3.

DarwinCore6

A idia do DarwinCore foi reunir os elementos (campos) comuns a todos os grupos taxonmicos para padronizar a integrao de dados primrios de colees biolgicas. Tambm utiliza XML (definido atravs de XML-Schema) e aceita extenses. A verso atual do modelo de dados est sendo utilizada pela maioria das redes, inclusive pela rede speciesLink, pelo GBIF7, pela rede de Mamferos Manis8, e pela rede OBIS (Ocean Biogeographic Information System9), entre outras. Os campos definidos na verso atual do DarwinCore so: InstitutionCode, CollectionCode, CatalogNumber, ScientificName, BasisOfRecord, Kingdom, Phylum, Class, Order, Family, Genus, Species, Subspecies, ScientificNameAuthor, IdentifiedBy, YearIdentified, MonthIdentified, DayIdentified, TypeStatus, ColectorNumber, FieldNumber, Collector, YearCollected, MonthCollected, DayCollected, JulianDay, TimeOfDay, ContinentOcean, Country, StateProvince, County, Locality, Longitude, Latitude, CoordinatePrecision, BoundingBox, MinimumElevation, MaximumElevation, MinimumDepth, MaximumDepth, Sex, Preparationtype, IndividualCount, PreviousCatalogNumber, RelatedCatalogNumber, RelatedCatalogItem, RelationshipType, Notes, DateLastModified. Uma nova verso10 est sendo discutida para ser homologada pelo TDWG.

5 6 7 8 9 10

http://160.45.63.11/Projects/TDWG-SDD/ http://darwincore.calacademy.org http://www.gbif.net http://elib.cs.berkeley.edu/manis/ http://www.iobis.org/ http://darwincore.calacademy.org/

3.4.

ABCD Access to Biological Collection Data11

O objetivo do ABCD foi o de estabelecer um padro para a troca de dados e metadados de registros em colees biolgicas procurando englobar as particularidades de todos os grupos taxonmicos. O objetivo idntico ao DarwinCore s que muito mais detalhado, uma vez que possui cerca de 500 elementos, contra os cerca de 50 elementos do DarwinCore. O modelo de dados ABCD contm elementos especficos para os seguintes tipos de colees: Herbrios e Jardins Botnicos Colees Zoolgicas Colees de Culturas Colees Paleontolgicas

Esse modelo est sendo utilizado pela rede de colees europias: BioCASE12. Como os demais padres, utiliza XML (definido atravs de XML-Schema) e est aguardando a homologao pelo TDWG. DarwinCore e ABCD so os modelos de dados para colees biolgicas sendo adotados pelas principais redes na Internet.

3.5.

DiGIR13, BioCASe14 e TAPIR15 - protocolos para troca de dados

As atuais redes que servem dados de colees biolgicas, alm de um modelo de dados padro (como DarwinCore ou ABCD) precisam tambm de um protocolo para transferncia dos dados. A primeira rede de colees biolgicas a desenvolver um sistema distribudo foi a rede Species Analyst com o uso do protocolo Z39.50 no final dos anos 90. ANSI/NISO Z39.50 um protocolo utilizado para interconectar sistemas abertos. A primeira verso do padro foi aprovada em 1988 e utilizado principalmente por bibliotecas e editoras. O protocolo define o padro de comunicao entre computadores para a recuperao de informao. Uma caracterstica importante o fato do Z39.50 suportar ambientes cliente-servidor o que permite separar a interface do usurio (do lado do cliente) do servidor de dados e de ser multiplataforma. Para colees biolgicas ele provou ser muito complexo, exigindo adaptaes por parte do provedor de dados. Dentro do escopo do TDWG, a equipe da Universidade de Kansas, responsvel pelo desenvolvimento da rede Species Analyst, e pesquisadores da Universidade da Califrnia e da Academia de Cincias da Califrnia comearam a discutir o desenvolvimento de um outro protocolo mais simples, que atendesse a demanda de uma rede distribuda de dados de colees biolgicas. Optaram por desenvolver esse protocolo de forma cooperativa e colaborativa e lanaram o primeiro cdigo no SourceForge, um ambiente para desenvolvimento de software de cdigo aberto. A equipe do CRIA, que estava iniciando os trabalhos de desenvolvimento da rede speciesLink decidiu participar do desenvolvimento colaborativo ao invs de criar um protocolo prprio. Foi dessa iniciativa que nasceu o protocolo DiGIR (Distributed Generic Information Retrieval). Os requisitos e objetivos da proposta original incluam:
11 12 13 14 15

Utilizao de padres e protocolos abertos: HTTP, XML e UDDI

http://www.codata.org/taskgroups/TGbiocollection/ http://www.biocase.org/ http://www.digir.net/ http://www.biocase.org/dev/protocol/index.shtml http://ww3.bgbm.org/tapir

Separao clara entre protocolo, software e semntica Facilidade na instalao e configurao de provedores de dados Desenvolvimento colaborativo (modelo open source) Produtos disponveis a todos atravs de licena pblica (GPL - GNU General Public License)

O desenvolvimento dos trabalhos foi financiado pela NSF (National Science Foundation) nos Estados Unidos e pela Fapesp (Fundao de Amparo Pesquisa do Estado de So Paulo) no Brasil. Entretanto, a necessidade de viabilizar a troca de dados utilizando esquemas conceituais mais complexos (no caso o ABCD) levou a rede de colees Europia (BioCASE) a modificar o protocolo DiGIR e criar um outro protocolo conhecido hoje como BioCASe. Infelizmente, derivaes deste tipo dificultam a interoperabilidade entre sistemas e normalmente acarretam duplicidade de esforos. Em 2004 foi feito um estudo financiado pelo GBIF para desenvolver um novo protocolo que atendesse s necessidades tanto das redes DiGIR como da rede BioCASE (Dring & Giovanni, 2004). Esse novo protocolo foi denominado TAPIR (TDWG Access Protocol for Information Retrieval) e deve ser lanado ainda em 2005. Espera-se que as redes atuais gradativamente passem a usar o novo protocolo.

4. Exemplo de Sistemas Centralizados no CRIA: SinBiota e SICol


4.1. SinBiota16
O SinBiota foi concebido em 1999 com a funo de ser um repositrio dos dados das coletas realizadas no mbito do programa Biota/Fapesp. Foi desenvolvido um banco de dados centralizado com alimentao remota, onde o pesquisador pudesse depositar os seus dados, a ficha de coleta e a lista de espcies associadas coleta. O sistema foi desenvolvido atravs de uma parceria entre o CRIA, a Unicamp (Institutos de Computao e de Geocincias e a Faculdade de Engenharia Agrcola) e o Instituto Florestal, responsvel pela digitalizao da base cartogrfica do estado de So Paulo (escala de 1:50.000). Para este caso, uma arquitetura centralizada uma boa opo, uma vez que pesquisadores individuais ou at mesmo grupos de pesquisa via-de-regra no tm estrutura ou interesse em manter um sistema de informao de acesso permanente disponvel na Internet. No SinBiota somente pesquisadores cadastrados, associados a algum projeto do programa, podem inserir, corrigir ou at remover seus dados do sistema central. O acesso protegido por senhas controladas pelos coordenadores de cada projeto. Para a entrada de dados foi elaborada uma ficha padro de coleta com campos obrigatrios e opcionais, usando vocabulrio controlado 17. Foi tambm desenvolvida uma estrutura de banco de dados que pudesse integrar os dados de todos os grupos taxonmicos18. A figura 4 apresenta um diagrama da arquitetura do sistema.

16 17 18

http://sinbiota.cria.org.br http://sinbiota.cria.org.br/info/fichapadrao http://sinbiota.cria.org.br/info/estruturabd

Mapas

Usurio

Servidor Web

Servio de Mapas

Banco de Dados Pesquisador do Programa Biota Interface Web Coletas e listas associadas

Figura 4. Diagrama da Arquitetura do SinBiota

O sistema est em um servidor Intel/Linux o banco de dados o PostgreSQL e os bancos de dados secundrios esto em XML. Dados do dia 03 de junho de 2005 19 indicam um total de 7.742 coletas registradas no sistema com cerca de 60 mil espcies associadas a essas coletas. So 60 projetos cadastrados, sendo que nem todos realizam coletas. As estatsticas indicam que o sistema possui 180 usurios responsveis pela insero de dados.

4.2.

SICol20

O segundo sistema centralizado mantido pelo CRIA o SICol (Sistema de Informao de Colees de Interesse Biotecnolgico), produto de um projeto do Programa de Biotecnologia e Recursos Genticos do Ministrio da Cincia e Tecnologia. Enquanto no SinBiota os dados so enviados por pesquisadores individualmente, no SICol, so enviados em grandes blocos, j organizados e mantidos pelas colees participantes, atravs de arquivos pr-formatados. O SICol adotou o padro CABRI (Common Access to Biological Resources and Information)21, com pequenas modificaes, como o modelo de dados. Cada um dos provedores deve produzir e formatar uma planilha de dados de acordo com o modelo definido pelo SICol antes de alimentar o sistema central. Para o envio dos dados, foi criada uma pgina web atravs da qual, mediante a utilizao de senhas de acesso, as colees podem periodicamente submeter (enviar) seus dados atualizados. A figura 5 apresenta o esquema adotado pela rede SICol.

19 20 21

http://sinbiota.cria.org.br/info/estatistica http://sicol.cria.org.br http://www.cabri.org

Bactrias Usurios

Fungos

Interface Web

Clulas

Etc... Centros de Recursos Biolgicos Base de dados do SICol

Figura 5. Esquema do SICol

A opo por um sistema centralizado foi feita aps a realizao de um diagnstico das colees quanto sua infra-estrutura fsica, existncia ou no de pessoal capacitado em informtica e conectividade. A absoluta maioria no dispunha nem de infra-estrutura de informtica (hardware, software ou humanware), nem de boa conectividade Internet. A figura 6 a seguir procura mostrar o sistema implementado.

Figura 6. Sistema SICol

10

O servidor web utilizado pelo SICol o Apache 22, a implementao do banco de dados foi feita em PostgreSQL23, e os scripts das pginas foram todos desenvolvidos em linguagem Perl 24. Todos so software livre amplamente utilizados e reconhecidos pela comunidade de desenvolvedores. O catlogo virtual do SICol tem 9 colees participantes e est disponvel on-line. No dia 03 de junho de 2005 disponibilizava 8598 registros. O sistema desenvolvido requer pouco conhecimento por parte da coleo para enviar ou alterar os seus dados. Para alimentar o sistema a coleo precisa exportar seus dados para uma planilha, acessar o sistema usando sua senha e enviar a planilha. No entanto, foi constatado que apesar da simplicidade do processo, foram poucas as colees que atualizaram seus dados.

5. Exemplo de Sistemas Distribudos: a Rede speciesLink


A rede speciesLink25 um exemplo de um sistema distribudo de dados. O projeto teve por objetivo integrar os acervos de colees cientficas do Estado de So Paulo com os dados armazenados no SinBiota e na rede Species Analyst26. O desafio foi integrar os dados das colees biolgicas do Estado de So Paulo interferindo o mnimo possvel na sua rotina, adaptando-se aos software j adotados para o gerenciamento dos acervos. (figura 7).

Win2000 Brahms
Col 1

Win98 Access
Col 2

Linux MySQL
Col 3

Win98 biota
Col 4

FreeeBSD PostgreSQL
Col 5

programa

interface
buscar

Figura 7. Desafio no desenvolvimento da rede speciesLink

O primeiro passo foi trabalhar com a infra-estrutura de dados, base para todo o desenvolvimento do projeto. Embora grande parte das colees cientficas paulistas tenha se
22 23 24 25 26

http://www.apache.org/
http://www.postgresql.org/ http://www.perl.org/ http://splink.cria.org.br/ http://speciesanalyst.net/

11

modernizado nos ltimos anos devido a incentivos, em especial providos pela Fapesp, a situao entre elas bastante heterognea. Foram selecionadas colees totalmente informatizadas, parcialmente informatizadas e outras em processo de escolha do software a ser utilizado. Como objeto de pesquisa foi importante lidar com todas as situaes, da a escolha de colees em estgios to diversos. O nico critrio comum foi o compromisso de compartilhar os dados atravs de um sistema de acesso pblico na Internet. Para auxiliar as colees no processo de informatizao e para estudar formas de integrar os diferentes acervos, foi realizada uma avaliao preliminar dos software disponveis no mercado para a informatizao de colees biolgicas. Os software estudados foram: Biota (Robert Colwell) Brahms (Universidade de Oxford) Specify (Universidade do Kansas) Microsoft Access e Sistemas Gerenciadores de Bancos de Dados Relacionais Planilha Microsoft Excel

As 40 colees que hoje integram a rede esto utilizando nove software distintos. Com relao ao protocolo para acesso a dados distribudos e heterogneos, o CRIA colaborou no desenvolvimento do protocolo DiGIR, Distributed Generic Information Retrieval, um protocolo cliente/servidor j mencionado em sees anteriores, que foi projetado para recuperar informao de fontes distribudas de acordo com um modelo de dados genrico e arbitrrio. O protocolo mantm a independncia entre o mecanismo de transmisso de mensagens e o modelo de dados em que a informao recuperada. Dessa forma possvel utilizar o protocolo para recuperar dados de outros domnios e no apenas de colees biolgicas. Assim, o DiGIR pode ser entendido como um protocolo configurvel, uma vez que as redes que o utilizam podem escolher e definir esquemas conceituais de dados que desejam utilizar. Porm, com vistas a maximizar a interoperabilidade com outras redes, necessrio no apenas adotar o mesmo protocolo mas tambm um esquema conceitual comum. Foi com este objetivo que foi criado um esquema conceitual genrico, um modelo de dados para colees biolgicas chamado DarwinCore, tambm descrito em outra seo desse trabalho. A arquitetura tpica de uma rede DiGIR envolve ao menos trs componentes distintos: Camada de apresentao: o software que interage com o usurio oferecendo uma interface amigvel para especificao de buscas e exibio dos resultados. A camada de apresentao comunica-se com a camada seguinte. Camada de distribuio de mensagens (portal): o software que recebe requisies da camada de apresentao e as distribui para cada um dos provedores de dados conectados rede. A comunicao com os provedores feita atravs do protocolo DiGIR. Provedor: o software responsvel por receber requisies do portal e traduz-las para a linguagem de busca utilizada pelo banco de dados local. O processo de traduo da busca inclui o mapeamento que o provedor fez com relao a um ou mais esquemas conceituais utilizados pelas redes em que participa.

A idia original seria conectar as colees diretamente ao portal atravs desse protocolo. No entanto, no Estado de So Paulo (rea de desenvolvimento do prottipo) a maioria das colees no possui servidor ou rede Internet de alta velocidade nem equipe tcnica capaz de

12

manter um sistema de informao permanentemente no ar. A soluo foi desenvolver servidores regionais que espelham os dados existentes nas colees (figura 8).
Catlogo Virtual
HTTP / XML

Usurios

buscas

Portal DiGIR
HTTP / XML
Provedor DiGIR Provedor DiGIR Provedor DiGIR Provedor DiGIR

Servidor Regional
SOAP

Colees Biolgicas

Figura 8. Esquema de um modelo hbrido

Para viabilizar esta arquitetura foram desenvolvidas interfaces, programas capazes de ler os registros e atualizar os bancos de dados nos servidores regionais atravs de um simples comando de atualizao. possvel tambm desenvolver filtros que do ao curador a liberdade de omitir dados sensveis e dessa forma ter total controle sobre o que ser ou no disponibilizado on-line. A figura 9 apresenta um esquema da arquitetura adotada pela rede speciesLink.

13

speciesLink site

lib DiGIR

http/xml Portal

Conectividade rpida e estvel

http/xml

Coleo A

Provider (PHP) SQL

registro

Servidor Regional

Provider (PHP) SQL

Sistema de Gerenciamento

Dados soap/http/xml

Mirror (SOAP server)

Dados (PostgreSQL)

Conectividade lenta ou instvel

Coleo D SQL dados spLinker (Java)

Coleo B

Coleo C

Sistema de Gerenciamento

Repositrio de dados

Figura 9. Arquitetura da rede speciesLink

A figura a seguir mostra o diagrama da implementao da arquitetura proposta com as colees participantes.

14

Figura 10. Esquema de conexo da rede speciesLink

No dia 02 de maio de 2005 a rede contava com cerca de 580 mil registros provenientes de 40 colees brasileiras on-line, todas do Estado de So Paulo com a exceo do Jardim Botnico do Rio de Janeiro. Esse nmero vem crescendo, comprovando que uma arquitetura que respeita a autonomia das colees quanto ao controle de seus dados e escolha de seu prprio sistema de gesto est dando resultado. A figura 11 apresenta a entrada e sada de dados da rede mostrando um movimento dinmico com uma tendncia ntida de aumento do acervo disponvel.

15

Figura 11. Grfico da entrada e sada de registros da rede speciesLink obtido dinamicamente27 no dia 02 de maio de 2005.

Alguns aspectos tcnicos da rede speciesLink que merecem destaque so: Hardware: a rede usa equipamento Intel (microcomputadores); Software: o sistema foi desenvolvido com software livre e de protocolo aberto; O protocolo responsvel pela interoperabilidade de sistemas o DiGIR desenvolvido de forma colaborativa no source forge; O modelo de dados utilizado o Darwin Core, tambm objeto de desenvolvimento internacional; As colees tm total autonomia quanto ao sistema operacional e ao software que desejam utilizar localmente; As colees tm total liberdade de inserir ou remover o banco de dados, registros especficos, campos especficos, ou ainda um ou mais campos de um ou mais registros especficos; As colees que no dispem de acesso rpido Internet, nem de servidor dedicado na rede, podem participar; A rede de fcil expanso.

6. Ferramentas
Alm da disseminao de dados, existem outras vantagens tanto do ponto de vista do provedor como tambm do usurio de ter dados disponveis on-line. Na rede speciesLink destacamos as ferramentas como o mapCRIA para a visualizao dos dados em mapas, o data cleaning para a identificao de registros suspeitos, o manager que monitora os trabalhos da coleo e o openModeller, um ambiente para a modelagem preditiva da distribuio de espcies. O desenvolvimento dessas ferramentas s foi possveis graas interao com a comunidade provedora de dados e usuria do sistema.

27

http://splink.cria.org.br/manager/index?action=stats

16

6.1.

MapCRIA28

Desde o incio do desenvolvimento dos sistemas de informao para o Programa Biota/Fapesp, foi detectada a necessidade de um aplicativo para a produo dinmica de mapas na internet. Foram vrias verses, passando desde o uso de software proprietrio (ArcInfo verso Unix) at a soluo atual utilizando MapServer, um pacote de cdigo aberto desenvolvido pela Universidade de Minnesota (UMN) em cooperao com a NASA. O MapServer foi escolhido por ser de cdigo aberto, ter desenvolvimento colaborativo, ser multi-plataforma, e pelo fato de tambm disponibilizar uma biblioteca que utilizada como base para o desenvolvimento de aplicaes desenhadas especificamente para as necessidades dos sistemas desenvolvidos pelo CRIA, o MapScript. Foi implementado um servio web padronizado que faz a interface entre os diferentes aplicativos desenvolvidos e a biblioteca MapScript. Foi tambm desenvolvida uma aplicao padro capaz de receber parmetros de mapas previamente inicializados pelo servio de mapas que tivesse autonomia para continuar a interao com o usurio provendo funes bsicas como zoom (in/out), ligar e desligar camadas (layers), entre outras. Alm disso, o aplicativo deveria ser suficientemente leve na rede e ser compatvel com os navegadores mais utilizados. A interface foi desenvolvida utilizando apenas DHTML e JavaScript, sem a utilizao de Java. Foram ento implementados um servio web, por ns chamado de mapcria web service, e uma visualizador, batizado de mapcria viewer. A figura a seguir apresenta a idia de interao bsica entre os mdulos e as aplicaes que os utilizam.

CGI script

mapas

Web page

Mapcria scripts

Mapcria web service

Figura 12. Interao entre os mdulos e as diferentes aplicaes do sistema web desenvolvido pelo CRIA

O servio Mapcria para construo e manipulao de mapas, est na sua verso 2.0 e baseado na biblioteca MapScript C com interface Perl SWIG para MapServer 4.2, utilizando ainda SOAP::Lite. O servio est disponvel em mapcria.cria.org.br porta 59000.

28

http://www.cria.org.br/mapcria/

17

O mapcria viewer pode ser entendido com um conjunto de aplicaes (CGI Perl scripts) capazes de interagir com o servio mapcria utilizando as vrias funes disponibilizadas pelo servio atravs do navegador do usurio, permitindo assim a interatividade entre o usurio e o servio atravs de um browser. O mdulo principal responsvel por criar a pgina web onde o mapa ser apresentado ao usurio, assim como gerar o JavaScript especfico para aquele caso e ambiente. importante ressaltar que todo o cdigo necessrio para criar a pgina apresentada ao usurio gerado dinamicamente para se adaptar s caractersticas tanto do mapa quanto do ambiente utilizado pelo usurio (tipo de navegador, verso, sistema operacional, tamanho de tela, etc.). Alguns exemplos de utilizao do visualizador sero apresentados com a ferramenta data cleaning.

6.2.

Data cleaning29

Esta ferramenta foi desenvolvida para auxiliar as colees no processo de verificao e correo de erros, na complementao de dados e na anlise do processo de informatizao. O sistema indica quais os registros suspeitos, cabendo ao provedor do dado avaliar e eventualmente corrigir registros com erros. A ferramenta no modifica nenhum dado. a. Erros de Grafia

O sistema realiza uma checagem dos campos de famlia, gnero, espcie e autor, comparando-os e fazendo algumas suposies. Se um registro tem o mesmo nome para famlia e espcie, por exemplo, o sistema supe que o gnero deve ser o mesmo. feita uma busca fontica e quando h uma variao na grafia os registros so apresentados como sendo "suspeitos". Para cada registro suspeito indicado o nmero de ocorrncias daquele conjunto na coleo e em toda a rede speciesLink. O sistema tambm indica se o nome consta no Catlogo da Vida do Species 200030. Outras listas de referncia poderiam ser utilizadas, principalmente sobre espcies brasileiras, desde que disponibilizadas eletronicamente. A seguir so apresentados alguns exemplos de registros suspeitos para ilustrar o conceito. A tabela 1, por exemplo, registra uma variao de grafia para a famlia Apocynaceae.

29 30

http://splink.cria.org.br/dc/ http://www.sp2000.org 18

Tabela 1. Exemplos de nomes suspeitos de famlias

O sistema indica que o nome (famlia e gnero) Apocynaceae e Allamanda, por exemplo ocorre 66 vezes no acervo analisado e 300 vezes na rede speciesLink. No entanto, o nome Apocinaceae e Allamanda ocorre apenas 1 vez no acervo analisado e a nica ocorrncia em toda a rede speciesLink. Os nomes suspeitos que aparecem em vermelho so nomes que no constam nos dicionrios disponveis no CRIA, j os em verde constam. Portanto, comparando o nmero de ocorrncias na prpria coleo e em toda a rede, o sistema procura indicar que o nome escrito com y tem maior probabilidade de estar correto. importante salientar que o sistema no altera os dados, procurando apenas dar elementos para que o responsvel pela informao possa decidir se o registro suspeito est realmente errado ou no. Se a grafia correta for Apocynaceae o curador pode clicar na ocorrncia do nome Apocinaceae para identificar o nmero do registro na coleo:

Nota: algumas colunas foram excludas do registro por uma questo de formatao

Neste caso, ao curador basta acessar o registro 67017 de seu banco de dados e alterar o nome da famlia de Apocinaceae para Apocynaceae. O mesmo conceito aplicado para nomes de gnero e espcies. Essa ferramenta mostra a importncia da existncia de checklists de espcies locais com nomes validados por especialistas. fundamental que as informaes de iniciativas como a Flora Fanerogmica do Estado de So Paulo e outras listas de nomes validados sejam rapidamente disponibilizadas on-line.

19

b.

Erros de Coordenadas e de Localidades

O sistema compara a latitude e longitude com o nome de pas, estado e municpio indicados pela coleo, procurando inconsistncias. Como fonte de dados esta ferramenta utiliza a base de dados de localidades brasileiras do IBGE. O sistema ainda identifica outliers usando tcnicas modificadas por Chapman 1999 (Chapman, 1999) para detectar os pontos fora do padro esperado para os parmetros latitude, longitude e altitude. So tambm verificados os registros com coordenadas geogrficas fora do limite mundial, com latitude e/ou longitude igual a zero, alm de pontos fora do limite do mar territorial brasileiro (quando o campo do pas o Brasil). A tabela 3 apresenta alguns exemplos de registros suspeitos em relao localizao geogrfica da informao.
Tabela 2. Lista de registros com provvel erro de geo-referenciamento.

Os dados esquerda da tabela correspondem aos dados registrados na coleo. O mapa e os dados direita do cone mapa so gerados pelo sistema. A tabela indica, por exemplo alguns registros que a coleo registra como ocorrendo no Brasil cujos valores de longitude e latitude,

20

quando analisados pelo sistema, indicam a ocorrncia da coleta em pases como Arbia Saudita, Iraque e Iran. Esse um exemplo relativamente comum de omisso do sinal (-) nos valores registrados. A mesma tcnica utilizada para identificar os pases suspeitos utilizada para identificar os municpios suspeitos. Nesse caso somente so checados os registros que ocorrem no Brasil. A figura a seguir mostra uma tabela para municpios suspeitos.

Para o segundo registro a coleo indica que a coleta foi realizado no municpio de Trs Lagoas no estado do Mato Grosso do Sul e o sistema est indicandicando que o ponto cai no municpio de Carneirinho em Minas Gerais. Clicando no cone do mapa temos:

Figura 13. Localizao do ponto indicado

O usurio pode ainda adicionar mais informaes (layers) aos mapas como rodovias e rios para auxiliar na avaliao do curador quanto localizao correta do ponto. Para a deteco dos outliers a ferramenta analisa todos os pontos geo-referenciados na coleo e utiliza tcnicas estatsticas para identificar aqueles que esto fora do padro esperado.

21

c.

Geo-referenciamento automtico

O geo-referenciamento automtico tem por objetivo sugerir valores de longitude e latitude para registros que possuem dados sobre a localidade, como, por exemplo, o nome do municpio. A fonte dos dados a base de dados de localidades brasileiras do IBGE. Como essas coordenadas no so precisas, recomenda-se indicar a preciso no registro de dados. Informar isso importante para que o usurio possa decidir sobre o uso ou no desse dado. Dependendo do tipo de uso, essa informao pode ser suficientemente precisa. importante ressaltar que para algumas colees essa ferramenta chegou a sugerir coordenadas geogrficas para mais de 80% dos registros sem coordenadas. A figura 14 mostra o mapa produzido automaticamente para uma coleo onde os registros sem coordenadas tinham o nome dos municpios onde as coletas foram realizadas.

Figura 14. Geo-referenciamento automtico de registros sem coordenadas geogrficas mas com dados sobre o municpio da coleta.

22

6.3.

Manager: Sistema de gerenciamento das colees participantes31

Com o crescente nmero de colees participantes da rede speciesLink, principalmente a partir do incio da segunda fase do projeto em outubro de 2003, tornou-se imprescindvel desenvolver um sistema que permitisse o gerenciamento do status de cada uma das colees. O sistema foi desenvolvido com a inteno de auxiliar no acompanhamento das atividades do projeto, para uso interno do CRIA e do coordenador do projeto. No entanto alguns mdulos mostraram ser de interesse mais amplo, pois permitem visualizar a evoluo da rede. Destacamos os mdulos monitor, estatstica, e o perfil da coleo. a. Monitor

Esse mdulo apresenta ao usurio uma tabela contendo o nome de cada coleo, a sigla, a cidade onde est localizada, o nmero de registros disponveis para consulta na rede, o nmero total de registros no acervo e calcula e apresenta tambm o percentual de registros disponveis on-line. Alm dessas informaes, a disponibilidade de conexo com a coleo sinalizada. Processos de verificao da conectividade e nmero de registros so executados a cada quarto de hora e alimentam o banco de dados central.
Tabela 3. Informaes disponveis ao pblico sobre cada coleo
Coleo Coleo de caros do Departamento de Entomologia, Fitopatologia e Zoologia Coleo Brasileira de Microrganismos de Ambiente e Indstria Coleo de caros Coleo de Peixes Herbrio do Instituto Agronmico de Campinas Coleo de Culturas de Fitobactrias do Instituto Biolgico Coleo de Peixes do Laboratrio de Ictiologia de Ribeiro Preto Coleo de Peixes do Museu de Zoologia da USP Sistema de Informao do Programa Biota/Fapesp Coleo de Algas do Herbrio do Estado "Maria Eneyda P. Kaufmann Fidalgo Coleo de Fanergamas do Herbrio do Estado "Maria Eneyda P. Kaufmann Fidalgo" Herbrio do Departamento de Botnica, IB/USP Coleo de Algas do Departamento de Botnica, IB/USP Herbrio da Universidade Estadual de Campinas Xiloteca Calvino Mainieri Herbrio "Irina Delanova Gemtchjnicov" Coleo do Laboratrio de Abelhas do IB/USP Coleo "Clio F. B. Haddad" CFBH Rio Claro Coleo de plantas medicinais e aromticas Coleo de Anfbios Coleo de Quirpteros
31

sigla AcariESALQ CBMAI DZSJRPAcari DZSJRPPisces IAC IBSBF LIRP MZUSP SinBiota SP-Algae SP SPF SPF-Algae UEC BCTw BOTU CEPANN CFBH CPMA DZSJRPAmphibia DZSJRP-

cidade Piracicaba Paulnia So Jos do Rio Preto So Jos do Rio Preto Campinas Campinas Ribeiro Preto So Paulo Campinas So Paulo So Paulo So Paulo So Paulo Campinas So Paulo Botucatu So Paulo Rio Claro Campinas So Jos do Rio Preto So Jos do

registros 12.392 314 5.753 7.441 36.051 1.624 4.928 72.706 57.461 13.235 13.814 18.800 19.776 35.382 3.359 0 26.126 2.935 1.882 7.146 10.678

total 15.000 688 7.000 7.441 45.000 2.000 30.000 84.000 57.461 15.000 350.000 133.500 19.776 134.000 34.500 0 0 7.000 2.150 7.146 10.678

% 83% 46% 82% 100% 80% 81% 16% 87% 100% 88% 4% 14% 100% 26% 10% 0 0 42% 88% 100% 100%

http://splink.cria.org.br/manager 23

Coleo Herbrio da Escola Superior de Agricultura Luiz de Queiroz Herbrio de Ilha Solteira Herbrio Rioclarense Herbrio de So Jos do Rio Preto Coleo Zoolgica de Referncia da Seo de Vrus Transmitidos por Artrpodos - Banco de Aves Coleo Zoolgica de Referncia da Seo de Vrus Transmitidos por Artrpodos Coleo Entomolgica "Adolph Hempel" do Instituto Biolgico Coleo Acarolgica do Instituto Butantan Coleo Herpetolgica "Alphonse Richard Hoge" Herbrio Dimitri Sucre Benjamin Coleo do Museu de Entomologia da FEIS/Unesp Coleo de Anfbios do Museu de Histria Natural "Prof. Dr. Ado Jos Cardoso" Coleo de Aves do Museu de Histria Natural "Prof. Dr. Ado Jos Cardoso" Coleo de Mamferos do Museu de Histria Natural "Prof. Dr. Ado Jos Cardoso" Coleo de Peixes do Museu de Histria Natural "Prof. Dr. Ado Jos Cardoso" Coleo de Rpteis do Museu de Histria Natural "Prof. Dr. Ado Jos Cardoso" Coleo Camargo Xiloteca do Instituto de Biocincias da Universidade de So Paulo Herbrio Dom Bento Pickel Coleo Cientfica de Aranhas (Araneae) do Depto. de Zoologia da Unesp, Campus Botucatu Totais

sigla Chiroptera ESA HISA HRCB HSJRP IAL-aves IAL-roedores IBSP-IB IBSP-Acari IBSPHerpeto JBRJ MEFEIS MHNanfibios MHN-aves MHNmamiferos MHN-peixes MHN-repteis RPSP SPFw SPSF UBTU

cidade Rio Preto Piracicaba Ilha Solteira Rio Claro So Jos do Rio Preto So Paulo So Paulo So Paulo So Paulo So Paulo Rio de Janeiro Ilha Solteira Campinas Campinas Campinas Campinas Campinas Ribeiro Preto So Paulo So Paulo Botucatu

registros 45.252 182 2.593 19.380 5.129 10.851 0 4.210 57.397 450.000 3.519 16.062 2.197 2.359 7.767 2.439 39.991 908 12.735 2.625 587.400

total 120.000 10.235 40.000 28.000 110.000 21.000 275.000 9.201 80.000 14 28.000 16.062 2.197 % 2.359 % 7.767 2.439 171.000 4.000 34.000 3.500 2.377.100

% 38% 2% 6% 69% 5% 52% 0% 46% 72% 0% 13% 100% 100% 100% 100% 100% 23% 23% 37% 75% 25%

A tabela 4 indica que no dia 24 de maio de 2005 s 12:48 a rede speciesLink tinha 587.400 registros on-line, representando 25% do total de registros das colees participantes. b. Estatsticas

Esse mdulo apresenta um grfico geral sobre a evoluo do nmero de registros disponveis na rede desde 11 de outubro de 2002 (figura 15). Apresenta tambm grficos individuais com a entrada e sada de dados de cada coleo. Os grficos so gerados dinamicamente de acordo com os dados coletados a cada 15 minutos pelos processos de verificao.

24

Figura 15. Monitoramento da entrada e sada de dados da rede speciesLink

As estatsticas mostram o nvel de atividade de cada coleo com relao entrada e sada de dados. O grfico geral mostra que a rede dinmica e que as colees esto tendo plena liberdade na gesto de seus dados na rede. c. Perfil da Coleo

Cada coleo tem o seu perfil desenhado na rede. So apresentados na figura 16 os grficos de entrada e sada de dados, um mapa da distribuio de seus registros on-line, alm de seus dados cadastrais, pessoas de contato, software utilizado, nmero total de registros e descrio do acervo.

25

Figura 16. Perfil cadastral referente s colees participantes da rede speciesLink

Tem-se tambm o perfil da coleo baseado apenas nos dados on-line. Esse perfil apresentado em grficos produzidos dinmicamente. A ttulo de exemplo apresentamos o perfil do CEPANN - Coleo Entomolgica Paulo Nogueira-Neto - IB/USP. Os grficos gerados a partir dos registros on-line apresentam as 10 famlias mais citadas, os 10 estados brasileiros mais coletados, os pases de origem dos registros e os 10 coletores mais citados.

26

27

Esse conjunto de ferramentas tm motivado uma maior participao das colees na rede speciesLink.

28

6.4. OpenModeller: Desenvolvimento de um Ambiente Computacional para Modelagem


Alm do desenvolvimento da arquitetura da rede e do apoio s colees para que elas digitassem os seus dados e se conectassem rede, o projeto financiado pela Fapesp tambm propiciou o desenvolvimento de modelos de distribuio potencial de espcies baseado em seus nichos ecolgicos. A idia era mostrar desde o incio dos trabalhos a importncia de compartilhar dados. Vrios modelos foram gerados em colaborao com outras equipes e dessa experincia nasceu a necessidade de estudar o desenvolvimento de um ambiente computacional para modelagem que facilitasse e agilizasse o trabalho do pesquisador. (Siqueira & Peterson 2003; Thomas et. al. 2004; Cameron et. al 2004 e Chapman et. al. 2005). A gerao de mapas de distribuio potencial de espcies uma rea inerentemente multidisciplinar, envolvendo geo-processamento, algoritmos de modelagem de distribuio de espcies, com conceitos matemticos e estatsticos, alm do conhecimento biolgico e ecolgico. A gerao dos mapas de distribuio tambm um procedimento dentro de um SIG (Sistema de Informao Geogrfico). Sua aplicao resulta em um mapa geo-referenciado que pode depois precisar ser analisado utilizando ferramentas comuns aos SIG, tais como clculo de reas, visualizao conjunta com outros mapas, aplicao de interseo ou unio com outros mapas, etc. O CRIA est desenvolvendo o projeto openModeller32 como uma biblioteca computacional de cdigo aberto (open source). Usurios das diversas reas de conhecimento podero contribuir com o desenvolvimento do projeto e com a avaliao de seus resultados. O projeto recebeu o apoio da Fapesp e est sendo desenvolvido como uma parceria entre o CRIA, a Politcnica da USP e o INPE. A idia central que na condio de biblioteca computacional, o openModeller pode ser facilmente integrado a outros aplicativos (ex: plug-in de um SIG) ou pode simplesmente servir de ncleo para uma interface de linha de comando, grfica, web ou via web services. Outra caracterstica importante do openModeller sua estrutura de plug-ins para os algoritmos de modelagem. O cdigo que implementa o algoritmo deve seguir uma interface padro (simples) que permita sua utilizao pela biblioteca. Desta forma, o desenvolvedor do algoritmo pode se concentrar apenas nos problemas relativos ao prprio algoritmo sem se preocupar com os aspectos de leitura e escrita de dados, amostragem de pontos, transformaes entre sistemas de coordenadas e projees distintas, alm do casamento entre mapas de escalas, dimenses e regies distintas.

32

http://openModeller.sf.net 29

A figura 17 a seguir ilustra a arquitetura bsica do openModeller e suas relaes com as interfaces e algoritmos.

interfaces Console API API

algoritmos

GARP Bioclim Kernel de modelagem Redes Neurais Outros

Servidor SOAP SWIG wrapper

outros

drivers

(GDAL, proj4, etc)

diferentes coordenadas

pontos

mapas

diferentes formatos

Figura 17. Arquitetura bsica do openModeller

Resumidamente, o processo de modelagem segue os seguintes passos: Especificao dos parmetros (dados de entrada, formato da sada, algoritmo de modelagem) Leitura dos dados ambientais (cada mapa geo-referenciado representa os valores de uma varivel ambiental distinta) Leitura dos dados biolgicos (pontos geo-referenciados de ocorrncia da espcie em questo) Cruzamento dos dados biolgicos com os ambientais Gerao do modelo utilizando o algoritmo especificado. Projeo do modelo gerando o mapa de distribuio de espcies (MDE).

O openModeller est sendo desenvolvido no Source Forge 33 e o seu cdigo fonte est disponvel sob a licena GNU General Public License34. Tambm esto disponveis verses binrias que podem ser utilizadas por desenvolvedores de algoritmos. O intuito de utilizar um repositrio como o Source Forge foi o de facilitar o desenvolvimento colaborativo. O openModeller conta com a colaborao de 6 desenvolvedores, sendo um do CRIA e cinco de fora do Brasil35. http://sourceforge.net/projects/openModeller http://www.gnu.org/copyleft/gpl.html http://openModeller.sourceforge.net/index.php?option=com_contact&Itemid=3 30

33 34 35

O cdigo est sendo desenvolvido utilizando a linguagem C++ ANSI, o que torna o cdigo facilmente portvel. O desenvolvimento est sendo feito em Linux, porm pode ser compilado para sistemas operacionais UNIX em geral e para Windows. A portabilidade para MacOs est em fase de desenvolvimento. Apesar do cdigo estar em C++, interfaces para as linguagens Python e Java tambm podem ser geradas atravs da ferramenta Swig36. Hoje existem tambm prottipos para uma interface SOAP e uma interface Web, alm de uma interface grfica multiplataforma que funciona como plugin do SIG Quantum GIS37, tambm de cdigo aberto. A biblioteca openModeller est sendo tambm utilizada pelo projeto "Biodiversity World" (BDWorld38), pelo projeto "Science Environment for Ecological Knowledge" (SEEK39), e pelo projeto Biological Terrorism Risk Assessment (BTRA40) A verso atual do openModeller conta com cinco algoritmos e trs variaes: Bioclim (implementado por Mauro Muoz - CRIA) Bioclim distance (implementado por Mauro Muoz - CRIA) Climate Space Model - Broken-Stick (implementado por Tim Sutton - BDWorld) Climate Space Model - Kaiser-Gutman (implementado por Tim Sutton - BDWorld) Distance to average (implementado por Mauro Muoz - CRIA) GARP: Genetic Algorithm for Rule Set Production (implementado por Ricardo Scachetti Pereira Universidade de Kansas) GARP with Best Subsets Procedure (implementado por Ricardo Scachetti Pereira Universidade de Kansas) Minimum distance (implementado por Mauro Muoz - CRIA)

Os detalhes de cada algoritmo esto disponveis na pgina do projeto41.

7. Infra-estrutura
importante avaliar a infra-estrutura necessria para o desenvolvimento e manuteno de sistemas de informao de acesso livre e aberto do porte daqueles desenvolvidos para o Programa Biota/Fapesp e para o Programa de Biotecnologia do MCT.

7.1.

Hardware

O CPD do CRIA composto por dois servidores modelo PowerEdge 6600, cada um com 4 processadores Intel Pentium III Xeon, 2GB de memria RAM por processador e capacidade de disco total de 1.5 TB e uma unidade de backup em fita modelo Dell/EMC com capacidade para 20 fitas DLT com 100GB de capacidade cada uma. Alm dos dois servidores principais, o CRIA possui mais quatro servidores menores, utilizados para gerao de mapas, recuperao de informao, gerenciamento de servios de impresso e testes da equipe de desenvolvimento.

36 37 38 39 40 41

http://www.swig.org http://qgis.org http://www.bdworld.org http://seek.ecoinformatics.org http://www.specifysoftware.org/Informatics/informaticsbtra/ http://openModeller.sourceforge.net/index.php? option=content&task=category&sectionid=3&id=9&Itemid=39 31

Todo o CRIA interligado por cabeamento de dados estruturado, suportando uma capacidade de transferncia de at 100 Mbps. Os servidores principais so interligados por uma sub-rede de fibra ptica que suporta transferncias de at 1 Gbps. O CRIA possui uma conexo de dados com o n de Campinas da rede ANSP (Academic Network of So Paulo) formada por um link de fibra ptica entre o prdio do CRIA e o Centro de Computao da UNICAMP com velocidade de 1 Gbps. O n da UNICAMP est conectado FAPESP por uma conexo de 155 Mbps. Essa conexo entre o CRIA e a rede ANSP controlada por dois roteadores Foundry de ltima gerao. A rede interna do CRIA protegida por um firewall instalado nos roteadores e por firewalls locais a cada um dos servidores. Todo o trfego de rede para dentro e para fora do CRIA examinado para prevenir a entrada de virii de computador. O CPD do CRIA tambm possui um aparelho de ar condicionado AirSplit 24000BTU e um nobreak modelo Prestige 6000.

7.2.

Software

Todos os sistemas e ferramentas desenvolvidos no CRIA funcionam sobre o sistema operacional Linux usando apenas ferramentas de software livre. Os dados so armazenados em um sistema gerenciador de bancos de dados PostgreSQL e o software foi desenvolvido em linguagens PHP, Perl e Java. Como protocolos de transferncia de dados so utilizados HTTP, SOAP e XML. Todo o sistema faz uso do software Apache como servidor de pginas web. A equipe de suporte monitora diariamente sites de desenvolvedores de software e listas de discusso de falhas de segurana para avaliar quando e se um software deve ou no ser atualizado. O software dos servidores do CRIA (inclusive o prprio sistema operacional) atualizado somente quando uma nova verso possui uma caracterstica til ao projeto sendo desenvolvido, quando a equipe de suporte considera que a instalao de uma nova verso tornar o sistema mais eficiente e principalmente quando descoberta alguma falha de segurana em algum programa ou parte do sistema operacional. O sistema de verificao de vrus e invases de hackers atualizado diariamente. O software dos desktops dos pesquisadores atualizado semanalmente, de acordo com as recomendaes dos fabricantes, com o objetivo de eliminar falhas de execuo e brechas de segurana. feito um backup dirio dos dados em disco. Semanalmente feito um backup completo do sistema em fita. Todo ms uma cpia de segurana da fita com o back-up completo (sistema e dados) armazenada nas dependncias da Embrapa Informtica Agropecuria (CNPTIA).

8. Sustentabilidade
Uma das conseqncias da dependncia crescente por informaes nas diferentes reas de conhecimento de forma integrada e interopervel a necessidade de maiores investimentos no gerenciamento e preservao de dados. No deve ser da responsabilidade do cientista desenvolver e manter sistemas de acesso pblico a dados. Seus esforos e competncia devem estar concentrados em trabalhos de anlise, interpretao e sntese. A tarefa de desenvolver e manter sistemas de informao complexos trabalho de profissionais cuja funo tambm desenvolver estratgias para o manejo de dados e informaes para as prximas dcadas ou sculos. Cabe, portanto a um centro de informao: Desenvolver um projeto de planejamento de longo prazo;

32

Atuar de forma integrada com a comunidade cientfica e se basear na demanda e nas orientaes desta comunidade para as decises sobre arquivamento de longo prazo; Obter suporte financeiro de longo prazo para o centro de dados e operaes de manuteno e arquivo; Contar com equipe qualificada capaz de proceder atualizaes permanentes de dados, software e hardware; alm de Trabalhar de forma colaborativa com a comunidade cientfica local, nacional e internacional. O CRIA atua exatamente nesse nicho e est conseguindo realizar um trabalho relevante para a sociedade, contribuindo para aumentar o acesso livre, aberto e gratuito a dados e informaes. O grande desafio sua sustentabilidade financeira. O CRIA uma Organizao da Sociedade Civil de Interesse Pblico (OSCIP). Diferentemente de uma instituio pblica, o CRIA no tem um aporte fixo de recursos para a sua manuteno. Diferentemente tambm de uma empresa privada, no dispe de um produto comercial vendvel que possa garantir a sua sobrevivncia. O CRIA atualmente recebe apoio por projetos ou por servios. O apoio por projeto, alm de ser de curto ou no mximo de mdio prazo, esbarra em um grande entrave da maioria das agncias financiadoras, que a inexistncia de recursos para pagamento de pessoal. Ainda, pelo tipo de atividade que exerce, praticamente todo projeto e prestao de servios deixa mais um sistema de informao ou um banco de dados que precisa ser mantido, mesmo quando os recursos j acabaram. Essa manuteno, apesar do seu trabalho ser reconhecido nacional e internacionalmente, depende da aprovao constante de novos projetos que, por sua vez criam novas demandas da equipe e da infra-estrutura. Projetos so importantes e at essenciais para estudos especficos mas a verdadeira inovao vem com um financiamento estvel e de longo prazo. Um estudo realizado pelo National Science Board da National Science Foundation (NSB, 2005) recomenda que o apoio ao dado, deve ser permanente e o apoio ao gestor do sistema de informao deve ser de longo prazo com avaliaes peridicas. Torna-se premente, portanto, um estudo de um outro modelo de financiamento das atividades de instituies gestoras de sistemas de informao, sejam elas pblicas ou de interesse pblico.

9. Referncias
Camaeron, A., Thomas, C.D., Green, R.E., Bakkenes, M., Beaumont, L.J., Collingham, Y.C., Erasmus, B.F.N., Siqueira, M.F., Grainger, A., Hannah, L., Hughes, L., Huntley, B., Jaarsveld, A.S., Midgley, G.F., Miles, L., Ortega-Huerta, M.A., Peterson, A.T., Phillips, O. & Williams, S.E.. 2004. Will climate change catch us off guard? 2004. Conservation In Practice V5(2):28-30. Canhos, D.A.L. (coordenao), Canhos, V.P., Souza, S., Siqueira, M.F., Muoz, M., Giovanni, R., Marino, A., Koch, I., Fonseca, R.L., Umino, C.Y., Cruz, B. e Albano, A.P.S. Sistema de Informao Distribudo para Colees Biolgicas:a Integrao do Species Analyst e SinBiota. Relatrio Tcnico Anual. Fapesp. Outubro de 2004. splink.cria.org.br/docs/outubro2004.pdf Chapman, A. D., M. E. S. Muoz, and I. Koch. 2005. Environmental information: Placing environmental phenomena in an ecological and environmental context. Biodiversity Informatics 2:24-41.

33

Chapman, A.D. (1999). Quality control and validation of point-sourced environmental resource data pp.409-418 in Lowell, K. and Jaton, A. (eds). Spatial Accuracy Assessment: Land Information Uncertainty in Natural Resources. Chelsea, Michigan: Ann Arbor Press. 455pp Chapman, A.D. (2004). Environmental Data Cleaning Tools A Discussion Paper. http://splink.cria.org.br/docs/appendix_i.pdf. Chapman, A.D. (2004). Environmental Data http://splink.cria.org.br/docs/appendix_h.pdf. Quality A Discussion Paper.

CRIA. 2005. Esquema de conexo da rede http://splink.cria.org.br/manager/esquema36.pdf. [12 de maio de 2005]

speciesLink.

Dring, M. e Giovanni, R. 2004. GBIF Data Access and Database Interoperability A unified protocol for search and retrieval of distributed data. http://www.cria.org.br/protocols/newprotocol.pdf. National Science Board. Draft Report: Long-Lived Digital Data Collections: Enabling Research and Education in the 21st Century. NSB-05-40. March 30, 2005. http://www.nsf.gov/nsb/meetings/2005/LLDDC_draftreport.pdf Siqueira, M. F., Peterson, A. T. 2003. Consequences of global climate change for geographic distributions of cerrado tree species. Biota Neotropica. , v.3, n.2, http://www.biotaneotropica.org.br/v3n2/pt/download?article+BN00803022003+item Thomas, C. D., Cameron, A., Green, R. E., Bakkenes, M., Beaumont, L. J., Collingham, Y. C. Erasmus, B. F. N., Siqueira M. F., Grainger, A., Hannah, L., Hughes, L., Huntley, B., Jaarsveld, A. S., Midgley, G. F., Miles, L., Ortega-Huerta, M. A., Peterson, A. T. Phillips, O. L. & Williams, S. E. 2004. Extintion risk from climate change. Nature 427(8)145-148.

34