Você está na página 1de 16

COLETA DE DADOS A PARTIR DOS CURRCULOS DA PLATAFORMA LATTES:

PROCEDIMENTOS UTILIZADOS NO REPOSITRIO INSTITUCIONAL UNESP

Resumo: O Repositrio Institucional UNESP foi povoado


principalmente a partir de dados coletados da Web of Science, da
Scopus e da SciELO. No entanto, com essa forma de
povoamento, o Repositrio no contemplava a produo da
Universidade de forma fidedigna, uma vez que essas bases de
dados cobrem principalmente as publicaes internacionais nas
reas de cincias biolgicas e exatas. Partindo da necessidade de
contemplar tambm as publicaes no indexadas nessas bases
de dados, foram desenvolvidos procedimentos para a utilizao
dos dados da Plataforma Lattes na criao de registros para
incluso no Repositrio. A partir da experincia da UNESP, este
trabalho tem por objetivo apresentar os procedimentos
desenvolvidos, que esto agrupados em seis etapas: coleta dos
currculos, converso para um formato de importao aceito pelo
DSpace, remoo dos registros duplicados, verificao dos dados
e das licenas, organizao dos registros nas colees e
importao no Repositrio. Como consideraes finais, destacase que os procedimentos utilizados, ainda que tenham suas
limitaes, permitem ao Repositrio contemplar a produo da
Universidade de maneira mais fidedigna.
Palavras-chave: Coleta de dados. Currculos da Plataforma
Lattes. Repositrio institucional.

Silvana Aparecida Borsetti Gregorio Vidotti


Docente do Departamento de Cincia da Informao e do Programa de PsGraduao em Cincia da Informao da Universidade Estadual Paulista
(UNESP), Campus de Marlia,. Membro do Grupo Gestor da Poltica do
Repositrio Institucional UNESP.
vidotti@reitoria.unesp.br
Fabrcio Silva Assumpo
Doutorando do Programa de Ps-Graduao em Cincia da Informao da
Universidade Estadual Paulista (UNESP), Campus de Marlia, Membro da
Equipe Tcnica do Repositrio Institucional UNESP.
fabricio@reitoria.unesp.br
Juliano Benedito Ferreira
Mestre pelo Programa de Ps-Graduao em Cincia da Informao da
Universidade Estadual Paulista (UNESP), Campus de Marlia, Membro da
Equipe Tcnica do Repositrio Institucional UNESP.
julianoferreira@reitoria.unesp.br
Ana Paula Grisoto
Mestranda do Programa de Ps-Graduao em Cincia da Informao da
Universidade Estadual Paulista (UNESP), Campus de Marlia, Membro da
Equipe Tcnica do Repositrio Institucional UNESP.
grisotoana@reitoria.unesp.br
Renata Eleuterio da Silva
Mestre pelo Programa de Ps-Graduao em Cincia da Informao da
Universidade Estadual Paulista (UNESP), Campus de Marlia, So Paulo,
Brasil. Membro da Equipe Tcnica do Repositrio Institucional UNESP.
renata_silva@marilia.unesp.br
Vtor Silvrio Rodrigues
Analista de sistemas na Coordenadoria Geral de Bibliotecas (CGB) da
Universidade Estadual Paulista (UNESP). Membro da Equipe
Tcnica do Repositrio Institucional UNESP.
vitorsrodrigues@reitoria.unesp.br
Oberdan Luiz May
Analista de sistemas na Coordenadoria Geral de Bibliotecas (CGB) da
Universidade Estadual Paulista (UNESP). Membro da Equipe
Tcnica do Repositrio Institucional UNESP.
oberdan@reitoria.unesp.br
Flvia Maria Bastos
Doutora pelo Programa de Ps-Graduao em Cincia da Informao da
Universidade Estadual Paulista (UNESP), Campus de Marlia,, .
Coordenadora da Coordenadoria Geral de Bibliotecas (CGB) da UNESP e
membro do Grupo Gestor da Poltica do Repositrio Institucional UNESP.
fmbastos@reitoria.unesp.br

DATA COLLECTION FROM LATTES: PROCEDURES USED IN UNESP


INSTITUTIONAL REPOSITORY
Abstract: The UNESP Institutional Repository was primarily populated by data collected from Web of Science, Scopus and
SciELO. However, this data collection did not allow the Repository to reliably comprise the universitys production, since
the databases used include mostly international publications on biological and hard sciences. Facing the need of include in
the Repository the publications not covered by these databases, we developed some procedures to use data from Platform
Lattes (a Brazilian curricula database) in order to create items for import in Repository. In this paper we present these
procedures in six steps: data collection, data conversion to a DSpace accepted format, deduplication, checking data and
license, organizing records into collections, and importing records into Repository. As conclusions, we highlight that, even
with their limitations, these procedures enable the Repository to reliably comprises the universitys production.

Keywords: Data collection. Platform Lattes (Brazilian curricula database). Institutional repository.

117
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

1 INTRODUO

Os repositrios institucionais, aqui entendidos como servios de informao cientfica


em ambiente digital e interopervel dedicados ao gerenciamento da produo cientfica e/ou
acadmica de uma instituio (LEITE et al., 2012, p. 7), tm despertado o interesse das
universidades, entre outros motivos, por seu potencial para o aumento da visibilidade
principalmente das atividades de pesquisa desenvolvidas nessas instituies. Com isso,
diversas universidades tm implantado seus repositrios institucionais.
Na Universidade Estadual Paulista Jlio de Mesquita Filho (UNESP), o Repositrio
Institucional1 foi implantando em 2013 e povoado principalmente a partir de dados coletados
da Web of Science, da Scopus e da SciELO (ASSUMPO et al., 2014). No entanto, essa
forma de povoamento no permitia que o Repositrio contemplasse a produo cientfica da
Universidade de forma fidedigna, uma vez que as bases de dados utilizadas cobriam
principalmente as publicaes internacionais nas reas de cincias biolgicas e exatas.
Partindo da necessidade de contemplar tambm as publicaes no indexadas nessas
bases de dados, a Equipe Tcnica do Repositrio desenvolveu e aplicou um conjunto de
procedimentos para a coleta de dados a partir da Plataforma Lattes e para o aproveitamento
desses dados na criao de registros para incluso no Repositrio. Partindo da experincia
realizada na UNESP, este artigo tem por objetivo apresentar esses procedimentos
desenvolvidos pela Equipe. Para tanto, organiza-se em quatro principais partes: a
contextualizao acerca do Repositrio Institucional UNESP, a apresentao dos
procedimentos utilizados para a coleta e o aproveitamento dos dados da Plataforma Lattes, a
sntese dos resultados alcanados at o momento e as consideraes finais.

2 IMPLANTAO DO REPOSITRIO INSTITUCIONAL UNESP


Em 2013, com base na necessidade das trs universidades estaduais paulistas (UNESP,
USP e Unicamp) implantarem o Repositrio da Produo Cientfica do CRUESP2, foi dado
incio implantao de um repositrio institucional na UNESP. Entre as primeiras aes para
a implantao desse repositrio, esteve a criao do Grupo Gestor da Poltica do Repositrio
1
2

Disponvel em: <http://repositorio.unesp.br>.


Disponvel em: <http://www.repositorio.cruesp.sp.gov.br>.

118
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

Institucional UNESP (UNIVERSIDADE ESTADUAL PAULISTA, 2013, p. 47) e a definio


de uma Equipe Tcnica. O Grupo Gestor composto de representantes das pr-reitorias da
Universidade (pesquisa, ps-graduao, graduao, extenso e administrao), do Ncleo de
Educao Distncia (NEaD), da Assessoria Especial de Planejamento Estratgico (APE) e
da Coordenadoria Geral de Bibliotecas (CGB).
A UNESP conta com 34 unidades universitrias (faculdades, institutos e campi
experimentais) localizadas em 24 cidades do estado de So Paulo. Considerando essa
configurao, o Repositrio foi organizado de modo a refletir principalmente a estrutura
organizacional da Universidade. Em um primeiro nvel, o Repositrio foi organizado por tipo
de produo: Produo cientfica (para documentos cientficos como os artigos, os trabalhos
publicados em anais de eventos, as teses, as dissertaes, os livros, etc.) e Produo tcnica
(para documentos tcnicos como as patentes, por exemplo). Na comunidade Produo
cientfica foram criadas subcomunidades para as unidades universitrias e, dentro destas,
subcomunidades para os departamentos e programas de ps-graduao; por fim, dentro dessas
subcomunidades foram includas colees voltadas aos tipos de documentos (artigos,
dissertaes, teses, livros, etc.).
O objetivo da Universidade era inaugurar o Repositrio Institucional UNESP junto
dos repositrios da USP3, da Unicamp4 e do CRUESP durante a 4 Conferncia LusoBrasileira sobre Acesso Aberto (CONFOA), realizada em outubro de 2013 em So Paulo.
Para isso, foi definida como meta inicial a incluso, no Repositrio, da produo institucional
dos cinco anos anteriores (2008-2012) indexada na base de dados referencial Web of Science5.
Levando em conta o prazo para a inaugurao do Repositrio, a quantidade de
documentos abrangidos nesta meta (cerca de 16.400 documentos sendo principalmente artigos
e trabalhos publicados em anais de eventos) e a indisponibilidade de recursos humanos para a
incluso de forma manual, a Equipe Tcnica estabeleceu procedimentos que possibilitaram a
incluso de forma automtica a partir do reaproveitamento dos dados j existentes na Web of
Science.
Aps o alcance da meta inicial e da inaugurao do Repositrio, a Equipe Tcnica
aperfeioou os procedimentos inicialmente utilizados e os aplicou no reuso dos dados da base

Disponvel em: <http://producao.usp.br>.


Disponvel em: <http://unicamp.sibi.usp.br>.
5
Disponvel em: <http://webofknowledge.com>.
4

119
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

de dado referencial Scopus6, dos peridicos publicados no Portal SciELO Brasil7, e do


catlogo da Rede de Bibliotecas da UNESP (ASSUMPO et al., 2014; VIDOTTI et al.,
2015).
A utilizao desses procedimentos permitiu a incluso de cerca de 70 mil itens no
Repositrio Institucional UNESP durante seu primeiro ano de existncia. No entanto, a
utilizao desses procedimentos com a Web of Science, a Scopus e a SciELO no estava
permitindo ao Repositrio representar a produo cientfica da universidade de forma
fidedigna, j que essas bases de dados cobrem, principalmente, as publicaes internacionais
nas reas de cincias biolgicas. Partindo da necessidade de incluir no Repositrio tambm os
artigos publicados em peridicos no indexados nessas bases de dados, a Equipe Tcnica
adaptou os procedimentos e os aplicou na Plataforma Lattes8.
A Plataforma Lattes representa a experincia do [Conselho Nacional de
Desenvolvimento Cientfico e Tecnolgico] CNPq na integrao de bases de dados de
Currculos, de Grupos de pesquisa e de Instituies em um nico Sistema de Informaes
(CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTFICO E TECNOLGICO,
2015). Atualmente, manter um currculo na Plataforma Lattes considerado uma exigncia
para os pesquisadores brasileiros:
O Currculo Lattes se tornou um padro nacional no registro da vida
pregressa e atual dos estudantes e pesquisadores do pas, e hoje adotado
pela maioria das instituies de fomento, universidades e institutos de
pesquisa do Pas. Por sua riqueza de informaes e sua crescente
confiabilidade e abrangncia, se tornou elemento indispensvel e
compulsrio anlise de mrito e competncia dos pleitos de financiamentos
na rea de cincia e tecnologia. (CONSELHO NACIONAL DE
DESENVOLVIMENTO CIENTFICO E TECNOLGICO, 2015).

Na seo seguinte so apresentados os procedimentos para a coleta dos currculos da


Plataforma Lattes e para a utilizao dos dados desses currculos no povoamento do
Repositrio Institucional UNESP.

Disponvel em: <http://scopus.com>.


Disponvel em: <http://scielo.br>.
8
Disponvel em: <http://lattes.cnpq.br>.
7

120
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

3 COLETA A UTILIZAO DOS DADOS DA PLATAFORMA LATTES


Os procedimentos para a coleta dos currculos da Plataforma Lattes e para a utilizao
dos dados desses currculos no povoamento do Repositrio podem ser agrupados em seis
etapas: coleta dos dados, converso, remoo dos registros duplicados, verificao dos dados
e das licenas, organizao dos registros nas colees e importao no Repositrio. Essas
etapas so descritas nos itens seguintes desta seo.

3.1 Coleta dos dados


Alm de permitir a visualizao dos currculos, a Plataforma Lattes permite o
download deles no formato Extensible Markup Language (XML) (Linguagem de marcao
extensvel). Atualmente, esta opo est disponvel no canto superior direito da pgina de
cada currculo. Para reduzir o trabalho manual de download dos currculos um-a-um, foram
compiladas listas com os endereos permanentes dos currculos dos docentes de cada unidade
universitria da UNESP.
As listas foram includas em um programa desenvolvido pela Equipe Tcnica. A partir
dos identificadores dos currculos (cdigos numricos presentes ao final do endereo
permanente), o programa acessou cada currculo e realizou o download do arquivo XML.
Sendo necessrio que o operador apenas digitasse o captcha (cdigo de segurana para provar
que o operador um humano) para que o download fosse autorizado pela Plataforma Lattes.
Cada arquivo XML coletado pelo programa, continha apenas o currculo de um
docente. Para facilitar as etapas seguintes, os currculos dos docentes de cada unidade
universitria foram agrupados por meio de uma folha de estilo criada com a linguagem
Extensible Stylesheet Language for Transformation (XSLT) (Linguagem extensvel para
folhas de estilo de transformao), dando origem a um nico arquivo XML por unidade
universitria.

121
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

3.2 Converso
Aps a coleta e a juno dos currculos, foi necessrio converter os registros presentes
dentro deles em registros em um formato de importao aceito pelo DSpace e de acordo os
metadados utilizados no Repositrio.
Entre as diferentes linguagens de programao que poderiam ser utilizadas nessa
converso, foi escolhida a XSLT. Essa escolha deu-se em razo do uso que a Equipe j fazia
dessa linguagem para a converso dos registros de outras fontes (Web of Science, SciELO e
Scopus), como relatado por Assumpo et al. (2014).
A XSLT uma das tecnologias relacionadas XML desenvolvidas pelo World Wide
Web Consortium (W3C) (Consrcio World Wide Web) (W3C, 2007). Essa linguagem contm
um conjunto de elementos e de atributos para a criao de regras que, em folhas de estilo, so
utilizadas principalmente (1) para converter documentos XML em documentos HTML para
apresentao em navegadores e (2) para converter documentos XML criados com uma
linguagem de marcao em documentos XML de acordo com outra linguagem de marcao
ou em outros formatos, por exemplo, em um formato de texto simples (.txt).
Uma vez que com a XSLT possvel converter um documento XML em outro
documento XML ou um documento em outro formato, o fluxo para a converso dos registros
presentes nos currculos foi estabelecido como apresentado na Figura 1.

Figura 1 Converso dos registros coletados da Plataforma Lattes

Fonte: Elaborada pelos autores.

122
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

O arquivo XML contendo os currculos dos docentes foi includo no processador de


transformao junto da folha de estilo responsvel por convert-lo em um arquivo XML
contendo os registros de acordo com os metadados utilizados no Repositrio. O processador
de transformao o software responsvel por ler e executar as regras da folha de estilo e, a
partir delas, gerar um arquivo de sada. O processador de transformao utilizado pela Equipe
Tcnica foi o Saxon HE, disponvel no software Oxygen XML Editor9.
O resultado dessa transformao (um arquivo XML contendo os registros de acordo
com os metadados utilizados no Repositrio) foi, ento, includo no processador de
transformao junto de uma segunda folha de estilo, responsvel por converter o arquivo
XML em um arquivo no formato Comma-Separated Values (CSV) (Valores separados por
vrgula), aceito para importao no DSpace, software utilizado no Repositrio. Os registros,
em seus trs estgios (formato XML da Plataforma Lattes, formato XML com os metadados
corretos e formato CSV para importao no DSpace), so exemplificados nas Figuras 2, 3 e 4.

Figura 2 Registro presente no arquivo XML coletado da Plataforma Lattes

Fonte: Elaborada pelos autores.

Disponvel em: <http://www.oxygenxml.com>.

123
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

Figura 3 Registro em XML de acordo com os metadados utilizados no Repositrio

Fonte: Elaborada pelos autores.

Figura 4 Registros em um arquivo CSV de acordo com o formato de importao do DSpace

Fonte: Elaborada pelos autores.

O arquivo XML de acordo com os metadados utilizados no Repositrio (Figura 3) j


poderia ser importado no Repositrio, pois est em conformidade com um formato de
importao aceito pelo DSpace. No entanto, optou-se por convert-lo em um arquivo no
formato CSV (Figura 4) para facilitar as etapas seguintes (remoo dos registros duplicados,
124
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

verificao dos dados, etc.). Um arquivo CSV um arquivo semelhante a uma planilha
(contem linhas e colunas), sendo que cada coluna representa um metadado e cada linha
representa um registro. Os arquivos no formato CSV podem ser visualizados e editados em
programas como o Microsoft Office Excel e LibreOffice Calc, embora este ltimo seja o mais
recomendado para a edio de dados para importao no DSpace.
A folha de estilo utilizada na primeira converso, alm de transformar o arquivo XML
com os currculos em um arquivo XML de acordo com os metadados utilizados no
Repositrio, permitiu a adequao dos dados e a seleo apenas dos registros de interesse para
o Repositrio.
Adequao dos dados envolveu, em outros: (1) a transformao dos valores, por
exemplo, a transformao da palavra Portugus no cdigo por da norma ISO 639-2; (2) a
juno de valores, por exemplo, ttulo do peridico, volume, nmero, ano, etc. foram juntados
para compor a referncia do documento; (3) e a correo do uso de maisculas, por exemplo,
nos ttulos dos peridicos.
Para a seleo dos registros de interesse foi estabelecido um filtro que permitiu a
converso apenas dos registros referentes aos artigos cientficos. A deciso por converter
apenas os artigos, descartando, assim, livros, captulos de livros, trabalhos publicados em
anais de eventos, etc., foi tomada considerando, principalmente:

a importncia dos artigos enquanto instrumentos consagrados para a

comunicao cientfica; segundo Macias-Chapula (1998, p. 136) o artigo de peridico com a


sua lista de citaes , e provavelmente assim permanecer, o meio universalmente aceito
pelo qual a instituio cientfica registra e divulga os resultados de suas investigaes;

a relevncia dos artigos cientficos nos repositrios institucionais,

a disponibilidade dos artigos na Web; os trabalhos publicados em anais de

eventos, por exemplo, nem sempre esto disponveis na Web ou podem ser facilmente
localizados, j os livros e seus captulos, so publicados na maior parte das vezes apenas em
formato impresso.
Aps a concluso das converses, o arquivo no formato CSV resultante foi
encaminhado para a etapa de remoo dos registros duplicados, descrita no item seguinte.

125
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

3.3 Remoo dos registros duplicados


De posse do arquivo CSV contendo os registros convertidos, a Equipe Tcnica iniciou
a remoo dos registros duplicados. Primeiramente foram removidos os registros duplicados
dentro do prprio arquivo CSV. Essas duplicaes aconteceram porque, em diversos casos, os
artigos tm entre seus autores mais de um docente da UNESP, o que fez com que tais artigos
estivessem presentes em mais de um currculo.
Aps essa primeira eliminao dos registros duplicados, o arquivo CSV convertido foi
comparado com um arquivo CSV contendo todos os registros existentes no Repositrio. O
objetivo dessa comparao foi remover do arquivo CSV convertido os registros dos artigos
que j estavam no Repositrio.
Para esses procedimentos foi utilizado um software desenvolvido pela Equipe Tcnica
para a comparao e a remoo de registros duplicados, sendo que para a identificao desses
registros foi utilizado, primeiramente, o Digital Object Identifier (DOI) (Identificador de
objeto digital) e, em seguida, o ttulo e a data de publicao juntos.

3.4 Verificao dos dados e das licenas


O arquivo CSV contendo os registros no duplicados, resultante da etapa anterior, foi
encaminhado para a etapa de verificao dos dados e das licenas.
Na verificao dos dados, os registros foram verificados um-a-um com o objetivo de:

identificar, a partir das informaes de afiliao, se realmente eram parte da

produo institucional; os artigos em que a UNESP no constava em nenhuma das afiliaes


foram removidos;

completar os dados que no puderam ser obtidos a partir dos currculos, por

exemplo, as instituies dos autores, as agncias de fomento, o resumo, o ttulo em outro


idioma; e

corrigir possveis erros, por exemplo, ordem dos autores e o endereo correto

para o acesso online.


A verificao das licenas consistiu em verificar as permisses de acesso (acesso
aberto ou acesso restrito) e de arquivamento (arquivamento da verso final em repositrios
126
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

institucionais permitido ou no). Para essa verificao foi utilizado o servio


SHERPA/RoMEO e as polticas dos publicadores das revistas. O SHERPA/RoMEO uma
base de dados pesquisvel de polticas de publicadores relacionadas ao autoarquivamento de
artigos de peridicos na web em repositrios de acesso aberto (SHERPA/RoMEO, 2011,
traduo nossa). Nos casos em que o arquivamento da verso final era permitido, uma cpia
digital do artigo no formato PDF foi salva e nomeada com um cdigo identificador presente
no arquivo CSV.

3.5 Organizao dos registros nas colees


Para que os registros convertidos e verificados pudessem ser importados no
Repositrio e inseridos nas colees corretas, foi executado um programa que, a partir das
informaes de afiliao e de autoria, incluiu no campo collection de cada registro os cdigos
Handle das colees s quais ele pertenceria. Nos casos em que o artigo seria adicionado
em uma coleo e mapeado para outras, por exemplo, quando um artigo tinha entre seus
autores docentes de diferentes departamentos da UNESP, os cdigos das colees eram
separados dentro do campo collection por duas barras verticais ( || ).
O programa utilizado, desenvolvido pela Equipe Tcnica, incluiu os cdigos das
colees com base nas regras presentes em arquivos XML. Nesses arquivos XML, foram
includas as formas variantes do nome da universidade, das unidades universitrias, dos
departamentos e dos nomes dos autores.

3.6 Importao no Repositrio


Uma vez que as aes para a verificao e a preparao dos dados foram concludas, o
arquivo CSV foi importado no Repositrio utilizando os procedimentos para a importao de
registros em lote no DSpace (IMPORTING..., 2015).
Como descrito no item 3.4, durante a verificao das licenas, os artigos cujo
arquivamento da verso final em repositrios institucionais era permitido tiveram uma cpia
digital no formato PDF salva e nomeada com um cdigo identificador presente no arquivo
CSV. Uma vez que o cdigo identificador estava presente tanto no registro importado no
Repositrio quanto no arquivo PDF, foi possvel utilizar um programa, desenvolvido pela
127
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

Equipe Tcnica, para incluir automaticamente no DSpace cada arquivo PDF em seu
respectivo registro, poupando, assim, o trabalho manual de upload desses arquivos um-a-um
no Repositrio.

4 RESULTADOS ALCANADOS
Segundo

seu

anurio

estatstico

de 2015

(UNIVERSIDADE ESTADUAL

PAULISTA, 2015, p. 3), a UNESP conta com 3.880 docentes, distribudos em 34 unidades
universitrias localizadas em 24 cidades do estado de So Paulo. Algumas unidades
contemplam apenas uma rea de estudo, por exemplo, as faculdades de odontologia, enquanto
outras contemplam diversas reas, por exemplo, o Instituto de Biocincias, Letras e Cincias
Exatas (IBILCE).
Considerando essa configurao da Universidade e a disponibilidade de recursos
humanos na Equipe Tcnica, a coleta dos dados da Plataforma Lattes para o povoamento do
Repositrio foi pensada para ser executada em uma unidade universitria de cada vez. Alm
disso, foi definido que, inicialmente, seriam coletados apenas os dados referentes aos artigos
publicados nos cinco anos anteriores (2010 a 2014).
Para a conduo de um projeto piloto que possibilitasse a verificao e o
aperfeioamento dos procedimentos esquematizados pela Equipe Tcnica, foi utilizada a
Faculdade de Filosofia e Cincias (FFC). Essa unidade contava com 180 docentes distribudos
em dez departamentos (Administrao e superviso escolar, Cincia da informao, Cincias
polticas e econmicas, Didtica, Educao especial, Filosofia, Fisioterapia e terapia
Ocupacional, Fonoaudiologia, Psicologia da educao, e Sociologia e antropologia), cuja
produo cientfica predominantemente da rea de cincias humanas.
Os 180 currculos foram coletados no final de janeiro de 2015 e deles puderam ser
extrados 1.701 registros referentes a artigos publicados no perodo de 2010 a 2014. Aps a
remoo das duplicaes, restaram 1.150 registros, que foram encaminhados para a etapa de
verificao dos dados e das licenas e de coleta dos arquivos digitais. A verificao foi
realizada pela Equipe Tcnica, composta por trs bibliotecrios, durante cerca de duas
semanas e meia. Ao final da verificao, foram removidos os registros que no faziam parte
da produo institucional ou eram duplicados mas no foram identificados na etapa de
128
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

remoo de registros duplicados. Os 959 registros restantes foram ento organizados nas
colees e importados no Repositrio junto dos 760 arquivos digitais que puderam ser
coletados para o arquivamento.
Antes da importao dos registros obtidos a partir da Plataforma Lattes, as colees da
FFC no Repositrio somavam 630 artigos. Aps a importao, essa quantidade passou para
1.589, o que representa um aumento de 152%.
Considerando os resultados obtidos com o piloto realizado na FFC, os procedimentos
utilizados foram considerados adequados e passaram a integrar o rol de procedimentos j
estabelecidos para o povoamento do Repositrio. Com isso, foi iniciada a coleta dos
currculos dos docentes das demais unidades universitrias da UNESP. At a data da redao
deste trabalho (setembro de 2015) foram coletados, convertidos, verificados e importados os
registros referentes aos currculos dos docentes de 6 unidades universitrias. A quantidade de
artigos includa no Repositrio a partir da Plataforma Lattes para cada uma dessas unidades
universitrias apresentada na Tabela 1.
Tabela 1 Quantidade de artigos includos no Repositrio a partir da Plataforma Lattes

Unidade universitria
Faculdade de Filosofia e
Cincias (FFC)
Instituto de Biocincias,
Letras e Cincias Exatas
de So Jos do Rio Preto
(IBILCE)
1.
Instituto
de Qumica de Araraquara
(IQ)
Faculdade de Cincias e
Letras de Araraquara
(FCLAR)
Faculdade de Odontologia
de Araraquara (FOAR)
Faculdade de Cincias e
Letras de Assis (FCLAS)

Quant. de
docentes

Quant. de
artigos antes
da coleta do
Lattes

Quant. de
artigos
coletados
do Lattes

Quant. de
artigos aps
a coleta do
Lattes

Aumento da
quantidade de
artigos (%)

180

630

959

1.589

152%

251

2.439

662

3.101

26%

116

4.376

240

4.616

5,48%

252

1.869

889

2.758

47,56%

125

2.946

764

3.710

26%

167

1.355

560

1.915

41,32%

Fonte: Elaborada pelos autores.

129
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

5 CONSIDERAES FINAIS
Nessas consideraes finais, dois dos entraves encontrados pela Equipe Tcnica
durante a realizao dos procedimentos merecem destaque: (1) o mau preenchimento dos
currculos e (2) a falta de clareza das revistas nacionais sobre as polticas de direitos autorais.
Apesar da importncia da Plataforma Lattes enquanto reflexo da produo cientfica
ser reconhecida pelos docentes, observa-se, com uma alta frequncia, o preenchimento
incorreto dos currculos nessa Plataforma, sendo dois dos erros mais frequentes a ordem
incorreta dos autores e os links incorretos. Isso evidencia, entre outros, a necessidade de aes
da Universidade para a conscientizao e a capacitao para o preenchimento do currculo.
Ainda que a maior parte das revistas nacionais disponibilize seus artigos
gratuitamente, nota-se pouca clareza de seus editores acerca das questes de direitos autorais
e de acesso aberto. possvel encontrar, por exemplo, revistas sem qualquer meno aos
direitos autorais ou com declaraes contraditrias, tais como o uso de uma licena Creative
Commons seguida pela frase Reproduo proibida ou Todos os direitos reservados.
Esses entraves, multiplicados, por exemplo, por um mil artigos, aumentam
consideravelmente o tempo demandado pela Equipe Tcnica na preparao dos registros para
a importao no Repositrio. No entanto, mesmo com esses entraves, o uso dos dados da
Plataforma Lattes, assim como ocorre com o uso dos dados da Web of Science, da SciELO e
da Scopus, isentar o docente do esforo de submeter sua produo no Repositrio ou envi-la
para uma submisso mediada, sendo que essa iseno do docente considerada um aspecto
importante para o desenvolvimento do Repositrio Institucional UNESP.
Embora os resultados alcanados no permitam uma generalizao, pode-se destacar
que, como estimado pela Equipe Tcnica, a utilizao dos currculos da Plataforma Lattes
mostrou-se vantajosa para as reas de cincias humanas, cuja produo cientfica nacional
pouco contemplada nas bases de dados que at ento haviam sido utilizadas como fontes de
dados. Com isso, entende-se que os procedimentos apresentados neste trabalho esto
permitindo ao Repositrio contemplar a produo da Universidade de maneira mais fidedigna,
compensando a nfase que at ento havia sido dada s publicaes das reas de cincias
exatas e biolgicas.
Por fim, destaca-se que existem procedimentos e ferramentas para a integrao dos
repositrios s plataformas de currculos (por exemplo, Lattes e DeGis) com o objetivo de
130
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

aproveitar os dados dessas plataformas no povoamento dos repositrios, no entanto, os


procedimentos apresentados neste trabalho foram desenvolvidos considerando que a
Universidade no momento no dispunha dos recursos necessrios para viabilizar essa
integrao. Nesse sentido, espera-se que este trabalho contribua com as instituies que
buscam, da forma mais automatizada possvel e com os recursos disponveis, ampliar sua
visibilidade a partir da incluso, em seus repositrios, da produo presente nos currculos da
Plataforma Lattes, e, como forma de efetivar tal contribuio, a UNESP disponibiliza na
plataforma GitHub10 os programas desenvolvidos pela Equipe Tcnica apresentados neste
trabalho.

REFERNCIAS
ASSUMPO, F. S. et al. A converso de registros na implantao de repositrios institucionais: o caso do
Repositrio Institucional UNESP. In: SEMINRIO NACIONAL DE BIBLIOTECAS UNIVERSITRIAS, 18.,
2014, Belo Horizonte. Anais... Belo Horizonte: UFMG, 2014. p. 1-16. Disponvel em:
<http://hdl.handle.net/11449/123645>. Acesso em: 16 set. 2015.
CONSELHO NACIONAL DE DESENVOLVIMENTO CIENTFICO E TECNOLGICO. Sobre a
Plataforma Lattes. Braslia, [2015?] Disponvel em: <http://www.cnpq.br/web/portal-lattes/sobre-aplataforma>. Acesso em: 16 set. 2015.
IMPORTING Items via basic bibliographic formats (Endnote, BibTex, RIS, TSV, CSV) and online services
(OAI, arXiv, PubMed, CrossRef, CiNii). In: DSPACE 5.x Documentation. DuraSpace, 2015. Disponvel em:
<https://wiki.duraspace.org/pages/viewpage.action?pageId=45548176>. Acesso em: 16 set. 2015.
LEITE, F. et al. Boas prticas para a construo de repositrios institucionais da produo cientfica.
Braslia: Ibict, 2012. Disponvel em: <http://livroaberto.ibict.br/handle/1/703>. Acesso em: 16 set. 2015.
MACIAS-CHAPULA, C. A. O papel da informetria e da cienciometria e sua perspectiva nacional e
internacional. Cincia da Informao, v. 27, n. 2, p. 134-140, maio/ago.1998. Disponvel em:
<http://dx.doi.org/10.1590/S0100-19651998000200005>. Acesso em: 16 set. 2015.
SHERPA/RoMEO. FAQ: Publisher copyright policies & self-archiving. Nottingham, 2011. Disponvel em:
<http://www.sherpa.ac.uk/romeo/faq.php>. Acesso em: 21 set. 2015.
UNIVERSIDADE ESTADUAL PAULISTA. Anurio estatstico 2015. So Paulo: 2015. Disponvel em:
<https://ape.unesp.br/anuario/pdf/Anuario_2015.pdf>. Acesso em: 21 set. 2015.
UNIVERSIDADE ESTADUAL PAULISTA. Portaria n. 88, de 28 de fevereiro de 2013. Dirio Oficial do
Estado de So Paulo, Executivo, So Paulo, 01 mar. 2013. Caderno 1, p. 47.

10

O programas e folhas de estilo descritos neste trabalho esto disponveis nos seguintes repositrios do GitHub:
https://github.com/fsassumpcao/metadata-conversions-to-dspace,
https://github.com/vitorsilverio/Item2CollectionRuler e https://github.com/jaideraf/DSpace-tools.

131
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br

VIDOTTI, S. A. B. G. et al. Reutilizao de metadados para o povoamento de um repositrio institucional:


procedimentos aplicados no Repositrio Institucional UNESP. In: INTERNATIONAL CONFERENCE ON
DUBLIN CORE & METADATA APPLICATIONS (DC-2015), 15., 2015, So Paulo. Proceedings, 2015. p.
234-235. Disponvel em: <http://hdl.handle.net/11449/127972>16 set. 2015.
W3C. XSL Transformations (XSLT) Version 2.0: W3C Recommendation 23 January 2007. Cambridge, 2007.

132
PontodeAcesso, Salvador, v.9, n.3, p. 117-132, dez. 2015
www.pontodeacesso.ici.ufba.br