Você está na página 1de 8

A BIBLIOMETRIA NA EXPLORAO DE BASES DE DADOS

45

ARTIGO

A bibliometria na explorao de bases de


dados: a importncia da Lingstica1
Bibliometric in databases exploration:
the importance of Linguistics
Rogrio MUGNAINI 2

RESUMO
A utilizao das bases de dados para levantamento do estado da arte,
procedimento necessrio a qualquer pesquisador, exige dos mesmos a
definio de estratgias para a recuperao eficaz da informao. A Bibliometria
pode ser uma ferramenta til neste processo, permitindo a filtragem de grandes
quantidades de informao. Por se tratar de uma anlise estatstica de dados,
a qualidade destes dados de vital importncia e o procedimento de indexao
para representao da informao se torna essencial. Pretende-se aclarar a
importncia da Estatstica, Lingstica e Indexao para a Cincia da Informao,
focalizando alguns aspectos de suas relaes e destacando a necessidade da
utilizao conjunta dessas disciplinas.
Palavras-chave: bibliometria, estatstica, indexao, linguagem documentria.

ABSTRACT
The use of databases to research the state of the art, the necessary procedure
for any researcher, imposes on them strategies definition of efficient information
1

Trabalho apresentado disciplina Fundamentao Lingstica no Tratamento da Informao, sob a orientao da Professora
Doutora Else Benetti Marques Vlio. Curso de mestrado em Biblioteconomia e Cincia da Informao, PUC-Campinas. O
trabalho foi apresentado no Seminrio em Cincias da Informao (Londrina, 23-25 ago., 2001).
Estatstico, Mestre em Cincia da Informao e Biblioteconomia pela PUC-Campinas. Analista de Sistemas de Informao,
Centro Latino-Americano e do Caribe de Informao em Cincias da Sade/BIREME. Rua Botucatu, 862, Vila Clementino,
04023-901, So Paulo, SP, Brasil. E-mail: rogerio@bireme.br
Recebido para publicao em 10/12/2002 e aceito em 20/8/2003.

Transinformao, Campinas, 15(1):45-52, jan./abr., 2003

46

R. MUGNAINI

retrieving. Bibliometrics can be a useful tool in this process, allowing the filtering
of great amount of information. Since it is a statistical analysis of data, its quality
is vitally important and the indexing methods used by Linguistics become
essential. This work intends to clarify the importance of the statistics for the
Information Science focusing alll these aspects and emphasizing the joint
utilization of these disciplines.
Key words: bibliometric, statistic, indexation, documentary languages.

INTRODUO
O acmulo e armazenamento de informao possibilitados pelo desenvolvimento da
informtica suscitaram a necessidade de sua
organizao para posterior recuperao. A informao produzida no meio acadmico, dita formal,
passou a ter um valor agregado extra quando
vista como indicador direto da produo do
conhecimento humano.
O conhecimento, que s adquirido
medida que se assimilam as informaes sobre
o assunto de interesse, utiliza a linguagem como
veculo de comunicao, objetivando a reconstruo do pensamento atravs de um conjunto
de unidades de expresso, segundo Cabr
(1995), denominado terminologia.
Com o passar do tempo, a produo
ininterrupta de conhecimento armazenado comea a dificultar a tarefa do pesquisador, que busca
atravs da leitura, montar o cenrio do tema
relacionado sua pesquisa. Algumas tcnicas
estatsticas podem ser aplicadas para filtragem
de informao, com o objetivo de facilitar sua
busca. A Bibliometria3 aqui proposta como a
ferramenta capaz de medir e facilitar a anlise
da informao armazenada. Segundo Oliveira
(1984), embora seu uso acarrete algumas
dificuldades, muita informao til concernente
transmisso de idias, crescimento e tendncias de uma disciplina cientfica pode ser obtida
por meio da abordagem matemtica.
3

A Bibliometria, que hoje tambm desfruta


das regalias da era digital, utilizando como
insumo a produo cientfica indexada nas bases
de dados, dependente direta do resultado do
trabalho dos indexadores. Sendo assim, a
Lingstica passa a ser cooperadora indireta na
anlise quantitativa da produo cientfica,
fornecendo modelos para a indexao, que
buscando representar a informao, pode ser
vista como forte participante no processo de
validao da mesma.
Este trabalho busca levantar argumentos
sobre a importncia da aplicao de tcnicas
lingsticas na Indexao, para a realizao de
anlises bibliomtricas de bases de dados. Traz
tambm algumas consideraes baseadas nas
tcnicas estatsticas de anlise, pelo fato desta
rea ter muito a contribuir na implementao das
tcnicas bibliomtricas. Apresenta ainda uma
breve reviso de literatura da produo cientfica
nacional em estudos bibliomtricos, sem a
inteno de levantamento exaustivo.

Representao de informaes de
Bases de Dados atravs de linguagem
prpria
Estudos em Lingstica, voltados para a
rea de Documentao, vm sendo realizados,
pelo menos, desde a dcada de 70. Num artigo
publicado em 1973, Wanderley (1973) faz a
seguinte afirmao:

A bibliometria consiste em analisar, globalmente, os elementos de um corpus documentrio, com a ajuda de mtodos
estatsticos e matemticos, a fim de descobrir as relaes existentes entre os diversos elementos que o compe (SANTOS,
2001).

Transinformao, Campinas, 15(1):45-52, jan./abr., 2003

A BIBLIOMETRIA NA EXPLORAO DE BASES DE DADOS

Ento no teramos estado, ns,


bibliotecrios e documentaristas, a fazer lingstica sem o saber quase diramos sem a
saber? ao criarmos linguagens
que desejamos to significativas
quanto a natural? a traduzirmos
em cdigos os textos em nossa
custdia? a frasear-lhes o contedo em resumos sinalticos ou
informativos, produzindo documentos derivados que do
acesso aos primrios, numa
palavra, a comunicarmos ao leitor
mensagens que, no intuito de lhe
responderem s questes, os
autores confiaram ao nosso zelo
e guarda?

O autor exprime, nestas linhas, a surpresa, como se estivesse se dando conta de estar
utilizando a Lingstica em seus procedimentos
de documentao. As linguagens criadas por
estes procedimentos tm realmente o objetivo
de representar a linguagem natural, isto , o texto
integral. E, como afirma tambm, cabe ao
documentarista garantir esta representao.
Para Cintra (1983), a linguagem documentria
foi criada para suprir a necessidade de descrio
dos documentos, por causa das dificuldades
encontradas com a linguagem natural.
As bases de dados utilizam a linguagem
documentria para identificao do documento,
com o objetivo de possibilitar sua recuperao
com eficincia. Este ato de indexar informao,
tratado por Navarro (1988) em uma reviso de
literatura sobre a interface da Indexao4 com a
Lingstica de 1988, era realizado na base do
bom senso, passando a buscar esta interface
somente no momento em que se iniciaram as
tentativas de automao do procedimento.
A autora afirma, ainda, que o cientista da
informao no precisa da Lingstica em geral,
4

47

mas sim de algumas escolas, pela necessidade


operacional do documentarista. Baseando-se no
trabalho de vrios autores, confere extrema
importncia Semntica, por considerar a
questo do significado das palavras um problema
de difcil resoluo; e tambm Sintaxe (trata
dos constituintes da frase), sobre a qual os
estudos, bem como sua utilizao em documentao encontram-se mais desenvolvidos que os
referentes Semntica.
Baranow (1983) destaca subreas
especializadas da Lingstica e reas afins,
interessantes Documentao, sendo, Navarro
(1988), o autor que mais indica possveis reas:
a Terminologia, que auxilia na estruturao dos
assuntos, por exemplo, a Lingstica Computacional, com o processamento automtico de
textos e a recuperao automtica da informao; a Tradutologia, que pode servir de base
para a traduo da linguagem natural para a
documentria; e a Morfologia, que aponta o
contedo do texto baseando-se na freqncia
das palavras. Cintra (1983) e Navarro (1988) ainda
acrescentam: a teoria dos Campos Semnticos,
e por fim a Leitura do Documento, ou Anlise
do Discurso, expressando o momento de leitura
do documento, pelo indexador.
No processo de automao, o texto
passa a ser processado pela mquina
(ANDREEWSKI, 1983; EVANGELISTA JNIOR,
1996), que exige a identificao de aspectos
lingsticos por no discernir a semntica das
palavras. J em um artigo mais recente,
Mendona (2000) embasa esta afirmao:
A traduo do termo descritor e a
problemtica do emprstimo
lingstico so dois dos grandes
desafios da era documental, pois
prima-se por um termo que
represente, de maneira clara e
objetiva, a informao por meio
da normalizao e padronizao

Indexao: a traduo de um documento de uma para outra linguagem, visando possibilitar a recuperao da informao,
sendo que esto envolvidos alguns processos, entre os quais os lingsticos (NAVARRO, 1988).

Transinformao, Campinas, 15(1):45-52, jan./abr., 2003

48

R. MUGNAINI

dos emprstimos lingsticos


que atualmente assolam a terminologia brasileira.

Os descritores so os termos eleitos para


representar o documento. Sayo (1996) denomina-os a metfora da informao original, sendo
produzidos por linguagens artificiais, e objetivando a referncia a um conhecimento real. Diz ainda
que, por sua artificialidade, estas linguagens so
extremamente redutoras de significado, porm,
alerta sobre o fato de que antes de ser uma
deficincia, o sustentculo da identidade, do
poder de ordenao e classificao, do qual a
cincia no pode prescindir.
Espera-se assim que haja uma relao
unvoca nessa representao, o que nem sempre
atingido na traduo das metforas. Algumas
vezes, devido a problemas de emprstimos
lingsticos, os termos no so compreendidos
da forma pretendida. Por exemplo, a utilizao
nas cincias sociais, de palavras com significados diversos, resultantes da atribuio
realizada por determinado grupo, que nem
sempre entendida pelos de fora do mesmo, e
em alguns casos, nem por seus prprios integrantes (GALVO, 1998).
Adotando a posio de Sayo, pode-se
dizer que as linguagens das bases de dados so
de extrema importncia pelas caractersticas
oferecidas para organizao da informao.
Obviamente apresenta desvantagens, como, por
exemplo, a reduo de significado, mas que de
certa forma compensada pelas facilidades
oferecidas para sua recuperao.

A Bibliometria abrindo o caminho


O primeiro contato entre o pesquisador e
a produo cientfica, para constituio de seu
trabalho, de fundamental importncia. Sayo
(1996) v este contato como o momento em que
5

o pesquisador reconstri seu conhecimento. A


partir das informaes que ele encontra na base
de dados que poder sanar sua necessidade
de informao, at ento nebulosa. O pesquisador utiliza os testemunhos dados pela
comunidade cientfica ou acadmica, em que ele
est ou deseja estar inserido, para formular suas
prprias questes.
A Bibliometria pode ser usada como um
filtro de informao, podendo ser de grande
utilidade para o pesquisador no levantamento do
estado da arte do seu tema de pesquisa. A leitura
do texto integral se torna impossvel devido ao
crescimento do conhecimento produzido, que
acontece rapidamente, sendo de forma exponencial em alguns casos.
Rostaing (1996) compara a Bibliometria
e a Demografia afirmando, que para o analista
no tem sentido ler as publicaes a analisar,
assim como o demgrafo no conhece os
indivduos da populao que estuda. Em sua
comparao ele deixa claro a no dependncia
do conhecimento completo do objeto de estudo
(num primeiro momento, no caso do analista),
sendo necessrio apenas conhecer algumas
caractersticas do mesmo. O que se deve ao
fato de lidar com quantidades, analisando o grupo
em geral. Sugere-se esta ferramenta por sua
eficcia na abordagem das bases de dados.
Wormell (1998) frisa o aumento da potencialidade da Bibliometria propiciado pelos
mecanismos de busca online e a possibilidade
da mesma ser aplicada no s a bases de dados
de produo cientfica, mas a bases diversas,
quando passa a ser denominada informetria5 . E
acrescenta que:
O valor sofisticado do servio de
informao online, hoje, est no
uso de bases de dados no somente para recuperar informaes, mas tambm para anali-

Informetria o estudo dos aspectos quantitativos da informao em qualquer formato, e no apenas registros catalogrficos
ou bibliogrficos, referente a qualquer grupo social, e no apenas aos cientistas (SANTOS, 2001).

Transinformao, Campinas, 15(1):45-52, jan./abr., 2003

A BIBLIOMETRIA NA EXPLORAO DE BASES DE DADOS

sar / sintetizar os resultados e


combin-los com outras informaes (garimpo de dados).
Assim, a tcnica de busca online
deve ser compreendida como um
processo que agrega valor em
termos dos procedimentos de
seleo e refinamento realizados
com base em estratgias de

Este trabalho atenta primordialmente para


o segundo tipo de caractersticas por ter uma
abordagem lingstica, e por serem estas mais
indicadas quando se utiliza a Bibliometria para
o fim tratado aqui. Mas as caractersticas
descritivas so de extrema importncia numa
anlise bibliomtrica.

busca inteligentes.

S a Lingstica culpada?

Dessa forma destaca-se aqui o final do


depoimento de Wormell (1998), no qual ela
menciona a agregao de valor, atravs das
buscas inteligentes. Ou seja, entende-se que as
estratgias de busca booleana tm grande
importncia na definio do material a ser
estudado, e necessrio que se utilize os devidos campos de busca, para obteno dos
documentos.
As caractersticas dos documentos indexados na base podem ser divididas em dois
tipos. As descritivas, correspondentes ao
envelope do documento, por no fazer parte de
seu contedo. Trata-se de dados do autor, do
co-autor, da instituio em que foi produzido,
citao, data de publicao, editora, local de
publicao. Essas caractersticas podem revelar
informaes importantes sobre o documento, por
exemplo: sabendo que determinada instituio
trabalha em determinada linha de pesquisa,
fornecendo indicaes sobre o tema, ou a forma
de abordagem ao mesmo; a mesma coisa pode
ser esperada se o autor j conhecido, ou seu
pas de origem.
O outro tipo refere-se s caractersticas
temticas do documento, que consiste do ttulo,
do resumo e dos descritores, provenientes de
uma linguagem documentria. Estas tambm
evitam que o analista tenha de ler o texto, porm,
fornecem informaes diretamente relacionadas
com seu contedo. A utilizao destas caractersticas, numa anlise bibliomtrica, ajuda a
limpar a grande massa retirada da base,
permitindo a reduo do trabalho de leitura do
pesquisador, e no a eliminao.

49

Vendo a anlise bibliomtrica como uma


anlise estatstica, deve-se atentar primeiramente para a definio das variveis a analisar.
A qualidade dos dados ser diretamente refletida
no resultado da anlise, o que refora, neste
caso, a questo da importncia das tcnicas
lingsticas para sua validao.
Os dados sero resultantes da medio
da varivel de interesse (nem sempre mensurvel
diretamente), atravs de uma medida indicadora
do mesmo. Jannuzzi (2001) explica que a
validade da medida indicadora obtida quando
se aproxima do conceito (varivel de interesse),
ou seja, a sua capacidade de refletir, de fato, o
conceito abstrato a que o indicador se prope a
substituir ou operacionalizar.
Os descritores so os indicadores do
contedo do documento, tambm responsabilizados pela qualidade da anlise. A m
representao do documento, por parte do
descritor, resumo, ou ttulo, significar a no
insero do mesmo no conjunto, ou a incluso
desnecessria de documentos que no deveriam
constar. Um documento no inserido chamado,
na linguagem estatstica, de dado faltante.
Deming (1950), elencando uma srie de
possveis fontes de erros no-amostrais, afirma
que este tipo de falha no conjunto de dados pode
ser destacado entre os mais prejudiciais
anlise estatstica, pois no s representa perda
de parte da informao sobre o tema, como gera
distoro no resultado final da anlise. Outra
fonte apontada por ele a demora na insero
Transinformao, Campinas, 15(1):45-52, jan./abr., 2003

50

R. MUGNAINI

do documento na base de dados, prejudicando


o resultado final da anlise.
Numa anlise estatstica, recomenda-se
considerar o maior nmero possvel de fontes de
erro. Como so infinitas, no se pode ater aos
mnimos detalhes, e saber que no existe uma
melhor anlise, e sim uma anlise melhor que
outra importante. Dado que as fontes de erro
nem sempre podero ser extintas, as medidas
sero tomadas enquanto forem consideradas no
momento da interpretao dos resultados. As
fontes de erro tm de ser destacadas aos olhos
daquele que receber os resultados.
Baseando-se nestes fatos, o analista de
informao precisa ser esclarecido de que sua
amostra nem sempre representativa da populao que a proveu, pois este, muitas vezes, est
lidando com uma base que no contempla
exaustivamente toda a produo cientfica
daquele tema. , portanto, essencial que ele
exponha, a exemplo desta, todas as precariedades do conjunto de dados levantado.
Um outro aspecto importante a esclarecer
a estratgia de busca das informaes, como
apontado por Wormell (1998). As palavras
utilizadas e ordem de utilizao, quais e como
foram usados os operadores booleanos. Este j
um procedimento lgico que constitui a
estratgia.

CONSIDERAES FINAIS
Discorrendo sobre a construo de
conceitos no campo da Cincia da Informao,
Galvo (1998) diz poderem ser distinguidas duas
correntes tericas que estudam a linguagem no
campo da Biblioteconomia e Documentao:
uma pesquisa a viabilidade de recuperao da
informao via linguagem natural, e outra trabalha
no desenvolvimento das linguagens documentrias. Alm disso, tambm observa que tem
buscado auxlio de outras disciplinas como a
Transinformao, Campinas, 15(1):45-52, jan./abr., 2003

Estatstica, a Cincia Cognitiva, a Lgica, a Lingstica, a Matemtica, a Cincia da Terminologia, entre outras.
As duas correntes observadas por Galvo
(1998) tambm podem ser nitidamente identificadas nos estudos bibliomtricos. Rostaing
(1996) diz que os tratamentos estatsticos
lingsticos foram inicialmente desenvolvidos para
analisar textos literrios, passando a ser
utilizados pela Bibliometria para aplicao em
textos cientficos. E que este parentesco de
certa forma confirmado, pois numerosos centros
de pesquisa em Bibliometria tm como objetivo
o tratamento automtico de textos redigidos em
linguagem natural.
A justificativa, apresentada aqui para a
no utilizao de recuperao por linguagem
natural, a facilidade oferecida pela linguagem
documentria, que com certeza no evita a
leitura, mas reduz sua quantidade.
O artigo j citado de Mendona (2000),
que busca estabelecer relaes entre a Lingstica e a Cincia da Informao, recuperou os
artigos que tivessem o termo lingstica no ttulo
ou resumo, em peridicos relevantes na rea de
Cincia da Informao. Dentre os artigos
selecionados pela autora, a revista Cincia da
Informao foi escolhida por apresentar o maior
nmero de ocorrncias de artigos com estas
caractersticas (de 1972 a 1998). Este artigo ser
utilizado neste estudo por servir como uma
reviso bibliogrfica de interesse comum.
Dentre os grupos temticos de classificao dos 42 artigos, est Lingstica e
Bibliometria, representando o grupo de estudos
quantitativos. Apenas dois artigos foram listados:
um de Maia (1973) e outro de Ribeiro (1974). Os
dois utilizam a Bibliometria para anlise do texto
integral. Desta forma, nota-se que, pelo menos
neste peridico, no foram mais publicados
artigos nesta interseo de assuntos at 1998.
Sabe-se, obviamente, que esta amostra est

A BIBLIOMETRIA NA EXPLORAO DE BASES DE DADOS

longe de ser representativa da populao


completa da produo em mbito nacional, e nem
possui este objetivo, mas serve para evidenciar
a carncia neste campo da cincia nacional.
Complementando o estudo de Mendona
(2000) e Oliveira (1984), tambm j citado, afirma
que nenhum trabalho sobre Bibliometria foi publicado antes de 1972, e que o pioneiro foi uma
tese de Braga (1974), publicada na revista Cincia da Informao, sob orientao de Saracevic,
T. em sua estada no Brasil (OLIVEIRA, 1984)
aponta este fato como o precursor da Bibliometria
no Brasil).

51

Pode-se notar que a carncia nessa rea


ainda clara e espera-se que com a utilizao
das bases de dados como vem ocorrendo, perceba-se a utilidade da Bibliometria como exposto
neste trabalho. Alm disso, a interdisciplinaridade que a Cincia da Informao vem apresentando, envolvendo a Lingstica e Cincias
Computacionais, pode ser enriquecida com
profissionais da rea de Estatstica, principalmente quando se tratando de Bibliometria. Este
mais um fator que expressa a necessidade da
divulgao da Cincia da Informao, para
conhecimento ou estudo da mesma em outras
reas.

REFERNCIAS
ANDREEWSKI, A. Indexao automtica baseada
em mtodos lingsticos e estatsticos e sua
aplicabilidade Lngua Portuguesa. Cincia da
Informao, Braslia, v.12, n.1, p.61-73, 1983.
BARANOW, U.G. Perspectivas na contribuio da
Lingstica e de reas afins Cincia da Informao. Cincia da Informao, Braslia, v.12, n.1,
p.23-35, 1983.
BRAGA, G.M. Informao, cincia, poltica cientfica:
o pensamento de Derek de Solla Price. Cincia da
Informao, Rio de Janeiro, v.3, n.2, p.155-177,
1974.
CABR, M.T. La terminologa hoy: concepciones,
tendencias y aplicaciones. Cincia da Informao,
Braslia, v.24, n.3, p.289-298, 1995.
CINTRA, A.M.M. Elementos de Lingstica para
estudos de indexao. Cincia da Informao,
Braslia, v.12, n.1, p.5-22, 1983.
DEMING, W.E. Some Theory of Sampling. New York:
Dover Publications, 1950.

GALVO, M.C.B. Construo de conceitos no campo


da Cincia da Informao. Cincia da Informao,
Braslia, v.27, n.1, p.46-52, 1998.
JANNUZZI, P.M. Indicadores sociais no Brasil.
Campinas: Alnea, 2001.
MAIA, E.L.S. Comportamento bibliomtrico da
lngua portuguesa, como veculo de representao
da informao. Cincia da Informao, Rio de
Janeiro, v.2, n.2, p.99-138, 1973.
MENDONA, E.S. A Lingstica e a Cincia da
Informao: estudos de uma interseo. Cincia
da Informao, Braslia, v.29, n.3, p.50-70, 2000.
NAVARRO, S. Interface entre Lingstica e
Indexao: reviso de literatura. Revista Brasileira
de Biblioteconomia e Documentao, So Paulo,
v.21, n.1/2, p.46-62, 1988.
OLIVEIRA, S.M. Aplicaes e limitaes dos
processos bibliomtricos. Revista Brasileira de
Biblioteconomia e Documentao, So Paulo,
v.17, n.1/2, p.43-54, 1984.

e m Informtica) Instituto de Informtica,

RIBEIRO, L.A. Aplicao dos mtodos estatsticos


e da teoria da informao e da comunicao na
anlise lingstica: estudo da linguagem
jornalstica. Cincia da Informao, Rio de Janeiro,
v.3, n.2, p.151-154, 1974.

Pontifcia Universidade Catlica de Campinas,


Campinas.

ROSTAING, H. La bibliomtrie et ses techniques.


Marseille: Sciences de la Socit, 1996. p.7-19.

EVANGELISTA JNIOR, C. Metodologia para a


indexao automtica de textos em lngua
portuguesa. 1996. 122 f. Dissertao (Mestrado

Transinformao, Campinas, 15(1):45-52, jan./abr., 2003

52

R. MUGNAINI

SANTOS, R.N.M. Material de aula da disciplina


Recursos Informacionais na Gesto de Negcios, do curso de mestrado em Cincia da
Informao da Pontifcia Universidade Catlica
de Campinas, Campinas, 2001.
SAYO, L.F. Bases de dados: a metfora da
memria cientfica. Cincia da Informao, Braslia,
v.23, n.3, p.314-318, 1996.

Transinformao, Campinas, 15(1):45-52, jan./abr., 2003

WANDERLEY, M.A. Linguagem documentria,


acesso informao: aspectos do problema.
Cincia da Informao, Rio de Janeiro, v.2, n.2,
p.175-217, 1973.
WORMELL, I. Informetria: explorando bases de
dados como instrumentos de anlise. Cincia
da Informao, Braslia, v.27, n.2, p.210-216,
1998.

Você também pode gostar