Você está na página 1de 9

Samile Andra de Souza Vanz* Ida Regina Chitt Stumpf** RESUMO Discute os processos de avaliao da produo cientfica e a necessria

criao de indicadores para este fim. Apresenta fontes de coleta de dados para desenvolvimento de indicadores desta produo e apresenta os procedimentos para a limpeza/padronizao e organizao dos dados bibliomtricos. Descreve softwares livres para anlise bibliomtrica e a importncia do uso de indicadores relativos. Discute alguns procedimentos adotados pela comunidade cientfica internacional para anlise multivariada de dados bibliomtricos. Bibliometria. Cientometria. Anlise quantitativa. Bibexcel. Medidas de similaridade.

Professora adjunta do Departamento de Cincias da Informao da Universidade Federal do Rio Grande do Sul. E-mail: samilevanz@terra.com.br

Palavras-chave:

** Professora titular do Departamento de Cincias da Informao e do Programa de Ps-graduao em Comunicao e Informao da Universidade Federal do Rio Grande do Sul. E-mail: irstumpf@ufrgs.br

1 INTRODUO1

avaliao da produo cientca um processo fundamental para garantir o investimento nanceiro em pesquisa e a participao da Cincia na consecuo dos objetivos econmicos, sociais e polticos do pas (VELHO, 1986). Quanto mais ativo e produtivo o ambiente cientco, mais freqentes e rigorosas so as rotinas de avaliao vigentes. Estes processos avaliativos se fundamentam, principalmente, em duas metodologias: a avaliao qualitativa, feita pelos pares, fortemente ancorada na reputao adquirida pelo avaliado; e a que se deriva de critrios quantitativos, baseados em mtodos bibliomtricos e cientomtricos. As tcnicas quantitativas de medio da produo cientca tm algumas dcadas de existncia, mas no esto, ainda, completamente consolidadas (SPINAK, 1998; SANCHO, 1990). Sua utilizao est em franca expanso em diversos pases, e a preocupao em acompanhar a tendncia mundial de avaliao

1 Estudo desenvolvido para realizao da tese de doutorado defendida no PPGCOM/UFRGS com auxlio da Coordenao de Aperfeioamento de Pessoal de Nvel Superior (CAPES).

de Cincia e Tecnologia (C&T) fez com que o Brasil trabalhasse na criao de diferentes tipos de bases de dados e indicadores. As bases de dados tambm do suporte para a desejada visibilidade da produo cientca nacional, a partir de resultados de pesquisa, pesquisadores e instituies. Entre os exemplos de amplo reconhecimento est a SCIELO, a Plataforma Lattes, o Diretrio dos Grupos de Pesquisa e a Base de Patentes produzida pelo Instituto Nacional de Propriedade Industrial (INPI). Alm da criao das bases de dados para coleta e organizao de dados relativos C&T, diversos pesquisadores e instituies tm trabalhado na prospeco de indicadores de input e output da Cincia nacional, como a produtividade de instituies e reas do conhecimento, fator de impacto dos peridicos, colaborao cientca e investimentos em pesquisa. Nas naes mais produtivas da Europa e nos EUA, a avaliao da produo cientca uma prtica comum adotada por agncias de fomento, ministrios e organismos ligados s polticas de C&T. Tal avaliao tem-se revelado essencial para a construo de indicadores e posterior distribuio de investimentos, desenvolvimento 67

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010

memria cientfica

PROCEDIMENTOS E FERRAMENTAS APLICADOS AOS ESTUDOS BIBLIOMTRICOS1

Samile Andra de Souza Vanz; Ida Regina Chitt Stumpf de estratgias regionais e institucionais, e claro, a avaliao dos resultados de polticas implementadas. As prticas relacionadas aos indicadores de C&T tm despertado o interesse de outras naes, especialmente as que apresentam um rpido crescimento em relao ao output cientco, como o caso do Brasil. A proposta deste relato apresentar procedimentos da metodologia quantitativa para tratamento da produo cientca e algumas ferramentas disponveis para o desenvolvimento de pesquisas bibliomtricas. O texto est organizado em trs partes: a primeira aborda os procedimentos de coleta, limpeza e organizao dos dados; a segunda parte descreve as ferramentas para anlise bibliomtrica, apresentando softwares para este m e a importncia dos indicadores relativos e, por m, so discutidos alguns procedimentos para anlise multivariada de dados bibliomtricos. artigos e pre-prints de editoras acadmicas, organizaes prossionais, universidades e outras entidades (GOOGLE, 2010). Outra importante fonte de dados, o National Science Indicators, tambm publicado pelo ISI e comercializado em CD. Seu contedo basei-se no Science Citation Index Expanded2. Os indicadores levantados em bases de dados internacionais so relevantes para monitoramento da produo cientca brasileira internacional, possibilitando uma estimativa de como o Brasil contribui com a Cincia mainstream. O uso de bases internacionais ainda tem como vantagem a possibilidade de comparao dos resultados brasileiros com os resultados obtidos por outras naes. Porm, o levantamento de indicadores de produo cientca em bases de dados nacionais fundamental, especialmente em naes perifricas e que no possuem o ingls como lngua me. No Brasil, a biblioteca eletrnica de peridicos Scielo desempenha um importante papel na comunicao cientca nacional ao indexar e disponibilizar de forma eletrnica e gratuita o acesso a 228 peridicos. Apesar de ainda no disponibilizar publicamente o ndice de citaes, a Scielo oferece alguns indicadores bibliomtricos consolidados, baseados na literatura cientca por ela indexada. Entre eles est o indicador de citaes das revistas (citaes concedidas e recebidas; fator de impacto) e de coautoria3. Mesmo consideradas as maiores bases de dados multidisciplinares, tanto o Google Acadmico como a Scopus e a Web of Science apresentam inconsistncias na graa de nomes (JACSO, 2005). Entre os problemas mais comuns esto as diferentes formas de graa de nomes dos autores. Por exemplo, identica-se somente a inicial do primeiro nome ou ento, as iniciais de todos os nomes, ou ainda o nome por completo. As homonmias diferentes pessoas identicadas pelo mesmo nome so comuns nestas bases, decorrentes muitas vezes do uso do sobrenome seguido apenas de uma inicial do nome. Em relao aos nomes das instituies, os problemas se referem graa das instituies em diferentes lnguas, geralmente em portugus e ingls. Por exemplo, a Pontifcia Universidade Catlica
2 Informao disponibilizada na lista de discusso Sigmetrics, no dia 03 de maio de 2010, por Jim Testa, da Thomsom Reuters. 3 Informao disponvel em: <http://www.scielo.br>. Acesso em: 23 mar. 2010.

COLETA, LIMPEZA ORGANIZAO DOS DADOS

Os dados quantitativos referentes produo cientca esto disponibilizados em bases de dados bibliogrcas gerais ou multidisciplinares e em bases de dados especializadas, dedicadas a uma grande rea do conhecimento. Entre as bases de dados especializadas encontram-se o Chemical Abstracts, Compendex, BIDS Embase, Pascal SciTech e Pubmed, entre outros, que abrangem dados bibliogrcos da rea de Qumica, Engenharia, Cincias Biomdicas e Medicina, respectivamente (LETA; CRUZ, 2003). Alm destas, os dados podem ser coletados em bases de dados multidisciplinares, como o Web of Science, a Scopus e o Google Acadmico. O Web of Science (WoS), produzido pelo ISI desde a dcada de 60, oferece acesso trs ndices de citaes: Science Citation Index Expanded, Social Sciences Citation Index e o Arts & Humanities Citation Index (THOMSON CORPORATION, 2004). De forma similar, a Scopus, produzida pela Elsevier desde 2004, oferece ampla cobertura da literatura cientca e tcnica publicada a partir do sculo XIX em vrias reas do conhecimento (ELSEVIER, 2010). O Google Acadmico disponibiliza a pesquisa em documentos no indexados em bases bibliogrcas renomadas, entre eles livros, teses, dissertaes, resumos, 68

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010

Procedimentos e ferramentas aplicados aos estudos bibliomtricos do Rio Grande do Sul est descrita no ISI por inmeras formas (AUTOR, 2009), como PUCRS, PUC RS, Rio Grande Sul Ponticial Catholic Univ, Pont Univ Cat Rio Grande do Sul, Pont Univ Catlica Porto Alegre, Pontical Catholic Univ Rio Grande Sul, Pontical University Catholic Rio Grande do Sul, entre outras. Estas diferentes graas alteram o resultado de rankings de produtividade, estudos de co-ocorrncia, como co-autoria entre pesquisadores e instituies, e como co-citao. A constatao destas inconsistncias torna necessria a padronizao/limpeza de nomes de autores, instituies de liao, ttulos das obras, entre outros dados, procedimento que precisa ser realizado imediatamente aps o download dos arquivos. Apesar de geralmente demandar o maior tempo da pesquisa bibliomtrica, o procedimento vem sendo aplicado por diversos pesquisadores para garantir maior dedignidade dos dados (MUGNAINI; JANNUZZI; QUONIAM, 2004; LETA; GLNZEL; THIJS, 2006; HOU; KRETSCHMER; LIU, 2008). Alguns autores, entretanto, tm dispensado o processo de limpeza/padronizao de nomes de autores por considerar que o erro ocasionado pela homonmia percentualmente muito baixo e no altera signicativamente o resultado nal (NEWMAN, 2001a; WAGNER; LEYDESDORFF, 2005). Outro procedimento que pode ser realizado a organizao da produo cientca em grandes reas de publicao, de forma a evitar a sobreposio de assuntos e permitir a avaliao e comparao entre diferentes sries de dados. Uma das propostas para evitar a sobreposio o esquema de classicao de reas do conhecimento denido por Glnzel e Schubert (2003), que relaciona as reas de publicao do ISI em 15 grandes reas do conhecimento, a saber: Agricultura e meio ambiente; Biologia; Biocincias; Pesquisa biomdica; Medicina clnica e experimental I; Medicina clnica e experimental II; Neurocincia e comportamento; Qumica; Fsica; Geocincias e cincias espaciais; Engenharias; Matemtica; Cincias sociais I; Cincias sociais II; Artes e humanidades. O esquema vem sendo usado com sucesso por alguns pesquisadores em anlises bibliomtricas (GLNZEL; LETA; THIJS, 2006; MOURA, 2009; AUTOR, 2009). Outra possibilidade adequar as categorias de assunto do ISI presentes no campo SC s Tabelas das reas do Conhecimento utilizadas pelo Conselho Nacional de Desenvolvimento Cientco e Tecnolgico (CNPq) e CAPES, a saber: Cincias exatas e da terra; Cincias Biolgicas; Engenharias; Cincias da Sade; Cincias agrrias; Cincias sociais aplicadas; Cincias humanas; Lingstica, letras e artes; Outros. Quanto atribuio de valores para a quanticao da produo cientca, os estudos bibliomtricos vem atribuindo o valor de um artigo/citao para cada autor, instituio e pas envolvido no artigo. Desta maneira, os totais de ocorrncia de autores, instituies, pases e citaes no reetem o total de artigos publicados, mas o somatrio de ocorrncias. Esta estratgia vem sendo utilizada por diversos autores (LUUKKONEN; PERSSON; SIVERTSEN, 1992; PACKER; MENEGHINI, 2006; LIMA; VELHO; FARIA, 2007; VILAN FILHO; SOUZA; MUELLER, 2008). A metodologia oposta, chamada de fracionamento, atribui meio artigo para cada autor no caso de um artigo publicado por dois autores, um tero de artigo no caso de trs autores, e assim sucessivamente.

FERRAMENTAS PARA ANLISE BIBLIOMTRICA: SOFTWARES E NDICES RELATIVOS

Os dados bibliogrcos importados das bases de dados podem ser organizados e analisados atravs de diferentes softwares para anlise bibliomtrica, como o conjunto de aplicativos desenvolvido por Loet Leydesdorff4 e o Bibexcel5, desenvolvido por Olle Person. Ambos so livres e disponibilizam ferramentas para anlise descritiva de produtividade e citaes, entre outras, alm de anlise de co-autoria6, co-citao7, co-words8, anlises multivariadas e anlises de redes. O Bibexcel apresenta-se como um software exvel para o usurio, bastando,
4 Disponvel em http://users.fmg.uva.nl/lleydesdorff/software.htm 5 Disponvel em http://www.umu.se/inforsk/Bibexcel 6 A anlise de co-autoria baseia-se nos nomes dos autores de um artigo cientfico. considerada uma das formas de se medir a colaborao cientfica e pode se referir a pesquisadores, instituies e pases, estes dois ltimos atravs da vinculao institucional dos autores. 7 Co-citao define-se como a anlise que estuda as relaes e freqncias de pares de documentos que so citados por um terceiro documento. Pode ser relativa a documentos, autores e peridicos. 8 Co-words define-se como a anlise que estuda as relaes e freqncias de pares de palavras presentes em ttulos e abstracts de documentos.

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010

69

Samile Andra de Souza Vanz; Ida Regina Chitt Stumpf para isso, entender a estrutura bsica dos arquivos e os procedimentos e comandos para as anlises. Entre as suas funcionalidades est a organizao de dados em arquivos de texto ou planilha, o que possibilita ao pesquisador a utilizao de outros softwares para as anlises e tambm a importao de diferentes tipos de dados, alm dos bibliogrcos importados da Web of Science ou Scopus. A familiaridade com registros bibliogrcos fundamental, pois o Bibexcel funciona com base nos registros e delimitadores de campos. Assim, para iniciar a anlise bibliomtrica necessrio informar qual o campo a ser analisado e qual o delimitador usado naquele campo. Para analisar autores, por exemplo, necessrio informar ao Bibexcel a sigla AU na janela Old Tag e tambm que o campo de autor delimitado por ponto e vrgula, ou seja, todas as expresses presentes entre ponto e vrgula representam nomes de autores. Se o interesse do pesquisador recair na anlise de citaes, o campo informado o CD, o qual tambm delimitado por ponto e vrgula. Outra funcionalidade do Bibexcel a gerao de rankings de produtividade e citao. As anlises descritivas podem ser realizadas com o auxlio do Excel e sua ferramenta de Tabela Dinmica. O Bibexcel oferece ainda a possibilidade de criao das matrizes de coocorrncia que posteriormente, servem de input em anlises multivariadas como o Escalonamento Multidimensional (EMD), Anlise Fatorial, Anlise de Correspondncia e Anlise de Agrupamentos (Clusters) (PERSSON, DANELL; SCHNEIDER, 2009). Algumas destas podem ser realizadas pelo prprio software. Como opo, as matrizes podem ser analisadas com auxlio de outros softwares, como o Statistics Packet for Social Science (SPSS) ou o Microsoft Excel. As mesmas matrizes tambm podem ser visualizadas a partir de softwares para Anlise de Redes Sociais, como o Pajek9 e Ucinet10. As matrizes de co-ocorrncia geradas pelo Bibexcel so baseadas nos totais de ocorrncia de um indicador. O uso destes indicadores absolutos (totais de ocorrncia) amplamente aceito como ferramenta til na mensurao do desempenho cientco. Entretanto, a anlise bibliomtrica baseada no uso de indicadores
9 Disponvel em http://www.vlado.fmf.uni-lj.si/pub/networks/pajek/ 10 Disponvel em http://www.analytictech.com/downloaduc6.htm

relativos e normalizados pode revelar aspectos subjacentes at ento invisveis nos dados brutos. Na anlise de co-autoria, por exemplo, os nmeros absolutos indicam o total de artigos em co-autoria sem considerar o tamanho dos autores envolvidos na colaborao medido pelo total de artigos publicados. Para estimar propenses ou intensidade de co-autoria, fazse necessrio recorrer a indicadores relativos que levem em considerao o tamanho da produo cientca de um autor, instituio ou pas. Luukkonen e outros (1993), ao avaliarem a colaborao cientca internacional, armam que o total de artigos publicados em co-autoria entre dois pases deve ser analisado em relao ao total da produo cientca de cada um dos pases. No caso de um pas ser muito produtivo e outro pouco produtivo, a colaborao entre os dois pode no ser muito signicativa quando comparada produo total do pas produtivo, e ao contrrio, ser bem signicativa se comparada ao total publicado pelo pas menor. Analogamente, a anlise de colaborao entre instituies deve seguir o mesmo procedimento, visto que elas tambm se diferenciam quanto ao tamanho e produtividade. Nesse sentido, Luukkonen e outros armam:
[...] na anlise de relaes de colaborao, essencial usar ambas as medidas absolutas e relativas. A ltima normaliza diferenas de tamanho dos pases. Cada uma carrega tipos diferentes de informao. Medidas absolutas carregam respostas a questes como quais so os pases centrais na rede internacional da cincia, se relaes de colaborao revelam um centro relaes perifricas, e que pases so os parceiros mais importantes de outros. Medidas relativas oferecem respostas a questes de intensidade das relaes de colaborao ( LUUKKONEN, 1993, p.15, traduo nossa)

Com o objetivo de possibilitar diferentes interpretaes, Luukkonen, Persson e Sivertsen (1992) propuseram uma frmula que calcula a freqncia esperada, a partir de uma distribuio aleatria dos valores da diagonal da matriz entre todas as clulas. A freqncia esperada relacionada freqncia observada, conforme a frmula abaixo, desenvolvida no contexto de coautoria entre pases:

70

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010

Procedimentos e ferramentas aplicados aos estudos bibliomtricos

Cx,y x T
___________________

onde,

Cx X Cy
Cx,y = total de co-autorias entre o pas X e Y T = total de co-autorias da matriz Cx = total de co-autorias o pas X possui na matriz Cy= total de co-autorias o pas Y possui na matriz

O uso destas frmulas pode ser feito atravs do Excel, com base nas matrizes de dados brutos criadas pelo Bibexcel.

4 ANLISES MULTIVARIADAS
Alm das anlises descritivas e do uso de indicadores relativos pode-se aplicar anlises multivariadas aos dados bibliomtricos, como o Escalonamento Multidimensional (EMD), Anlise Fatorial, Anlise de Correspondncia e Anlise de Agrupamentos (Clusters). Para proceder s anlises multivariadas em dados bibliomtricos, especialmente aqueles presentes em matrizes simtricas e assimtricas, buscou-se embasamento metodolgico na literatura da rea de Cincia da Informao. O peridico Journal of the American Society for Information Science and Technology (JASIST) publica h alguns anos uma discusso sobre a metodologia adequada anlise das matrizes de co-ocorrncia, como por exemplo, co-citaes, co-words, co-autoria, comembership, co-classication e co-participation. As matrizes simtricas de co-ocorrncia - como as matrizes de co-autoria - so consideradas matrizes de proximidade do tipo similaridade, pois indicam o quo similar dois autores (ou instituies autoras) se apresentam (LEYDESDORFF; VAUGHAN, 2006; ECK e WALTMAN, 2007). Assim, quanto maior o nmero na clula de interseo entre uma linha (um autor) e uma coluna (outro autor), mais artigos publicados em co-autoria os dois autores possuem e, portanto, mais similares os dois autores se mostram. Segundo Ahlgren, Jarneving e Rousseau (2003), a metodologia utilizada para anlise de cocitaes segue quatro passos. Primeiro, a matriz de dados brutos compilada; depois, feita uma converso dessa matriz para uma matriz de proximidade, associao ou similaridade. O terceiro passo a anlise multivariada das relaes entre os autores presentes na matriz. Nesse passo, algumas anlises vm sendo usadas: anlise de agrupamentos, escalonamento multidimensional (EMD), anlise fatorial e anlise de correspondncia. Aps as anlises, ocorre a ltima etapa do processo, a interpretao dos dados. Os autores armam que, apesar de existirem necessidades especcas de acordo com os objetivos da investigao, no existem diferenas tericas e/ou matemticas entre 71

Segundo orientao dos autores, o ndice deve ser calculado com base em uma matriz completa, ou seja, com a diagonal 0. ndice igual a 1 indica uma colaborao observada de acordo com a esperada. Resultados menores que 1 indicam que a colaborao menor do que a esperada. Os maiores que 1 indicam uma relao de colaborao mais forte do que o esperado. Outro ndice que vem sendo utilizado na literatura o Cosseno de Salton, que pode ser calculado a partir da matriz de co-ocorrncia bruta, conforme a frmula de Luukkonen e outros (1993):
xy ___________________

Sxy =

onde,

Cx X Cy
Cxy = total de artigos publicados por x e y Cx= total de artigos publicados por x Cy= total de artigos publicados por y

A frmula do Cosseno de Salton se apresenta em outros formatos. A seguir, o formato usado por Hamers e outros (1989), no contexto da co-citao de autores, e Arunachalam (2000), para anlise de co-autoria entre pases:
(i, j) ______________________

coc
.

Ss (i, j) =

onde,

(cit (i) cit (j))

coc (i, j) = total de co-ocorrncias do autor i e j cit (i) = total de citaes recebidas pelo autor i cit (j) = total de citaes recebidas pelo autor j

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010

Samile Andra de Souza Vanz; Ida Regina Chitt Stumpf anlise de co-citaes, co-words, co-autoria, comembership, co-classication e co-participation, A metodologia desenvolvida inclui a gerao de uma matriz de similaridade a partir da matriz de dados brutos, com base em diferentes medidas. A questo de qual medida usar tem sido discutida h algum tempo e encontra respostas diversicadas na literatura. Segundo Luukkonen e outros (1993), a resposta depende do aspecto que se quer avaliar. Os autores explicam que h dois tipos de medidas de associao: as medidas de similaridade bilaterais e as multilaterais. A primeira deve ser usada se o objetivo comparar relaes entre pares de pases e instituies separadamente, e, entre elas, esto a medida de Salton e Jaccard. As medidas multilaterais, como a freqncia esperada e Correlao de Person, relaciona a co-autoria entre um par de autores com todos os outros autores envolvidos na anlise. Na opinio de Ahlgren, Jarneving e Rousseau (2003), a medida de similaridade denominada Cosseno de Salton a mais indicada quando o objetivo do pesquisador concentrase na visualizao da estrutura, seja atravs de Anlise de Redes Sociais ou EMD, visto que uma medida denida geometricamente. J White (2003) defende o uso da Correlao de Pearson com o argumento de que as diferenas entre o uso de diferentes medidas de similaridade podem ser negligenciadas na prtica de pesquisa. O autor testa as medidas de Correlao de Person, Cosseno de Salton e ChiQuadrado e arma que as trs medidas podem revelar uma resposta muito parecida. Bensman (2004) tambm se apresenta favorvel ao uso da Correlao de Person para normalizao quando o objetivo so as anlises estatsticas multivariadas. Leydesdorff e Vaughan (2006) argumentam que matrizes de co-autoria so matrizes de proximidade do tipo similaridade que no requerem normalizao antes de anlises EMD. Para fazer a normalizao, os autores armaram ser mais adequado usar a matriz assimtrica (matriz de ocorrncia), subjacente a matriz de co-ocorrncia, como base para anlise multivariada. Entretanto, Leydesdorff e Vaughan (2006) divulgam a opinio de um dos avaliadores do peridico em que o artigo foi publicado, cuja sugesto que, por razes tericas, os pesquisadores 72 podem continuar preferindo aplicar a medida de similaridade matriz de co-ocorrncia, com o objetivo de comparar padres de co-autoria ao invs de comparar a contagem de artigos em coautoria. Schneider e Borlund (2007) consideram no existir nenhum problema estatstico na prtica de aplicar medida de similaridade s matrizes de co-ocorrncia. Posteriormente, no mesmo peridico, Waltman e Eck (2007) tambm se pronunciaram, armando que as anlises multivariadas podem ser feitas em matrizes simtricas convertidas por diversas medidas de proximidade, sendo sugesto dos autores a Jansen-Shannon, a Bhattacharyya e o Cosseno. Os autores atribuem ao SPSS um defeito de programao, que teria levado Leydesdorff e Vaughan (2006) a concluir que o mapa distorcido era conseqncia da converso da matriz de dados brutos para uma matriz de similaridades. Waltman e Eck (2007) avaliam que o problema pode ser contornado, e o mapa adequado gerado a partir de uma rotina que utiliza o modelo Spline para anlise EMD (na verso 14.0 ou inferior do SPSS). Dando continuidade discusso no JASIST, Leydesdorff (2008, p. 79, traduo nossa) arma que: Em princpio, pode-se normalizar tanto matrizes simtricas quanto assimtricas atravs de vrias medidas. Formalmente, Person e Cosseno so equivalentes, com exceo de que Pearson normaliza atravs da mdia aritmtica, enquanto o Cosseno utiliza como parmetro a mdia geomtrica. Ou seja, o Cosseno mede a similaridade entre dois vetores usando o ngulo entre eles. Eck e Waltman (2008) concluem que a Correlao de Pearson no apresenta resultados satisfatrios quando usada para medir a similaridade entre padres de co-citao de autores porque uma medida apropriada para medir a correlao linear entre duas variveis. O Cosseno e, tambm, a medida de divergncia Jensen-Shannon e a de Distncia de Bhattacharyya, so as medidas mais adequadas na opinio dos autores. Alm disso, Eck e Waltman (2008), contrariando opinies anteriores, defendem que a escolha de uma medida de similaridade apropriada tem relevncia prtica e no s terica, visto que os resultados encontrados divergem, especialmente quando mapeados atravs de tcnicas EMD. Egghe e Leydesdorff (2009) do

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010

Procedimentos e ferramentas aplicados aos estudos bibliomtricos a ltima palavra na discusso, dizendo que, apesar das diferenas entre Salton e Pearson serem mnimas, ningum pode estimar a sua signicncia, e indicam a preferncia pelo Cosseno de Salton para anlise e visualizao de similaridades. Como relatado, a literatura no apresenta concluses sobre o assunto e os procedimentos, apesar de estarem em uso desde o incio dos anos 1990, ainda no esto plenamente consolidados. Muitos estudos ainda esto sendo feitos para denir a necessidade de converso da matriz de dados brutos para uma matriz de similaridades, e, a partir da, denir qual medida mais adequada; e ainda, para denir qual a matriz mais adequada para anlise, se a de ocorrncia ou a matriz quadrada de co-ocorrncia. Alguns tipos de anlises bibliomtricas no resultam em matrizes de co-ocorrncia, como por exemplo, a anlise de citaes. Nesta anlise o pesquisador tem duas variveis: um documento citante e o autor ou documento citado. Neste caso, por conter uma varivel nominal (autor), a Anlise de Correspondncia indicada e vem sendo usada para medir possveis relacionamentos e proximidades entre citantes e citados (AUTOR, 2008).

5 CONSIDERAES FINAIS
A pesquisa bibliomtrica e o uso de indicadores da produo cientca vem sendo alvo do trabalho e das pesquisas de diversos autores. Inmeras discusses vem sendo propostas entre a comunidade cientca mundial e, sem dvida, elas fundamentam e contribuem com as pesquisas realizadas aqui no Brasil. Entretanto, temos conscincia da necessidade de desenvolvermos indicadores e metodologias adequadas a realidade nacional. A criao de bancos de dados contendo a produo cientca nacional, alm de informaes sobre pesquisadores, instituies e grupos de pesquisa brasileiros j iniciou h alguns anos e a comunidade cientca e agncias de fomento contam hoje com ferramentas consolidadas. Agora, preciso desenvolver indicadores a partir destes bancos de dados. Assim, de maneira simultnea ao desenvolvimento das ferramentas de pesquisa, fundamental que os pesquisadores brasileiros aprofundem o conhecimento sobre os procedimentos aplicados na pesquisa bibliomtrica para que a rea avance e tenhamos condies de propor indicadores mais adequados para medir a produtividade cientca nacional.

PROCEDURES AND TOOLS APPLIED TO BIBLIOMETRIC STUDIES

Abstract

Discusses the process of scientific prodution evaluation and the necessary development of indicators for this purpose. Presents sources for data collection for development of scientific production indicators and presents the procedures for cleaning/standardization and organization of bibliometric data. Describes free softwares for bibliometric analysis and the importance of using relative indicators. Discusses some procedures adopted by the international scientific community for multivariate analysis of bibliometric data. Bibliometrics. Scientometrics. Quantitative analysis. Bibexcel. Similarities measures.

Key-words:

Artigo recebido em 09/06/2010 e aceito para publicao em 07/09/2010


Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010 73

Samile Andra de Souza Vanz; Ida Regina Chitt Stumpf

REFERNCIAS
AHLGREN, P.; JARNEVING, B.; ROUSSEAU, R. Requirements for a cocitation similarity measure, with special reference to Pearsons Correlation Coefcient. Journal of the American Society of Information Science & Technology, New York, v. 54, n. 6, p. 1616-1628, 2006. BENSMAN, S. J. Persons r and author cocitation analysis: a commentary on the controversy. Journal of the American Society of Information Science & Technology, New York, v. 55, n. 10, p. 935-936, 2004. ECK, N. J.; WALTMAN, L. Appropriate similarity measures for author cocitation analysis. 2007. Journal of the American Society of Information Science & Technology, New York, v. 59, n. 10, p. 1653-1661, 2008. EGGHE, L.; LEYDESDORFF, L. The relation between Pearsons correlation coefcient r and Saltons cosine measure. Journal of the American Society of Information Science & Technology, New York, v. 60, n. 5, p. 1027-1036, 2009. ELSEVIER. Scopus. 2010. Disponvel em: < http://www.scopus.com/home.url>. Acesso em: 13 abr. 2010. GLNZEL, W.; SCHUBERT, A. A new classication scheme of science elds and subelds designed for scientometric evaluation purposes. Scientometrics, Amsterdam, v. 56, n. 3, p. 357-367, 2003. GLNZEL, W.; LETA, J.; THIJS, B. Science in Brazil. Part 1: a macro-level comparative study. Scientometrics, Amsterdam, v. 67, n. 1, p. 67-86, 2006. GOOGLE. Google Acadmico. 2010. Disponvel em: <http://scholar.google.com.br/intl/pt-BR/ scholar/about.html>. Acesso em: 13 abr. 2010. HAMERS, L. et al. Similarity measures in Scientometric Research: the Jaccard Index versus Saltons Cosine formula. Information Processing & Management, New York, v. 25, n. 3, p. 315-318, 1989. 74

HOU, H.; KRETSCHMER, H.; LIU, Z. The structure of scientic collaboration networks in Scientometrics. Scientometrics, Amsterdam, v. 75, n. 2, p. 189-202, 2008. LETA, J.; GLNZEL, W.; THIJS, B. Science in Brazil. Scientometrics, Amsterdam v. 67, n. 1, p. 87-105, 2006. LEYDESDORFF, L. The mutual information of university-industry-government relations: an indicator of the Triple Helix dynamics. Scientometrics, Amsterdam, v. 58, n. 2, p. 445467. 2003. LEYDESDORFF, L. Similarity measures, author cocitation analysis, and Information Theory. Journal of the American Society of Information Science & Technology, New York, v. 56, n. 7, p. 769-772, 2005. LEYDESDORFF, L.; VAUGHAN, L. Cooccurrence matrices and their applications in Information Science: extending ACA to the Web Environment . Journal of the American Society of Information Science & Technology, New York, v. 57, n. 12 p. 1616-1628, 2006. LEYDESDORFF, L. On the normalization and visualization of author co-citation data: Saltons Cosine versus the Jaccard Index. Journal of the American Society of Information Science & Technology, New York, v. 59, n. 1, p. 77-85, 2008. LIMA, R. A.; VELHO, L. M. L. S.; FARIA, L. I. L.. Indicadores bibliomtricos de cooperao cientca internacional em bioprospeco. Perspectivas em Cincia da Informao, Belo Horizonte, v. 12, n. 1, p. 50-64, jan./abr. 2007. LUUKKONEN, T.; PERSSON, O.; SIVERTSEN, G. Understanding patterns of international scientic collaboration. Science, Technology & Human Values, Thousand Oaks, v. 17, n.1, Winter, 1992, p. 101-126. LUUKKONEN, T. et al. The measurement of international scientic collaboration. Scientometrics, Amsterdam, v. 28, n.1, p. 15-36, 1993.

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010

Procedimentos e ferramentas aplicados aos estudos bibliomtricos MOURA, A.M.M. A interao entre artigos e patentes. 2009. 269 f. Tese (Doutorado) Programa de Ps-Graduao em Comunicao e Informao, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2009. MUGNAINI, R.; JANNUZZI, P.; QUONIAM, L. Indicadores bibliomtricos da produo cientca brasileira: uma anlise a partir da base Pascal. Cincia da Informao, Braslia, v. 33, n.2, p. 123131, maio/ago. 2004. PERSSON, O.; DANELL, R.; SCHNEIDER, J.W. How to use Bibexcel for various types of bibliometric analysis. In: ASTROM, F. et al (ed.). Celebrating scholarly communication studies: a festschrift for Olle Persoon at his 60th birthday. ISSI, 2009. p. 9-24. SANCHO, R. Indicadores Bibliometricos Utilizados en la Evaluacin de la Cincia y la Tecnologia: revision bibliogrca. Revista Espaola de Documentacin Cientca, Madrid, v. 13, n. 3-4, p. 842-65, 1990. SPINAK, E. Indicadores cienciomtricos. Cincia da Informao, Braslia, v. 27, n.2, p.141-148, maio/ago. 1998. THOMSON CORPORATION. Web of Science 7.0: education program. 2004. 96 p. VELHO, L. A avaliao do desempenho cientico. Cadernos USP, So Paulo, n. 1, out. p. 22-40. 1986. VILAN FILHO, J. L.; SOUZA, H. B.; MUELLER, S. Artigos de peridicos cientcos das reas de informao no Brasil. Perspectivas em Cincia da Informao, Belo Horizonte, v. 13, n.2, p. 2-17, maio/ago. 2008. WALTMAN, L.; ECK, N. J. Some comments on the question whether co-occurrence data should be normalized. Journal of the American Society of Information Science & Technology , New York, v. 58, n. 11, p. 17011703, 2007. WHITE, H. D. Author cocitation analysis and Pearsons r. Journal of the American Society of Information Science & Technology, New York, v. 54, n. 13, p. 1250-1259, 2003. ZIMBA, H.F.; MUELLER, S.P.M. Parcerias na cincia. Datagramazero, Rio de Janeiro, v. 5, n. 1, art.4, 2004.

Inf. & Soc.:Est., Joo Pessoa, v.20, n.2, p. 67-75, maio/ago. 2010

75