Você está na página 1de 22

Assine o DeepL Pro para traduzir arquivos maiores.

Mais informações em www.DeepL.com/pro.

Ferramentas de software de mapeamento científico:


Revisão, análise e estudo cooperativo entre ferramentas

M.J. Cobo, A.G. López-Herrera, E. Herrera-Viedma e F. Herrera


Departamento de Ciência da Computação e Inteligência Artificial, CITIC-UGR (Centro de
Pesquisa em Tecnologia da Informação e Comunicação), Universidade de Granada, E-
18071 Granada, Espanha. E-mail: {mjcobo, lopez-herrera, viedma, herrera}@decsai.ugr.es

aceito em fevereiro de
O mapeamento científico tem como objetivo criar 10, 2010
mapas bibliométricos que descrevam como disciplinas
específicas, domínios científicos ou campos de © 2011 ASIS&T - Publicado on-line em 2 de maio de 2011 na Wiley Online
pesquisa são conceitualmente, intelectualmente e Library (wileyonlinelibrary.com). DOI: 10.1002/asi.21525
socialmente estruturados. Diferentes técnicas e
ferramentas de software foram propostas para realizar
a análise de mapeamento científico. O objetivo deste
artigo é revisar, analisar e comparar algumas dessas
ferramentas de software, levando em conta aspectos
como as técnicas bibliométricas disponíveis e os
diferentes tipos de análise.

Introdução
O mapeamento científico, ou mapeamento bibliométrico,
é um importante tópico de pesquisa no campo da
bibliometria (Morris & Van Der Veer Martens, 2008; van
Eck & Waltman, 2010). Ele tenta encontrar representações
de conexões intelectuais dentro do sistema de conhecimento
científico que muda dinamicamente (Small, 1997). Em
outras palavras, o mapeamento científico visa a exibir os
aspectos estruturais e dinâmicos da pesquisa científica
(Börner, Chen e Boyack, 2003; Morris e Van Der Veer
Martens; Noyons, Moed e Luwel, 1999a).
O fluxo de trabalho geral em uma análise de
mapeamento científico tem diferentes etapas: recuperação
de dados, pré-processamento, extração de rede,
normalização, mapeamento, análise e visualização. No
final desse processo, o analista precisa interpretar e obter
algumas conclusões dos resultados.
Existem diferentes fontes bibliométricas onde os dados
podem ser recuperados, como o ISI Web of Science (WoS)
ou o Sco- pus. Além disso, uma análise de mapeamento
científico pode ser realizada usando dados de patentes ou de
financiamento.
A etapa de pré-processamento talvez seja uma das mais
importantes. A qualidade do resultado dependerá da
qualidade dos dados. Vários métodos de pré-processamento
podem ser aplicados, por exemplo, para detectar elementos
duplicados e com erros ortográficos.

Recebido em 26 de outubro de 2010; revisado em 10 de fevereiro de 2010;


Diferentes abordagens foram desenvolvidas para Após a construção da rede, geralmente é realizado um
extrair redes usando as unidades de análise selecionadas processo de normalização da relação (bordas) entre seus nós
(autores, documentos, periódicos e termos). A análise de por meio de medidas de similaridade. Uma revisão das
co-palavras (Callon, Courtial, Turner e Bauin, 1983) usa medidas de similaridade usadas no mapeamento científico
as palavras mais importantes ou palavras-chave dos foi realizada em (van Eck & Waltman, 2009).
documentos para estudar a estrutura conceitual de um Com os dados normalizados, diferentes técnicas podem
campo de pesquisa. O coautor analisa os autores e suas ser usadas para construir o mapa (processo de
afiliações para estudar a estrutura social e as redes de mapeamento; Börner et al., 2003). Técnicas de redução de
colaboração (Gänzel, 2001; Peters & van Raan, 1991). dimensionalidade, como análise de componentes principais
Por fim, as referências citadas são usadas para analisar a ou escalonamento multidimensional (MDS), algoritmos de
base intelectual usada pelo campo de pesquisa ou para agrupamento e redes Pathfinder (PFNETs) são amplamente
analisar os documentos que citam as mesmas referências. utilizadas.
Nesse sentido, o acoplamento bibliográfico (Kessler, Os métodos de análise para mapeamento científico nos
1963) analisa os documentos citantes, enquanto a análise permitem extrair conhecimento útil dos dados. A análise de
de cocitação (Small, 1973) estuda os documentos citados. rede (Carrington, Scott e Wasserman, 2005; Cook e Holder,
Outras abordagens, como o acoplamento bibliográfico de 2006; Skillicorn, 2007; Wasserman e Faust, 1994) nos
autores (Zhao & Strotmann, 2008), a cocitação de autores permite realizar uma análise estatística dos mapas gerados
(White & Griffith, 1981), o acoplamento bibliográfico de para mostrar diferentes medidas de toda a rede ou medidas
periódicos (Gao & Guan, 2009; Small & Koenig, 1977) e de relação ou sobreposição (o índice de Jaccard pode ser
a cocitação de periódicos (McCain, 1991), são exemplos usado para isso) dos diferentes grupos detectados (se um
de macroanálise que utilizam dados agregados. algoritmo de agrupamento tiver sido aplicado). Análise
temporal (Garfield, 1994;

JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 62(7):1382-1402, 2011
Price & Gürsey, 1975) tem como objetivo mostrar a Este artigo está organizado da seguinte forma. Na seção
evolução conceitual, intelectual ou social do campo de Mapeamento científico, são apresentados alguns conceitos
pesquisa, descobrindo padrões, tendências, sazonalidade e sobre mapeamento científico. As ferramentas de software
discrepâncias. A detecção de explosões (Kleinberg, 2003), projetadas para executar um mapeamento científico
uma análise temporal específica, tem como objetivo
encontrar recursos que tenham alta intensidade em períodos
finitos de tempo. Por fim, a análise geoespacial (Batty,
2003; Leydesdorff & Persson, 2010; Small & Garfield,
1985) tem como objetivo descobrir onde algo acontece e
qual é o seu impacto nas áreas vizinhas.
Além disso, técnicas de visualização são usadas para
representar um mapa científico e o resultado das diferentes
a n á l i s e s , por exemplo, as redes podem ser
representadas usando mapas heliocêntricos (Moya-Anegón
et al, 2005), modelos geométricos (Skupin, 2009), redes
temáticas (Bailón-Moreno, Jurado-Alameda, & Ruíz-
Baños, 2006; Cobo, López-Herrera, Herrera-Viedma, &
Herrera, 2011) ou mapas em que a proximidade entre os
itens representa sua similaridade (Davidson, Wylie, &
Boyack, 1998; Polanco, François, & Lamirel, 2001; van Eck
& Waltman, 2010). Para mostrar a evolução em diferentes
períodos de tempo, podem ser usadas a cadeia de clusters
(Small, 2006; Small & Upham, 2009; Upham & Small,
2010) e as áreas temáticas (Cobo et al., 2011).
Embora a análise do mapeamento científico possa ser
realizada com o uso de ferramentas genéricas de análise de
redes sociais, como Pajek (Batagelj & Mrvar, 1998) e
UCINET (Borgatti, Everett, & Freeman, 2002), ou
software de bioinformática, como Cytoscape (Shannon et
al., 2003), há outras ferramentas de software desenvolvidas
especificamente para essa finalidade. Algumas dessas
ferramentas de software foram concebidas especificamente
para o mapeamento científico e outras podem ser usadas
em domínios não científicos. Algumas dessas ferramentas
de software foram implementadas apenas para visualizar
mapas científicos e outras permitem visualizar e também
construir os mapas. Uma lista de ferramentas de software
genéricas usadas em pesquisas de cienciometria é
apresentada em Börner et al. (2010).
O objetivo deste artigo é apresentar um estudo
comparativo aprofundado de nove ferramentas de software
de mapeamento científico representativas, mostrando suas
vantagens, desvantagens e diferenças mais importantes.
Analisamos as seguintes ferramentas de software: Bibex- cel
(Persson, Danell, & Wiborg Schneider, 2009), CiteSpace II
(Chen, 2004, 2006), CoPalRed (Bailón-Moreno, Jurado-
Alameda, Ruíz-Baños, & Courtial, 2005; Bailón-Moreno et
al, 2006), IN-SPIRE (Wise, 1999), Leydesdorff's Soft-
ware, Network Workbench Tool (Börner et al., 2010; Herr,
Huang, Penumarthy, & Börner, 2007), Science of Science
(Sci2 ) Tool (Sci2 Team, 2009), VantagePoint (Porter &
Cuningham, 2004) e VOSViewer (van Eck & Waltman,
2010). Cada um deles nos fornece sua própria visão dos
dados devido ao fato de implementarem diferentes técnicas
e algoritmos de análise. Devemos ressaltar que eles
apresentam características complementares e, portanto,
pode ser desejável aproveitar suas sinergias para realizar
uma análise completa do mapeamento científico.
Concluímos nossa análise mostrando o desempenho de
todas as ferramentas de software com um exemplo e
analisamos algumas sinergias positivas entre elas.
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
Análise de mapeamento: A seção Survey descreve as Fontes de dados
ferramentas de software a serem analisadas. Na seção Atualmente, existem vários bancos de dados
Estudo comparativo, é feita uma comparação entre as bibliográficos (e também bibliométricos) on-line onde são
ferramentas de software descritas. Na seção Análise de armazenados trabalhos e documentos científicos e suas
mapas gerados: A Cooperative Study Among Tools, citações. Essas fontes de informações bibliográficas nos
mostramos o desempenho das ferramentas de software com permitem pesquisar e recuperar informações sobre a
um conjunto de dados e analisamos suas possíveis maioria dos campos científicos. Sem dúvida, os bancos de
sinergias positivas. Na seção Lições aprendidas, dados bibliográficos mais importantes são o ISI WoS
destacamos algumas lições aprendidas. Por fim, são feitas (http://www.webofknowledge.com), o Scopus
algumas observações finais. (http://www.scopus.com), o Google Scholar (http://scholar.
google.com) e o MEDLINE da NLM
Mapeamento científico (http://www.ncbi.nlm. nih.gov/pubmed).
O mapeamento científico ou mapeamento O ISI WoS, o Scopus e o Google Scholar não cobrem os
bibliométrico é uma representação espacial de como as campos científicos e os periódicos da mesma forma, como
disciplinas, os campos, as especialidades e os documentos mostram diferentes estudos. Há diversos estudos (Bar-Ilan,
ou autores individuais estão relacionados entre si (Small, 2010; Falagas, Pitsouni, Malietzis, & Pappas, 2008; Mikki,
1999). Seu foco é monitorar um campo científico e 2010) que relatam esse fato. Além disso, o download de
delimitar áreas de pesquisa para determinar sua estrutura grandes conjuntos de dados do Google Scholar é difícil, e
cognitiva e sua evolução (Noyons, Moed, & van Raan, não está disponível um dump de todo o conjunto de dados.
1999b). Há outras fontes bibliográficas que podem ser usadas,
Nesta seção, são descritos diversos aspectos como: arXiv (http://arxiv.org), CiteSeerX (http://citeseerx.
importantes de uma análise de mapeamento científico, tais ist.psu.edu/), Digital Bibliography & Library Project (DBPL;
como: (a) as fontes de dados, http://dblp.uni-trier.de/), SAO/NASA Astrophysics Data
(b) as unidades de análise, (c) o pré-processamento de System (ADS; http://adswww.harvard.edu/), Science Direct
dados, (d) as medidas de similaridade que podem ser (http://www.sciencedirect.com/)
usadas para normalizar as relações entre as unidades de Dados de patentes e dados de financiamento também são
análise, (e) as etapas de mapeamento, usados com frequência. Os dados de patentes podem ser
(f) os tipos de métodos de análise que podem ser obtidos de fontes de dados específicas, como o United
empregados, States Patent and Trademark Office (USPTO;
(g) algumas técnicas de visualização e, por fim, (h) http://www.uspto.gov/) ou o Derwent Innovations Index
interpretação dos resultados. fornecido pelo ISI WoS. Os dados de financiamento podem
ser baixados da National Science Foundation
(http://www.nsf.gov/)

JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY - julho de 2011 1383
DOI: 10.1002/asi
TABELA 1. Taxonomia das técnicas bibliométricas.

Técnica bibliométricaUnidade de análise utilizadaTipo de relação

Bibliográfico Autor O que o autor escreveu Referências comuns entre as obras do autor
acoplamento Diário de Documentar os Referências comuns entre os documentos
document oeuvres do Journal Referências comuns entre as obras da revista
os
Coautor Autor País Nome do autor Co-ocorrência de autores Co-
Instituição País da afiliação Instituição da ocorrência de países Co-
afiliação ocorrência de instituições
Co-citação Document Referência do Autor co-citado
o do autor autor Referência Documentos citados
Diário do periódico Revista citada
Co-palavra Palavra-chave ou termo extraído Co-ocorrência de termos
do título, do resumo ou do corpo
do documento

Unidades de análise em técnicas bibliométricas acoplados, enquanto a cocitação varia com o tempo
(Jarneving, 2005).
As unidades de análise mais comuns no mapeamento
científico são periódicos, documentos, referências citadas,
autores (a afiliação do autor também pode ser usada) e
termos ou palavras descritivas (Börner et al., 2003). As
palavras podem ser selecionadas no título, no resumo, no
corpo do documento ou em algumas combinações deles.
Além disso, podemos selecionar as palavras-chave originais
dos documentos (palavras-chave do autor) ou as palavras de
indexação fornecidas pelas fontes de dados bibliográficos
(por exemplo, ISI Keywords Plus) como palavras a serem
analisadas.
Várias relações entre as unidades de análise podem ser
estabelecidas. Normalmente, as unidades de análise são
usadas como dados de co-ocorrência pelo processo de
mapeamento científico, ou seja, a semelhança entre as
unidades de análise é geralmente medida contando as vezes
em que duas unidades aparecem juntas nos documentos.
Além disso, a vinculação direta pode ser usada para obter
as relações entre as unidades.
A relação entre as unidades pode ser representada como
um gráfico ou rede, em que as unidades são os nós e as
relações entre elas representam uma borda entre dois nós,
ou seja, usando as relações entre as unidades de análise,
diferentes redes bibliométricas podem ser construídas.
Na Tabela 1, é apresentada uma taxonomia das técnicas
bibliométricas mais comuns de acordo com as unidades de
análise utilizadas e as relações estabelecidas entre elas.
Diferentes aspectos de um campo de pesquisa podem ser
analisados dependendo das unidades de análise
selecionadas, por exemplo, ao usar os autores (análise de
coautoria ou coautoria), a estrutura social de um campo
científico pode ser analisada (Gänzel, 2001; Peters & van
Raan, 1991). Da mesma forma, ao usar as afiliações do
autor - co-instituição, co-universidade ou co-país -, a
dimensão internacional do campo de pesquisa é estudada.
Por outro lado, a análise de co-palavras (Callon et al.,
1983) é usada para mostrar a estrutura conceitual e os
principais conceitos tratados por um campo. A co-citação
(Small, 1973) e o acoplamento bibliográfico (Kessler, 1963)
são usados para analisar a estrutura intelectual de um campo
de pesquisa científica. A diferença entre o acoplamento
bibliográfico e a cocitação é que o acoplamento
bibliográfico é uma relação fixa e permanente porque
depende das referências contidas nos documentos
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
O acoplamento bibliográfico e a cocitação podem ser
estendidos usando periódicos e autores. Particularmente, o
Pré-processamento de dados
acoplamento bibliográfico de autores (Zhao & Strotmann,
2008) tem como objetivo descobrir relações de coautoria Os dados recuperados das fontes bibliográficas
entre autores que citam as mesmas referências, enquanto normalmente contêm erros, por exemplo, erros de ortografia
o acoplamento bibliográfico de periódicos (Gao & Guan, no nome do autor, no título do periódico ou na lista de
2009; Small & Koenig, 1977) tem como objetivo referências. Às vezes, é necessário acrescentar informações
descobrir os periódicos que citam as mesmas referências. adicionais aos dados originais, por exemplo, se o endereço
Por outro lado, a cocitação de autores (White & Griffith, do autor estiver incompleto ou errado. Por esse motivo,
1981) tem como objetivo descobrir os autores que são uma análise de mapeamento científico não pode ser aplicada
frequentemente citados juntos, enquanto a análise de diretamente aos dados recuperados das fontes
cocitação de periódicos (McCain, 1991) descobre os bibliográficas, ou seja, é necessário um processo de pré-
periódicos que são cocitados com frequência. Além processamento dos dados recuperados. De fato, a etapa de
disso, o acoplamento bibliográfico e a cocitação de pré-processamento talvez seja uma das mais importantes
periódicos podem ser estendidos para um nível de para melhorar a qualidade das unidades de análise
categoria de periódico. Esse supra-nível de cocitação de (principalmente autores e palavras) e, assim, obter
periódicos foi usado para estudar a medula da ciência melhores resultados na análise de mapeamento científico.
(Moya-Anegón et al., 2007) usando as categorias ISI. Diferentes processos de pré-processamento podem ser
Por fim, uma relação entre unidades pode ser aplicados para pré-parear os dados e obter um bom
estabelecida usando vínculos diretos, por exemplo, uma desempenho na análise de mapeamento científico:
rede de citação documento-documento, autor-autor ou • Detecção de itens duplicados e com erros ortográficos. Às
periódico-jornal. Além disso, uma relação pode ser vezes, há itens nos dados que representam o mesmo objeto
estabelecida usando unidades diferentes, por exemplo, ou conceito, mas com ortografia diferente, por exemplo, o
uma rede autor-papel (consumido/produzido). nome de um autor pode ser escrito de maneiras diferentes
(por exemplo, Garfield, E.; Eugene

1384JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY-


Julho de 2011 DOI: 10.1002/asi
Garfield) e, ainda assim, cada forma representa o mesmo usando as relações entre as unidades de análise selecionadas.
autor. Em outros casos, um conceito pode ser representado Diferentes técnicas foram propostas para criar o mapa
por diferentes palavras (formas lexicais) ou acrônimos e, (Börner et al., 2003). Técnicas de redução de
ainda assim, representar o mesmo conceito. A detecção de dimensionalidade
itens duplicados e erros de ortografia permite que esses
erros sejam corrigidos.
• O processo de fatia de tempo é útil para dividir os dados em
diferentes subperíodos de tempo, ou fatias de tempo, para
analisar a evolução do campo de pesquisa em estudo. Esse
processo só é necessário se a análise do mapeamento
científico for feita no contexto de um estudo longitudinal
(Garfield, 1994; Price & Gürsey, 1975).
• A redução de dados visa a selecionar os dados mais
importantes. Normalmente, temos uma grande quantidade
de dados. Com essa quantidade de dados, pode ser difícil
obter resultados bons e claros na análise do mapeamento
científico. Por esse motivo, ela é realizada normalmente
usando uma parte dos dados. Essa parte pode ser, por
exemplo, os artigos mais citados, os autores mais
produtivos e os periódicos com as melhores métricas de
desempenho.
• O pré-processamento de redes pode ser usado para selecionar
os nós mais importantes da rede de relacionamentos entre as
unidades de análise (redes bibliométricas) de acordo com
diferentes medidas, removendo os nós isolados, removendo
os links menos importantes entre os nós etc.

Processo de normalização
Quando a rede de relacionamentos entre as unidades de
análise selecionadas tiver sido construída, primeiro é
aplicada uma transformação aos dados para obter
semelhanças a partir dos dados ou, mais especificamente,
para normalizar os dados (van Eck & Waltman, 2009).
Diferentes medidas de similaridade têm sido usadas na
literatura, sendo as mais populares o Cosine de Salton
(Salton & McGill, 1983), o Índice de Jaccard (Peters &
van Raan, 1993), o Índice de Equivalência (Callon,
Courtial, & Laville, 1991) e Força de Associação (Coulter,
Monarch, & Konda" 1998; van Eck & Waltman, 2007),
que também é conhecido como Índice de Proximidade
(Peters & van Raan, 1993; Rip & Courtial, 1984) ou Índice
de Afinidade Probabilística (Zitt, Bassecoulard, & Okubo,
2000).
Normalmente, é necessária uma normalização dos
termos do documento; por exemplo, se uma análise de
cocitação for realizada e vários grupos forem detectados,
um rótulo deverá ser definido para cada um deles. Esse
rótulo deve ser selecionado usando os termos do
documento mais importante do cluster. A normalização do
texto define um peso para cada termo de acordo com sua
importância no corpus. Diferentes medidas de
normalização de texto podem ser aplicadas (Baeza-Yates &
Ribeiro-Neto, 1999; Chen, Ibekwe-SanJuan, & Hou, 2010;
Salton & McGill, 1983): tf-idf, análise semântica latente,
testes de razão de verossimilhança, entropia de log,
informação mútua etc.

A etapa de mapeamento
A etapa de mapeamento é a mais importante. O próprio
processo é responsável pela construção do mapa, aplicando
um algoritmo de mapeamento a toda a rede formada
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
Os algoritmos de agrupamento, como a análise de mapa gerado na etapa posterior, por exemplo, diferentes
componentes principais ou MDS, são usados para medidas na rede, como o número total de nós e nós
transformar a rede em um espaço de baixa dimensão isolados, grau médio, o número de componentes
(geralmente de duas dimensões). Os algoritmos de fracamente conectados ou a densidade do gráfico podem
agrupamento são usados para realizar a detecção de ser medidos. Se um algoritmo de detecção de comunidade foi
comunidades, dividindo a rede global em diferentes sub- aplicado para construir o mapa, então a centralidade e a
redes. Recentemente, alguns autores propuseram densidade de Callon (Callon et al., 1991; Cobo et al., 2011)
algoritmos de agrupamento novos e diferentes para ou outros valores que medem as relações entre os clusters
realizar essa tarefa: Streemer (Kandylas, Upham, & detectados podem ser usados. Além disso, a sobreposição
Ungar, 2010), agrupamento especial (Chen et al., 2010), entre os clusters pode ser medida usando, por exemplo, o
maximização da modularidade (Chen & Redner, 2010) e Índice de Jaccard. Além disso, se os documentos forem
reamostragem bootstrap com agrupamento significativo atribuídos a cada cluster, uma análise realizada pode ser
(Rosvall & Bergstrom, 2010), entre outros. Por fim, as executada para obter medidas quantitativas ou qualitativas de
redes Pathfinder (PFNETs) são usadas para identificar a cada cluster (Cobo et al., 2011).
espinha dorsal da rede (Quirin, Cordón, Santamaría, Outra análise importante que pode ser realizada em um
Vargas-Quesada, & Moya-Anegón, 2008; Schvaneveldt, processo de mapeamento científico é a análise temporal, que
Durso, & Dearholt. 1989). Além disso, técnicas gerais de tem como objetivo identificar a natureza dos fenômenos
mineração de gráficos (Cook & Holder, 2006; Skillicorn, representados por uma sequência de observações, como
2007) ou análise de redes sociais (Carrington et al., 2005; padrões, tendências, sazonalidade e resultados. Em outras
Wasserman & Faust, 1994) podem ser usadas na etapa de palavras, ela visa analisar a evolução do campo de pesquisa
mapeamento. em diferentes períodos de tempo. Essa tarefa pode ser
As informações obtidas e o tipo de mapa construído realizada usando uma estrutura longitudinal (Garfield,
dependerão da técnica aplicada. 1994; Price & Gürsey, 1975).
A detecção de rajadas é um tipo de análise temporal.
Seu objetivo é encontrar recursos que tenham alta
Métodos de análise intensidade em períodos finitos de tempo. Em Kleinberg
Uma vez que o mapa tenha sido construído, diferentes (2003), foi descrito um algoritmo para lidar com esse
análises podem ser aplicadas para extrair conhecimentos problema.
úteis. Por fim, a análise geoespacial (Batty, 2003;
A análise de rede (Carrington et al., 2005; Cook & Leydesdorff & Persson, 2010; Small & Garfield, 1985) tem
Holder, 2006; Skillicorn, 2007; Wasserman & Faust, como objetivo responder à pergunta sobre onde algo
1994) nos permite realizar uma análise estatística sobre o acontece e com que impacto nas áreas vizinhas. A análise
geoespacial requer

JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY - julho de 2011 1385
DOI: 10.1002/asi
TABELA 2. Informações gerais.

Ferramenta de software Última versão Ano Desenvolvido por

Bibexcel 2010-09-22 2010 Universidade de Umeå (Suécia)


CiteSpace 2.2.R9 2010 Universidade Drexel (EUA)
CoPalRed 1.0 beta 2005 Universidade de Granada (Espanha)
IN-SPIRE 5 2010 Laboratório Nacional do Noroeste do
Pacífico
Software da Leydesdorff N/A N/A Universidade de Amsterdã (Holanda)
Ferramenta Network Workbench 1.0.0 2009 Universidade de Indiana (EUA)
Ferramenta Ciência da Ciência (Sci )2 0.0.3 alfa 2010 Universidade de Indiana (EUA)
VantagePoint 7 2010 Search Technology, Inc.
VOSViewer 1.2.1 2010 Universidade de Leiden (Holanda)

valores de atributos ou geolocalizações para as unidades de em que cada nó está disposto sobre o país do autor.
análise; esses dados geralmente são extraídos dos dados de
afiliação.

Técnicas de visualização
Como mostramos na subseção anterior, o resultado de
cada método de análise é diferente. A técnica de
visualização empregada é muito importante para uma boa
compreensão e melhor interpretação do resultado.
As redes e sub-redes detectadas na etapa de mapeamento
podem ser representadas por meio de mapas heliocêntricos
(Moya-Anegón et al., 2005), modelos geométricos (Skupin,
2009) e redes temáticas (Bailón-Moreno et al., 2006; Cobo
et al., 2011). Outra abordagem consiste em representar as
redes em um mapa, em que a distância entre dois itens
reflete a força da relação entre ambos (Davidson et al.,
1998; Fabrikant, Montello, & Mark, 2010; Polanco et al.,
2001; van Eck & Waltman, 2010). Uma distância menor
geralmente indica uma relação mais forte (van Eck &
Waltman, 2010).
Se for aplicada uma detecção de comunidade, os
diferentes grupos detectados (sub-redes) poderão ser
categorizados usando um diagrama estratégico. Um
diagrama estratégico (Callon et al., 1991; Cobo et al.,
2011) é um espaço bidimensional criado pela plotagem de
temas de acordo com diferentes medidas extraídas por
meio de uma análise pós-rede.
Para mostrar a evolução dos grupos detectados em
períodos de tempo sucessivos (análise temporal), foram
usadas diferentes técnicas: Cluster string (Small, 2006;
Small & Upham, 2009; Upham & Small, 2010), rolling
clustering (Kandylas et al., 2010), diagramas aluviais
(Rosvall & Bergstrom, 2010), visualização ThemeRiver
(Havre, Hetzler, Whitney, & Nowell, 2002) e áreas
temáticas (Cobo et al., 2011). Outros autores propõem a
disposição do gráfico de um determinado período de
tempo, levando em conta o anterior e o posterior
(Leydesdorff & Schank, 2008), ou o empacotamento de
mudanças temporais sintetizadas em um único gráfico
(Chen, 2004; Chen et al., 2010).
Os resultados geoespaciais geralmente são visualizados
em um mapa mundial ou temático. Por exemplo, se for
aplicada uma análise de coautoria e, em seguida, for
realizada uma detecção de comunidade, os grupos de
autores detectados podem ser representados como uma rede
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
• CiteSpace II (Chen, 2004, 2006)
Interpretação
• CoPalRed (Bailón-Moreno et al., 2005, 2006)
Quando a análise do mapeamento científico estiver • IN-SPIRE (Wise, 1999)
concluída, o analista deverá interpretar os resultados e os • Software da Leydesdorff
mapas usando sua experiência e conhecimento. • Ferramenta Network Workbench (Börner et al., 2010; Herr
Na etapa de interpretação, o analista procura descobrir e et al., 2007)
• Ferramenta Sci2 (Equipe Sci2 , 2009)
extrair conhecimentos úteis que possam ser usados para
• VantagePoint (Porter e Cunningham, 2004)
tomar decisões sobre quais políticas implementar. • VOSViewer (van Eck & Waltman, 2010)
Na Tabela 2, são descritos alguns detalhes dessas ferramentas
Ferramentas de software projetadas para realizar
de software.
uma análise de mapeamento científico: Uma
pesquisa
Bibexcel
Embora a análise de mapeamento científico possa ser
realizada usando um software genérico para análise de O Bibexcel (http://www.umu.se/inforsk/Bibexcel;
redes sociais (Börner et al., 2010), existem outras Persson et al., 2009) é uma ferramenta bibliométrica
ferramentas de software desenvolvidas especificamente desenvolvida na Universidade de Umeå (Suécia). Essa
para a análise de mapeamento científico. ferramenta foi desenvolvida especificamente para gerenciar
Nesta seção, apresentamos nove ferramentas de os dados bibliométricos e criar mapas, que podem ser lidos
software representativas, desenvolvidas especificamente por softwares como Excel, SPSS, UCINET (Borgatti et al.,
para analisar domínios científicos por meio do 2002) e Pajek (Batagelj & Mrvar, 1998). O Bibexcel é de
mapeamento científico. Essas ferramentas de software acesso gratuito para uso acadêmico sem fins lucrativos.
são as seguintes: O Bibexcel pode ler dados recuperados de diferentes
fontes bibliográficas, como ISI Web of Science (WoS),
• Bibexcel (Persson et al., 2009)
Scopus e o formato de exportação Procite.

1386JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY-


Julho de 2011 DOI: 10.1002/asi
O Bibexcel permite a realização de diferentes pré- importantes extraídos das palavras-chave, do título ou do
resumo. Os termos são medidos usando o
processamentos nos dados textuais, por exemplo, a
aplicação de um stem mer de palavras em inglês e a 1Usando o campo de financiamento do documento e analisando os nomes

exclusão de documentos duplicados. Além disso, o dos patrocinadores das concessões que coincidem nos dados de
Bibexcel permite a exclusão de itens de baixa frequência e financiamento.
mantém apenas os links mais fortes.
Diferentes redes bibliométricas podem ser extraídas. As
principais são: co-citação, acoplamento bibliográfico,
coautor e co-palavra. Além disso, diferentes matrizes de co-
ocorrência podem ser extraídas usando qualquer campo do
documento ou alguma combinação de campos. As matrizes
podem ser normalizadas usando três medidas diferentes:
Coseno de Salton, Índice de Jaccard e as medidas de
Vladutz e Cook.
Aos dados normalizados, o usuário pode aplicar um
algoritmo de agrupamento ou preparar uma matriz para
uma análise MDS (usando um software externo). O
Bibexcel não apresenta uma ferramenta de visualização
adequada para a saída, mas apresenta diferentes opções de
exportação que possibilitam a visualização dos dados
usando softwares externos como Pajek, UCINET ou SPSS.
As redes bibliométricas também podem ser exportadas.

CiteSpace II
O CiteSpace
(http://cluster.cis.drexel.edu/˜cchen/citespace; Chen, 2004,
2006) foi desenvolvido na Drexel University (EUA) e pode
ser baixado gratuitamente. É uma ferramenta de software
desenvolvida para detectar, analisar e visualizar padrões e
tendências na literatura científica. Seu principal objetivo é
facilitar a análise de tendências emergentes em um domínio
de conhecimento.
O CiteSpace pode ler diferentes formatos de fontes
bibliográficas, como WoS, PubMed, arXiv e SAO/NASA
Astrophysics Data System (ADS). Além disso, o CiteSpace
pode ler dados de concessões, como NSF Awards, e dados
de patentes do Derwent Innovations Index.
Diferentes tipos de redes bibliométricas podem ser
estruturados: coautor, instituições coautoras, países
coautores, co-subvenções,1 co-ocorrência de categorias de
assunto, co-palavra, co-citação de documentos, co-citação
de autores, co-citação de periódicos e acoplamento
bibliográfico de documentos. As redes, ou gráficos, podem
ser construídas para diferentes períodos de tempo para
analisar a evolução do domínio estudado. Além disso, o
analista pode filtrar os itens com os quais as redes são
construídas para selecionar os mais importantes (por
exemplo, selecionar os 100 itens mais citados de cada
período de tempo). A matriz (rede) é normalizada usando o
cosseno de Salton, o Dice ou o índice de Jaccard.
Uma vez construídas as redes, o CiteSpace nos permite
visualizá-las e realizar várias análises sobre elas. O
CiteSpace permite que o analista execute um agrupamento
espectral e uma detecção de explosão de citações. Além
disso, o CiteSpace tem três modos de visualização (Chen,
2006): visualização de cluster, linha do tempo e fuso
horário.
Se forem detectados agrupamentos, o CiteSpace poderá
atribuir rótulos a cada um deles usando os termos mais
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
critérios: centralidade (ou intensidade de suas relações
tf-idf, testes de razão de log-verossimilhança ou
externas) e densidade (de acordo com sua densidade de
informações mútuas (Chen et al., 2010).
coesão interna).
• Análise dinâmica. O CoPalRed analisa as transformações
CoPalRed das redes temáticas ao longo do tempo. Ele identifica
aproximações, bifurcações, aparecimentos e
O CoPalRed (http://ec3.ugr.es/copalred/; Bailón- desaparecimentos de temas.
Moreno et al., 2005, 2006) é um software comercial
desenvolvido pelo grupo de pesquisa EC3 da Universidade O CoPalRed visualiza os resultados usando diagramas
de Granada (Espanha). Ele foi projetado especificamente estratégicos, temas e redes temáticas (Bailón-Moreno et al.,
para realizar a análise de co-palavras usando as palavras- 2005, 2006; López-Herrera et al., 2009, 2010). A cada
chave de documentos científicos. Ele é descrito como um tema foi atribuído um rótulo que é o nome do nó mais
sistema de conhecimento que coleta as informações central (palavra-chave) de sua rede temática associada.
contidas em bancos de dados e as transforma em novos Além disso, cada tema pode ser representado no diagrama
conhecimentos. estratégico como uma esfera, em que seu volume é
Essa ferramenta de software lê arquivos no formato de proporcional ao número de documentos pertencentes a ele.
valores separados por vírgula (csv), gerados pelo software Da mesma forma, cada nó (palavra-chave) da rede temática
gerenciador de referências Procite. pode ser representado como uma esfera em que seu volume
Um dos pontos fortes do CoPalRed é que ele contém é proporcional à frequência da palavra-chave.
um módulo de pré-processamento que permite aos usuários
normalizar as palavras-chave de forma simples. Com esse IN-SPIRE
módulo, o usuário pode unificar itens (itens léxicos) que
representam o mesmo conceito. Depois que as palavras- O IN-SPIRE (http://in-spire.pnl.gov; Wise, 1999) é uma
chave são unificadas, o CoPalRed cria uma matriz de co- ferramenta comercial de software de análise visual de
ocorrência e a normaliza usando o índice de equivalência documentos que oferece ao analista a capacidade de
(Callon et al., 1991). descobrir relacionamentos, tendências e temas ocultos nos
O CoPalRed realiza três tipos de análise: análise dados para obter novos conhecimentos e novas percepções.
estrutural, análise estratégica e análise dinâmica. O IN-SPIRE usa a metáfora da paisagem para ajudar o
usuário a descobrir facilmente a relação entre os
• Análise estrutural. Ela mostra o conhecimento na forma de documentos e os conjuntos de documentos que são muito
redes temáticas nas quais as palavras e seus semelhantes. Essa ferramenta usa padrões estatísticos de
relacionamentos são desenhados. palavras para caracterizar documentos com base em seu
• Análise estratégica. Ela coloca cada rede temática em uma
contexto (Hetzler & Turner, 2005). IN-SPIRE derivado do
posição relativa dentro da rede temática global usando dois

JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY - julho de 2011 1387
DOI: 10.1002/asi
calculados, bem como grupos definidos pelo usuário.
Projeto SPIRE financiado pelo Departamento de Energia e
• Recursos de consulta robustos que suportam pesquisas
pela
booleanas, por proximidade de palavras, frases ou baseadas
Agências de inteligência dos EUA. Ele foi desenvolvido no em exemplos.
Pacific Northwest National Laboratory (Estados Unidos). • A ferramenta Correlação nos permite descobrir a correlação
O IN-SPIRE pode ler documentos não formatados (texto entre os grupos.
ASCII) ou documentos formatados, como HTML e XML.
Além disso, ele pode ler dados de documentos do
Microsoft Excel e arquivos formatados em csv. O software
permite que o usuário selecione os campos que serão usados
para medir a similaridade entre os documentos e outros
metacampos, como o título dos documentos e a data
associada.
Diferentemente das outras ferramentas de software
analisadas, o IN-SPIRE não extrai redes bibliométricas do
campo selecionado. Ele usa um campo ou um conjunto de
campos para calcular a similaridade entre os documentos
usando seu próprio mecanismo de texto (Wise, 1999). Em
resumo, ele usa o modelo de espaço vetorial (Salton &
McGill, 1983) e, portanto, cada documento é representado
como um vetor de termos. Portanto, se as palavras-chave
forem selecionadas como o campo, a medida de similaridade
mostrará se dois documentos têm palavras-chave
semelhantes. Embora o IN-SPIRE seja capaz de criar um
mapa usando qualquer campo, seu mecanismo de texto
funciona melhor se as palavras forem selecionadas como
campo. O mecanismo de texto precisa de uma grande
quantidade de dados para detectar corretamente as
semelhanças entre os documentos.
Quando as semelhanças entre os documentos são
calculadas, o IN-SPIRE executa um algoritmo de
agrupamento chamado "Fast Divisive Clustering" (Wise,
1999). No final do processo de agrupamento, são gerados
vários temas (conjuntos de documentos). Cada tema tem
como nome os termos que aparecem com mais frequência
(usando tf-idf) de seus documentos.
O IN-SPIRE oferece duas técnicas de visualização
diferentes, que são o carro-chefe do software: Galaxies e
ThemeScapeTM . A visualização Galaxies emprega a
metáfora dos documentos como estrelas no céu noturno.
Por outro lado, o ThemeScape é construído diretamente a
partir da distribuição de documentos na visualização
Galaxies, representando os temas como camadas
sedimentares que, juntas, criam a aparência de uma
paisagem natural. Na visualização ThemeScape, a altura de
seus picos corresponde à força do tópico nesses locais; a
extensão de seus picos corresponde à área e ao brilho dos
temas na visualização Galaxies. Em ambas as
visualizações, a proximidade de dois itens (documentos)
revela a semelhança entre eles. Os documentos
relacionados são agrupados e os temas comuns são
destacados.
O IN-SPIRE fornece um conjunto de ferramentas que
ajudam o analista a descobrir conhecimento dentro do
corpus de documentos estudados:

• O Time slicer nos permite ver como determinados temas


crescem ou diminuem ao longo do tempo e pode mostrar
como a combinação de temas na galáxia muda ao longo do
tempo.
• A ferramenta Grupos define uma coleção de documentos
dentro do corpus estudado.
• O Facets nos permite descobrir relações entre temas
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 pela UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
Software da Leydesdorff Ferramenta Network Workbench

O software da Leydesdorff A ferramenta Network Workbench (NWB)


(http://www.leydesdorff.net) é um conjunto de programas (http://nwb.slis. indiana.edu) é um conjunto de ferramentas
de linha de comando que permite a realização de um gerais de análise, modelagem e visualização de redes para
mapeamento científico com diferentes funções de análise. pesquisadores de física, biomédica e ciências sociais
Ele foi desenvolvido na Universidade de Amsterdã (Börner et al., 2010; Herr et al., 2007). Ele foi desenvolvido
(Holanda). O conjunto de programas é de livre acesso pelo Cyberinfrastructure for Network Science Center da
para a comunidade acadêmica. Universidade de Indiana (EUA) e é de acesso gratuito. A
Os diferentes programas permitem a realização de ferramenta NWB fornece algoritmos específicos para lidar
várias análises bibliométricas: co-palavra, coautor, com dados de publicações para construir e analisar redes e
acoplamento bibliográfico do autor, acoplamento mapas bibliométricos. A ferramenta é capaz de ler diferentes
bibliográfico do periódico e co-citação do autor. Os formatos de dados bibliométricos, como ISI WoS, Scopus,
resultados podem ser visualizados com o uso de software Bibtex e EndNote Export Format. Ela também pode ler
externo, como Pajek (Batagelj & Mrvar, 1998), UCINET dados de financiamento da National Science Foundation
(Borgatti et al., 2002), Network Workbench Tool (NFS) e outros dados acadêmicos em csv
(consulte a Subseção 3.6) ou a Sci2 Tool (consulte a formato.
Subseção 3.7). Além disso, a colaboração internacional e A ferramenta NWB permite que os dados sejam pré-
institucional e a colaboração em nível de cidades podem processados, que diferentes tipos de redes sejam
ser analisadas. A visualização dessas redes de colaboração construídos, que uma análise gráfica das redes construídas
pode ser feita usando o Google Maps e softwares seja realizada e, por fim, que elas sejam visualizadas. Além
externos. As diferentes matrizes são normalizadas usando disso, a ferramenta é capaz de realizar uma análise
a medida de cosseno de Salton. temporal.
Existem programas para organizar os dados baixados • O pré-processamento de dados é realizado removendo
de diferentes fontes (WoS, Scopus, Google Scholar e registros duplicados, dividindo os dados por diferentes
Google) em um banco de dados. Esse banco de dados períodos de tempo e detectando e unificando itens
será o arquivo de entrada dos diferentes programas de duplicados com ortografia diferente (ou seja, itens que
análise. representam o mesmo autor em uma análise de coautor ou
O conjunto de programas não permite que os dados termos que representam o mesmo conceito em uma análise
de co-palavra).
sejam pré-processados; assim, por exemplo, para realizar
• A ferramenta NWB permite a criação de diferentes tipos de
uma análise longitudinal, é necessário um software
redes: co-citação de documentos, coautor, co-palavra e
externo para dividir os dados em diferentes períodos de acoplamento bibliográfico de documentos. Além disso, a
tempo. ferramenta pode criar redes por meio de vinculação direta;
por exemplo, ela pode criar uma rede de

1388JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY-


Julho de 2011 DOI: 10.1002/asi
rede autor-documento (consumido/produzido) ou uma rede por meio de uma detecção de explosão nas palavras e de
de citação direta. uma análise de co-palavras. A análise de rede permite uma
• Vários algoritmos podem ser usados para executar a etapa análise estatística e a aplicação de diferentes algoritmos nas
de mapeamento e uma análise de gráfico nas redes geradas. redes.
Além disso, a ferramenta é capaz de realizar uma detecção
de explosão para identificar aumentos na frequência de uso
dos itens. VantagePoint
• A visualização dos gráficos gerados é realizada por meio de
diferentes plugins externos (por exemplo, GUESS, Jung). O VantagePoint (http://www.thevantagepoint.com/;
Além disso, vários layouts de gráficos podem ser aplicados, Porter & Cunningham, 2004) é uma poderosa ferramenta
como o algoritmo DrL, que é o sucessor de código aberto comercial de software de mineração de texto para descobrir
do VxOrd (Davidson, Hendrickson, Johnson, Meyers, & conhecimento em resultados de pesquisa de bancos de
Wylie, 2001) usado no programa VxInsight (Boyack, dados de patentes e literatura ou, de modo geral, em textos
Wylie, & Davidson, 2002; Davidson et al., 1998).
estruturados. Ela permite que o usuário analise grandes
volumes de texto estruturado para descobrir padrões e
Sci2 Tool relacionamentos e abordar rapidamente quem, o quê,
quando e onde. Ele foi desenvolvido pela Search
A ferramenta Sci2 (http://sci.slis.indiana.edu) é um
Technology Inc. (EUA). O VantagePoint foi usado para
conjunto de ferramentas modulares projetado
realizar várias análises de mapeamento científico (Morel,
especificamente para realizar o estudo da ciência. Ela
Serruya, Penna e Guimarães, 2009; Porter e Youtie, 2009a,b;
oferece suporte à análise temporal, geoespacial, tópica e de
Shapira, Youtie e Porter, 2010).
rede e à visualização de conjuntos de dados nos níveis
O VantagePoint possui 180 filtros de importação que
micro (individual), meso (local) e macro (global) (Equipe
permitem ao usuário importar dados de praticamente
Sci2 , 2009). Ela foi desenvolvida pelo Cyberinfrastructure
qualquer literatura ou banco de dados de patentes. Além
for Network Science Center da Universidade de Indiana
disso, possui filtros de importação para carregar dados do
(EUA) e é de acesso gratuito. A ferramenta Sci2 é
Microsoft Excel e Access, formato de arquivo XML2 ou
semelhante à ferramenta NWB (consulte a seção
filtros definidos pelo usuário. Depois que o conjunto de
Ferramenta Network Workbench), mas é voltada
dados é carregado, o VantagePoint mostra os diferentes
especificamente para estudos científicos e tem algoritmos
campos incluídos no conjunto de dados; por exemplo, se o
específicos para lidar com esse tópico. O ponto forte mais
conjunto de dados contiver informações bibliográficas, os
importante da ferramenta pode ser o fato de ela fornecer
campos poderão ser o título, os autores, as afiliações, o
vários métodos para lidar com dados bibliométricos, para
resumo e as referências do
prepará-lo para análise posterior.
documentos (registros).
Da mesma forma que a ferramenta NWB, a ferramenta
A interface gráfica do VantagePoint tem três partes: o
Sci2 é capaz de ler diferentes formatos de dados
espaço de trabalho, a visualização de título e as janelas de
bibliográficos: ISI WoS, Scopus, Bib- tex e EndNote
detalhes. O espaço de trabalho exibe todas as listas,
Export Format. Ela também pode ler dados de
matrizes e visualizações de mapa geradas pelo usuário. A
financiamento da National Science Foundation (NFS) e
visualização de título exibe os títulos dos registros no
outros dados acadêmicos em formato csv.
conjunto de dados para um conjunto selecionado de itens.
A ferramenta Sci2 permite que os dados sejam
Por fim, a janela de detalhes mostra a co-ocorrência de
preparados e pré-processados, extraindo diferentes tipos de
itens em um campo (qualquer campo pode ser selecionado)
redes, realizando uma análise temporal, geoespacial, tópica
com itens ou nós selecionados usando listas ou gráficos.
e de rede e, por fim, visualizando os resultados por meio de
Essa ferramenta de software nos permite criar diferentes
diferentes plug-ins e algoritmos de layout. A ferramenta
listas a partir de qualquer campo. As listas mostram todos os
Sci2 inclui o algoritmo de layout DrL.
itens do campo do conjunto de dados. Na visualização da
A preparação dos dados limpa os dados bibliográficos e
lista, para cada item, é mostrado o número de registros em
cria diferentes redes e tabelas que podem ser usadas no pré-
que o item aparece e o número de instâncias (número de
processamento, na análise e na visualização.
vezes que os itens aparecem no conjunto de dados, levando
Principalmente, as redes que podem ser extraídas são as
em conta os itens duplicados nos registros). Os itens de
seguintes: coautor, co-PI (pesquisador principal), co-
uma lista podem ser atribuídos a vários grupos. Os grupos
palavra, cocitação de documento, cocitação de periódico,
são úteis para definir uma parte do conjunto de dados para
cocitação de autor, acoplamento bibliográfico de autor,
reduzir os dados usados na análise posterior, por exemplo,
acoplamento bibliográfico de documento e acoplamento
um grupo contendo os 30 principais autores pode ser
bibliográfico de periódico. Além disso, a ferramenta pode
criado. Os itens podem ser associados a mais de um grupo.
criar diferentes redes de vinculação direta, como citação de
Um ponto forte do VantagePoint são suas ferramentas
autor, citação de documento, citação de fonte, papel e,
de pré-processamento e limpeza de dados. Uma lista pode
finalmente, rede autor-documento (consumido/produzido).
ser limpa ou reduzida com o uso da função Cleanup, que
A ferramenta contém vários algoritmos para executar a
tenta identificar os itens que podem ser equivalentes,
etapa de mapeamento e, em seguida, aplica diferentes
realizando aproximações difusas em campos específicos.
análises. A etapa de mapeamento pode ser realizada usando
Além disso, uma lista pode ser limpa, aplicando um
a detecção de comunidades e a identificação de ossos
tesauro. Embora o VantagePoint tenha vários tesauros
traseiros. A análise temporal é realizada por meio de cortes
predefinidos que podem ser facilmente utilizados, o usuário
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
pode definir seu próprio tesauro ou editar um tesauro existente usando
os dados em diferentes períodos de tempo e por meio de uma detecção de explosão.
ção. A análise geoespacial é realizada por meio de 2Existe um assistente que permite a criação de um filtro de importação a

geocodificação e mapas temáticos geoespaciais. A análise partir de dados XML.


de tópicos é realizada

JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY - julho de 2011 1389
DOI: 10.1002/asi
o Thesaurus Editor. Qualquer alteração realizada em uma de co-ocorrência, a ferramenta de software não permite que
lista gerará uma nova lista, portanto, sempre mantemos os nenhuma matriz de co-ocorrência dos dados bibliométricos
dados originais. seja extraída e construída. Para fazer isso, é necessário um
O VantagePoint permite a criação de vários tipos de processo externo. Além disso, a ferramenta de software
matrizes que mostram os registros do conjunto de dados
contidos em duas listas determinadas:
• Matriz de co-ocorrência: mostra o número de registros em
que o elemento i (da primeira lista) e o elemento j (da
segunda lista) aparecem juntos.
• Matriz de autocorrelação: mostra as correlações entre os
itens de uma lista.
• Matriz de correlação cruzada: mostra as correlações entre
os itens de uma lista com base nos valores de outra lista.
• Matriz de fatores: é o resultado de uma análise de
componentes principais. A matriz de fatores mostra os itens
em linhas e os fatores em colunas.
O VantagePoint também permite a criação de diferentes
matrizes que podem ser usadas como entrada no processo
de mapeamento: coautor (usando o nome do autor, a
afiliação ou o país), cocitação (usando a referência, o autor
da referência ou a fonte) e co-palavra (usando qualquer
conjunto de termos). Além disso, se as listas selecionadas
para construir a matriz forem diferentes, poderão ser
construídas matrizes heterogêneas; por exemplo, o usuário
pode construir uma matriz de autor por ano para analisar a
produtividade do autor. As matrizes podem ser exportadas
para um arquivo de texto, ou o usuário pode copiar
diretamente uma seleção da matriz e colá-la no Microsoft
Excel.
As matrizes de correlação podem ser normalizadas
usando as medidas Pearson's r, Salton's Cosine ou Max
Proportional. Além disso, a matriz de co-ocorrência pode
ser normalizada usando a medida de similaridade tf-idf.
O VantagePoint inclui três tipos de mapas que
correspondem às três últimas matrizes: mapa de correlação
cruzada, mapa de autocorrelação e mapa de fatores. Esses
mapas são uma representação gráfica das matrizes
correspondentes. Nos mapas de correlação cruzada, a
similaridade entre os itens é medida usando o cosseno. No
mapa de fatores e na autocorrelação, a medida de
similaridade usada é o r de Pearson.
Por fim, o VantagePoint também inclui a capacidade de
executar scripts do Visual Basic para realizar ações
repetitivas (e/ou complexas) que um usuário possa precisar.

VOSViewer
O VOSViewer (http://www.vosviewver.com; van Eck &
Waltman, 2010) é uma ferramenta de software projetada
especificamente para a construção e visualização de mapas
bibliométricos, com atenção especial à representação
gráfica desses mapas. Ela é apropriada para representar
mapas grandes, uma vez que a funcionalidade de zoom, os
algoritmos especiais de rotulagem e as metáforas de
densidade são usados. A ferramenta de software foi
desenvolvida pelo Centro de Estudos de Ciência e
Tecnologia da Universidade de Leiden (Holanda) e está
disponível gratuitamente para a comunidade de pesquisa
bibliométrica.
Embora o VOSViewer possa ser usado para construir e
visualizar mapas bibliométricos de qualquer tipo de dados
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
é a mesma que a cor do cluster correspondente na
não tem módulos de pré-processamento para preparar os
visualização do cluster.
dados para análise posterior.
• Visualização de densidade. Nessa visualização, cada item é
Para dispor os elementos nos mapas, a técnica de representado por um rótulo de forma semelhante à da
mapeamento VOS (van Eck, Waltman, Dekker e van den visualização de rótulo. Cada ponto no mapa tem uma cor
Berg, 2010) é usada pelo VOSViewer. Essa técnica cria que depende da densidade dos itens nesse ponto, que
uma matriz de similaridade a partir de uma matriz de co- depende do número de itens vizinhos e dos pesos desses
ocorrência usando uma medida de similaridade itens. O VOSViewer calcula a densidade de cada ponto de
conhecida como força de associação (van Eck & acordo com a equação definida por (van Eck & Waltman,
Waltman, 2007, 2009). A técnica de mapeamento VOS 2010), que usa uma função kernel gaussiana. A densidade é
cria um mapa bidimensional no qual os elementos estão traduzida usando um esquema de cores (para obter mais
localizados de forma que a distância entre qualquer par informações, consulte van Eck & Waltman; 2010)).
de itens reflita sua similaridade da forma mais precisa • Visualização da densidade do cluster. Essa visualização só
estará disponível se os itens tiverem sido previamente
possível. A ideia da técnica de mapeamento VOS é
atribuídos a um cluster. A visualização de densidade do
minimizar uma soma ponderada de distâncias euclidianas cluster é semelhante à visualização de densidade comum,
quadradas entre todos os pares de itens por meio de um exceto pelo fato de que a densidade dos itens é exibida
processo de otimização. separadamente para cada cluster de itens.
Embora o VOSViewer implemente a técnica de • Visualização de dispersão. Essa é uma visualização simples em
mapeamento VOS, o programa também pode ser usado que os itens são indicados por um pequeno círculo e em que
para visualizar qualquer mapa bidimensional construído nenhum rótulo é exibido.
com outras técnicas. O VOSViewer nos permite realizar
uma detecção de comunidade usando a técnica de
agrupamento VOS, que está relacionada à técnica de Estudo comparativo
agrupamento baseado em modularidade (Waltman et al.,
Conforme mencionado anteriormente, neste artigo
2010). Depois que o mapa é construído, o VOSViewer
também apresentamos um estudo comparativo das nove
permite seu exame por meio de quatro visualizações:
ferramentas de software descritas acima. Dessa forma,
• Visualização de rótulo. Nessa visualização, cada elemento podemos destacar as principais diferenças e sinergias
é representado por um rótulo e também por um círculo. positivas existentes entre as diferentes ferramentas de
Quanto mais importante for um item, maior será seu software. Para isso, analisamos as nove ferramentas de
rótulo e seu círculo. Graças a um algoritmo inteligente, software levando em conta cinco pontos de vista: (a) os
que mostra apenas os rótulos mais importantes (mais métodos de pré-processamento,
frequentes), dependendo do nível de zoom, a ferramenta
(b) as redes bibiométricas disponíveis, (c) as medidas de
de software evita a sobreposição de rótulos. Os círculos
que têm a mesma cor pertencem ao mesmo cluster. Essa cor
normalização usadas, (d) o tipo de análise e, por fim, (e)
outros aspectos secundários.

1390JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY-


Julho de 2011 DOI: 10.1002/asi
TABELA 3. Métodos de pré-
processamento.
Ferramenta de software Desduplicação Corte de Redução de Redução da rede
tempo dados
Bibexcel x x
CiteSpace x x x
CoPalRed x x x
IN-SPIRE x
Software da Leydesdorff
Ferramenta Network Workbench x x x x
Ferramenta Ciência da Ciência x x x x
VantagePoint x x x
VOSViewer

TABELA 4. Redes bibliométricas.

Acoplamento bibliográfico Coautor Co-citação


Direto
Software Autor Documento JornalAutor CountryInstitution Author Document Journal Co-word Linkage Others
tool (ABCA) (DBCA) (JBCA) (ACAA) (CCAA) (ICAA) (ACA) (DCA) (JCA) (CWA) (DL)

Bibexcel x x x x x x x x x
CiteSpace x x x x x x x x x
CoPalRed x
IN-SPIRE x
Leydesdorff's x x x x x x x
Software
Rede x x x x x
Bancada de trabalho
Ferramenta
Ciência dex x x x x x x x x x
Ferramenta científica
VantagePoint x x x x x x x x
VOSViewer

Métodos de pré-processamento O IN-SPIRE executa a divisão do tempo diretamente


sobre os dados. Ele não precisa pré-processar os dados para
Módulos especiais para realizar um pré-processamento
dividir o conjunto de dados em diferentes fatias.
dos dados são características importantes de uma ferramenta
de software de mapeamento científico. Na Tabela 3, são
Relação bibliométrica entre unidades de análise
mostrados os principais módulos de pré-processamento
disponíveis em cada ferramenta de software. Uma consideração importante no uso de algumas
O módulo para detectar itens duplicados é importante, ferramentas de software de mapeamento científico é se elas
por exemplo, na análise de co-palavras ou de co-autores. são capazes de estabelecer diferentes relações entre as
Com esse módulo, um usuário pode decidir unir dois ou unidades de análise, ou seja, se são capazes de extrair
mais itens que representem o mesmo conceito ou o mesmo diferentes redes bibliométricas.
autor. Esse módulo não apenas mescla dois itens, mas Na Tabela 4, são mostradas as diferentes redes
também seleciona ou soma o valor do atributo, por exemplo, bibliométricas disponíveis para cada ferramenta de
os tempos citados dos registros originais. software. A coluna "outros" significa que a ferramenta de
Uma opção de divisão de tempo é necessária se o software é capaz de criar outras redes ou matrizes não
usuário quiser analisar a evolução dos domínios em estudo. comuns ou heterogêneas.
Um módulo para reduzir os dados é útil se o usuário quiser Embora não existam ferramentas de software capazes de
filtrar os dados para analisar as informações mais criar todas as diferentes variedades de redes bibliométricas,
importantes. Bibexcel, CiteSpace, Leydesdorff's Software, Sci2 Tool e
Por fim, a redução de rede é útil para filtrar os nós ou Vantage- Point são as ferramentas de software capazes de
links de uma rede (semelhante ao módulo de redução de criar a maioria delas. Por outro lado, o VOSViewer não é
dados) ou para aplicar um algoritmo de poda às redes. capaz de criar nenhuma delas; seu foco é apenas a
Somente a NWB Tool e a Sci2 Tool têm os quatro visualização de mapas bibliométricos. O CoPalRed se
módulos de pré-processamento. Por outro lado, o concentra apenas em um tipo de rede bibliométrica.
Leydesdorff's Software e o VOSViewer não têm nenhum Finalmente, embora o IN-SPIRE possa construir os mapas
desses módulos, o que é uma grande desvantagem. usando qualquer campo do conjunto de dados, sua maneira
de representar os documentos, usando o modelo de espaço
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
Commons aplicável
1391
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY - julho de 2011
DOI: 10.1002/asi
vetorial, dificulta a geração dos mapas
TABELA 5. Medidas de normalização.

Ferramenta de software Medida

BibexcelCosseno de Salton, Índice de Jaccard ou as medidas de Vladutz e Cook


CiteSpaceForça do cosseno, dos dados ou Jaccard de Salton
CoPalRed Índice de equivalência
IN-SPIREConditional Probability (Probabilidade condicional)
Software da Leydesdorff Cosseno de Salton
Ferramenta Network Workbench definida pelo usuário
Ferramenta Ciência da CiênciaUsuário definido
VantagePointO r de Pearson, o cosseno de Salton ou o Max Proportional
Força da associação VOSViewerAssociation

TABELA 6. Métodos de análise.

Ferramenta de software Detecção de Geoespaci Rede Temporal


rajadas al
Bibexcel x
CiteSpace x x x x
CoPalRed x x
IN-SPIRE x x x
Software da Leydesdorff
Ferramenta Network Workbench x x x
Ferramenta Ciência da Ciência x x x x
VantagePoint x x x x
VOSViewer x

usando outros campos, como os autores. Funciona melhor Somente o CiteSpace, o Sci2 Tool e o VantagePoint
usando palavras. utilizam os quatro tipos de análise. O software da
Algumas ferramentas de software permitem a extração Leydesdorff não realiza nenhum deles.
de redes incomuns, por exemplo, as redes de co-subvenção O CiteSpace e a Sci2 Tool têm recursos de
disponíveis no CiteSpace, as redes de co-PI disponíveis na geocodificação. O CiteSpace usa o geocodificador do
Sci2 Tool ou as matrizes específicas extraídas pelo Google e do Yahoo! nos dados institucionais disponíveis.
Bibexcel e VantagePoint usando um conjunto de campos Por outro lado, a Sci2 Tool usa o serviço de geocodificação
de documentos específicos. Além disso, alguns softwares, do Yahoo! e um geocodificador interno em qualquer campo
como o Bibexcel e o VantagePoint, permitem extrair redes que contenha dados geográficos, como endereço
heterogêneas usando campos diferentes nas linhas e institucional e local da conferência.
colunas; por exemplo, é possível extrair uma matriz que
mostre os autores por ano. Outros aspectos
Por fim, a NWB Tool e a Sci2 Tool podem extrair redes
bibliométricas usando a vinculação direta. Nesta subseção, comparamos as ferramentas de software
de acordo com outros aspectos, como documentação/ajuda,
disponibilidade gratuita ou comercial, disponibilidade do
Medidas de normalização código-fonte, possibilidade de instalar o software em
diferentes plataformas e capacidade de extensão do
Uma vez construídas as redes bibliométricas, é possível software.
realizar um processo de normalização usando diferentes A ferramenta NWB e a ferramenta Sci2 têm um
medidas de similaridade. Na Tabela 5, são mostradas as excelente guia do usuário, no qual as ferramentas são
medidas usadas para cada ferramenta de software. explicadas em detalhes. Além disso, o guia do usuário
Três das ferramentas de software analisadas usam o explica aspectos importantes do mapeamento científico;
cosseno de Salton como medida de similaridade. Outras essas são as únicas ferramentas que explicam essa questão.
ferramentas de software, como a NWB Tool e a Sci2 Tool, O VantagePoint tem um bom guia do usuário e ajuda on-
permitem que os usuários definam suas próprias medidas. line, e seu site oferece uma grande quantidade de tutoriais
em vídeo. O IN-SPIRE tem um ótimo site com tutoriais em
vídeo e ajuda on-line. O VOSViewer tem um bom manual.
Métodos de análise
O CiteSpace tem um grande wiki onde questões
Diferentes métodos de análise podem ser aplicados. Na importantes são descritas. A Leydesdorff's Software tem
Tabela 6, são mostrados os diferentes métodos de análise uma boa descrição e um guia do usuário para cada um de
disponíveis para cada ferramenta de software. seus programas de linha de comando em seu site.
Apenas três das nove ferramentas de software descritas
são comerciais: CoPalRed, IN-SPIRE e VantagePoint. As
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 pela UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
Commons aplicável
1392JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY-
gratuitamente.
demais ferramentas de software estão disponíveis

Julho de 2011 DOI: 10.1002/asi

Você também pode gostar