Escolar Documentos
Profissional Documentos
Cultura Documentos
aceito em fevereiro de
O mapeamento científico tem como objetivo criar 10, 2010
mapas bibliométricos que descrevam como disciplinas
específicas, domínios científicos ou campos de © 2011 ASIS&T - Publicado on-line em 2 de maio de 2011 na Wiley Online
pesquisa são conceitualmente, intelectualmente e Library (wileyonlinelibrary.com). DOI: 10.1002/asi.21525
socialmente estruturados. Diferentes técnicas e
ferramentas de software foram propostas para realizar
a análise de mapeamento científico. O objetivo deste
artigo é revisar, analisar e comparar algumas dessas
ferramentas de software, levando em conta aspectos
como as técnicas bibliométricas disponíveis e os
diferentes tipos de análise.
Introdução
O mapeamento científico, ou mapeamento bibliométrico,
é um importante tópico de pesquisa no campo da
bibliometria (Morris & Van Der Veer Martens, 2008; van
Eck & Waltman, 2010). Ele tenta encontrar representações
de conexões intelectuais dentro do sistema de conhecimento
científico que muda dinamicamente (Small, 1997). Em
outras palavras, o mapeamento científico visa a exibir os
aspectos estruturais e dinâmicos da pesquisa científica
(Börner, Chen e Boyack, 2003; Morris e Van Der Veer
Martens; Noyons, Moed e Luwel, 1999a).
O fluxo de trabalho geral em uma análise de
mapeamento científico tem diferentes etapas: recuperação
de dados, pré-processamento, extração de rede,
normalização, mapeamento, análise e visualização. No
final desse processo, o analista precisa interpretar e obter
algumas conclusões dos resultados.
Existem diferentes fontes bibliométricas onde os dados
podem ser recuperados, como o ISI Web of Science (WoS)
ou o Sco- pus. Além disso, uma análise de mapeamento
científico pode ser realizada usando dados de patentes ou de
financiamento.
A etapa de pré-processamento talvez seja uma das mais
importantes. A qualidade do resultado dependerá da
qualidade dos dados. Vários métodos de pré-processamento
podem ser aplicados, por exemplo, para detectar elementos
duplicados e com erros ortográficos.
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 62(7):1382-1402, 2011
Price & Gürsey, 1975) tem como objetivo mostrar a Este artigo está organizado da seguinte forma. Na seção
evolução conceitual, intelectual ou social do campo de Mapeamento científico, são apresentados alguns conceitos
pesquisa, descobrindo padrões, tendências, sazonalidade e sobre mapeamento científico. As ferramentas de software
discrepâncias. A detecção de explosões (Kleinberg, 2003), projetadas para executar um mapeamento científico
uma análise temporal específica, tem como objetivo
encontrar recursos que tenham alta intensidade em períodos
finitos de tempo. Por fim, a análise geoespacial (Batty,
2003; Leydesdorff & Persson, 2010; Small & Garfield,
1985) tem como objetivo descobrir onde algo acontece e
qual é o seu impacto nas áreas vizinhas.
Além disso, técnicas de visualização são usadas para
representar um mapa científico e o resultado das diferentes
a n á l i s e s , por exemplo, as redes podem ser
representadas usando mapas heliocêntricos (Moya-Anegón
et al, 2005), modelos geométricos (Skupin, 2009), redes
temáticas (Bailón-Moreno, Jurado-Alameda, & Ruíz-
Baños, 2006; Cobo, López-Herrera, Herrera-Viedma, &
Herrera, 2011) ou mapas em que a proximidade entre os
itens representa sua similaridade (Davidson, Wylie, &
Boyack, 1998; Polanco, François, & Lamirel, 2001; van Eck
& Waltman, 2010). Para mostrar a evolução em diferentes
períodos de tempo, podem ser usadas a cadeia de clusters
(Small, 2006; Small & Upham, 2009; Upham & Small,
2010) e as áreas temáticas (Cobo et al., 2011).
Embora a análise do mapeamento científico possa ser
realizada com o uso de ferramentas genéricas de análise de
redes sociais, como Pajek (Batagelj & Mrvar, 1998) e
UCINET (Borgatti, Everett, & Freeman, 2002), ou
software de bioinformática, como Cytoscape (Shannon et
al., 2003), há outras ferramentas de software desenvolvidas
especificamente para essa finalidade. Algumas dessas
ferramentas de software foram concebidas especificamente
para o mapeamento científico e outras podem ser usadas
em domínios não científicos. Algumas dessas ferramentas
de software foram implementadas apenas para visualizar
mapas científicos e outras permitem visualizar e também
construir os mapas. Uma lista de ferramentas de software
genéricas usadas em pesquisas de cienciometria é
apresentada em Börner et al. (2010).
O objetivo deste artigo é apresentar um estudo
comparativo aprofundado de nove ferramentas de software
de mapeamento científico representativas, mostrando suas
vantagens, desvantagens e diferenças mais importantes.
Analisamos as seguintes ferramentas de software: Bibex- cel
(Persson, Danell, & Wiborg Schneider, 2009), CiteSpace II
(Chen, 2004, 2006), CoPalRed (Bailón-Moreno, Jurado-
Alameda, Ruíz-Baños, & Courtial, 2005; Bailón-Moreno et
al, 2006), IN-SPIRE (Wise, 1999), Leydesdorff's Soft-
ware, Network Workbench Tool (Börner et al., 2010; Herr,
Huang, Penumarthy, & Börner, 2007), Science of Science
(Sci2 ) Tool (Sci2 Team, 2009), VantagePoint (Porter &
Cuningham, 2004) e VOSViewer (van Eck & Waltman,
2010). Cada um deles nos fornece sua própria visão dos
dados devido ao fato de implementarem diferentes técnicas
e algoritmos de análise. Devemos ressaltar que eles
apresentam características complementares e, portanto,
pode ser desejável aproveitar suas sinergias para realizar
uma análise completa do mapeamento científico.
Concluímos nossa análise mostrando o desempenho de
todas as ferramentas de software com um exemplo e
analisamos algumas sinergias positivas entre elas.
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
Análise de mapeamento: A seção Survey descreve as Fontes de dados
ferramentas de software a serem analisadas. Na seção Atualmente, existem vários bancos de dados
Estudo comparativo, é feita uma comparação entre as bibliográficos (e também bibliométricos) on-line onde são
ferramentas de software descritas. Na seção Análise de armazenados trabalhos e documentos científicos e suas
mapas gerados: A Cooperative Study Among Tools, citações. Essas fontes de informações bibliográficas nos
mostramos o desempenho das ferramentas de software com permitem pesquisar e recuperar informações sobre a
um conjunto de dados e analisamos suas possíveis maioria dos campos científicos. Sem dúvida, os bancos de
sinergias positivas. Na seção Lições aprendidas, dados bibliográficos mais importantes são o ISI WoS
destacamos algumas lições aprendidas. Por fim, são feitas (http://www.webofknowledge.com), o Scopus
algumas observações finais. (http://www.scopus.com), o Google Scholar (http://scholar.
google.com) e o MEDLINE da NLM
Mapeamento científico (http://www.ncbi.nlm. nih.gov/pubmed).
O mapeamento científico ou mapeamento O ISI WoS, o Scopus e o Google Scholar não cobrem os
bibliométrico é uma representação espacial de como as campos científicos e os periódicos da mesma forma, como
disciplinas, os campos, as especialidades e os documentos mostram diferentes estudos. Há diversos estudos (Bar-Ilan,
ou autores individuais estão relacionados entre si (Small, 2010; Falagas, Pitsouni, Malietzis, & Pappas, 2008; Mikki,
1999). Seu foco é monitorar um campo científico e 2010) que relatam esse fato. Além disso, o download de
delimitar áreas de pesquisa para determinar sua estrutura grandes conjuntos de dados do Google Scholar é difícil, e
cognitiva e sua evolução (Noyons, Moed, & van Raan, não está disponível um dump de todo o conjunto de dados.
1999b). Há outras fontes bibliográficas que podem ser usadas,
Nesta seção, são descritos diversos aspectos como: arXiv (http://arxiv.org), CiteSeerX (http://citeseerx.
importantes de uma análise de mapeamento científico, tais ist.psu.edu/), Digital Bibliography & Library Project (DBPL;
como: (a) as fontes de dados, http://dblp.uni-trier.de/), SAO/NASA Astrophysics Data
(b) as unidades de análise, (c) o pré-processamento de System (ADS; http://adswww.harvard.edu/), Science Direct
dados, (d) as medidas de similaridade que podem ser (http://www.sciencedirect.com/)
usadas para normalizar as relações entre as unidades de Dados de patentes e dados de financiamento também são
análise, (e) as etapas de mapeamento, usados com frequência. Os dados de patentes podem ser
(f) os tipos de métodos de análise que podem ser obtidos de fontes de dados específicas, como o United
empregados, States Patent and Trademark Office (USPTO;
(g) algumas técnicas de visualização e, por fim, (h) http://www.uspto.gov/) ou o Derwent Innovations Index
interpretação dos resultados. fornecido pelo ISI WoS. Os dados de financiamento podem
ser baixados da National Science Foundation
(http://www.nsf.gov/)
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY - julho de 2011 1383
DOI: 10.1002/asi
TABELA 1. Taxonomia das técnicas bibliométricas.
Bibliográfico Autor O que o autor escreveu Referências comuns entre as obras do autor
acoplamento Diário de Documentar os Referências comuns entre os documentos
document oeuvres do Journal Referências comuns entre as obras da revista
os
Coautor Autor País Nome do autor Co-ocorrência de autores Co-
Instituição País da afiliação Instituição da ocorrência de países Co-
afiliação ocorrência de instituições
Co-citação Document Referência do Autor co-citado
o do autor autor Referência Documentos citados
Diário do periódico Revista citada
Co-palavra Palavra-chave ou termo extraído Co-ocorrência de termos
do título, do resumo ou do corpo
do documento
Unidades de análise em técnicas bibliométricas acoplados, enquanto a cocitação varia com o tempo
(Jarneving, 2005).
As unidades de análise mais comuns no mapeamento
científico são periódicos, documentos, referências citadas,
autores (a afiliação do autor também pode ser usada) e
termos ou palavras descritivas (Börner et al., 2003). As
palavras podem ser selecionadas no título, no resumo, no
corpo do documento ou em algumas combinações deles.
Além disso, podemos selecionar as palavras-chave originais
dos documentos (palavras-chave do autor) ou as palavras de
indexação fornecidas pelas fontes de dados bibliográficos
(por exemplo, ISI Keywords Plus) como palavras a serem
analisadas.
Várias relações entre as unidades de análise podem ser
estabelecidas. Normalmente, as unidades de análise são
usadas como dados de co-ocorrência pelo processo de
mapeamento científico, ou seja, a semelhança entre as
unidades de análise é geralmente medida contando as vezes
em que duas unidades aparecem juntas nos documentos.
Além disso, a vinculação direta pode ser usada para obter
as relações entre as unidades.
A relação entre as unidades pode ser representada como
um gráfico ou rede, em que as unidades são os nós e as
relações entre elas representam uma borda entre dois nós,
ou seja, usando as relações entre as unidades de análise,
diferentes redes bibliométricas podem ser construídas.
Na Tabela 1, é apresentada uma taxonomia das técnicas
bibliométricas mais comuns de acordo com as unidades de
análise utilizadas e as relações estabelecidas entre elas.
Diferentes aspectos de um campo de pesquisa podem ser
analisados dependendo das unidades de análise
selecionadas, por exemplo, ao usar os autores (análise de
coautoria ou coautoria), a estrutura social de um campo
científico pode ser analisada (Gänzel, 2001; Peters & van
Raan, 1991). Da mesma forma, ao usar as afiliações do
autor - co-instituição, co-universidade ou co-país -, a
dimensão internacional do campo de pesquisa é estudada.
Por outro lado, a análise de co-palavras (Callon et al.,
1983) é usada para mostrar a estrutura conceitual e os
principais conceitos tratados por um campo. A co-citação
(Small, 1973) e o acoplamento bibliográfico (Kessler, 1963)
são usados para analisar a estrutura intelectual de um campo
de pesquisa científica. A diferença entre o acoplamento
bibliográfico e a cocitação é que o acoplamento
bibliográfico é uma relação fixa e permanente porque
depende das referências contidas nos documentos
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
O acoplamento bibliográfico e a cocitação podem ser
estendidos usando periódicos e autores. Particularmente, o
Pré-processamento de dados
acoplamento bibliográfico de autores (Zhao & Strotmann,
2008) tem como objetivo descobrir relações de coautoria Os dados recuperados das fontes bibliográficas
entre autores que citam as mesmas referências, enquanto normalmente contêm erros, por exemplo, erros de ortografia
o acoplamento bibliográfico de periódicos (Gao & Guan, no nome do autor, no título do periódico ou na lista de
2009; Small & Koenig, 1977) tem como objetivo referências. Às vezes, é necessário acrescentar informações
descobrir os periódicos que citam as mesmas referências. adicionais aos dados originais, por exemplo, se o endereço
Por outro lado, a cocitação de autores (White & Griffith, do autor estiver incompleto ou errado. Por esse motivo,
1981) tem como objetivo descobrir os autores que são uma análise de mapeamento científico não pode ser aplicada
frequentemente citados juntos, enquanto a análise de diretamente aos dados recuperados das fontes
cocitação de periódicos (McCain, 1991) descobre os bibliográficas, ou seja, é necessário um processo de pré-
periódicos que são cocitados com frequência. Além processamento dos dados recuperados. De fato, a etapa de
disso, o acoplamento bibliográfico e a cocitação de pré-processamento talvez seja uma das mais importantes
periódicos podem ser estendidos para um nível de para melhorar a qualidade das unidades de análise
categoria de periódico. Esse supra-nível de cocitação de (principalmente autores e palavras) e, assim, obter
periódicos foi usado para estudar a medula da ciência melhores resultados na análise de mapeamento científico.
(Moya-Anegón et al., 2007) usando as categorias ISI. Diferentes processos de pré-processamento podem ser
Por fim, uma relação entre unidades pode ser aplicados para pré-parear os dados e obter um bom
estabelecida usando vínculos diretos, por exemplo, uma desempenho na análise de mapeamento científico:
rede de citação documento-documento, autor-autor ou • Detecção de itens duplicados e com erros ortográficos. Às
periódico-jornal. Além disso, uma relação pode ser vezes, há itens nos dados que representam o mesmo objeto
estabelecida usando unidades diferentes, por exemplo, ou conceito, mas com ortografia diferente, por exemplo, o
uma rede autor-papel (consumido/produzido). nome de um autor pode ser escrito de maneiras diferentes
(por exemplo, Garfield, E.; Eugene
Processo de normalização
Quando a rede de relacionamentos entre as unidades de
análise selecionadas tiver sido construída, primeiro é
aplicada uma transformação aos dados para obter
semelhanças a partir dos dados ou, mais especificamente,
para normalizar os dados (van Eck & Waltman, 2009).
Diferentes medidas de similaridade têm sido usadas na
literatura, sendo as mais populares o Cosine de Salton
(Salton & McGill, 1983), o Índice de Jaccard (Peters &
van Raan, 1993), o Índice de Equivalência (Callon,
Courtial, & Laville, 1991) e Força de Associação (Coulter,
Monarch, & Konda" 1998; van Eck & Waltman, 2007),
que também é conhecido como Índice de Proximidade
(Peters & van Raan, 1993; Rip & Courtial, 1984) ou Índice
de Afinidade Probabilística (Zitt, Bassecoulard, & Okubo,
2000).
Normalmente, é necessária uma normalização dos
termos do documento; por exemplo, se uma análise de
cocitação for realizada e vários grupos forem detectados,
um rótulo deverá ser definido para cada um deles. Esse
rótulo deve ser selecionado usando os termos do
documento mais importante do cluster. A normalização do
texto define um peso para cada termo de acordo com sua
importância no corpus. Diferentes medidas de
normalização de texto podem ser aplicadas (Baeza-Yates &
Ribeiro-Neto, 1999; Chen, Ibekwe-SanJuan, & Hou, 2010;
Salton & McGill, 1983): tf-idf, análise semântica latente,
testes de razão de verossimilhança, entropia de log,
informação mútua etc.
A etapa de mapeamento
A etapa de mapeamento é a mais importante. O próprio
processo é responsável pela construção do mapa, aplicando
um algoritmo de mapeamento a toda a rede formada
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
Os algoritmos de agrupamento, como a análise de mapa gerado na etapa posterior, por exemplo, diferentes
componentes principais ou MDS, são usados para medidas na rede, como o número total de nós e nós
transformar a rede em um espaço de baixa dimensão isolados, grau médio, o número de componentes
(geralmente de duas dimensões). Os algoritmos de fracamente conectados ou a densidade do gráfico podem
agrupamento são usados para realizar a detecção de ser medidos. Se um algoritmo de detecção de comunidade foi
comunidades, dividindo a rede global em diferentes sub- aplicado para construir o mapa, então a centralidade e a
redes. Recentemente, alguns autores propuseram densidade de Callon (Callon et al., 1991; Cobo et al., 2011)
algoritmos de agrupamento novos e diferentes para ou outros valores que medem as relações entre os clusters
realizar essa tarefa: Streemer (Kandylas, Upham, & detectados podem ser usados. Além disso, a sobreposição
Ungar, 2010), agrupamento especial (Chen et al., 2010), entre os clusters pode ser medida usando, por exemplo, o
maximização da modularidade (Chen & Redner, 2010) e Índice de Jaccard. Além disso, se os documentos forem
reamostragem bootstrap com agrupamento significativo atribuídos a cada cluster, uma análise realizada pode ser
(Rosvall & Bergstrom, 2010), entre outros. Por fim, as executada para obter medidas quantitativas ou qualitativas de
redes Pathfinder (PFNETs) são usadas para identificar a cada cluster (Cobo et al., 2011).
espinha dorsal da rede (Quirin, Cordón, Santamaría, Outra análise importante que pode ser realizada em um
Vargas-Quesada, & Moya-Anegón, 2008; Schvaneveldt, processo de mapeamento científico é a análise temporal, que
Durso, & Dearholt. 1989). Além disso, técnicas gerais de tem como objetivo identificar a natureza dos fenômenos
mineração de gráficos (Cook & Holder, 2006; Skillicorn, representados por uma sequência de observações, como
2007) ou análise de redes sociais (Carrington et al., 2005; padrões, tendências, sazonalidade e resultados. Em outras
Wasserman & Faust, 1994) podem ser usadas na etapa de palavras, ela visa analisar a evolução do campo de pesquisa
mapeamento. em diferentes períodos de tempo. Essa tarefa pode ser
As informações obtidas e o tipo de mapa construído realizada usando uma estrutura longitudinal (Garfield,
dependerão da técnica aplicada. 1994; Price & Gürsey, 1975).
A detecção de rajadas é um tipo de análise temporal.
Seu objetivo é encontrar recursos que tenham alta
Métodos de análise intensidade em períodos finitos de tempo. Em Kleinberg
Uma vez que o mapa tenha sido construído, diferentes (2003), foi descrito um algoritmo para lidar com esse
análises podem ser aplicadas para extrair conhecimentos problema.
úteis. Por fim, a análise geoespacial (Batty, 2003;
A análise de rede (Carrington et al., 2005; Cook & Leydesdorff & Persson, 2010; Small & Garfield, 1985) tem
Holder, 2006; Skillicorn, 2007; Wasserman & Faust, como objetivo responder à pergunta sobre onde algo
1994) nos permite realizar uma análise estatística sobre o acontece e com que impacto nas áreas vizinhas. A análise
geoespacial requer
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY - julho de 2011 1385
DOI: 10.1002/asi
TABELA 2. Informações gerais.
valores de atributos ou geolocalizações para as unidades de em que cada nó está disposto sobre o país do autor.
análise; esses dados geralmente são extraídos dos dados de
afiliação.
Técnicas de visualização
Como mostramos na subseção anterior, o resultado de
cada método de análise é diferente. A técnica de
visualização empregada é muito importante para uma boa
compreensão e melhor interpretação do resultado.
As redes e sub-redes detectadas na etapa de mapeamento
podem ser representadas por meio de mapas heliocêntricos
(Moya-Anegón et al., 2005), modelos geométricos (Skupin,
2009) e redes temáticas (Bailón-Moreno et al., 2006; Cobo
et al., 2011). Outra abordagem consiste em representar as
redes em um mapa, em que a distância entre dois itens
reflete a força da relação entre ambos (Davidson et al.,
1998; Fabrikant, Montello, & Mark, 2010; Polanco et al.,
2001; van Eck & Waltman, 2010). Uma distância menor
geralmente indica uma relação mais forte (van Eck &
Waltman, 2010).
Se for aplicada uma detecção de comunidade, os
diferentes grupos detectados (sub-redes) poderão ser
categorizados usando um diagrama estratégico. Um
diagrama estratégico (Callon et al., 1991; Cobo et al.,
2011) é um espaço bidimensional criado pela plotagem de
temas de acordo com diferentes medidas extraídas por
meio de uma análise pós-rede.
Para mostrar a evolução dos grupos detectados em
períodos de tempo sucessivos (análise temporal), foram
usadas diferentes técnicas: Cluster string (Small, 2006;
Small & Upham, 2009; Upham & Small, 2010), rolling
clustering (Kandylas et al., 2010), diagramas aluviais
(Rosvall & Bergstrom, 2010), visualização ThemeRiver
(Havre, Hetzler, Whitney, & Nowell, 2002) e áreas
temáticas (Cobo et al., 2011). Outros autores propõem a
disposição do gráfico de um determinado período de
tempo, levando em conta o anterior e o posterior
(Leydesdorff & Schank, 2008), ou o empacotamento de
mudanças temporais sintetizadas em um único gráfico
(Chen, 2004; Chen et al., 2010).
Os resultados geoespaciais geralmente são visualizados
em um mapa mundial ou temático. Por exemplo, se for
aplicada uma análise de coautoria e, em seguida, for
realizada uma detecção de comunidade, os grupos de
autores detectados podem ser representados como uma rede
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
• CiteSpace II (Chen, 2004, 2006)
Interpretação
• CoPalRed (Bailón-Moreno et al., 2005, 2006)
Quando a análise do mapeamento científico estiver • IN-SPIRE (Wise, 1999)
concluída, o analista deverá interpretar os resultados e os • Software da Leydesdorff
mapas usando sua experiência e conhecimento. • Ferramenta Network Workbench (Börner et al., 2010; Herr
Na etapa de interpretação, o analista procura descobrir e et al., 2007)
• Ferramenta Sci2 (Equipe Sci2 , 2009)
extrair conhecimentos úteis que possam ser usados para
• VantagePoint (Porter e Cunningham, 2004)
tomar decisões sobre quais políticas implementar. • VOSViewer (van Eck & Waltman, 2010)
Na Tabela 2, são descritos alguns detalhes dessas ferramentas
Ferramentas de software projetadas para realizar
de software.
uma análise de mapeamento científico: Uma
pesquisa
Bibexcel
Embora a análise de mapeamento científico possa ser
realizada usando um software genérico para análise de O Bibexcel (http://www.umu.se/inforsk/Bibexcel;
redes sociais (Börner et al., 2010), existem outras Persson et al., 2009) é uma ferramenta bibliométrica
ferramentas de software desenvolvidas especificamente desenvolvida na Universidade de Umeå (Suécia). Essa
para a análise de mapeamento científico. ferramenta foi desenvolvida especificamente para gerenciar
Nesta seção, apresentamos nove ferramentas de os dados bibliométricos e criar mapas, que podem ser lidos
software representativas, desenvolvidas especificamente por softwares como Excel, SPSS, UCINET (Borgatti et al.,
para analisar domínios científicos por meio do 2002) e Pajek (Batagelj & Mrvar, 1998). O Bibexcel é de
mapeamento científico. Essas ferramentas de software acesso gratuito para uso acadêmico sem fins lucrativos.
são as seguintes: O Bibexcel pode ler dados recuperados de diferentes
fontes bibliográficas, como ISI Web of Science (WoS),
• Bibexcel (Persson et al., 2009)
Scopus e o formato de exportação Procite.
exclusão de documentos duplicados. Além disso, o dos patrocinadores das concessões que coincidem nos dados de
Bibexcel permite a exclusão de itens de baixa frequência e financiamento.
mantém apenas os links mais fortes.
Diferentes redes bibliométricas podem ser extraídas. As
principais são: co-citação, acoplamento bibliográfico,
coautor e co-palavra. Além disso, diferentes matrizes de co-
ocorrência podem ser extraídas usando qualquer campo do
documento ou alguma combinação de campos. As matrizes
podem ser normalizadas usando três medidas diferentes:
Coseno de Salton, Índice de Jaccard e as medidas de
Vladutz e Cook.
Aos dados normalizados, o usuário pode aplicar um
algoritmo de agrupamento ou preparar uma matriz para
uma análise MDS (usando um software externo). O
Bibexcel não apresenta uma ferramenta de visualização
adequada para a saída, mas apresenta diferentes opções de
exportação que possibilitam a visualização dos dados
usando softwares externos como Pajek, UCINET ou SPSS.
As redes bibliométricas também podem ser exportadas.
CiteSpace II
O CiteSpace
(http://cluster.cis.drexel.edu/˜cchen/citespace; Chen, 2004,
2006) foi desenvolvido na Drexel University (EUA) e pode
ser baixado gratuitamente. É uma ferramenta de software
desenvolvida para detectar, analisar e visualizar padrões e
tendências na literatura científica. Seu principal objetivo é
facilitar a análise de tendências emergentes em um domínio
de conhecimento.
O CiteSpace pode ler diferentes formatos de fontes
bibliográficas, como WoS, PubMed, arXiv e SAO/NASA
Astrophysics Data System (ADS). Além disso, o CiteSpace
pode ler dados de concessões, como NSF Awards, e dados
de patentes do Derwent Innovations Index.
Diferentes tipos de redes bibliométricas podem ser
estruturados: coautor, instituições coautoras, países
coautores, co-subvenções,1 co-ocorrência de categorias de
assunto, co-palavra, co-citação de documentos, co-citação
de autores, co-citação de periódicos e acoplamento
bibliográfico de documentos. As redes, ou gráficos, podem
ser construídas para diferentes períodos de tempo para
analisar a evolução do domínio estudado. Além disso, o
analista pode filtrar os itens com os quais as redes são
construídas para selecionar os mais importantes (por
exemplo, selecionar os 100 itens mais citados de cada
período de tempo). A matriz (rede) é normalizada usando o
cosseno de Salton, o Dice ou o índice de Jaccard.
Uma vez construídas as redes, o CiteSpace nos permite
visualizá-las e realizar várias análises sobre elas. O
CiteSpace permite que o analista execute um agrupamento
espectral e uma detecção de explosão de citações. Além
disso, o CiteSpace tem três modos de visualização (Chen,
2006): visualização de cluster, linha do tempo e fuso
horário.
Se forem detectados agrupamentos, o CiteSpace poderá
atribuir rótulos a cada um deles usando os termos mais
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
critérios: centralidade (ou intensidade de suas relações
tf-idf, testes de razão de log-verossimilhança ou
externas) e densidade (de acordo com sua densidade de
informações mútuas (Chen et al., 2010).
coesão interna).
• Análise dinâmica. O CoPalRed analisa as transformações
CoPalRed das redes temáticas ao longo do tempo. Ele identifica
aproximações, bifurcações, aparecimentos e
O CoPalRed (http://ec3.ugr.es/copalred/; Bailón- desaparecimentos de temas.
Moreno et al., 2005, 2006) é um software comercial
desenvolvido pelo grupo de pesquisa EC3 da Universidade O CoPalRed visualiza os resultados usando diagramas
de Granada (Espanha). Ele foi projetado especificamente estratégicos, temas e redes temáticas (Bailón-Moreno et al.,
para realizar a análise de co-palavras usando as palavras- 2005, 2006; López-Herrera et al., 2009, 2010). A cada
chave de documentos científicos. Ele é descrito como um tema foi atribuído um rótulo que é o nome do nó mais
sistema de conhecimento que coleta as informações central (palavra-chave) de sua rede temática associada.
contidas em bancos de dados e as transforma em novos Além disso, cada tema pode ser representado no diagrama
conhecimentos. estratégico como uma esfera, em que seu volume é
Essa ferramenta de software lê arquivos no formato de proporcional ao número de documentos pertencentes a ele.
valores separados por vírgula (csv), gerados pelo software Da mesma forma, cada nó (palavra-chave) da rede temática
gerenciador de referências Procite. pode ser representado como uma esfera em que seu volume
Um dos pontos fortes do CoPalRed é que ele contém é proporcional à frequência da palavra-chave.
um módulo de pré-processamento que permite aos usuários
normalizar as palavras-chave de forma simples. Com esse IN-SPIRE
módulo, o usuário pode unificar itens (itens léxicos) que
representam o mesmo conceito. Depois que as palavras- O IN-SPIRE (http://in-spire.pnl.gov; Wise, 1999) é uma
chave são unificadas, o CoPalRed cria uma matriz de co- ferramenta comercial de software de análise visual de
ocorrência e a normaliza usando o índice de equivalência documentos que oferece ao analista a capacidade de
(Callon et al., 1991). descobrir relacionamentos, tendências e temas ocultos nos
O CoPalRed realiza três tipos de análise: análise dados para obter novos conhecimentos e novas percepções.
estrutural, análise estratégica e análise dinâmica. O IN-SPIRE usa a metáfora da paisagem para ajudar o
usuário a descobrir facilmente a relação entre os
• Análise estrutural. Ela mostra o conhecimento na forma de documentos e os conjuntos de documentos que são muito
redes temáticas nas quais as palavras e seus semelhantes. Essa ferramenta usa padrões estatísticos de
relacionamentos são desenhados. palavras para caracterizar documentos com base em seu
• Análise estratégica. Ela coloca cada rede temática em uma
contexto (Hetzler & Turner, 2005). IN-SPIRE derivado do
posição relativa dentro da rede temática global usando dois
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY - julho de 2011 1387
DOI: 10.1002/asi
calculados, bem como grupos definidos pelo usuário.
Projeto SPIRE financiado pelo Departamento de Energia e
• Recursos de consulta robustos que suportam pesquisas
pela
booleanas, por proximidade de palavras, frases ou baseadas
Agências de inteligência dos EUA. Ele foi desenvolvido no em exemplos.
Pacific Northwest National Laboratory (Estados Unidos). • A ferramenta Correlação nos permite descobrir a correlação
O IN-SPIRE pode ler documentos não formatados (texto entre os grupos.
ASCII) ou documentos formatados, como HTML e XML.
Além disso, ele pode ler dados de documentos do
Microsoft Excel e arquivos formatados em csv. O software
permite que o usuário selecione os campos que serão usados
para medir a similaridade entre os documentos e outros
metacampos, como o título dos documentos e a data
associada.
Diferentemente das outras ferramentas de software
analisadas, o IN-SPIRE não extrai redes bibliométricas do
campo selecionado. Ele usa um campo ou um conjunto de
campos para calcular a similaridade entre os documentos
usando seu próprio mecanismo de texto (Wise, 1999). Em
resumo, ele usa o modelo de espaço vetorial (Salton &
McGill, 1983) e, portanto, cada documento é representado
como um vetor de termos. Portanto, se as palavras-chave
forem selecionadas como o campo, a medida de similaridade
mostrará se dois documentos têm palavras-chave
semelhantes. Embora o IN-SPIRE seja capaz de criar um
mapa usando qualquer campo, seu mecanismo de texto
funciona melhor se as palavras forem selecionadas como
campo. O mecanismo de texto precisa de uma grande
quantidade de dados para detectar corretamente as
semelhanças entre os documentos.
Quando as semelhanças entre os documentos são
calculadas, o IN-SPIRE executa um algoritmo de
agrupamento chamado "Fast Divisive Clustering" (Wise,
1999). No final do processo de agrupamento, são gerados
vários temas (conjuntos de documentos). Cada tema tem
como nome os termos que aparecem com mais frequência
(usando tf-idf) de seus documentos.
O IN-SPIRE oferece duas técnicas de visualização
diferentes, que são o carro-chefe do software: Galaxies e
ThemeScapeTM . A visualização Galaxies emprega a
metáfora dos documentos como estrelas no céu noturno.
Por outro lado, o ThemeScape é construído diretamente a
partir da distribuição de documentos na visualização
Galaxies, representando os temas como camadas
sedimentares que, juntas, criam a aparência de uma
paisagem natural. Na visualização ThemeScape, a altura de
seus picos corresponde à força do tópico nesses locais; a
extensão de seus picos corresponde à área e ao brilho dos
temas na visualização Galaxies. Em ambas as
visualizações, a proximidade de dois itens (documentos)
revela a semelhança entre eles. Os documentos
relacionados são agrupados e os temas comuns são
destacados.
O IN-SPIRE fornece um conjunto de ferramentas que
ajudam o analista a descobrir conhecimento dentro do
corpus de documentos estudados:
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY - julho de 2011 1389
DOI: 10.1002/asi
o Thesaurus Editor. Qualquer alteração realizada em uma de co-ocorrência, a ferramenta de software não permite que
lista gerará uma nova lista, portanto, sempre mantemos os nenhuma matriz de co-ocorrência dos dados bibliométricos
dados originais. seja extraída e construída. Para fazer isso, é necessário um
O VantagePoint permite a criação de vários tipos de processo externo. Além disso, a ferramenta de software
matrizes que mostram os registros do conjunto de dados
contidos em duas listas determinadas:
• Matriz de co-ocorrência: mostra o número de registros em
que o elemento i (da primeira lista) e o elemento j (da
segunda lista) aparecem juntos.
• Matriz de autocorrelação: mostra as correlações entre os
itens de uma lista.
• Matriz de correlação cruzada: mostra as correlações entre
os itens de uma lista com base nos valores de outra lista.
• Matriz de fatores: é o resultado de uma análise de
componentes principais. A matriz de fatores mostra os itens
em linhas e os fatores em colunas.
O VantagePoint também permite a criação de diferentes
matrizes que podem ser usadas como entrada no processo
de mapeamento: coautor (usando o nome do autor, a
afiliação ou o país), cocitação (usando a referência, o autor
da referência ou a fonte) e co-palavra (usando qualquer
conjunto de termos). Além disso, se as listas selecionadas
para construir a matriz forem diferentes, poderão ser
construídas matrizes heterogêneas; por exemplo, o usuário
pode construir uma matriz de autor por ano para analisar a
produtividade do autor. As matrizes podem ser exportadas
para um arquivo de texto, ou o usuário pode copiar
diretamente uma seleção da matriz e colá-la no Microsoft
Excel.
As matrizes de correlação podem ser normalizadas
usando as medidas Pearson's r, Salton's Cosine ou Max
Proportional. Além disso, a matriz de co-ocorrência pode
ser normalizada usando a medida de similaridade tf-idf.
O VantagePoint inclui três tipos de mapas que
correspondem às três últimas matrizes: mapa de correlação
cruzada, mapa de autocorrelação e mapa de fatores. Esses
mapas são uma representação gráfica das matrizes
correspondentes. Nos mapas de correlação cruzada, a
similaridade entre os itens é medida usando o cosseno. No
mapa de fatores e na autocorrelação, a medida de
similaridade usada é o r de Pearson.
Por fim, o VantagePoint também inclui a capacidade de
executar scripts do Visual Basic para realizar ações
repetitivas (e/ou complexas) que um usuário possa precisar.
VOSViewer
O VOSViewer (http://www.vosviewver.com; van Eck &
Waltman, 2010) é uma ferramenta de software projetada
especificamente para a construção e visualização de mapas
bibliométricos, com atenção especial à representação
gráfica desses mapas. Ela é apropriada para representar
mapas grandes, uma vez que a funcionalidade de zoom, os
algoritmos especiais de rotulagem e as metáforas de
densidade são usados. A ferramenta de software foi
desenvolvida pelo Centro de Estudos de Ciência e
Tecnologia da Universidade de Leiden (Holanda) e está
disponível gratuitamente para a comunidade de pesquisa
bibliométrica.
Embora o VOSViewer possa ser usado para construir e
visualizar mapas bibliométricos de qualquer tipo de dados
Commons aplicável
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 por UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
é a mesma que a cor do cluster correspondente na
não tem módulos de pré-processamento para preparar os
visualização do cluster.
dados para análise posterior.
• Visualização de densidade. Nessa visualização, cada item é
Para dispor os elementos nos mapas, a técnica de representado por um rótulo de forma semelhante à da
mapeamento VOS (van Eck, Waltman, Dekker e van den visualização de rótulo. Cada ponto no mapa tem uma cor
Berg, 2010) é usada pelo VOSViewer. Essa técnica cria que depende da densidade dos itens nesse ponto, que
uma matriz de similaridade a partir de uma matriz de co- depende do número de itens vizinhos e dos pesos desses
ocorrência usando uma medida de similaridade itens. O VOSViewer calcula a densidade de cada ponto de
conhecida como força de associação (van Eck & acordo com a equação definida por (van Eck & Waltman,
Waltman, 2007, 2009). A técnica de mapeamento VOS 2010), que usa uma função kernel gaussiana. A densidade é
cria um mapa bidimensional no qual os elementos estão traduzida usando um esquema de cores (para obter mais
localizados de forma que a distância entre qualquer par informações, consulte van Eck & Waltman; 2010)).
de itens reflita sua similaridade da forma mais precisa • Visualização da densidade do cluster. Essa visualização só
estará disponível se os itens tiverem sido previamente
possível. A ideia da técnica de mapeamento VOS é
atribuídos a um cluster. A visualização de densidade do
minimizar uma soma ponderada de distâncias euclidianas cluster é semelhante à visualização de densidade comum,
quadradas entre todos os pares de itens por meio de um exceto pelo fato de que a densidade dos itens é exibida
processo de otimização. separadamente para cada cluster de itens.
Embora o VOSViewer implemente a técnica de • Visualização de dispersão. Essa é uma visualização simples em
mapeamento VOS, o programa também pode ser usado que os itens são indicados por um pequeno círculo e em que
para visualizar qualquer mapa bidimensional construído nenhum rótulo é exibido.
com outras técnicas. O VOSViewer nos permite realizar
uma detecção de comunidade usando a técnica de
agrupamento VOS, que está relacionada à técnica de Estudo comparativo
agrupamento baseado em modularidade (Waltman et al.,
Conforme mencionado anteriormente, neste artigo
2010). Depois que o mapa é construído, o VOSViewer
também apresentamos um estudo comparativo das nove
permite seu exame por meio de quatro visualizações:
ferramentas de software descritas acima. Dessa forma,
• Visualização de rótulo. Nessa visualização, cada elemento podemos destacar as principais diferenças e sinergias
é representado por um rótulo e também por um círculo. positivas existentes entre as diferentes ferramentas de
Quanto mais importante for um item, maior será seu software. Para isso, analisamos as nove ferramentas de
rótulo e seu círculo. Graças a um algoritmo inteligente, software levando em conta cinco pontos de vista: (a) os
que mostra apenas os rótulos mais importantes (mais métodos de pré-processamento,
frequentes), dependendo do nível de zoom, a ferramenta
(b) as redes bibiométricas disponíveis, (c) as medidas de
de software evita a sobreposição de rótulos. Os círculos
que têm a mesma cor pertencem ao mesmo cluster. Essa cor
normalização usadas, (d) o tipo de análise e, por fim, (e)
outros aspectos secundários.
Bibexcel x x x x x x x x x
CiteSpace x x x x x x x x x
CoPalRed x
IN-SPIRE x
Leydesdorff's x x x x x x x
Software
Rede x x x x x
Bancada de trabalho
Ferramenta
Ciência dex x x x x x x x x x
Ferramenta científica
VantagePoint x x x x x x x x
VOSViewer
usando outros campos, como os autores. Funciona melhor Somente o CiteSpace, o Sci2 Tool e o VantagePoint
usando palavras. utilizam os quatro tipos de análise. O software da
Algumas ferramentas de software permitem a extração Leydesdorff não realiza nenhum deles.
de redes incomuns, por exemplo, as redes de co-subvenção O CiteSpace e a Sci2 Tool têm recursos de
disponíveis no CiteSpace, as redes de co-PI disponíveis na geocodificação. O CiteSpace usa o geocodificador do
Sci2 Tool ou as matrizes específicas extraídas pelo Google e do Yahoo! nos dados institucionais disponíveis.
Bibexcel e VantagePoint usando um conjunto de campos Por outro lado, a Sci2 Tool usa o serviço de geocodificação
de documentos específicos. Além disso, alguns softwares, do Yahoo! e um geocodificador interno em qualquer campo
como o Bibexcel e o VantagePoint, permitem extrair redes que contenha dados geográficos, como endereço
heterogêneas usando campos diferentes nas linhas e institucional e local da conferência.
colunas; por exemplo, é possível extrair uma matriz que
mostre os autores por ano. Outros aspectos
Por fim, a NWB Tool e a Sci2 Tool podem extrair redes
bibliométricas usando a vinculação direta. Nesta subseção, comparamos as ferramentas de software
de acordo com outros aspectos, como documentação/ajuda,
disponibilidade gratuita ou comercial, disponibilidade do
Medidas de normalização código-fonte, possibilidade de instalar o software em
diferentes plataformas e capacidade de extensão do
Uma vez construídas as redes bibliométricas, é possível software.
realizar um processo de normalização usando diferentes A ferramenta NWB e a ferramenta Sci2 têm um
medidas de similaridade. Na Tabela 5, são mostradas as excelente guia do usuário, no qual as ferramentas são
medidas usadas para cada ferramenta de software. explicadas em detalhes. Além disso, o guia do usuário
Três das ferramentas de software analisadas usam o explica aspectos importantes do mapeamento científico;
cosseno de Salton como medida de similaridade. Outras essas são as únicas ferramentas que explicam essa questão.
ferramentas de software, como a NWB Tool e a Sci2 Tool, O VantagePoint tem um bom guia do usuário e ajuda on-
permitem que os usuários definam suas próprias medidas. line, e seu site oferece uma grande quantidade de tutoriais
em vídeo. O IN-SPIRE tem um ótimo site com tutoriais em
vídeo e ajuda on-line. O VOSViewer tem um bom manual.
Métodos de análise
O CiteSpace tem um grande wiki onde questões
Diferentes métodos de análise podem ser aplicados. Na importantes são descritas. A Leydesdorff's Software tem
Tabela 6, são mostrados os diferentes métodos de análise uma boa descrição e um guia do usuário para cada um de
disponíveis para cada ferramenta de software. seus programas de linha de comando em seu site.
Apenas três das nove ferramentas de software descritas
são comerciais: CoPalRed, IN-SPIRE e VantagePoint. As
15322890, 2011, 7, Baixado de https://onlinelibrary.wiley.com/doi/10.1002/asi.21525 pela UFPE - Universidade Federal de Pernambuco, Wiley Online Library em [07/07/2023]. Consulte os Termos e Condições (https://onlinelibrary.wiley.com/terms-and-conditions) na Wiley Online Library para conhecer as regras de uso; os artigos OA são regidos pela Licença Creative
Commons aplicável
1392JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY-
gratuitamente.
demais ferramentas de software estão disponíveis