Escolar Documentos
Profissional Documentos
Cultura Documentos
UM MÉTODO DE RECOMENDAÇÃO DE
RELACIONAMENTOS EM REDES SOCIAIS
CIENTÍFICAS HETEROGÊNEAS
DISSERTAÇÃO DE MESTRADO
Rio de Janeiro
2012
2
Rio de Janeiro
2015
3
4
Aprovada em 27/02/2015.
______________________________________________________
Prof. Jonice de Oliveira Sampaio, D.Sc., PPGI/UFRJ (Orientadora)
______________________________________________________
Prof. Adriana Santarosa Vivacqua, D.Sc, PPGI/UFRJ
______________________________________________________
Prof. Sean Wolfgand Matsui Siqueira, D.Sc., UNIRIO
______________________________________________________
Prof. Claudia Inês Chamas, D.Sc., FIOCRUZ
5
Agradecimentos
7
Resumo
Abstract
The social network area has grown and attracted the researchers´ interest in recent
years. This fact can be observed through the rise of publications about this issue. The
progress of research in this area has enabled the emergence of new specialized studies, such
as the scientific social networks. In this context, some elements as a researcher, projects,
publications, etc. can be the nodes of the social network. Is known that the amount of
information and academic knowledge today are elevated, and so become aware of other
researchers working in similar areas of research can be a difficult task. Thus, this work
presents a new method that suggests a recommendation of relationships using
heterogeneous scientific social networks. To reach this goal, two functions have been
proposed: the first function to calculate the similarity between two researchers and the
second to calculate the expertise degree of a researcher. The similarity among researchers is
inferred by the compatibility between the common neighbors, the common research areas
and the popularity of the researchers. If a researcher has a high popularity, his chances to
form new partnerships are bigger. To verify the viability of the proposed recommendation
method were made three evaluations: comparative analysis with user participation,
comparative analysis without user participation and qualitative analysis. The results were
satisfactory and this could prove this work contribution to the state of art.
Lista de Figuras
Figura 1. Relacionamento amoroso entre alunos do ensino médio em uma escola americana
(EASLEY; KLEINBERG, 2010). ............................................................................................. 26
Figura 2. Rede de coautorias de físicos e matemáticos que trabalham com redes (EASLEY;
KLEINGERG, 2010). ........................................................................................................... 27
Figura 3. Exemplo de rede social. ............................................................................................. 28
Figura 4. Exemplo de grafo completo (BENBENNICK, 2015). ................................................... 30
Figura 5. Exemplo de rede social para ilustrar os relacionamentos entre os nós. .................. 38
Figura 6. Exemplo de Currículo Lattes. ..................................................................................... 49
Figura 7. Página sobre Social Network do Microsoft Academic Search (MICROSOFT
RESEARCH, 2015b). ........................................................................................................... 51
Figura 8. Perfil da professora Jonice Oliveira no Microsoft Academic Search (MICROSOFT
RESEARCH, 2013a). ........................................................................................................... 52
Figura 9. Parte do perfil da prof. Jonice Oliveira no Microsoft Academic Search que apresenta
as conferências em que ela já participou (MICROSOFT RESEARCH, 2013a). ................... 53
Figura 10. Parte do perfil da Prof. Jonice Oliveira no Arnet Miner (ARNET MINER, 2013b). ... 55
Figura 11. Parte relativa a conferências do perfil da Prof. Jonice Oliveira no Arnet Miner
(ARNET MINER, 2013b)..................................................................................................... 56
Figura 12. Áreas de interesse alteradas por terceiros em um perfil do Arnet Miner (ARNET
MINER, 2013f)................................................................................................................... 56
Figura 13. Número de autores por tipo de publicação (DBLP, 2013c). .................................... 57
Figura 14. Número de publicações por ano (DBLP, 2013d). .................................................... 58
Figura 15. Perfil da prof. Jonice Oliveira na DBLP(DBLP, 2015). ............................................... 58
Figura 16. Perfil da prof. Jonice Oliveira no Research Gate (RESEARCH GATE, 2015b). .......... 60
Figura 17. Perfil da prof. Jonice Oliveira no Google Acadêmico (GOOGLE, 2015b). ................ 61
Figura 18. Exemplo de relacionamentos entre pesquisadores. ............................................... 66
Figura 19. Exemplo de rede social com nós demonstrando a principal área de atuação de um
pesquisador. ..................................................................................................................... 71
Figura 20. Gráfico da função f(Δt) = 1,05Δt que representa o acúmulo de conhecimento do
pesquisador no decorrer dos anos posteriores a sua formação. .................................... 85
Figura 21. Exemplo de cálculo de compatibilidade entre pesquisadores P1 e P2. .................. 89
11
Figura 22. Distribuição dos pesos na equação de similaridade conforme a expertise. ........... 98
Figura 23. Exemplo de relacionamento entre pesquisadores. ................................................. 99
Figura 24. Arquitetura da Solução. ......................................................................................... 106
Figura 25. Modelo de funcionamento do extrator................................................................. 108
Figura 26. Trecho do currículo Lattes que corresponde ao código exibido na Figura 27. ..... 110
Figura 27. Trecho de código HTML do currículo Lattes. ......................................................... 111
Figura 28. Modelo do banco de dados do extrator. ............................................................... 115
Figura 29. Tela inicial do sistema de avaliação. ...................................................................... 120
Figura 30. Tela de questionário do sistema de avaliação. ..................................................... 120
Figura 31. Modelo do banco de dados do sistema de avaliação. .......................................... 121
Figura 32. Distribuição de notas atribuídas pelos pesquisadores às recomendações. .......... 143
Figura 33. Gráfico do nível de satisfação dos participantes de uma forma geral. ................. 144
Figura 34. Gráfico do nível de satisfação dos participantes quanto às recomendações. ...... 144
Figura 35. Gráfico do nível de satisfação dos participantes quanto ao método. .................. 144
Figura 36. Rede Social de coautoria dos pesquisadores do PPGI no período 01/01/2009 até
04/02/2014. .................................................................................................................... 159
Figura 37. Rede heterogênea de pesquisadores do PPGI proposta por Monclar (2008) no
período de 01/01/2009 até 04/02/2014. ....................................................................... 160
Figura 38. Gráfico de distribuição de notas atribuídas às recomendações – Avaliação 3. .... 176
Figura 39. Gráfico de nível de satisfação dos participantes de uma forma geral – Avaliação 3.
........................................................................................................................................ 176
Figura 40. Gráfico do nível de satisfação dos participantes quanto ao método – Avaliação 3.
........................................................................................................................................ 176
Figura 41. Gráfico de nível de satisfação dos participantes quanto às recomendações –
Avaliação 3. ..................................................................................................................... 177
Figura 42. Exemplo do funcionamento do algoritmo Ant Colony. ......................................... 186
12
Lista de Tabelas
Tabela 1. Grau dos nós da Figura 3. ......................................................................................... 29
Tabela 2. Densidade dos nós da Figura 3 ................................................................................. 30
Tabela 3. Grau de intermediação dos nós da Figura 3. ............................................................ 30
Tabela 4. Centralidade global dos nós da rede social da Figura 3. .......................................... 31
Tabela 5. Comparação entre os trabalhos correlatos. ............................................................. 45
Tabela 6. Comparação entre as bases de dados acadêmicas. ................................................. 61
Tabela 7. Relacionamentos entre pesquisadores utilizados pelo método de recomendação
proposto. .......................................................................................................................... 68
Tabela 8. Características dos pesquisadores utilizadas pelo método de recomendação
proposto. .......................................................................................................................... 73
Tabela 9. Pesos atribuídos aos diferentes níveis da carreira do pesquisador. ........................ 78
Tabela 10. Pesos atribuídos aos diferentes tipos de bolsa do CNPq. ...................................... 80
Tabela 11. Pesos atribuídos aos níveis das bolsas de Produtividade em Pesquisa e
Produtividade em Desenvolvimento Tecnológico e Extensão. ........................................ 80
Tabela 12. Pesos atribuídos aos níveis das bolsas de Desenvolvimento Tecnológico e
Industrial, Desenvolvimento Científico Regional e Extensão no País. ............................. 81
Tabela 13. Pesos atribuídos aos níveis de bolsas de Fixação e Capacitação em Recursos
Humanos........................................................................................................................... 81
Tabela 14. Pesos atribuídos às diferentes titulações. .............................................................. 82
Tabela 15. Pesos atribuídos a cada fator da equação Expertise. ............................................. 87
Tabela 16. Categorização dos relacionamentos e atributos e seus respectivos pesos............ 94
Tabela 17. Dados extraídos do Currículo Lattes. .................................................................... 107
Tabela 18. Condições para recomendação de pesquisador no método de Brandão e Moro
(2012).............................................................................................................................. 127
Tabela 19. Descrição das notas atribuídas às recomendações. ............................................. 137
Tabela 20. Distribuição de participantes pelas grandes áreas do PPGI. ................................ 142
Tabela 21. Distribuição de participantes por expertise. ......................................................... 142
Tabela 22. Precisão por método – Avaliação 1. ..................................................................... 146
Tabela 23. Auto-Confiança por método. ................................................................................ 147
Tabela 24. Quantidade de cada nota por método. ................................................................ 149
13
Sumário
1 INTRODUÇÃO........................................................................................................................ 18
2.1 DEFINIÇÕES........................................................................................................................... 25
2.2 MÉTRICAS UTILIZADAS PARA ANÁLISE .......................................................................................... 28
2.3 CONCLUSÃO .......................................................................................................................... 31
3.1 DEFINIÇÕES........................................................................................................................... 33
3.2 MÉTODOS DE RECOMENDAÇÃO ................................................................................................. 34
3.2.1 FILTRO COLABORATIVO ................................................................................................................... 34
3.2.2 BASEADA EM CONTEÚDO ................................................................................................................ 35
3.2.3 HÍBRIDA ....................................................................................................................................... 36
3.3 CONCLUSÃO .......................................................................................................................... 36
7 AVALIAÇÃO......................................................................................................................... 123
GLOSSÁRIO............................................................................................................................... 201
ANEXOS.................................................................................................................................... 202
1 Introdução
A área de análise de redes sociais é uma área abrangente que vem crescendo e
despertando o interesse de vários pesquisadores nas últimas duas décadas (HOONLOR et al.,
2013). Podemos verificar esse fato através do aumento de publicações relacionadas com
esse assunto nos últimos seis anos (HOONLOR et al., 2013 ). O avanço das pesquisas nessa
área possibilitou o surgimento de novas frentes de estudo mais específicas, tais como, as
redes sociais científicas (NEWMAN, 2001b). Tais redes retratam geralmente a interação
existente entre pesquisadores dentro da comunidade científica, através dos seus diferentes
relacionamentos. Por exemplo, em uma rede social científica podem ser representados
como nós quaisquer elementos que se relacionam: pesquisadores, congressos, artigos, áreas
de pesquisa, dentre outros. Também podem ser representados como relacionamentos:
coautoria de trabalhos, coorientação de alunos, participação em eventos e bancas, parcerias
em projetos, etc.
1.1 Problema
A difusão da Internet nos últimos anos possibilitou uma maior divulgação da informação
e, consequentemente, facilitou também o seu acesso. Com isso, foi possível o aumento da
divulgação de trabalhos científicos em forma de sites, notícias, artigos e periódicos pela
rede, viabilizando a disseminação desse conhecimento tão caro.
A Internet também possibilitou a maior interação entre pesquisadores, encurtando
distâncias. Antes, essa interação era feita principalmente através de congressos e
conferências, além de comunicação por telefone. As pesquisas eram realizadas em um
âmbito bem local, entre pessoas que pertenciam às mesmas instituições, trabalhavam nos
mesmos laboratórios de pesquisa ou que estavam situadas em locais próximos. Atualmente,
pesquisadores podem facilmente criar grupos de discussão e de trabalho através da Internet.
Podem, ainda, entrar em contato rapidamente através de correio eletrônico,
videoconferências, dentre outros, sendo possível trocar informações, escrever artigos,
organizar eventos e trabalhar em produções técnicas com pessoas fisicamente distantes
umas das outras. Pode-se citar como exemplo desta evolução da atividade científica, o
collaboratory ou colaboratório. Um colaboratório é um laboratório virtual colaborativo
19
personalização dos resultados e acabam por retornar os mesmos itens para pessoas
diferentes, que buscam coisas distintas (WALTER; BATTISTON; SCHWEITZER, 2007). Já os
sistemas de recomendação podem suprir esta questão. Com isso, utilizando um método de
recomendação, os problemas apresentados poderiam ser minimizados.
Além do problema existente devido a grande quantidade de informação, o cenário
científico apresenta outros problemas com o fluxo da informação e com a disseminação do
conhecimento. Uma das causas destes problemas é a rotatividade de pessoas neste meio.
Por exemplo, o tempo de permanência de um aluno de mestrado é bem curto, se
estendendo ao máximo três anos. Quando esses alunos concluem seus estudos, levam
consigo todo o aprendizado adquirido, dificilmente passando adiante o conhecimento de
suas dissertações, pesquisas e projetos, para que seja dada continuidade a eles. O mesmo
ocorre com posdocs e professores visitantes, que possuem um tempo pequeno de
permanência em uma instituição. Há também os casos das aposentadorias, transferências
para outras instituições e mudanças para outros empregos. Quando esses pesquisadores e
professores perdem o vínculo com a instituição, corre-se o risco de ninguém dar
continuidade aos seus projetos e pesquisas. Isso pode ocorrer por falta de conhecimento
institucional sobre os projetos de pesquisa existentes, devido à autonomia dos profissionais
do meio científico e acadêmico (ninguém precisa de permissão para começar a estudar ou
pesquisar um assunto) ou ainda por se tratarem de assuntos em que há poucas pessoas com
interesse ou expertise neles. Esse último caso reflete aquele caso em que há raros
especialistas dentro de uma determinada área e quando se precisa de alguém para trabalhar
no assunto, não se encontra ou precisa-se resgatar pessoas já aposentadas.
Ainda relacionado ao fluxo da informação, outro problema é a maneira como o
conhecimento científico é disseminado. Apesar dos avanços da Ciência, a divulgação dos
resultados ainda é paper-oriented, ou seja, através de artigos e teses. Geralmente, só se
toma conhecimento de trabalhos sendo feitos por pesquisadores fora do seu convívio,
quando é feita alguma publicação sobre eles ou quando são apresentados em congressos
(ALVES, 2014). Se dois pesquisadores trabalharem na mesma área ou áreas correlatas, mas
publicarem em veículos diferentes ou participarem de eventos diferentes, há uma chance de
não se conhecerem.
21
1.2 Motivação
Segundo (MOTTA et al., 2011), sistemas de recomendação são filtros de informação
utilizados para apresentar para o usuário itens que sejam relevantes para ele. Como, por
exemplo, a recomendação de produtos em uma loja virtual, tais como livros, filmes, músicas
e etc. Tal sistema ajuda o usuário a tomar uma decisão diante da grande quantidade de
informação apresentada a ele (TERVEEN; MCDONALD, 2005).
Além de produtos e serviços, também é possível recomendar pessoas. Esse tipo
particular de recomendação recebe o nome de combinação social (MOTTA et al., 2011). De
acordo com Terveen e McDonald (2005), “enquanto a recomendação de produtos e serviços
automatizaram parcialmente o processo de compartilhar opiniões boca-a-boca, a
recomendação de pessoas automatizou o processo de aproximar pessoas”.
22
1.3 Objetivo
Os problemas apresentados anteriormente podem ser identificados com o auxílio da
análise da rede social científica. Isso ocorre porque a estrutura de uma rede social tem
implicações importantes para a disseminação de informações e, além disso, ela pode ser
utilizada para identificar padrões nas interações entre as pessoas (NEWMAN, 2001b) Todos
os diferentes tipos de relacionamento presentes em uma comunidade científica enriquecem
o entendimento sobre a rede social. Por isso, podem ser analisados para identificar grupos e
a interação entre eles, melhorar o fluxo da informação e a disseminação do conhecimento.
Após analisar a rede, uma das maneiras de tentar melhorar o fluxo da informação é realizar
recomendações de pares, ou seja, sugerir relacionamentos entre nós da rede. Segundo
(MONCLAR, 2008), a recomendação baseada em relacionamentos de uma rede é uma
aplicação importante de análise de redes sociais. No cenário acadêmico, a recomendação de
relacionamentos pode facilitar a descoberta e troca de conhecimento e aumentar a
produtividade dos pesquisadores (XU et. al, 2010).
Diante disso, este trabalho tem por objetivo principal facilitar o processo de descoberta
de pesquisadores que não se relacionam e que sejam similares entre si para a formação de
parcerias. Para isto, é proposto um método de recomendação de novos relacionamentos
entre pesquisadores utilizando redes sociais científicas heterogêneas não-direcionadas,
levando em consideração diferentes tipos de interação científica e o perfil do pesquisador
(áreas de interesse e expertise). Como objetivo secundário temos a implementação deste
método.
Para atingir estes objetivoss foi necessária a identificação da rede social científica
heterogênea, a criação e uso de métricas para a identificação de perfis similares que
serviram de base para a recomendação.
Os relacionamentos utilizados para a formação da rede social científica foram:
coautoria, coorientação, co-participação em bancas e projetos. Além disso, também foram
levadas em consideração as áreas de atuação de um pesquisador na elaboração da rede. A
rede social modelada apresenta relacionamentos não-direcionados. Esta escolha foi feita
porque em uma parceria de trabalho, consideramos que o pesquisador A trabalhar com B
tem o mesmo significado que o pesquisador B trabalhar com A.
24
2 Redes Sociais
Este capítulo tem por objetivo apresentas as principais características de uma rede
social, assim como algumas de suas métricas utilizadas para análise.
2.1 Definições
Uma rede social é um conjunto de itens, chamados de nós ou vértices, com ligações
chamadas de relacionamentos ou arestas entre eles (NEWMAN, 2003). Os nós podem
representar pessoas ou outros tipos de itens envolvidos em um contexto social, enquanto
que as arestas podem representar interações, colaborações e outros tipos de influências
entre os nós (LIBEN-NOWELL; KLEINBERG, 2003). Em resumo, uma rede social pode ser
caracterizada como um conjunto de atores que pode possuir relacionamentos uns com os
outros (WASSERMAN; FAUST, 1994). Tais relacionamentos podem ser estudados e
analisados a partir de propriedades topológicas da rede, ou seja, de sua estrutura e, das
propriedades semânticas dos nós, ou seja, suas características internas, que também podem
ser chamadas de atributos. Em uma rede social, os nós que possuem algum tipo de
relacionamento entre eles são chamados de vizinhos e, o conjunto de vizinhos de um nó é
chamado de vizinhança. Por exemplo, na Figura 3, o conjunto de vizinhos do nó A é
composto pelos nós B, C e E.Muitos cenários podem ser representados através de redes
sociais, como por exemplo, a disseminação de uma doença, onde os nós são pessoas
contaminadas e as arestas representam o contato entre as pessoas. Parcerias de músicos em
gravações de músicas também podem ser representadas através de redes sociais, onde os
nós são os músicos e as arestas representam as parcerias. É possível analisar a evolução
destas parcerias no decorrer do tempo através da visualização da rede e o cálculo de
algumas métricas intrínsecas da estrutura de uma rede social que serão citadas
posteriormente.
A Figura 1 (EASLEY; KLEINGERG, 2010) ilustra um exemplo de rede social. Ela representa
o relacionamento amoroso entre alunos do ensino médio de uma escola americana durante
um período letivo. Os pontos azuis representam os alunos do sexo masculino, enquanto que
26
os pontos rosas são as alunas do sexo feminino. As arestas entre os nós representam o
relacionamento amoroso entre esses alunos.
Figura 1. Relacionamento amoroso entre alunos do ensino médio em uma escola americana (EASLEY;
KLEINBERG, 2010).
Figura 2. Rede de coautorias de físicos e matemáticos que trabalham com redes (EASLEY; KLEINGERG,
2010).
Uma rede social pode ser classificada de acordo com diferentes características de sua
representação. Por exemplo, os relacionamentos entre os nós podem ser representados
com ou sem peso. O peso de um relacionamento pode indicar: a força do mesmo, o número
de vezes que duas pessoas interagiram e a probabilidade de ocorrer aquela interação. No
caso de uma rede social de coautoria, pode indicar o número de artigos que dois
pesquisadores escreveram juntos. Outra característica com relação às arestas é que elas
podem ser direcionadas ou não. A direção do relacionamento indica se ele existe de um nó i
para j ou do nó j para i. Em uma rede social de envio de e-mails, a direção do relacionamento
indica quem enviou e quem recebeu o e-mail, por exemplo.Além das características de
modelagem de uma rede social apresentadas anteriormente, existem diversas métricas que
permitem a compreensão e avaliação de uma rede. A seguir serão apresentadas e calculadas
algumas delas, baseadas na Figura 3. Esta figura apresenta uma rede social com
relacionamentos não-direcionados.
28
1) Grau do nó
O grau de um nó em uma rede social é definido como o número de arestas
conectadas a ele. Em redes direcionadas, o nó apresenta tanto o grau de entrada
quanto o grau de saída (NEWMAN, 2010), sendo o grau de entrada o número de
arestas que incidem nele e o grau de saída o número de arestas que saem dele.
O grau do nó pode apresentar diferentes significados em redes sociais,
dependendo do cenário representado. Em uma rede social científica de coautoria,
por exemplo, pesquisadores que possuem grau elevado podem ser considerados
populares, pois o grau representa o número de coautores que tais pesquisadores
possuem.
Em uma rede social é natural supor que indivíduos que possuem muitos
relacionamentos devem ter mais influência na rede, maior acesso a informação ou
29
2) Coeficiente de agrupamento/Densidade
O coeficiente de agrupamento de um nó é a razão entre o número de vizinhos de
um nó e o número de vizinhos possíveis. Tal medida representa o quão bem
conectado um nó está a rede, pois está relacionada diretamente com o número de
relacionamentos, dentre todos os possíveis, que um nó possui. Por exemplo, em
uma rede social de amigos, um nó com densidade alta representa uma pessoa
popular, com muitos amigos.
Também é possível calcular a densidade da rede. Ela é dada pela razão entre o
número total de relacionamentos da rede e o número total de relacionamentos
possíveis. Analogamente, a partir desta medida é possível saber o quão perto a
rede está de ser um grafo completo (Figura 4. Exemplo de grafo completo
(BENBENNICK, 2015). Figura 4), ou seja, de existir uma ligação entre cada um dos
nós da rede.
A fórmula da densidade de um nó ni (D(ni)) é descrita na Equação 2, onde n é o
número de nós encontrados no grafo e G(ni) é o grau do nó, ou seja, seu número
de vizinhos.
4) Centralidade global
A centralidade global de um nó é a soma do tamanho dos caminhos mínimos entre
um nó e todos os outros nós da rede (SCOTT, 2000). Ou seja, quanto menor a
centralidade global, mais próximo um nó estará dos demais na rede. Como
MONCLAR (2008) menciona, esta métrica é baseada na ideia de proximidade entre
os nós. Ainda segundo MONCLAR (2008), é possível identificar o isolamento de um
nó na rede a partir de sua centralidade global elevada.
A Tabela 4 apresenta a centralidade global de cada um dos nós da rede social da
Figura 3.
2.3 Conclusão
Neste capítulo foram apresentadas algumas características de redes sociais, assim
como algumas métricas para análise e avaliação.
A partir de uma rede social é possível visualizar, extrair e analisar diversas
informações, e com isso, auxiliar o estudo de diversos problemas, tais como: encontrar
pessoas mais influentes (KIMURA et al., 2009), analisar a formação e evolução de grupos
(BACKSTROM et al., 2006), encontrar pessoas especialistas em um determinado assunto
(ZHANG; TANG; LI, 2007), analisar a formação e evolução de colaborações (BARABÁSI et al.,
2002; NEWMAN, 2004), prever relacionamentos futuros (LIBEN-NOWELL; KLEINBERG, 2003),
recomendar colaborações acadêmicas (BRANDÃO; MORO, 2012) e etc. Além de auxiliar no
entendimento de como um grupo de pessoas interage, a análise de redes sociais vem sendo
32
aplicada para indicar novas conexões (LOPES, 2012), ou seja, fazer recomendações de novos
relacionamentos. Existem diversos métodos que podem ser utilizados para recomendação
de relacionamentos, conforme pode ser visto no capítulo 3.
33
34
3 Sistemas de Recomendação
Este capítulo tem por objetivo descrever os sistemas de recomendação, assim como,
apresentar as principais técnicas utilizadas por esses sistemas.
3.1 Definições
Um sistema de recomendação é um software que ajuda usuários a identificarem itens
que sejam de seu interesse (SUN et al., 2014). Tais itens podem ser livros, músicas, filmes,
sites, artigos e até mesmo pessoas. Sistemas de recomendação são utilizados em sites de e-
commerce, rádios online e mídias sociais, por exemplo, para incentivar o usuário a comprar
itens, escutar músicas e fazer amigos. Eles também podem ser vistos como ferramentas para
lidar com a sobrecarga de informações sofrida pelos usuários, filtrando aquelas mais úteis
(JANNACH et al., 2010). No caso particular da recomendação de pessoas, o processo é
chamado de Combinação Social (MOTTA et al., 2011). A combinação social possibilita o
aumento da interação e colaboração entre as pessoas (TERVEEN; MCDONALD, 2005)
Recomendações de pessoas são utilizados para relacionamentos amorosos (MENDONÇA,
2014), amizades (HANNON; MCCARTHY; SMYTH, 2012), formação de equipes de trabalho
(GARTRELL et al., 2010), identificação de especialista em um determinado assunto
(DAVOODI; AFSHARCHI; KIANMEHR, 2012) e etc.
Para que um sistema de recomendação possa realizar recomendações é necessário
que ele possua ou tenha acesso a características e preferências do usuário (JANNACH et al.,
2010). Por exemplo, em uma rádio online, é necessário guardar quais músicas o usuário já
ouviu e quais notas (ou likes ou ratings) ele já atribuiu às músicas para poder recomendar
itens baseados em seu interesse.
Há diferentes métodos para gerar recomendações a um usuário, tais como: filtro
colaborativo, baseada em conteúdo e híbrida. Cada uma destes métodos será apresentado
resumidamente a seguir.
35
3.2.1.1 Limitações
O filtro colaborativo se baseia nas opiniões sobre itens feitas pelos usuários, sejam
elas a visualização de um item ou a classificação dada a um item ou a compra de um item.
Se não há nenhum registro de opinião sobre um determinado item ou se um usuário
nunca opinou sobre item nenhum, como recomendar este item ou como recomendar itens
a esse usuário?Este problema é conhecido como cold start (RICCI et al. 2011).
Algumas estratégias podem ser adotadas para contornar este problema, como por
exemplo, pedir ao usuário que ele classifique alguns itens antes d sistema realizar
recomendações para ele (RICCI et al., 2011).
3.2.2.1 Limitações
Esta técnica está diretamente relacionada com as características disponíveis dos itens
recomendados. Sendo assim, uma das limitações é a disponibilidade de tais características.
Para obter uma quantidade suficiente de características, o conteúdo deve estar em um
37
formato que o computador consiga extrair, como texto ou ser adicionado manualmente
(ADOMAVICIUS; TUZHILIN, 2005).
3.2.3 Híbrida
A abordagem híbrida combina diferentes métodos de recomendação. Ela combina os
métodos para tentar utilizar as vantagens de um para consertar as desvantagens de outro
(RICCI et al., 2011).
Em uma abordagem híbrida é possível combinar o métodofiltro colaborativo com o
baseado em conteúdo e, levar em consideração, tanto a opinião dos usuários quanto as
características dos itens a serem recomendados. Tal abordagem pode ajudar a resolver o
problema do cold start, por exemplo (JANNACH et al., 2010).
A recomendação de relacinamentos em redes sociais científicas mencionada
anteriormente, pode utilizar uma abordagem híbrida. Podem ser levados em consideração
tanto as características dos pesquisadores, como área de atuação e expertise, quanto os
relacionamentos de parceria que eles possuem em comum com outros pesquisadores.
3.3 Conclusão
Neste capítulo foi apresentado resumidamente o que é um sistema de
recomendação e os principais métodos existentes.
Cada método apresentado pode ser aplicada de acordo com o contexto existente. Em
contexto que não há muita informação sobre os itens a serem recomendados, pode-se
utilizar o filtro colaborativo. Por outro lado, quando se sabe as características dos itens a
serem recomendados, o método baseado em conteúdo pode ser mais útil. O método
híbrido, como é uma composição de métodos, é melhor utilizado quando há contextos que
atendem tanto ao filtro colaborativo quanto ao baseado em conteúdo.
A abordagem de recomendação proposta neste trabalho pode ser considerada um
método híbrido de recomendação, pois ela leva em consideração tanto a opinião dos
pesquisadores (que seria inferida a partir dos relacionamentos passados entre eles) quanto
às características deles, como áreas de atuação e expertise.
Existem diversos trabalhos que utilizam métodos de recomendação para
recomendação de parcerias entre pesquisadores, conforme pode ser visto no capítulo 4.
38
Este capítulo tem por objetivo descrever os trabalhos existentes na literatura sobre
recomendação de relacionamentos em redes sociais, principalmente redes sociais
científicas. Para isso, são apresentadas as principais características dos métodos de
recomendação de relacionamentos existentes utilizando redes sociais.
Palavras-chaves também são utilizadas por (SIE et al., 2012), porém, em seu trabalho
ele considera as palavras-chaves que já estão presentes nas publicações. Ele optou por isso
porque, segundo ele, utilizar palavras-chave de títulos das publicações para inferir as áreas
de atuação de um pesquisador nem sempre é uma boa ideia, pois existem artigos que
utilizam frases para chamar atenção em seus títulos ou utilizam expressões/provérbios que
não representam bem o conteúdo da publicação. (SIE et al., 2012), assim como (LOPES et al.,
2010), propõe um novo método de recomendação de relacionamentos (novos ou já
existentes, dependendo da escolha do usuário) em redes sociais científicas homogêneas de
coautoria, considerando tanto as características dos pesquisadores quanto da topologia da
rede (betweenness centrality). Os objetivos de (SIE et al., 2012) são: fazer com que
pesquisadores tomem ciência uns dos outros; promover a colaboração e aumentar a
eficiência e eficácia da colaboração. Para sua proposta, (SIE et al., 2012) baseou-se na teoria
da utilidade, em que a pessoa a ser recomendada deve possuir algum valor agregado a ela e,
no fato de que a coautoria de artigos possibilitam o aprendizado conjunto e a inovação.
(XU et. al, 2010) também utiliza as áreas de atuação dos pesquisadores para gerar
recomendações, porém, em seu trabalho ele chama as áreas de atuação de expertise.
Segundo (XU et. al, 2010) é sabido que diferentes pesquisadores utilizam diferentes termos
para se referirem ao mesmo conceito. Devido a isso, em seu trabalho ele utiliza análise
semântica para medir a similaridade entre as áreas de atuação.
Há trabalhos que não levam em consideração palavras-chaves extraídas de artigos
para medir a semelhança entre pesquisadores, mas sim as referências e citações. É o caso
do trabalho de (HECK, 2013), onde é proposto um método de recomendação de
relacionamentos (novos ou já existentes) em que dois pesquisadores são semelhantes se
uma porcentagem dos trabalhos referenciados em suas publicações for igual. Se dois
pesquisadores forem citados pelos mesmos trabalhos, também são considerados
semelhantes. Ao usar essa abordagem, (HECK, 2013) está indiretamente tentando descobrir
as áreas de pesquisa dos pesquisadores. Utilizar as citações e as referências para inferir
similaridade nem sempre pode ser uma boa estratégia, pois há muitos trabalhos
interdisciplinares que podem citar e referenciar outros que não pertencem ao assunto
principal da publicação.
42
Um desafio nesta área é levar em consideração características pessoais dos nós para
fazer as recomendações, pois é difícil obter tais dados (SUN et al., 2011). Já características
profissionais, com respeito a publicações, encontram-se disponíveis em diferentes bases de
dados na World Wide Web, como por exemplo, a base de dados da (DBLP, 2015). Outras
informações como titulação, projetos e participação em eventos, no âmbito nacional, podem
ser extraídas da Plataforma Lattes (LATTES, 2015). Para tentar utilizar tais características
pessoais, (MONCLAR, 2008) utilizou o Myers-Briggs Type Indicator (MBTI) para identificar o
perfil psicológico de cada pesquisador. Com ele, foi possível recomendar pesquisadores com
perfis compatíveis, idênticos e opostos. Em seu trabalho, (MONCLAR, 2008) propõe uma
abordagem para identificar nós problemáticos em uma rede social científica heterogênea,
ou seja, nós que se encontram isolados ou que se retirados da rede causarão prejuízo para o
fluxo da informação. Para melhorar o fluxo da informação na rede, (MONCLAR, 2008)
propõe um método de recomendação de novos relacionamentos para os nós identificados
como problemáticos na rede. Em seu método, dentre outros fatores, são recomendados
pesquisadores que tenham expertises iguais. Isto pode ser ruim para dois pesquisadores em
início de carreira, que não tem experiência e nem tem uma rede de contatos consolidada.
Para pesquisadores juniores talvez seja mais interessante se relacionar com pesquisadores
mais experientes de modo que o conhecimento seja transmitido. (BRANDÃO; MORO, 2012)
propõe uma nova metodologia para recomendar novas colaborações ou intensificar
relacionamentos já existentes chamada de Affin. Tal metodologia faz uso do princípio de
homofilia, considerando a afiliação institucional. (BRANDÃO; MORO, 2012) parte do
princípio de que pesquisadores tendem a colaborar com pesquisadores de instituições com
as quais eles já tenham colaborado anteriormente. Além disso, (BRANDÃO; MORO, 2012)
também utiliza a métrica proximidade social (LOPES, 2012) para medir a similaridade entre
dois pesquisadores. Esta métrica leva em consideração o menor caminho entre dois nós,
portanto, o método de recomendação proposto é baseado tanto nas características dos nós
quanto na estrutura da rede.
As características citadas anteriormente para recomendar pares são comumente
encontradas na literatura. São características clássicas que compõe o perfil de um
pesquisador e que são utilizadas em muitos trabalhos. No entanto, (HECK, 2013) propõe
uma característica nova, que não provém diretamente do pesquisador, mas do olhar que
43
uma pessoa tem sobre os trabalhos daquele pesquisador. Ela propõe explorar as
informações contidas em redes sociais online, como por exemplo, o (CITEULIKE, 2015), para
melhorar a recomendação. Para isso, ela usa as classificações dadas aos artigos dos
pesquisadores para detectar a semelhança entre eles. Essa classificação é feita por usuários
do (CITEULIKE, 2015) a partir de tags. Os pesquisadores que possuem trabalhos classificados
com um conjunto de tags iguais são considerados similares. O método de (HECK, 2013)
utiliza apenas características dos nós para realizar recomendações.
A estrutura de uma rede social pode afetar o seu funcionamento, ou seja, o modo
como a informação se propaga entre os membros da rede (OLIVEIRA, 2012). A partir da
análise da estrutura é possível detectar problemas na mesma e, uma tentativa de amenizar
tais problemas é fazer a recomendação de relacionamentos. Um problema que pode ser
encontrado em uma rede social científica é a presença de pontes. Uma ponte é um nó que
liga sub-redes, ela é um gargalo que pode exercer controle sobre os demais nós, filtrando
dados, informações e conhecimentos (MONCLAR, 2008). Com a saída de tais nós da rede, a
mesma fica desconectada, ou seja, pode deixar de existir um caminho entre todos os nós,
prejudicando o fluxo da informação. Para detectar nós problemáticos na rede, (MONCLAR,
2008) utiliza algumas métricas que detectam características dos nós e da rede como um
todo, tais como: densidade, inclusividade, centralidade local absoluta, centralidade local
relativa e centralidade global. Segundo (MONCLAR, 2008), as pontes podem ser detectadas a
partir das centralidades local absoluta, local relativa e global. Além das métricas já citadas,
uma métrica que também pode auxiliar na detecção de problemas em uma rede é a
betweenness centrality (NEWMAN, 2010). Esta métrica representa o número de caminhos
mínimos que passam por um nó na rede. No contexto de uma rede social científica de
coautoria, ela indica a extensão com que outros autores são dependentes de um autor em
termos de fluxo de informação (SIE et al., 2012). Um pesquisador com betweenness elevado
tem grande poder sob a disseminação do conhecimento pela rede. Em seu trabalho,
(OLIVEIRA, 2012) também utiliza a topologia da rede para prever relacionamentos, porém,
com uma proposta diferente: ao invés de prever um relacionamento no futuro que não
existe no presente, ele prevê relacionamentos recorrentes, ou seja, prevê se existirão novos
relacionamentos no futuro entre dois nós que já possuem pelo menos um relacionamento
no presente. Para isso, ele utiliza redes de coautoria em seu experimento. A maioria dos
44
pesquisadores que têm um relacionamento com um artigo são coautores, (LEE; ADORNA,
2012) acrescenta um relacionamento direto entre os dois pesquisadores. Porém, as métricas
utilizadas por (LEE; ADORNA, 2012) e a abordagem para fazer as recomendações são
diferentes das do trabalho de (SUN et al., 2011). Apenas o modelo para construção da rede
que foi utilizado e adaptado. Mais detalhes sobre o trabalho de (LEE; ADORNA, 2012) podem
ser lidos no capítulo 7. Ainda sobre redes heterogêneas, (MONCLAR, 2008) utiliza
relacionamentos pouco explorados para elaborar sua rede heterogênea. Além de dados
contidos na Plataforma Lattes, ele utiliza informações de comunicação extraídas da
ferramenta GCC (OLIVEIRA et al., 2005), como e-mails e tópicos postados em fóruns.
Conforme visto anteriormente, para fazer a recomendação de relacionamentos em
uma rede social podem ser utilizadas diferentes características da mesma, como:
características dos nós, topologia da rede, diferentes tipos de nós, diferentes tipos de
relacionamento, apenas um tipo de nó e apenas um tipo de relacionamento. Apesar dos
atributos dos nós enriquecerem a recomendação, nem sempre é possível obter tais dados.
Nestes casos, a recomendação pode ser feita utilizando apenas a topologia da rede. A partir
destas características analisadas, é possível definir um grau de similaridade entre dois nós.
Se a similaridade for grande, é feita a recomendação de um relacionamento entre eles. Além
disso, há também diferentes algoritmos que podem ser considerados para percorrer a rede e
realizar a recomendação de pares, como Random Walk (BACKSTROM; LESKOVEC, 2011) e
Route Accessibility (CHEBOTAREV; SHAMIS 1998). (LEE; ADORNA, 2012), por exemplo,
propõe um algoritmo baseado no Random Walk para percorrer a rede e calcular a
probabilidade de existir um relacionamento entre dois nós no futuro. Se a probabilidade for
grande, é recomendado um relacionamento entre os dois nós.
São utilizadas algumas estratégias para avaliar os algoritmos de recomendação de
relacionamentos propostos. Uma estratégia possível em uma rede social científica de
colaboração é pedir para que os pesquisadores avaliem as recomendações feitas, dando
uma nota que varia de acordo com a probabilidade de se trabalhar no futuro com aquela
pessoa ou não. Por exemplo, pode-se pedir para os pesquisadores darem uma nota de 1 a 5
às recomendações, onde 5 significa que o pesquisador trabalharia com o outro com absoluta
certeza e 1 significa que ele nunca trabalharia com aquela pessoa. (HECK, 2013) utilizou uma
estratégia parecida: ela pediu aos pesquisadores para ordenarem os pesquisadores
46
recomendados do não relevante (nota 1) ao mais relevante (nota 10). Outra estratégia é
utilizar algumas métricas conhecidas para avaliar as recomendações, tais como: precisão,
revocação, confiança, cobertura, e etc. No trabalho de (BRANDÃO; MORO, 2012), ela avalia
seu método de recomendação utilizando as métricas novidade, diversidade, precisão e
revocação. As métricas de diversidade e novidade foram adaptadas para o cenário científico.
A Tabela 5 apresenta as principais características dos principais trabalhos
mencionados, conforme divisão a seguir: 1) método de recomendação indica o tipo de
estratégia utiizada para fazer a recomendação; 2) tipo de rede classifica o método quanto a
rede utilizada; 3) tipo de recomendação apresenta se o método recomenda novos
relacionamentos ou não.
estrutura da
rede;
Baseado no
conteúdo; Relacionamentos novos;
LEE; ADORNA Baseado na Heterogênea Relacionamentos já
estrutura da existentes;
rede;
Baseado no
conteúdo do nó;
MONCLAR Baseado na Heterogênea Relacionamentos novos;
estrutura da
rede;
Baseado no
conteúdo;
MÉTODO
Baseado na Heterogênea Relacionamentos novos;
PROPOSTO
estrutura da
rede;
4.3 Conclusão
Lattes, por isso, caso fosse necessário realizar uma pesquisa que envolva pesquisadores de
todo o mundo, o Lattes não poderia ser a única base de dados utilizada.
O CNPq não disponibiliza inteiramente a base de dados do Currículo Lattes para as
instituições de ensino, disponibiliza apenas as informações dos pesquisadores e alunos da
própria Instituição. Por exemplo, um aluno da UFRJ que precise dos dados do Lattes devido
ao seu tema de pesquisa, só tem acesso aos dados da própria UFRJ. Dependendo do tema da
pesquisa dele, somente essas informações podem não ser suficientes.
Para contornar isso, existem alguns sistemas que foram criados para extrair as
informações do Lattes, tais como o scriptLattes (MENA-CHALCO; CESAR JUNIOR, 2009) e o
Sucupira (ALVES; YANASSE; SOMA, 2011). Essas ferramentas serão descritas nas seções
5.4.1 e 5.4.2 respectivamente.
Figura 7. Página sobre Social Network do Microsoft Academic Search (MICROSOFT RESEARCH,
2015b).
Figura 8. Perfil da professora Jonice Oliveira no Microsoft Academic Search (MICROSOFT RESEARCH,
2013a).
54
Figura 9. Parte do perfil da prof. Jonice Oliveira no Microsoft Academic Search que apresenta as
conferências em que ela já participou (MICROSOFT RESEARCH, 2013a).
Figura 10. Parte do perfil da Prof. Jonice Oliveira no Arnet Miner (ARNET MINER, 2013b).
57
Figura 11. Parte relativa a conferências do perfil da Prof. Jonice Oliveira no Arnet Miner (ARNET
MINER, 2013b).
Figura 12. Áreas de interesse alteradas por terceiros em um perfil do Arnet Miner (ARNET MINER,
2013f).
5.1.4 DBLP
A DBLP (Digital Bibliographic & Library Project) (DBLP, 2013a) é um repositório
bibliográfico on-line na área de Ciência da Computação criada por Michael Ley na
58
Devido a detecção automática dos dados, suas informações não são tão confiáveis ou
completas. Por exemplo, há pesquisadores que possuem mais de um perfil na DBLP devido
aos diferentes nomes utilizados em publicações. Em alguns casos, a própria DBLP consegue
detectar que os perfis pertencem ao mesmo pesquisador, mas isso não é verdadeiro
sempre. Alguns pesquisadores também possuem perfis com pouquíssimas publicações
quando comparados ao Currículo Lattes. Um exemplo para ambos os casos é o perfil do Prof
Adriano Joaquim Cruz, da UFRJ. Em dezembro de 2013 a DBLP apresentava 3 perfis
diferentes para ele. Além disso, os perfis tinham no máximo 4 publicações, o que não
condizia com a verdade.
A DBLP disponibiliza seus dados totalmente via arquivo XML (DBLP, 2013e; LEY,
2009a). Caso não queira acesso a todos os dados, mas apenas a uma parte deles, é possível
fazer requisições a base da DBLP a partir de uma API disponibilizada por eles (LEY, 2009b).
Através desta API é possível consultar, por exemplo, a um pesquisador em específico, aos
coautores de um pesquisador e às publicações de um pesquisador (LEY, 2009b).
Figura 16. Perfil da prof. Jonice Oliveira no Research Gate (RESEARCH GATE, 2015b).
Não foi encontrada nenhuma forma de disponibilização dos dados por parte do
Research Gate, seja via XML ou via serviço web.
Figura 17. Perfil da prof. Jonice Oliveira no Google Acadêmico (GOOGLE, 2015b).
Não foi encontrada nenhuma forma de disponibilização dos dados por parte do
Google Acadêmico, seja via XML ou via serviço web.
GOOGLE Manual e
Não Sim Parcial
ACADÊMICO Automática
Como pode ser visto na Tabela 6, somente o Currículo Lattes apresenta a inserção dos dados
totalmente manual, o que faz com que seus dados sejam totalmente confiáveis. As demais
bases apresentam inserção dos dados automática ou mista (manual e automática).
5.4.1 ScriptLattes
O scriptLattes é um software livre de código aberto criado para extrair e compilar
automaticamente algumas informações do Currículo Lattes, tais como: produções
bibliográficas, produções técnicas, produções artísticas, orientações, projetos de pesquisa,
prêmios e títulos, grafo de colaborações, mapa de geolocalização, coautoria e
internacionalização (MENA-CHALCO, 2009).
Ele foi desenvolvido por Jesús Pascual Mena-Chalco (da Universidade Federal do ABC,
Sâo Paulo) e Roberto Marcondes Cesar Junior (da Universidade de São Paulo) e, sua versão
atual foi desenvolvida utilizando a linguagem de programação Python (PYTHON, 2015).
Com esta ferramenta é possível definir o conjunto de pesquisadores que você deseja
obter as informações do Lattes. Dado esse conjunto de pesquisadores, o scriptLattes irá
extrair seus dados e gerar relatórios em formato HTML, como por exemplo, um relatório que
contêm o grafo de coautoria dos pesquisadores definidos inicialmente. Também é possível
extrair os dados do Lattes no formato XML.
Uma restrição desta ferramenta é que ela só pode ser executada no sistema
operacional Linux.
5.4.2 Sucupira
O Sucupira (ALVES; YANASSE; SOMA, 2011) é um sistema de extração de informação
da Plataforma Lattes para identificação de redes sociais acadêmicas. Este sistema está sendo
desenvolvido por um grupo de pesquisadores do INPE e do ITA. Em dezembro de 2013,
momento que iniciamos a coleta dos dados desta trabalho, ainda não havia uma versão
deste sistema disponível para uso público.
De acordo com (ALVES; YANASSE; SOMA, 2011), este sistema permite ao usuário
adicionar uma lista de pesquisadores que ele desejar comparar e analisar. A partir disso, é
possível visualizar a localização de um pesquisador da sua lista em um mapa, assim como
visualizar o gráfico de publicações desses pesquisadores. A principal funcionalidade do
65
5.5 Conclusão
Após analisar as ferramentas descritas, optamos por criar a nossa própria ferramenta
de extração de dados do Currículo Lattes devido aos seguintes motivos: 1) a ferramenta
Sucupira ainda está em fase de desenvolvimento e nenhuma versão estava disponível para
uso em dezembro de 2013; além disso, a princípio não foi encontrada nenhuma informação
relatando se ela ficaria disponível publicamente para que terceiros a utilizem para a
extração; 2)a ferramenta scriptLattes não extrai todas as informações necessárias a nossa
pesquisa, sendo necessária a sua adaptação. Por exemplo, informações como formação
acadêmica, bolsa de produtividade, áreas de atuação e atuação profissional não são
extraídas pela mesma em sua versão atual. Para adaptá-la, inicialmente seria necessário
entender o código desenvolvido e não foi encontrado nenhum manual técnico ou API para
isso. Por isso, concluímos que o esforço gasto para modificar o scriptLattes seria no mínimo
igual ao esforço gasto para construir um extrator próprio.
Antes de optarmos de criar o nosso próprio extrator, entramos em contato com a
área de atendimento da Plataforma Lattes por e-mail e por telefone durante os meses de
novembro e dezembro de 2013 e janeiro e início de fevereiro de 2014, para saber se eles
poderiam disponibilizar seus dados para a nossa pesquisa. O primeiro contato foi feito por e-
mail, onde nos responderam para entrarmos em contato através do telefone. Ao entrar em
contato pelo número de telefone indicado, não souberam nos informar nada a respeito e
pediram para entrar em contato por e-mail novamente, de forma que o e-mail seria
encaminhado com urgência para o setor responsável. Foram feitas várias tentativas por e-
mail novamente, mas não obtivemos nenhuma resposta.
Para extrair os dados disponíveis no Currículo Lattes precisamos criar um extrator
destas informações. Como a criação do extrator do currículo Lattes é parte do
desenvolvimento deste trabalho, ele está descrito na seção 6.4.1 intitulada Extração de
66
dados dos Curriculos Lattes. Nesta seção são descritos as etapas necessárias e os desafios
encontrados para o desenvolvimento do extrator.
67
1) Pesquisador
Este nó representa um profissional que atua na área de pesquisa em instituições
de pesquisa brasileiras, como universidades. O pesquisador é o nó central da rede
pois todos os relacionamentos existentes na rede têm origem nele.
Para realizar a recomendação de pesquisadores foi necessário coletar dados para
construir o perfil do pesquisador. Dessa forma, os demais nós da rede são nós
que complementam e enriquecem as informações sobre um pesquisador na rede.
2) Publicação
A publicação representa um artigo escrito por um ou mais pesquisadores. Ela
pode ser publicada em diversos meios, como periódicos e anais de congresso e,
ainda ser um capítulo de livro.
Uma das formas de publicação, o artigo, ainda é um dos principais, senão o
principal meio de divulgação do trabalho científico e por isso foi considerado
neste trabalho. A partir dos artigos publicados por um autor é possível inferir as
áreas de atuação em que ele trabalha, por exemplo. Além disso, é possível
analisar a evolução das áreas de atuação de um pesquisador no decorrer de sua
69
3) Projeto
O nó projeto representa projetos de pesquisa de um pesquisador. Ele é um plano
do trabalho que o pesquisador deseja realizar. Tais projetos podem ser
desenvolvidos em grupo, com outros pesquisadores, colaboradores e alunos, ou
sozinho. Usualmente tem prazo e metas para serem cumpridas dentro deste
prazo.
A partir dos títulos dos projetos, assim como dos artigos, é possível inferir áreas
em que um pesquisador trabalha.
4) Trabalho
O nó trabalho representa qualquer trabalho desenvolvido por um ou mais alunos
e supervisionado por um ou mais pesquisadores, podendo ser, a princípio, uma
dissertação de mestrado, tese de doutorado, iniciação científica, dentre outros.
5) Área de Atuação
O nó área de atuação representa as áreas em que um pesquisador atua, ele
indica os campos de interesse dele. Tais áreas podem ser mais genéricas, como
Ciência da Computação, ou mais específicas, como Sistemas de Recomendação. A
partir da área de atuação dos pesquisadores é possível formar grupos de
pesquisadores que atuem na mesma área ou ainda, recomendar pesquisadores
que atuem em áreas similares ou complementares.
1) Coautoria
O relacionamento de coautoria é caracterizado pela colaboração realizada entre
pesquisadores para escrever uma publicação, podendo ser um capítulo de livro
ou um artigo. Ou seja, é o relacionamento inferido entre os nós pesquisadores a
partir do relacionamento existente entre o nó pesquisador e o nó publicação.
Este relacionamento é o mais utilizado para analisar as colaborações entre
pesquisadores (TORAL et al., 2011), por isso foi utilizado neste trabalho.
O relacionamento de coautoria entre pesquisadores pode indicar que eles
possuem interesses em comum, sejam na mesma área de atuação ou em áreas
complementares. É um relacionamento direto, pois, a colaboração existe a partir
de uma escolha direta dos pesquisadores em realizarem um trabalho juntos.
Se o relacionamento se repetir por muitas vezes, é um indicativo que a parceria
entre eles é positiva. Se o relacionamento ocorrer apenas uma única vez pode ser
um indicativo de que a parceria não deu certo, ou que um dos pesquisadores
mudou sua área de interesse, ou ainda que eles não tiveram outra oportunidade
de trabalhar juntos. Mas, qualquer que seja o motivo, essa parceria foi
interrompida, e isso é um fator que pode ser levado em consideração para
realizar recomendações.
71
2) Co-participação em projeto
Este relacionamento é caracterizado pela participação de pesquisadores em um
mesmo projeto. Ou seja, é o relacionamento entre dois pesquisadores inferido
pelo relacionamento de participação em projeto entre o nó projeto e o nó
pesquisador.
Um pesquisador pode escrever um artigo com outro sem nunca ter participado
de um projeto com ele. Da mesma forma, um pesquisador pode participar de um
projeto com outro e não possuir um artigo com ele. Este segundo caso
provavelmente ocorre menos, pois uma publicação seria, na maioria das vezes,
uma consequência natural de um projeto de pesquisa. De toda forma, há
pesquisadores que somente se relacionam através da colaboração em projetos.
Geralmente, um projeto envolve um número maior de participantes do que a
autoria de uma publicação. Algumas vezes os pesquisadores participam de
projetos em que não conhecem pessoalmente os outros participantes. Além
disso, projetos podem ser interdisciplinares, envolvendo pesquisadores de
diferentes áreas. Este fato ajuda a aumentar e a diversificar os nós próximos a um
pesquisador na rede, possibilitando novas parcerias.
Veja por exemplo a Figura 19. Nela, há uma rede social em que cada retângulo
representa o nó pesquisador. Cada nó pesquisador tem descrita a sua área de
atuação. As linhas contínuas existentes entre os retângulos representam os
relacionamentos de co-participação em projetos dos pesquisadores. Já as linhas
tracejadas indicam que cada nó possui outros diversos relacionamentos de co-
participação em projetos com outros pesquisadores. Observe que o Pesquisador
1 da área de Sistemas de Recomendação possui, representado na rede, um
relacionamento com o Pesquisador 3, também da área de Sistemas de
Recomendação e, um relacionamento com o Pesquisador 5, da área de
Otimização. A partir do relacionamento existente com o Pesquisador 5 de
Otimização, o Pesquisador 1 de Sistemas de Recomendação pode vir a se
relacionar com o Pesquisador 7 de Cálculo Numérico, que é de uma área distinta
da sua, porém, que está relacionada com a área de um nó vizinho e que pode vir
a ser útil. O mesmo ocorre com os pesquisadores 4, 6, 8 e 9. Todos podem ser
72
Figura 19. Exemplo de rede social com nós demonstrando a principal área de atuação de um
pesquisador.
3) Co-participação em banca
Este relacionamento representa a participação de pesquisadores na mesma
banca de defesa de trabalho, que pode ser a defesa de uma dissertação,
doutorado, projeto final de curso, qualificação, e etc. Ou seja, é um dos
relacionamentos existentes entre o nó pesquisador e nó trabalho.
73
4) Co-atuação
5) Coorientação
Além dos nós e dos relacionamentos que compõe a rede social, outras características
dos pesquisadores foram utilizadas para propor o método de recomendação, conforme visto
na Tabela 8. A seguir, estas características serão descritas:
1) Formação Acadêmica
2) Atuação Profissional
6.2.1 Expertise
A expertise mede o grau de conhecimento de um pesquisador em uma determinada
área ou assunto. Neste trabalho, ela indica o grau de maturidade de conhecimento do
pesquisador em sua(s) área(s) de atuação, podendo ser sênior, pleno ou júnior.
77
nível mais alto da carreira atingido quando o mesmo se torna Emérito. Para cada um desses
níveis de carreira, o pesquisador deve possuir uma titulação mínima. Por exemplo, para um
pesquisador ser Assistente é necessário que ele possua pelo menos o título de Mestre.
Quanto maior a titulação, maior o nível de carreira que o pesquisador pode atingir. Além da
titulação mínima, outros fatores são considerados para que um pesquisador atinja cada um
desses níveis em sua carreira, como publicações, sua produção técnica e científica, atividade
de docência, orientações e a relevância delas.
Considerando esses fatores, para cada um dos níveis da carreira de um pesquisador
foi atribuído um peso variando de 1 a 3, onde 3 indica o nível mais alto da carreira e 1 indica
o nível inicial. A Tabela 9 a seguir apresenta tais pesos separados por nível.
Além dos níveis que fazem parte da progressão habitual da carreira do pesquisador,
contidos na tabela acima, foram encontrados diversos outros níveis em nossa base de dados
extraídos do currículo Lattes, tais como: Pesquisador Doutor, Pesquisador Sênior,
Pesquisador Permanente, Pesquisador Visitante, etc. Nesses casos foi atribuído peso 0,5 a
atuação profissional do pesquisador.
Para calcular o fator de atuação profissional (A(P)) da função de expertise foi utilizada
a Equação 3 a seguir, considerando apenas a atuação profissional atual do pesquisador
Onde:
-P representa o pesquisador.
-p atuação é o peso dado à atuação profissional atual do pesquisador, conforme Erro!
Fonte de referência não encontrada..
- p3 é o peso atribuído ao fator atuação profissional na função expertise.
Este fator da função expertise leva em consideração apenas o produto entre o peso
dado à atuação profissional atual do pesquisador e o peso dado a este fator na própria
função de expertise.
Quanto mais elevado for o nível de atuação profissional atual do pesquisador, maior
será esse termo na função expertise.
Produtividade em Desenvolvimento
3
Tecnológico e Extensão
Desenvolvimento Científico Regional
2,5
Extensão no País
1,5
Demais
1
Tabela 11. Pesos atribuídos aos níveis das bolsas de Produtividade em Pesquisa e Produtividade em
Desenvolvimento Tecnológico e Extensão.
TIPO DE PRODUTIVIDADE EM PESQUISA/PRODUTIVIDADE
BOLSA EM DESENVOLVIMENTO TECNOLÓGICO E EXTENSÃO
82
NÍVEL DA
2 1D 1C 1B 1A
BOLSA
PESO 1 2 2,3 2,6 3
Tabela 12. Pesos atribuídos aos níveis das bolsas de Desenvolvimento Tecnológico e Industrial,
Desenvolvimento Científico Regional e Extensão no País.
TIPO DE DESENVOLVIMENTO TECNOLÓGICO E INDUSTRIAL/
BOLSA DESENVOLVIMENTO CIENTÍFICO REGIONAL/EXTENSÃO NO PAÍS
NÍVEL DA
C B A
BOLSA
PESO 1 2 3
Tabela 13. Pesos atribuídos aos níveis de bolsas de Fixação e Capacitação em Recursos Humanos.
TIPO DE
FIXAÇÃO E CAPACITAÇÃO DOS RECURSOS HUMANOS
BOLSA
NÍVEL DA I G G F E D C B A
BOLSA I H G F E D C B A
1 1 1 1 2 2 2 2 3
PESO
1 1.3 1.5 1.7 2 2.3 2.5 2.7 3
Onde:
- P representa o pesquisador.
83
Mestrado 2
Graduação 1
Especialização 1
Onde
-P representa o pesquisador.
- Δ = a1 – a2, onde a1 é o ano atual e a2 é o ano de obtenção do título.
- pformação é o peso atribuído a última titulação do pesquisador, conforme Tabela 14.
- p1 é o peso atribuído ao termo de formação acadêmica na função expertise.
Para calcular este fator, foram considerados a última titulação obtida e o ano de
obtenção desta última titulação. Conforme dito anteriormente, se um pesquisador possuir
dois doutorados como últimas formações,será considerado o primeiro doutorado obtido
para calcular este fator.
Foi utilizada a função potência f(Δt) = 1,05Δt para definir a influência do tempo de
formação acadêmica do pesquisador em sua expertise. No domínio definido para valores
positivos, esta função é crescente. Pode-se observar, conforme gráfico abaixo, que a função
escolhida cresce mais rapidamente no eixo x (tempo de obtenção do último título) do que
no eixo y (fator formação acadêmica). Nos vinte primeiros anos após a obtenção do título, o
pesquisador vai acumulando conhecimento e o crescimento se dá quase que com a mesma
variação. Porém, nos vinte anos seguintes, o pesquisador já acumulou conhecimento e o
crescimento se dá de forma mais acelerada.
85
Olhando para o gráfico da função potência f(Δt) = 1,05Δt (Figura 20), no intervalo de 0
a 43 anos (tempo médio estimado da última formação acadêmica de um pesquisador sênior,
conforme será visto no final deste capítulo), percebe-se que nos primeiros anos de formação
há um crescimento menor comparado com os anos seguintes. Por exemplo: observando o
intervalo que corresponde aos vintes primeiros anos de obtenção do último título do
pesquisador, verifica-se que o valor desta função é de aproximadamente 2,6. Comparando-
se com os vinte anos seguintes, verifica-se que o crescimento quase triplicou, já que o valor
correspondente aos 40 anos de formação equivale aproximadamente a 7. O uso desta
função beneficia o crescimento em nível de conhecimento de um pesquisador com o passar
dos anos na academia. Não há a intenção de penalizar um pesquisador jovem, mas sim, de
beneficiar o acúmulo de experiência de um pesquisador com uma grande estrada acadêmica
já percorrida.
86
Figura 20. Gráfico da função f(Δt) = 1,05Δt que representa o acúmulo de conhecimento do
1
pesquisador no decorrer dos anos posteriores a sua formação.
Onde:
- P representa um pesquisador.
- O primeiro termo da função corresponde à formação acadêmica atual
(Equação 5).
1
Gráfico construído utilizando o site http://www.calculadoraonline.com.br/grafica.
87
Para definir o valor de cada um dos pesos dados aos fatores da equação de expertise
(p1, p2 e p3) foram realizados diversos cálculos com uma amostra de pesquisadores
contidos na base de dados. Para realizar tais cálculos foram selecionados pesquisadores
com: 1) expertises já conhecidas; 2) diferentes graus de expertise (sênior, pleno e júnior). O
valor absoluto dado aos pesos variou de acordo com a importância definida para cada um
dos fatores. Pelos motivos já apresentados nesta seção, foi definido que o fator de atuação
profissional seria o de maior importância, seguido pelo fator de bolsa de produtividade e,
por último, pelo fator de formação acadêmica. Para garantir esta condição desejada, foi
calculado cada fator separadamente. Considerando o tempo médio estimado que um
pesquisador sênior possui desde a sua última formação, ou seja, 43 anos, e fixando p1 = 1, o
fator de formação acadêmica tem como valor máximo aproximadamente 24,5. Logo, p2 e p3
precisavam ser números que tornassem os fatores da bolsa do CNPq e atuação profissional
maiores que o de formação acadêmica. Para p2 = 4, temos que o fator de bolsa do CNPq tem
88
como valor máximo 36 e, para p3 = 16, temos que o fator de atuação profissional tem como
valor máximo 48. Portanto, com esses valores conseguimos garantir a condição desejada.
Baseado nos testes realizados, os pesos definidos são apresentados na Tabela 15.
seria qualquer tipo de relacionamento entre os pesquisadores. De uma forma geral, sabe-se
que: a probabilidade dos pesquisadores se relacionarem é diretamente proporcional ao
número de colaboradores que eles possuem em comum (NEWMAN, 2001a). Ou seja, quanto
maior número de colaboradores (vizinhos) que eles possuem em comum, maior será a
probabilidade deles se relacionarem. Pode-se supor então que isto ocorre devido a
influência ou indução, mesmo que indireta, dos vizinhos em comum, ou seja, os vizinhos em
comum induzem os pesquisadores a formarem novas parcerias. Quanto maior o número de
vizinhos em comum, maior deve ser a probabilidade desses pesquisadores se conhecerem
também. Lembrando que vizinho é qualquer nó com quem outro nó possui um
relacionamento. Logo, vizinhos em comum são os nós em comum com que dois nós
possuem relacionamentos.
Portanto, o fator de compatibilidade entre vizinhos em comum da equação de
recomendação proposta foi baseado no conceito de indução observado por (CHRISTAKIS;
FOWLER, 2012) e na conclusão sobre as colaborações científicas feitas por (NEWMAN,
2001a).
Para exemplificar este fatorsuponha que há um relacionamento entre o pesquisador
A e a pesquisadora B e, que a pesquisadora B tenha um relacionamento também com o
pesquisador C. Suponha também que A e C não tenham nenhum relacionamento de
colaboração, porém, tenham muitos vizinhos em comum. De acordo com o exposto
anteriormente, A tende a ter um relacionamento de colaboração com C no futuro.
O fator de compatibilidade proposto neste trabalho mede o quão compatíveis dois
pesquisadores são, visando um relacionamento futuro, a partir dos diferentes tipos de
relacionamentos que eles possuem com os vizinhos que eles têm em comum. Quanto maior
o número de vizinhos em comum e quanto maior a compatibilidade dos pesquisadores com
esses vizinhos, acreditamos que maior será a probabilidade deles virem a colaborar no
futuro. Portanto, a compatibilidade entre os pesquisadores é dada pela compatibilidade que
os pesquisadores têm com seus vizinhos em comum. Se ambos possuem uma
compatibilidade alta com seus vizinhos em comum, logo a compatibilidade entre eles
também será alta. Se ambos possuem uma compatibilidade baixa com seus vizinhos em
comum, logo a compatibilidade entre eles também será baixa. Segue a Equação 7 proposta
para o cálculo da compatibilidade:
90
Onde:
1) P1: Pesquisador 1.
2) P2: Pesquisador 2.
3) VizComuns: conjunto de vizinhos em comum entre P1 e P2.
4) vi: Elemento do conjunto VizComuns.
Onde:
1) P1: pesquisador 1.
2) V: pesquisador 2.
3) Tj: valor de penalização de acordo com o ano em que o relacionamento ocorreu.
4) Ri: força do relacionamento do tipo i entre P1 e V.
5) : peso dado ao relacionamento do tipo i.
6) t: total de tipos de relacionamento entre P1 e V.
7) d: duração de cada relacionamento em anos.
A equação proposta por Ströele é composta por duas outras, a Equação 9, que reflete
a questão da idade dos relacionamentos para o cálculo da compatibilidade, e a Equação 11,
que leva em consideração a quantidade de relacionamentos de cada tipo entre os
pesquisadores. Estas equações serão descritas a seguir:
Equação 9. Fator de tempo da equação de Ströele (Equação 8).
Onde:
93
A Equação 9 foi adaptada de acordo com o seguinte raciocínio: o valor máximo que ela pode
assumir ocorre quando Aa – Ar = 1, ou seja, quando Tj = e. Deseja-se que o valor do fator
tempo para Aa = Ar seja maior do que para Aa = 1 + Ar. Portanto, acrescentamos uma
pequena variação de valor 0.5 ao valor e na Equação 10.
A seguir será apresentada a Equação 11, fator da equação de Ströele que mensura
a compatibilidade entre dois pesquisadores a partir do tipo e quantidade de
relacionamentos que eles possuem em comum.
Equação 11. Fator que considera os relacionamentos e seus tipos da equação de Ströele (Equação 8).
Onde:
1) RCi: número de relacionamentos do tipo i entre P1 e V.
2) TR1: total de relacionamentos do tipo i de P1 (pesquisador 1).
3) TR2: total de relacionamentos do tipo i de V (pesquisador 2).
i. Coautoria;
ii. Co-participação em banca;
iii. Co-participação em projeto;
iv. Coorientação;
selecionando uma das áreas que o próprio Lattes oferece, através da tabela de áreas de
conhecimento da Capes (CAPES, 2012).. Tal tabela (ANEXO B) contêm áreas bem genéricas,
tais como: Ciência da Computação, Sistemas de Informação, dentre outras.
Quando o pesquisador insere uma área manualmente, julgamos que essa área tem
maior importância para ele e que ela é uma área mais específica de seu interesse. Por isso,
ao calcular a semelhança entre dois pesquisadores a partir da equação dada, consideramos
que as áreas de atuação preenchidas manualmente devem receber um peso maior do que as
outras. A seguir, será apresentado o fator de áreas de atuação (Equação 12) da equação de
similaridade:
Equação 12. Equação que mede a similaridade entre pesquisadores a partir das áreas de atuação.
Onde:
1) P1: Pesquisador 1.
2) P2: Pesquisador 2.
3) NumAreasComunsCapes: número de áreas em comum da tabela da Capes entre
o pesquisador P1 e o pesquisador P2.
4) NumAreasComuns: número de áreas em comum inseridas manualmente entre o
pesquisador P1 e o pesquisador P2.
Apesar das áreas de atuação do Currículo Lattes serem utilizadas nesta proposta e,
deste fator ser dividido em dois termos (área inserida manualmente e área fornecida pelo
próprio Lattes), ele pode ser utilizado de outras maneiras. Por exemplo, as áreas de atuação
dos pesquisadores podem ser extraídas a partir de questionários em que eles pontuem suas
áreas de acordo com sua relevância atual. Baseado na própria pontuação dada por eles, as
97
áreas poderiam ser agrupadas em mais especificas ou de atuação mais ativa e, mais
genéricas ou de atuação mais passiva. Outro modo de usar este fator é considerando todas
as áreas com o mesmo peso. Portanto, independente do estudo que originou a definição
deste fator, ele ainda pode ser utilizado de diversos modos diferentes.
Onde:
1) P1: Pesquisador 1.
2) P2: Pesquisador 2.
3) |VizinhosP1|: número de vizinhos de P1, ou seja, de pesquisadores com quem P1
já teve um relacionamento.
4) |VizinhosP2|: número de vizinhos de P2, ou seja, de pesquisadores com quem P2
já teve um relacionamento.
Onde:
1) P1: Pesquisador 1.
2) P2: Pesquisador 2.
3) p1’: Peso dado ao fator de compatibilidade. Varia de acordo com a expertise
(Equação 6).
4) p2’: Peso dado ao fator de áreas de atuação.
5) p3’: Peso dado ao fator de popularidade. Varia de acordo com a expertise
(Equação 6).
6) Compatibilidade(P1, P2): fator de compatibilidade (Equação 7).
99
Conforme visto na Figura 22, foi utilizado o peso de maneira complementar, ou seja,
p1’ e p3’ se complementam até chegar ao valor 1. Dessa forma, cada fator é ponderado pelo
peso de acordo com seu nível de expertise. Para pesquisadores juniores, o peso dado ao
fator de popularidade é maior do que o peso dado ao fator de compatibilidade. Já para
100
O pesquisador X possui ligação forte tanto com o pesquisador A quanto com o B, pois
possui diversos relacionamentos de coautoria e participação em projetos com ambos. Já o
relacionamento entre X e o pesquisador C é um relacionamento fraco de participação em
algumas bancas de graduação, devido às áreas de atuação que eles têm em comum. X possui
as seguintes áreas de atuação: Ciência da Computação, Metodologias e Técnicas da
Computação, Sistemas de Informação, Redes Sociais, Sistemas de Recomendação e Gestão
do Conhecimento.
O pesquisador Y possui relacionamentos fortes com os pesquisadores B e C. Seus
relacionamentos com eles são de coorientação e coautoria, além da participação de algumas
bancas em comum. Com A, o pesquisador Y possui muitos relacionamentos, porém, são
relacionamentos fracos de submissão aos mesmos veículos de publicação devido às áreas de
atuação em comum. Y trabalha nas seguintes áreas: Ciência da Computação, Metodologias e
Técnicas da Computação, Sistemas de Informação, Sistemas Colaborativos, Sistemas de
Recomendação e Redes Sociais.
Considere que o pesquisador X irá receber recomendações feitas pelo método de
recomendação proposto. Para verificar se o pesquisador Y poderá ter algum tipo de
interação no futuro com o pesquisador X, podemos ter inicialmente dois casos diferentes:
I. CompatibilidadeVizY = CompatibilidadeVizY +
CompatibilidadeStroele(Vi, Y).
Vamos verificar como ficam esses valores para cada um dos cenários descritos.
Considere os seguintes valores: CompatibilidadeStroele(X, A) = 0.8;
CompatibilidadeStroele(X, B) = 0.7, CompatibilidadeStroele(X, C) = 0.2;
CompatibilidadeStroele(Y, A) = 0.3; CompatibilidadeStroele(Y, B) = 0.8;
CompatibilidadeStroele(Y, C) = 0.8; |V| = 3 (de acordo com a Figura 23); NumVizinhosX = 5
(de acordo com a Figura 23); NumVizinhosY = 5 (de acordo com a Figura 23).
Para o cenário 2, em que o pesquisador X que está recebendo as recomendações é
sênior, temos expertiseX = 0.8. O primeiro passo para calcular a similaridade entre os
pesquisadores X e Y é calcular a compatibilidade de X com seus vizinhos em comum com Y e
vice-versa. Dado os valores dados para as compatibilidades de Ströele anteriormente,
temos:
CompatibilidadeVizX = CompatibilidadeStroele(X, A) + CompatibilidadeStroele(X, B) +
CompatibilidadeStroele(X, C);
CompatibilidadeVizX = 0.8 + 0.7 + 0.2 = 1.7;
Como pode ser visto, o fator de áreas de atuação ficou com um valor elevado,
desproporcional se comparado ao fator de compatibilidade. Para deixar todos os
fatores com a mesma proporção é preciso normalizá-los. Neste trabalho foi utilizada
a mesma regra de normalização utilizada por Ströele (2012). Sendo assim, aplicando
a normalização:
Aplicando a normalização:
Pop(X,Y) = 0.82 * 0.2 = 0.16;
A seguir serão apresentadas cada um dos itens das camadas da arquitetura da solução.
Cada informação extraída só é armazenada no banco de dados uma única vez. Por
exemplo, se dois pesquisadores são coautores em um artigo, este artigo só é inserido uma
única vez na tabela onde ficam armazenadas as publicações. As informações sobre os
autores das publicações ficam armazenadas em outra tabela. Com isso, o relacionamento
entre os pesquisadores é identificado nesta tabela. Este mesmo procedimento também foi
realizado para áreas de atuação, bancas, coorientações e projetos.
A identificação de que dois elementos são iguais é feita a partir da comparação de
strings. As publicações são consideradas iguais quando seus títulos e tipos (periódico, livro,
conferência) são iguais. Da mesma forma, bancas e coorientações são consideradas iguais
quando seus títulos, anos e autores são iguais. Já os projetos são considerados iguais quando
seus títulos são iguais.
Figura 26. Trecho do currículo Lattes que corresponde ao código exibido na Figura 27.
112
Como pode ser visto no item 1 da Figura 27, não há nenhum elemento identificável
englobando a seção de atuação profissional. Porém, é possível identificar que há um
elemento “a” com o título da seção de atuação profissional e que ele pode ser utilizado
como um marco de início da mesma. Então, com o uso da biblioteca jsoup (JSOUP, 2015), é
possível acessar todos os elementos HTML (W3C, 2015) a partir do elemento “a”, porém,
nem todos esses elementos fazem parte da atuação profissional. Devido a isso, é necessário
utilizar outra estratégia para acessar apenas os elementos que fazem parte da atuação
profissional.
Prosseguindo com a observação do HTML (W3C, 2015), é possível ver que o item 2 da
Figura 27 representa um vínculo institucional. Este item é estático no código, ou seja, faz
parte da própria página. Ele marca o início da descrição de um vínculo que o pesquisador
tem com uma instituição. Um pesquisador pode ter vários vínculos com a mesma instituição,
como também pode ser visto na Figura 26. Então, como este é um item estático, ele pode
ser utilizado para mapear todos os vínculos de um pesquisador. Com o auxílio da biblioteca
jsoup (JSOUP, 2015), é possível selecionar todos os elementos “b” que contêm o texto
“Vínculo Institucional”. Tendo acesso a todos os marcos iniciais de vínculos institucionais, é
necessário selecionar ainda a instituição (item 3 da Figura 27), o período do vínculo (item 4
da Figura 27) e o enquadramento funcional (item 5 da Figura 27). Para selecionar estes itens,
113
é necessário recorrer a biblioteca jsoup (JSOUP, 2015) e utilizar métodos que consigam
acessar os elementos pais e irmãos de outros elementos, no caso, do vínculo institucional.
Por exemplo, analisando o código percebe-se que o elemento “div” que engloba o vínculo
institucional (item 2) é irmão do elemento “div” que engloba a instituição e assim, é possível
acessá-lo. O código HTML (HTML, 2015) do currículo Lattes está todo estruturado desta
maneira, então, para extrair a maioria das informações foram utilizadas estratégias similares
a esta.
Há algumas seções no Lattes que possuem campos de preenchimento opcional,
como por exemplo, a seção de publicações. Esta seção contêm campos como nome do
congresso, local onde o congresso foi realizado, ano de realização, local de publicação, que
nem sempre são preenchidos, tornando complicado o processo de identificar em uma string
o que é cada elemento. A estratégia utilizada foi tentar detectar as diferentes possibilidades
de preenchimento dos campos opcionais, porém, nem todas as possibilidades puderam ser
detectadas, ocasionando algumas falhas na extração dos dados. De acordo com análise feita
na base de dados, tais falhas são pequenas comparadas ao número de vezes em que o
extrator conseguiu extrair os dados corretamente.
Outros problemas foram enfrentados durante a extração dos dados devido aos
campos de preenchimento livre. Por exemplo, dois pesquisadores que escreveram um artigo
juntos podem colocar títulos diferentes para o mesmo trabalho, como por exemplo, omissão
do hífen, dois pontos, além de erro de digitação propriamente dito. Essas diferenças nos
títulos dos trabalhos faziam com que o extrator não identificasse esses dois pesquisadores
como parceiros. O mesmo ocorria para títulos de projetos, orientações, dentre outros. Para
amenizar este e outros problemas, a base de dados sofreu um tratamento, conforme
descrito na seção 6.4.2.
manualmente com os dados contidos no currículo Lattes. Caso houvesse algum tipo de erro,
seja de inconsistência ou de informações perdidas, os dados eram corrigidos. Por exemplo,
ao verificar um currículo Lattes em que uma publicação presente nele não se encontrava no
banco de dados, esta publicação era inserida manualmente no banco. O mesmo
procedimento de correção foi feito para casos em que dois pesquisadores que publicaram
um artigo juntos, inseriram um título diferente para o mesmo artigo em seus respectivos
Lattes. Nesses casos, a informação também foi corrigida manualmente no banco de dados.
Lembrando que neste último caso o problema não é inerente do extrator, mas sim da forma
como as informações foram preenchidas no currículo Lattes.
Vale ressaltar que não foi encontrada nenhuma informação incoerente no banco de dados,
ou seja, nenhuma informação de um determinado pesquisador estava associada a outro.
Todas as informações observadas pertenciam de fato ao pesquisador analisado. Os
problemas que ocorreram foram informações perdidas que deveriam ser inseridas no banco,
mas não foram.
Como pode ser observado, o modelo contêm 20 tabelas. Cada tabela representa uma
entidade ou um relacionamento extraído do currículo Lattes.
A principal tabela do modelo é a tabela “pesquisador”, que representa um
pesquisador, como seu próprio nome diz. A maioria das tabelas no modelo se relaciona com
esta tabela.
Um pesquisador possui uma ou mais publicações. As informações sobre as
publicações de um pesquisador foram armazenadas na tabela “publicacao”. Esta tabela
possui um campo “tipo” que representa o tipo de publicação armazenada, podendo ser uma
publicação de revista, um capítulo de livro, um artigo completo publicado em congresso, um
resumo ou um resumo expandido publicados em congresso. Uma publicação pode ser
escrita por um ou mais pesquisadores. Para armazenar esse relacionamento de coautoria, foi
criada a tabela “pesquisadorTemPublicacao”.
A tabela “trabalho” contêm as informações sobre as monografias, monitorias e
iniciações científicas da graduação, as dissertações de mestrado, as teses de doutorado e as
qualificações presentes nos currículos Lattes dos pesquisadores. O campo “tipo” que faz a
distinção entre os diferentes trabalhos armazenados. Um pesquisador se relaciona com
estes trabalhos de duas maneiras: através da orientação/coorientação ou da participação de
bancas julgadoras. Para armazenar esses relacionamentos foram criadas as tabelas
“pesquisadorOrientaTrabalho” e “pesquisadorParticipaDeBancaDeTrabalho”. A tabela
“palavraChave” ligada a tabela “trabalho” a partir de “trabalhoTemPalavraChave” armazena
as palavras-chave dos títulos dos trabalhos. Esta tabela foi criada para auxiliar a inferência da
área de atuação atual de um pesquisador. Contudo, neste trabalho, esta tabela não chegou
a ser utilizada.
A tabela “atuacaoProfissional” possui informações sobre os locais de trabalho que
um pesquisador trabalha atualmente exercendo a função de Pesquisador ou Professor ou
Cientista ou Colaborador.
A tabela “formacaoAcademica” armazena as informações sobre a formação
acadêmica do pesquisador contida no seu currículo Lattes.
117
2) Similaridade
Para calcular a similaridade é necessário calcular a compatibilidade entre vizinhos em
comum (seção 6.2.2.1), a afinidade pelas áreas de atuação (seção 6.2.2.2) e a
popularidade (seção 6.2.2.3). Assim como na expertise, as etapas iniciais para calcular
a similaridade também foram utilizadas para o processamento de informações
necessárias para o cálculo desses fatores.
Para calcular a compatibilidade entre os vizinhos em comum é necessário calcular a
compatibilidade de Ströele (STRÖELE, 2012). E, para calculá-la, é necessário obter
todos os vizinhos em comum entre dois pesquisadores. Um vizinho em comum é
qualquer pesquisador com quem dois pesquisadores possuam relacionamento. Para
calcular os vizinhos em comum entre dois pesquisadores é necessário calcular os
vizinhos de cada um dos pesquisadores. Logo, a primeira etapa para o cálculo da
similaridade foi calcular os vizinhos de cada um dos pesquisadores e, em seguida,
calcular os vizinhos em comum entre eles.
A segunda etapa do cálculo da similaridade foi o cálculo da compatibilidade de
Ströele (STRÖELE, 2012) entre os pesquisadores e seus vizinhos em comum. Para
isso, é necessário processar as seguintes informações sobre os pesquisadores:
quantidade total de relacionamento de cada tipo de cada pesquisador; quantidade
de relacionamentos de cada tipo que dois pesquisadores possuem em comum;
duração de cada um dos relacionamentos. Dentre os relacionamentos, o caso de
projetos em comum recebeu um processamento diferenciado. Cada pesquisador
participa de um projeto em um período específico e isso fica explícito no Lattes de
acordo com duração em anos que o pesquisador informa. O pesquisador A pode
participar de um projeto X com o pesquisador B, porém eles podem nunca ter
trabalhado juntos de fato, pois o pesquisador B entrou no projeto depois que o
pesquisador A já havia encerrado a sua participação. Neste caso, não é considerado
que o pesquisador A e B possuem um relacionamento de colaboração em projetos.
120
Para esse tipo de relacionamento ser considerado, é necessário que haja uma
intersecção entre os períodos que eles participaram do projeto.
A terceira etapa envolveu o cálculo das áreas de atuação de um pesquisador.
Primeiro, foi necessário calcular as áreas de atuação de cada pesquisador. Feito isso,
foi necessário calcular as áreas de atuação em comum entre dois pesquisadores. Por
fim, dentre as áreas em comum, foi preciso fazer a separação entre áreas da tabela
da CAPES e áreas inseridas manualmente. Com isso, foi possível calcular o fator áreas
de atuação da equação de similaridade (Equação 14).
A penúltima etapa foi o cálculo da popularidade, onde é necessário saber quantos
vizinhos cada pesquisador possui.
E, por fim, a última etapa do processamento foi o cálculo da similaridade
propriamente dito.
Os dados gerados em cada uma destas etapas foram armazenados em arquivo texto
visando melhorar o desempenho dos cálculos das métricas, porque cada uma das
métricas é calculada para cada pesquisador existente no banco de dados, podendo
demorar muito tempo.
A estratégia utilizada para realizar as recomendações foi a “Top 10”. Nesta estratégia
são recomendados os dez pesquisadores de maior similaridade com o pesquisador que
deseja receber as recomendações. Portanto, cada pesquisador recebe uma lista dos dez
pesquisadores mais similares a ele.
Na tela seguinte (Figura 30), o pesquisador visualizaria as recomendações feitas a ele a fim
de que ele as avaliasse. Além de avaliar as recomendações, o pesquisador também deveria
responder algumas perguntas sobre formas de colaboração e sobre as recomendações
realizadas.
Apesar de terem sido realizadas duas avaliações distintas (Brasil e PPGI), o sistema de
avaliação utilizado foi praticamente o mesmo. A diferença se encontra nos dados utilizados
para gerar as recomendações e, na avaliação de outros métodos que o grupo do PPGI teve
que realizar.
A tabela “pesquisador deste modelo é uma cópia da tabela descrita na seção 6.4.3. Ela
contém os dados dos pesquisadores que poderiam responder a avaliação.
A tabela “pesquisadorTemRecomendacoes” armazena a nota dada pelo pesquisador a
cada uma das recomendações feitas a ele. Além disso, ela armazena o nome do método que
realizou a recomendação e a data em que a avaliação foi feita.
A tabela “pesquisadorTemDadosPessoais” armazena as informações pessoais que
foram respondidas pelos pesquisadores no questionário, como instituição, programa de pós-
graduação, idade e sexo.
Por fim, a tabela “pesquisadorRespostas contêm as respostas dadas pelos
pesquisadores às perguntas feitas no questionário.
6.5 Conclusão
Neste capítulo foi apresentado detalhadamente o método de recomendação
proposto. Foram descritas as funções de Expertise e Similaridade, que compõem o método,
assim como cada um de seus fatores. Foi visto que a função de similaridade é ponderada de
acordo com a expertise do pesquisador. Deve-se salientar principalmente o caso do
pesquisador júnior, que acreditamos que deva receber recomendações de pesquisadores
seniores para ajudar na formação da sua rede de contatos. Também vimos que os fatores da
função de similaridade são baseados nas afirmações de NEWMAN sobre colaboração em
redes sociais científicas e, sobre as formas de propagação de comportamentos em uma rede
social, descritas por CHRISTAKIS. São elas: indução, homofilia e confusão. Também foi
apresentada a arquitetura da solução e descrita como foi feita a implementação do método
e dos artefatos necessários a ele, como o extrator de dados do Currículo Lattes. Os dados
extraídos utilizando o extrator serão utilizados para executar o método e avaliá-lo. A
avaliação do método encontra-se no Capítulo 7.
124
7 Avaliação
7.1 Contextualização
Para avaliar o método apresentado por essa pesquisa foi realizado um conjunto de
três avaliações entre os dias 18/01/2015 e 05/02/2015. A primeira delas, uma avaliação
comparativa, de modo a confrontar as recomendações feitas pelo presente método e alguns
dos principais métodos de recomendação encontrados na literatura. A segunda avaliação,
também considerada comparativa, é uma avaliação que verificamos o surgimento ou
materialização das recomendações apontadas pelo método descrito nesse trabalho. Por
último, a terceira avaliação, é realizada em um cenário mais abrangente, onde contamos
com a colaboração de pesquisadores de todo o Brasil da área de Ciência da Computação, os
quais avaliaram as dez primeiras recomendações feitas pelo método criado para o seu perfil.
Para realizar as avaliações foi necessário colher informações sobre os pesquisadores.
Dentre as diversas fontes existentes, a plataforma Lattes (CNPQ, 2014) foi a escolhida por
conter um maior número dessas informações e por apresentar maior confiabilidade dos
dados (seção 5.3). Foram extraídos os dados dos currículos Lattes dos pesquisadores dos
programas de pós-graduação de mestrado e doutorado acadêmicos, da área de
Computação, que foram avaliados pela Capes no triênio iniciado em 2010 com nota superior
a dois. No total, foram extraídos os dados de 1382 currículos Lattes de pesquisadores de 54
instituições.
sociais científicas e, por serem apresentados de forma detalhada, sendo possível reproduzir
suas abordagens. A seguir, os trabalhos escolhidos serão descritos resumidamente:
Monclar (2008) utiliza dados do Lattes e da ferramenta GCC para realizar a análise de
uma rede social de pesquisadores. A partir desta análise, ele detecta os nós problemáticos
na rede e propõe algumas recomendações de pares a eles, a fim de solucionar problemas no
fluxo do conhecimento científico. Os problemas que ele identifica e trata na rede são:
núcleos centralizadores, nós periféricos, nós isolados e pontes. Cada problema é detectado
de acordo com um conjunto de métricas calculadas da rede social. As métricas calculadas
foram: centralidade global, centralidade local relativa e centralidade local absoluta.
Para a recomendação de pares, Monclar (2008) se baseia em alguns critérios, como
interesses e competências dos pesquisadores, perfil psicológico MBTI (MYERS, 1980) e
distância mínima entre dois pesquisadores na rede. Ele recomenda pesquisadores que
tenham interesses similares ou competências similares, porém, respeitando o nível de
interesse e o grau do conhecimento. Por exemplo, ele só recomenda pessoas que tenham
interesse nível 3 em um assunto, em uma escala que varia de 1 a 3. As recomendações
também são feitas entre pesquisadores que tenham competências do mesmo nível, por
exemplo, um pesquisador iniciante em um assunto é recomendado para um pesquisador
iniciante no mesmo assunto. Não são recomendados especialistas para iniciantes e vice-
versa. Pesquisadores com nível 3 de interesse em um assunto são recomendados para
pesquisadores com competência nesse assunto. Também são recomendados nós que distam
mais de 6 passos de outro. Ele ainda utiliza o perfil MBTI (MYERS, 1980) para recomendar
pesquisadores com perfis idênticos, complementares ou opostos.
No nosso teste fizemos algumas simplificações do método proposto por Monclar
(2008), conforme descrito a seguir:
Foram levadas em conta apenas competências, pois em nossa base de dados não era
possível extrair interesses. As competências foram definidas como as áreas de
atuação que um pesquisador cadastra em seu currículo da Plataforma Lattes (CNPQ,
2014).
Para definir o nível de competência de um pesquisador, foi utilizada a bolsa de
produtividade do Cnpq, onde o pesquisador de nível 1A foi considerado especialista.
126
<= 0.33) e a Cr fosse média (0.33 < Cr < = 0.66) ou alta (Cr > 0.66), um pesquisador seria
recomendado ao outro.
Para atribuir o peso em cada área, foi levado em consideração a autoria do artigo. Se
todos os autores do artigo pertencessem a mesma área, era atribuído peso 1 a área
correspondente. Caso os autores pertencessem a áreas distintas, o peso era dividido
igualmente por área.
Equação 17. Proximidade social entre dois pesquisadores segundo Lopes (2012).
A nova métrica sugerida por Brandão e Moro (2012) é a média ponderada entre as
métricas Affin e Sc, onde os pesos determinam qual das duas métricas terá maior
importância no cálculo da similaridade entre dois pesquisadores. Chamamos esta nova
métrica de Affin_Sc, conforme Brandão e Moro (2012).
Além da métrica formada pela média ponderada entre a Affin e a Sc, para determinar
se os pesquisadores serão recomendados ou não foram consideradas as métricas Cp e Cr de
acordo com a Tabela 18.
Tabela 18. Condições para recomendação de pesquisador no método de Brandão e Moro (2012).
AÇÃO CONDIÇÃO
Iniciar Colaboração Cp = 0 ^ Affin_Sc {médio, alto}
Cp {baixo, médio} ^ Affin {médio, alto} ^ Cr
IntensificarColaboração
{médio, alto}
Foi considerado peso 0.5 para cada uma das métricas utilizadas na equação que
calcula Affin e Sc.
129
Não foram utilizados tópicos e nem citações para o cálculo das métricas e a
realização das recomendações.
a) Precisão
Equação 22. Métrica Precisão para avaliação de Sistemas de Recomendação (RICCI et al., 2011).
Onde:
- RU é o número de itens recomendados e utilizados;
- RNU é o número de itens recomendados e não utilizados;
132
b) Ranqueamento
Equação 23. Métrica Ranqueamento para avaliação de Sistemas de Recomendação (RICCI et al.,
2011).
Onde:
- ij é o item na j-ésima posição na lista de recomendações;
- rui é a nota dada pelo usuário u ao item i da lista de recomendações;
- d é uma nota neutra da lista de recomendações, tal como “tanto faz”.
- é um parâmetro que controla o declínio exponencial do valor das posições na lista
de recomendações;
c) Cobertura
133
Existem várias métricas que podem ser utilizadas para medir a cobertura de um
sistema de recomendação. Algumas delas serão apresentadas a seguir.
Pode ser definida como a proporção de itens que o sistema de recomendação pode
recomendar (RICCI et al., 2011). Para calcular esta métrica é possível fazer uma razão entre
todos os itens que podem ser recomendados e o total de itens no sistema. A Equação 24
apresenta o cálculo da cobertura do catálogo:
Equação 24. Métrica Cobertura de Catálogo para avaliação de Sistemas de Recomendação (RICCI et
al., 2011).
Onde:
- IR: número de itens recomendáveis;
- T: total de itens presentes no sistema;
Pode ser definido como a proporção de usuários para quem o sistema pode
recomendar itens (RICCI et al., 2011). Ou seja, dado o total de usuários de um sistema para
quantos deles o sistema pode fazer recomendações?
Na nossa abordagem, calcularemos esta métrica considerando os pesquisadores que
foram recomendados, dado o número total de pesquisadores que existe na base. A Equação
25 apresenta o cálculo desta métrica:
Equação 25. Métrica Cobertura do Usuário para avaliação de Sistemas de Recomendação (RICCI et
al., 2011).
Onde:
134
d) Auto-Confiança (Confidence)
Equação 26. Métrica Auto-Avaliação para avaliação de Sistemas de Recomendação (RICCI et al.,
2011).
Onde:
- NT é o número de notas positivas dadas aos itens recomendados;
- T é o número total de itens recomendados;
e) Confiança (Trust)
f) Novidade
Equação 27. Métrica Novidade para avaliação de Sistemas de Recomendação (RICCI et al., 2011).
Onde:
- NN é o número de parcerias novas recomendadas;
- NT é o total de parcerias recomendadas;
g) Utilidade
com vários usuários acessando ele ao mesmo tempo. Este tipo de avaliação foge do escopo
deste trabalho.
A seguir será descrito todo o processo das três avaliações realizadas.
Apresentaremos o cenário abordado, planejamento da avaliação, execução da mesma e a
análise dos dados obtidos.
avaliar o grau de importância da avaliação feita. Fora isso, nenhum dos participantes tinha
conhecimento do método proposto e os métodos utilizados não eram identificados.
Validade de Conclusão do Estudo: A validade de conclusão do estudo mede a relação
entre os tratamentos e os resultados, determinando a capacidade do estudo em gerar
alguma conclusão. Não encontramos grandes dificuldades em relação à capacidade de
conclusão do estudo.
NÚMERO DE MEMBROS
ÁREA NÚMERO DE PARTICIPANTES
(POPULAÇÃO)
Sistemas de Informação 9 5
Algoritmos e Métodos
11 1
Numéricos
Informática, Educação e
2 0
Sociedade
Redes de Computadores e
5 2
Sistemas Distribuídos
Modelos e Arquiteturas para
3 1
Sistemas Inteligentes
Fazendo uma comparação do método apresentado por essa pesquisa com os outros
encontrados na literatura, observamos que houve um caso (dentre os 9 existentes nessa
avaliação) em que somente o nosso método apresentou recomendações para um
determinado pesquisador. Ou seja, todos os outros quatro métodos não apresentaram tais
recomendações, ora por não entender que esse pesquisador era um nó tido como
problemático (MONCLAR, 2008), ora por não conseguir estabelecer relacionamentos com
esse pesquisador de modo a fornecer recomendações. As notas atribuídas por ele para a
nossa recomendação foram recebidas como positivas.
Em outros casos, apenas o nosso método juntamente com o método do Monclar
(2008) apresentaram recomendações. Porém, enquanto Monclar (2008) apresentou 4
recomendações, o nosso método apresentou 10. Isso tende a mostrar uma maior
abrangência do método, pois além de indicar os mesmos 4 indicados pelo outro método,
ainda indicou outros 6.
Utilizando somente as avaliações dos recomendados através do nosso método
podemos traçar alguns gráficos informativos. As Figuras Figura 33, Figura 34 e Figura 35
mostram a porcentagem de pesquisadores que responderam perguntas relacionadas ao
nível de satisfação com o nosso método. Já a Figura 32 é uma distribuição das notas
atribuídas às recomendações.
Figura 33. Gráfico do nível de satisfação dos participantes de uma forma geral.
Vale ressaltar que nessas avaliações foram incluídas todas as respostas dos
pesquisadores do PPGI. Algumas análises negativas do nível de satisfação foram relacionadas
com a recomendação de pessoas do mesmo programa, sendo que esse era o objetivo do
trabalho. Outras insatisfações foram devidas ao extrator não ter capturado alguns
relacionamentos. Ainda assim, a avaliação do método se manteve positiva. Houve um total
de 39 notas positivas (43,4%) (notas 4 e 5), 24 notas neutras (26,6%) e 27 (30%) notas
negativas (notas 1 e 2) dadas às recomendações feitas. Quanto à satisfação geral com o
método, o número de respostas SIM supera, em quantidade mínima, o número de respostas
146
NÃO: 5 respostas positivas (55,6%) e 4 respostas negativas (44,4%). Com relação a essa
pergunta, alguns pesquisadores relataram que o método não apresentou nenhuma
novidade a eles, dado que eles já conheciam todas as pessoas recomendadas e por isso,
deram avaliações negativas. Esses relatos vêm a confirmar que os pesquisadores
participantes não compreenderam totalmente o propósito desta avaliação, pois, de antemão
já se sabia que ela recomendaria pesquisadores que se conhecem pessoalmente, dado que a
avaliação foi feita com um grupo pequeno de pesquisadores.
O resultado para a pergunta “Recomendaria este método?” foi o mesmo anterior: 5
respostas positivas (55,6%) e 4 respostas negativas (44,4%). Quando perguntados se
utilizariam as recomendações realizadas, 6 (66,7%) pesquisadores responderam que SIM e 3
(33,3%) responderam negativamente a pergunta.
a) Precisão
Nesta métrica queremos medir a precisão das recomendações geradas, ou seja, se as
recomendações feitas foram positivas para os pesquisadores. Em nosso cenário, podemos
considerar como avaliações positivas aquelas que o pesquisador avaliou com notas 4
(possivelmente trabalharia) ou 5 (definitivamente trabalharia) e, como negativas, aquelas
que ele avaliou com notas 1 (definitivamente não trabalharia) ou 2 (possivelmente não
trabalharia). Com isso, para calcular a precisão em nosso cenário utilizamos a razão entre o
número de recomendações feitas para um pesquisador avaliadas com notas 4 e 5 e o
número de recomendações feitas avaliadas com notas 1, 2, 4 e 5. Portanto, para esta
avaliação, temos:
b) Ranqueamento
Esta métrica verifica se o usuário atribuiu notas maiores aos itens recomendados no
topo da lista de recomendações, levando em consideração que a lista está ordenada do item
mais útil para o menos útil para o usuário.
Desta forma, para calcular esta métrica, utilizamos a Equação 23. Portanto, para esta
avaliação, temos:
Ranqueamento (PPGI) = 34/93 = 36,6%
c) Auto-Confiança (Confidence)
148
Esta métrica mede a confiança que o sistema de recomendação tem nele mesmo de
acordo com as recomendações positivas que foram feitas. Para calcular esta métrica fizemos
a razão entre o número de notas positivas (4 e 5) e o total de notas. Portanto, para esta
avaliação, temos:
Auto-Confiança = 39 / 90 = 43,4%
d) Confiança (Trust)
Esta métrica mede a confiança que o usuário tem no sistema. Para isso, perguntamos
aos participantes da avaliação se eles recomendariam o método proposto. O fato de eles
recomendarem o método ou não pode ser considerado um indicativo de confiança no
método. Para calcular esta métrica utilizamos a razão entre o número de avaliações SIM
dadas e o número total de avaliações. Portanto, para esta avaliação, temos:
e) Utilidade
Para mensurar se as recomendações feitas pelo método foram úteis aos
participantes, perguntamos a eles se eles usariam as recomendações realizadas. E com isso,
para calcular esta métrica, utilizamos a razão entre o número de participantes que
responderam SIM, ou seja, que usariam as recomendações feitas, e o número total de
participantes. Portanto, para esta avaliação, temos:
Para concluir a avaliação dos métodos, a Tabela 24 apresenta o total de notas dadas
a cada uma das recomendações feitas por cada método. A Tabela 25 apresenta a
porcentagem destas notas por método também. Dado que cada método realizou uma
quantidade diferente de recomendações, não é possível compará-los apenas pela
quantidade total de cada nota dada, sendo necessário o percentual. Já a Tabela 26 apresenta
a porcentagem de notas positivas, neutras e negativas dadas às recomendações.
150
Como pode ser visto nas tabelas anteriores, com relação a quantidade de
recomendações feitas, o método proposto apresenta um número maior de recomendações
realizadas quando comparado aos outros métodos. Comparado com o método de Brandão,
o método proposto apresenta aproximadamente duas vezes mais recomendações. Já
151
Lopes (2010), áreas como Redes Sociais, Métodos Ágeis e Ontologias seriam consideradas.
Tal fato poderia reduzir a correlação entre os pesquisadores de uma grande área, pois, áreas
mais específicas estariam envolvidas, ocasionando um conjunto de recomendações
diferente das realizadas pela simulação manual. Ao considerar as grandes áreas, poucos
pesquisadores de outras grandes áreas foram recomendados entre si porque no PPGI houve
pouca interação de coautoria entre os pesquisadores de diferentes áreas no período
analisado (01/2009 a 02/2014), conforme pode ser visto na Erro! Fonte de referência não
encontrada.. Por isso, a grande maioria dos pesquisadores recomendados pelo método de
Lopes (2010) pertencia a mesma grande área. Os pesquisadores da mesma área de um grupo
pequeno de pesquisa tende a ter grande interação e afinidade. Ainda sobre o método de
Lopes (2010), ele não recomenda apenas relacionamentos novos, mas também, parcerias já
existentes. Este fato somado ao fato apresentado anteriormente pode ser uma justificativa
para o método de Lopes (2010) ter apresentado a maior porcentagem de notas 5
(“Definitivamente trabalharia”) dentre os métodos analisados.
Por outro lado, o método proposto neste trabalho apresentou a maior porcentagem
de notas 1 (“Definitivamente não trabalharia”). Esse método, diferente dos outros trabalhos
analisados, não foi simulado manualmente. Foi desenvolvido e executado um algoritmo que
levou em consideração dados extraídos dos currículos Lattes dos pesquisadores
participantes. Desse modo, os relacionamentos já existentes foram inferidos a partir desses
dados, assim como as áreas de atuação. Um currículo Lattes de um pesquisador contêm
tanto áreas genéricas quanto áreas específicas. As áreas mais específicas são inseridas
manualmente. Tal fato pode fazer com que áreas iguais sejam inseridas no Lattes de forma
diferente, como por exemplo, “redes sociais” e “análise de redes sociais” ou “dispositivos
móveis” e “computação móvel”. Com isso, o fato do método proposto ter utilizado as áreas
de atuação do Lattes sem realizar nenhum tratamento nelas, pode ter ocasionado uma
perda na correlação das áreas de atuação dos pesquisadores recomendados. O mesmo
pode ser considerado para os relacionamentos utilizados pelo método, inferidos das
publicações, projetos, orientações e bancas inseridas pelos pesquisadores em seus
currículos. Caso um dos pesquisadores parceiros não preencha o seu currículo Lattes com a
informação da parceria, o método proposto será incapaz de detectar o relacionamento já
existente entre eles. Da mesma forma, se os pesquisadores preencherem os seus currículos
153
Lattes de forma distinta para a mesma parceria, o método também não poderá detectar o
relacionamento entre eles. Com isso, o método pode recomendar pesquisadores que já são
parceiros no cenário real, mas que não o são no cenário dos dados utilizados pelo método.
Além disso, o método proposto somente realiza recomendações de parcerias novas. Em um
grupo pequeno de pesquisadores a tendência é que haja grande interação entre
pesquisadores de uma mesma grande área, restando poucas opções de recomendação para
o método proposto, geralmente pesquisadores de outras grandes áreas. Estes fatos
apresentados podem ser uma justificativa para o método proposto ter apresentado a maior
porcentagem de notas 1 (“Definitivamente não trabalharia”) dentre os métodos analisados.
De acordo com os valores expostos para precisão, auto-confiança e notas positivas,
não conseguimos refutar a hipótese nula através da hipótese alternativa. Portanto, de
acordo com essa avaliação o método proposto não possui nenhuma vantagem sobre os
demais métodos.
Para comparar os métodos através de métricas que não dependam da avaliação do
usuário e de sua compreensão sobre a abordagem dos métodos e da própria avaliação, foi
realizada uma segunda avaliação. Esta avaliação não contou com a participação do usuário,
conforme descrito na seção 7.3.
relacionavam antes da data de corte e passaram a se relacionar depois dela e, outra em que
os pesquisadores já se relacionavam antes da data de corte, mas tal relacionamento não foi
capturado pelo extrator (seção 6.4.1). Todos os casos identificados na primeira situação
foram contabilizados. Nessa segunda situação, caso os pesquisadores tenham mantido o
relacionamento após a data de corte, o relacionamento foi contabilizado.
877 2 0 0 0 X
878 0 X 0 X 0
879 0 0 0 0 X
880 1 X 0 X X
881 0 0 0 0 X
882 2 X X X X
883 0 0 0 0 X
884 0 0 0 X X
885 0 X X X 0
886 0 0 0 0 X
887 0 0 0 0 X
888 0 0 0 0 X
889 0 0 0 0 0
890 0 0 0 0 X
891 2 2 1 2 X
892 0 0 0 0 X
893 0 0 0 0 X
894 2 1 0 0 X
TOTAL 17 8 6 7 0
Vemos que as recomendações não ocorreram para muitos pesquisadores, fato que
pode ser ocasionado devido ao tempo para o aparecimento dos relacionamentos. A base de
dados utilizada pelo método continha dados até 04/02/2014, tempo inferior a 1 ano até essa
comparação.
Outro fator utilizado para análise é a não captura de alguns relacionamentos por
parte do extrator do Lattes. Isso fez com alguns relacionamentos já existentes fossem
recomendados, pois para o nosso método eles não existiam. Esse fator confirmou que
nesses casos o método foi capaz de identificar proximidades de vizinhos e interesses em
comum e por isso, fez as recomendações.
Como pode ser visto, o método proposto apresentou o melhor resultado nesta
análise, com 17 recomendações iniciadas no período de um ano. O método de Brandão
159
a) Quanto a Rede
Figura 36. Rede Social de coautoria dos pesquisadores do PPGI no período 01/01/2009 até
04/02/2014.
b) Quanto às Recomendações
enquadraram como isolados, sendo que 2 deles não possuíam relacionamentos com
nenhum outro nó, ou seja, a centralidade global poderia ser considerada infinita.
Os pesquisadores A e N, além de isolados, também foram categorizados como nós
pontes. Para Monclar (2008), um nó pode ser considerado ponte quando sua centralidade
global fosse superior ou igual a 70%, sua centralidade global relativa for menor ou igual a 0.1
e, sua centralidade global absoluta for maior que 1. Levando em consideração somente a
definição que diz que nós pontes são nós que ligam sub-redes, os pesquisadores A e N não
se enquadrariam nesta classificação. Contudo, outro pesquisador da rede que não foi
detectado problemático, o pesquisador K, poderia ser considerado uma ponte, conforme
apresentado na Figura 37.
Figura 37. Rede heterogênea de pesquisadores do PPGI proposta por Monclar (2008)
no período de 01/01/2009 até 04/02/2014.
porque nenhum pesquisador ficava há mais de 6 nós de distância deste pesquisador, então
nenhum pesquisador pôde ser recomendado nesse caso. Além disso, nenhum pesquisador
que possuía alguma área de pesquisa em comum com o A, tinha o mesmo nível de
competência que ele. Caso o nível de competência não fosse levado em consideração, 8
pesquisadores poderiam ter sido recomendados a ele.
Para o pesquisador B, também não foi possível realizar recomendações de
competências, pelo mesmo motivo que o A. Porém, havia 9 pesquisadores na rede cujo a
distância para o pesquisador A era maior que 6 e, portanto, esses 9 pesquisadores foram
recomendados.
Para os pesquisadores C e D não foi possível realizar recomendações relacionadas a
distância, pois os mesmos encontravam-se desconexos. Porém, foi possível fazer
recomendações de competência. Para o pesquisador C foram feitas 4 recomendações e para
o pesquisador D foram feitas 6.
Para o pesquisador N, também não foi possível realizar recomendações relacionadas
a distância, pois nenhum pesquisador ficava há mais de 6 nós de distância dele. Porém, foi
possível realizar recomendações de competência. Este pesquisador recebeu 2
recomendações de competência.
O trabalho de Brandão e Moro (2012) considera as métricas Cp e Affin_Sc para fazer
recomendações. Caso um pesquisador nunca tenha escrito alguma publicação com outro, ou
seja, faça sempre seus trabalhos sozinho, como a rede proposta por Brandão e Moro (2012)
é de coautoria, este pesquisador ficaria isolado na rede, e não seria possível realizar
recomendações para ele.
O método proposto nesta pesquisa e o trabalho de Lopes et al. (2010) podem fazer
recomendações para todos os nós da rede, diferente dos trabalhos de Brandão e Moro
(2012) e Monclar (2008). Nos dois trabalhos, a medida relacionada a áreas de atuação
permite que os métodos possam fazer recomendações a todos os nós da rede.
De acordo com o resultado obtido para Cp e Cr, uma relação de coautoria pode ser
recomendada ou não para Lopes et al. (2010). Ainda que dois pesquisadores já tenham
trabalhado juntos, se a Cr entre eles for alta ou média e a Cp for baixa, uma parceria de
coautoria deve ser recomendada entre eles.
163
a) Quanto à Cobertura
A cobertura de catálogo pode ser definida como a porcentagem de itens que podem
ser recomendados pelo sistema de recomendação (RICCI et al., 2011). Ou seja, é a
porcentagem de pesquisadores que podem ser recomendados.
Conforme Equação 24, calculando a cobertura do catálogo para os trabalhos
analisados, temos: CCat_Brandão = 26/30, CCat_Lopes = 25/30 e CCat_Monclar = 1,
CCat_Lee = 27/30. O valor desta métrica para o método de recomendação proposto é igual a
CCat_Zudio = 1.
A Tabela 29 apresenta a cobertura de catálogo por método.
167
Em Lopes et al. (2010) a cobertura não é total pelo mesmo motivo apresentado
anteriormente, assim como em Brandão e MORO (2012) e em Lee e Adorna (2012).
b) Quanto à Novidade
A novidade em um sistema de recomendação quantifica o número de itens novos
recomendados a um usuário, ou seja, itens que ele não conhecia. Em nossa abordagem,
conforme mencionado na seção 7.1.2, foi definido que uma recomendação é nova quanto
não existir parceria entre o pesquisador que está recebendo as recomendações e o
pesquisador recomendado.
Calculando a novidade para os trabalhos analisados, conforme Equação 27, temos:
N_Brandão = 0.84, N_Lopes = 0.84 e N_Monclar = 0.95, N_Lee = 0.77. Como o método de
recomendação proposto neste trabalho tem como objetivo recomendar apenas novos
relacionamentos, a métrica novidade para ele é igual a N_Zudio = 1. Porém, esta métrica
não deve ser considerada para fazer uma comparação entre os trabalhos, pois a proposta de
cada um deles era diferente neste aspecto.
A Tabela 30 apresenta a novidade calculada para cada método.
Monclar 0.95
Em Lopes et al. (2010) foram feitas 179 recomendações no total, sendo que 29
parcerias recomendadas já existiam. Em Brandão e Moro (2012) foram recomendados 177
pesquisadores no total, sendo que 29 parcerias recomendadas já existiam. Em Monclar
(2008) foram recomendados 21 pesquisadores no total, sendo que apenas 1 das parcerias já
existia. Isto ocorreu porque Monclar (2008) somente faz recomendações a nós
problemáticos na rede e, alguns destes problemas têm a ver com nós isolados e periféricos,
ou seja, nós com nenhum relacionamento ou poucos. Portanto, a probabilidade de
recomendar parcerias novas é maior. Por fim, em Lee e Adorna (2012) foram feitas 242
recomendações, sendo que 56 parcerias recomendadas já existiam, O método proposto
neste trabalho sempre recomenda uma lista com os dez pesquisadores mais similares a cada
pesquisador, portanto, foram feitas 300 recomendações por ele no total. Das parcerias
recomendadas, nenhuma existia na base de dados utilizada.
De acordo com a métrica de cobertura apresentada acima, vimos que o método
proposto apresenta um melhor desempenho quando comparado aos principais trabalhos da
área. A métrica de novidade, apesar de ter sido calculada, não pode ser considerada como
um fator de comparação, pois os demais métodos não se propõem a realizar apenas
recomendações novas.
Esta avaliação tem como objetivo provar a hipótese alternativa, refutando assim a
hipótese nula. No estudo atual, a hipótese alternativa determina que as recomendações
realizadas pelo método proposto foram melhores em pelo menos um critério. Conforme
pode ser visto nas tabelas Tabela 28, Tabela 29 e Tabela 30, as recomendações realizadas
pelo método de recomendação proposto foram melhores em todos os três critérios
utilizados: cobertura de catálogo, cobertura do espaço do usuário e novidade. Portanto,
conseguimos refutar a hipótese nula e comprovar a alternativa.
Para uma análise qualitativa do método foi feita uma avaliação com um grupo mais
abrangente de participantes, conforme pode ser visto na seção 7.4.
169
Instrumentos: Para viabilizar o estudo foi elaborada uma aplicação web disponível
em http://pzdelima.com.br que apresentava as recomendações realizadas pelo método
proposto, além de um questionário (Apêndice B) para ser respondido pelos participantes.
Este questionário tem por objetivo investigar como são formadas as colaborações entre
pesquisadores e avaliar as recomendações feitas pelo método proposto. Para isso, o
questionário continha um conjunto de recomendações de pesquisadores feitas pelo método.
Cada participante do experimento veria o seu próprio conjunto de recomendações no
questionário. Para cada recomendação feita, era possível selecionar uma nota variando de 1
a 5, conforme Tabela 19, apresentada anteriormente.
Ao final do questionário o participante deveria responder um conjunto de três
perguntas de acordo com seu nível de satisfação com as recomendações feitas pelo método
proposto.
A partir das notas dadas às recomendações será possível avaliar a qualidade das
recomendações do método proposto.
Treinamento: Não houve necessidade de treinamento porque todos os participantes
possuem pleno domínio em navegação de páginas web e formulários eletrônicos.
Projeto Piloto: Antes da execução do estudo, realizamos um projeto piloto com a
mesma estrutura descrita neste planejamento. Para o projeto piloto, selecionaremos apenas
um participante, pesquisadora do PPGI/UFRJ, com bastantes conhecimentos sobre suas
áreas. Algumas recomendações de professores com diferentes níveis de expertise foram
feitas e este participante avaliava os resultados.
Critérios: Os critérios analisados foram os de Precisão, Ranqueamento, Auto-
confiança (Confidence), Confiança (Trust), Utilidade e Média das Notas dadas pelos
participantes. Neste estudo não foram utilizados as métricas de Novidade, Diversidade e
Cobertura porque visa avaliar os trabalhos utilizando apenas métricas que dependem do
retorno dado pelos usuários.
Hipótese Nula: A hipótese nula é uma afirmativa que esta avaliação tem como
objetivo negar. No estudo atual, a hipótese nula determina que o método proposto terá
eficácia inferior a 50% em cada um dos seguintes critérios de Precisão, Ranqueamento,
Auto-confiança (Confidence), Confiança (Trust) e Utilidade.
H0:
171
escolha dos participantes, optamos por convidar todos os pesquisadores dos programas de
pós-graduação em Ciência da Computação do Brasil avaliados pela Capes com nota superior
a 2 no triênio iniciado em 2010 e aceitar aqueles que se candidatassem. Apesar do
voluntariado não ser uma escolha aleatória, preferimos utilizar este método porque
acreditamos que desta maneira o grau de comprometimento do participante seria maior.
Validade Interna do Estudo: a validade interna de um estudo é definida como a
capacidade de um novo estudo repetir o comportamento do estudo atual com os mesmos
participantes e objetos com que ele foi realizado. A validade interna do estudo é
dependente do número de participantes executando o estudo. Esperamos contar com pelo
menos 10% dos participantes convidados. Além disso, dos respondentes, teremos que ter ao
menos 1 representante de cada de expertise: júnior, pleno e sênior. Certamente, um
número maior de participantes melhoraria a validade interna do estudo. Outro ponto que
pode influenciar o resultado do estudo é a troca de informações entre os participantes que
já realizaram o estudo e os que não o realizaram. Esta troca de informação não ocorreu, pois
todas as avaliações foram feitas remotamente pelos respondentes, fora do ambiente de
trabalho.
Validade Externa do Estudo: a validade externa do estudo mede sua capacidade de
refletir o mesmo comportamento em outros grupos de participantes e profissionais da
indústria, ou seja, em outros grupos além daquele em que o estudo foi aplicado. De alguma
maneira, a validade externa é conferida por esta própria avaliação, dado que ela é realizada
em diferentes grupos de participantes de diferentes instituições de pesquisa e ensino.
Validade de Construção do Estudo: a validade de construção do estudo se refere à
relação entre os instrumentos e participantes do estudo e a teoria que está sendo provada
por este. Neste caso, escolhemos um domínio amplamente conhecido pelos participantes,
podendo realmente avaliar o grau de importância da avaliação feita. Fora isso, nenhum dos
participantes tinha conhecimento do método proposto.
Validade de Conclusão do Estudo: a validade de conclusão do estudo mede a relação
entre os tratamentos e os resultados, determinando a capacidade do estudo em gerar
alguma conclusão. Não encontramos grandes dificuldades em relação à capacidade de
conclusão do estudo.
173
Um passo anterior à análise dos dados dessa avaliação também foi a preparação dos
dados. A base de respostas dos pesquisadores foi verificada procurando por alguma
inconsistência ou algum dado com erro, que precisasse de alguma correção. Para essa
avaliação foram encontrados dois tipos de erros: existiram pesquisadores que responderam
mais de uma vez a avaliação e existiram pesquisadores que colocaram a url de seu Lattes de
maneira incorreta, respondendo como se fossem outra pessoa. Para instruir os
pesquisadores, foi colocada uma URL do Lattes de exemplo, no formato que ela deveria ser
inserida. Porém, alguns pesquisadores acharam que era pra utilizar exatamente a URL de
exemplo como entrada no sistema de avaliação, respondendo o questionário como se fosse
o pesquisador que possui aquela URL Lattes, no caso, a Prof. Jonice Oliveira. Com isso,
174
QUANTIDADE
FAIXA DE IDADE DE
PARTICIPANTES
Inferior a 20 anos 1
20 a 30 anos 5
31 a 40 anos 107
41 a 50 anos 93
51 a 60 anos 47
61 a 70 anos 9
Superior a 70 anos 1
Como realizado na primeira avaliação, as próximas figuras (Figura 38, Figura 39,
Figura 40, Figura 41) indicam uma distribuição das notas dadas para perguntas que medem o
nível de satisfação dos pesquisadores participantes da pesquisa e também a distribuição das
notas dadas pelos pesquisadores às recomendações.
177
Figura 39. Gráfico de nível de satisfação dos participantes de uma forma geral – Avaliação 3.
Figura 40. Gráfico do nível de satisfação dos participantes quanto ao método – Avaliação 3.
178
Figura 41. Gráfico de nível de satisfação dos participantes quanto às recomendações – Avaliação 3.
Com esses dados, é possível fazer uma análise melhor sobre as notas distribuídas
pelos pesquisadores participantes. Através da Figura 38, vemos que o número de notas 4 e 5
(correspondentes às avaliações de Possivelmente Trabalharia e de Definitivamente
Trabalharia) superaram as notas mais baixas e neutra. Temos uma proporção de
aproximadamente 55% com respostas 4 e 5. Os outros 45% são divididos pelas outras 3
notas, sendo 22,7% para a nota 3 (neutro), 16,6% para a nota 2 e apenas 5,7% para a nota 1.
Na Figura 38 podemos ver, portanto, que o método de avaliação proposto
apresentou um total de 1446 notas positivas (55%), 596 notas neutras (22,7%) e 588 notas
negativas (22,3%).
O nível de satisfação dos participantes também foi positivo, onde a quantidade de
respostas SIM superaram em 40% as respostas NÃO. Para as três perguntas apresentadas
nos gráficos acima, tivemos uma relação de 72% em média para as respostas SIM. Ou seja,
em média 72% dos participantes do experimento recomendariam o método, utilizariam as
recomendações realizadas e ficaram satisfeitos com as recomendações de uma forma geral.
Além dessas comparações ainda foram realizadas análises seguindo as métricas
apresentadas por (RICCI et al., 2011). As mesmas métricas utilizadas na primeira avaliação
são aplicadas nessa.
a) Precisão
Nesta métrica queremos medir a precisão das recomendações geradas, ou seja, se as
recomendações feitas foram positivas para os pesquisadores. Em nosso cenário, podemos
considerar como avaliações positivas aquelas que o pesquisador avaliou com notas 4
(possivelmente trabalharia) ou 5 (definitivamente trabalharia) e, como negativas, aquelas
que ele avaliou com notas 1 (definitivamente não trabalharia) ou 2 (possivelmente não
179
trabalharia). Com isso, para calcular a precisão em nosso cenário utilizamos a razão entre o
número de recomendações feitas para um pesquisador avaliadas com notas 4 e 5 e o
número de recomendações feitas avaliadas com notas 1, 2, 4 e 5. Portanto, para esta
avaliação, temos:
Precisão = 1446 / 2034 = 71,1%
b) Ranqueamento
Esta métrica verifica se o usuário atribuiu notas maiores aos itens recomendados no
topo da lista de recomendações, levando em consideração que a lista está ordenada do item
mais útil para o menos útil para o usuário.
Desta forma, para calcular esta métrica, utilizamos a Equação 23. Portanto, para esta
avaliação, temos:
Ranqueamento = 1206/2721 = 44,3%.
c) Auto-Confiança (Confidence)
Esta métrica mede a confiança que o sistema de recomendação tem nele mesmo de
acordo com as recomendações positivas que foram feitas. Para calcular esta métrica fizemos
a razão entre o número de notas positivas (4 e 5) e o total de notas. Portanto, para esta
avaliação, temos:
Auto-Confiança = 1446 / 2360 = 62,3%
d) Confiança (Trust)
180
Esta métrica mede a confiança que o usuário tem no sistema. Para isso, perguntamos
aos participantes da avaliação se eles recomendariam o método proposto. O fato de eles
recomendarem o método ou não pode ser considerado um indicativo de confiança no
método. Para calcular esta métrica utilizamos a razão entre o número de avaliações SIM
dadas e o número total de avaliações. Portanto, para esta avaliação, temos:
e) Utilidade
Para mensurar se as recomendações feitas pelo método foram úteis aos
participantes, perguntamos a eles se eles usariam as recomendações realizadas. E com isso,
para calcular esta métrica, utilizamos a razão entre o número de participantes que
responderam SIM, ou seja, que usariam as recomendações feitas, e o número total de
participantes. Portanto, para esta avaliação, temos:
7.5 Conclusão
geral que “Teste de Software”). Esse fato fez alguns pesquisadores terem mais cuidado com
esse campo, como foi constatado em alguns comentários.
Também foram encontrados comentários contendo críticas e sugestões. Alguns
pesquisadores relataram que não buscariam por parcerias utilizando um sistema de
recomendação, pois a mesma vai além das informações apenas contidas no Lattes,
envolvendo simpatia e afinidade. Outros ainda afirmaram que um motivo que o desagradou
na recomendação foi a baixa produtividade do pesquisador indicado nos últimos anos, ou
ainda que sentiram falta do uso do índice-h. De fato, nenhum desses dois fatores fizeram
parte do método de recomendação proposto. Em relação à baixa produtividade acadêmica,
este fator pode ser acrescentado como uma melhoria do trabalho. Já em relação ao índice-h,
que tenta quantificar a produtividade e o impacto de um determinado pesquisador de
acordo com citações de seus artigos, não foi usado por não ser uma informação presente na
grande maioria dos Lattes.
A seguir, na Tabela 34, alguns comentários que ilustram o que foi citado. Para a
identificação do pesquisador foi utilizado seu identificador no sistema, mantendo a
privacidade de suas respostas.
Tabela 34. Alguns comentários feitos pelos pesquisadores com respeito ao método proposto.
IDENTIFICADOR
DO COMENTÁRIO
PESQUISADOR
1348 “Integre ao sistema Lattes, será muito útil.”
Outros aspectos foram observados com a análise das respostas dos pesquisadores
que podem ser implementados em versões futuros do trabalho. Por exemplo, alguns
pesquisadores relataram que sentiram falta de ver, entre os recomendados, algum
185
pesquisador com quem eles já haviam trabalhado. O que pode ser observado é que quando
um método de recomendação recomenda parcerias já conhecidos pelo pesquisador, este
passa a ter mais confiança no método. Porém, o objetivo do método proposto não era esse,
mas sim recomendar parcerias novas, para conectar pesquisadores desconhecidos. Um
ponto falho de recomendar pesquisadores com quem já se teve uma parceria é que não há
como saber por que as alianças foram desfeitas. Sendo assim, o método estaria
recomendando parcerias negativas.
Outro fato observado diante das respostas é que para uma recomendação funcionar,
não basta fazer boas recomendações, mas deve-se estimular o usuário a segui-las, talvez
criando atrativos para que eles de fato achem que aquelas recomendações foram
boas. Talvez isso seja possível com o apoio de estratégias da área de Interface Humano
Computador (IHC).
Com todas as análises realizadas baseadas em métricas e em análise das respostas
dos pesquisadores, podemos concluir que o método apresentou um bom desempenho na
realização das recomendações
186
Redes sociais científicas tendem a ser complexas de serem analisadas. Isso devido a
grande quantidade de informação existente. Redes homogêneas que usam apenas
pesquisadores como nós e coautoria como relacionamento já apresentam um grande nível
de complexidade e elevada quantidade de informação. Este conceito torna-se mais
complexo quando são utilizadas redes sociais científicas heterogêneas, onde são usados
vários tipos de nós e de relacionamentos.
Análises sobre essas estruturas tendem a ser complexas computacionalmente. Desse
modo, alguns algoritmos de otimização podem auxiliar nesse processo. Existem vários
algoritmos que atendem esse contexto, porém para o cenário apresentado será descrito o
algoritmo das colônias de formigas.
Alguns algoritmos existentes para resolução de sistemas complexos têm uma origem
no comportamento de insetos que vivem em sociedades altamente gerenciadas. O algoritmo
colônia de formigas é um exemplo desse caso. Esse tipo de algoritmo foi proposto pela
primeira vez em 1992 na tese de doutorado do pesquisador Marco Dorigo, e tem como base
o comportamento das formigas quando estas buscam por seu alimento.
As formigas vivem em sociedade na natureza, cada uma tem sua especialização e
executa uma determinada tarefa, visando um bem comum. Quando buscam seus alimentos
saem em várias direções até encontrá-lo. Ao caminhar, as formigas depositam no solo uma
substância química chamada feromônio que é utilizada para se comunicarem umas com as
outras. O objetivo do feromônio é orientar as formigas em relação ao caminho a percorrer
para encontrar sua comida. Com o passar do tempo, o feromônio vai evaporando do solo.
Ou seja, caminhos por onde a formiga não passa frequentemente e que não levaram a
comida ficam com uma concentração menor do que os caminhos que levaram a comida e
que as formigas passaram com mais frequência. Logo, um caminho com uma maior
quantidade de feromônio, indica uma maior quantidade de formigas passando pelo mesmo
caminho, o que o torna mais atrativo para outras formigas.
187
Esse algoritmo também leva em conta uma terceira função chamada de função
objetivo. Tal função determina qual o melhor caminho dentre todos os melhores caminhos
percorridos em cada interação.
Métodos de recomendação de relacionamentos utilizando redes sociais podem ser
implementados com esse tipo de algoritmo, como pode ser visto em (MENDONÇA, 2014).
Nos questionários respondidos pelos pesquisadores foram apresentados outros critérios que
fariam com o que o pesquisador se interessasse pela parceria com outro. Esses critérios
podem se tornar condições para a equação de similaridade entre dois pesquisadores. O uso
dessas várias condições somado com a atual complexidade da recomendação em um cenário
heterogêneo faz com que o uso desses algoritmos facilite a busca por possíveis indicados
para a recomendação. O algoritmo da formiga iria percorrer o grafo da rede social
verificando qual pesquisador possui uma maior similaridade com outro, respeitando as
novas condições, que podem ser, por exemplo, distância física pequena, ou ainda
pesquisadores de determinada universidades, ou ainda pesquisadores com grande produção
acadêmica, etc.
Foi desenvolvida uma versão do método de recomendação utilizando o algoritmo da
colônia de formigas, para que futuramente fossem acrescentadas as condições sugeridas
pelos pesquisadores nas avaliações.
189
9 Conclusão
Para obter tais informações foi necessário comparar as fontes de dados existentes. Após
comparação foi constatado que o Currículo Lattes era a fonte de dados que melhor se
adequava a proposta. Para obter seus dados, foi criado um extrator de dados.
Este trabalho tem como diferencial utilizar a compatibilidade entre os vizinhos em comum
para gerar recomendações. Outro diferencial do trabalho se encontra no fato do mesmo
realizar recomendações de acordo com a expertise do pesquisador. Por exemplo,
pesquisadores juniores recebem como recomendações pesquisadores seniores, pois
acreditamos que estes sejam mais interessantes para que pesquisadores juniores possam
aumentar sua rede de contatos e conhecimento. O fato do método não levar em
consideração apenas a compatibilidade entre os vizinhos em comum (calculado a partir dos
relacionamentos existentes entre os pesquisadores), ameniza o problema do cold start para
pesquisadores juniores, pois estes pesquisadores podem ter poucos relacionamentos na
rede, e consequentemente, o sistema teria pouca informação sobre eles para gerar
recomendações boas.
9.1 Limitações
Como limitações dessa pesquisa podemos citar principalmente três pontos.
A primeira limitação é referente às informações dos pesquisadores utilizadas para gerar as
recomendações e avaliar o método proposto. Foi necessário construir um sistema capaz de
ler o conteúdo HTML do Currículo Lattes de um pesquisador para capturar as informações
do perfil do mesmo. A extração do Lattes se torna complexa a medida que o HTML da página
não é bem formado e não possui uma estrutura que possibilite a identificação das
informações facilmente. Devido a isso e às particularidades do Lattes, como a inserção
manual e opcional de muitos campos, o extrator não foi capaz de detectar todos os
relacionamentos existentes entre os pesquisadores, gerando algumas recomendações que
não eram novas para o pesquisador, conforme desejado. Ainda com relação ao Lattes, outra
limitação é que o método, para ser avaliado, fica muito dependente do preenchimento
correto das informações do Lattes, assim como da atualização do mesmo. Por exemplo, se
são colocadas apenas áreas de atuação genéricas no currículo, como Sistemas de Informação
ou Engenharia de Software, a tendência é que o método recomende pesquisadores de
acordo com essas áreas genérica e, com isso, as recomendações podem não ser de acordo
com o desejado. Neste ponto, o ideal é que este modelo esteja integrado com soluções de
191
9.2 Contribuições
Dentre as contribuições deste trabalho podemos citar: comparação dos principais
trabalhos na área de recomendação de relacionamentos em redes sociais científicas; criação
do extrator de dados do Currículo Lattes; criação de uma nova função para o cálculo de
similaridade entre dois pesquisadores; criação de uma nova função para o cálculo da
expertise de um pesquisador; categorização dos tipos de relacionamentos entre
192
atuação em línguas diferentes, como por exemplo, a área de Data Mining deverá ser
mapeada para Mineração de Dados.
Baseado nos comentários dos pesquisadores é possível perceber algumas sugestões
que podem ser usadas para uma melhoria no método de recomendação. Dentre elas o
acréscimo de mais condições que visam atender uma recomendação mais precisa. Alguns
pesquisadores comentaram sobre a importância do fator distância. Pode-se atribuir uma
condição para “penalizar” pesquisadores localizados em centros de pesquisa distantes.
Outras condições que podem ser acrescentadas em trabalhos futuros é o de nível de
produção acadêmica. Foi descoberto através das respostas dos pesquisadores no
questionário de avaliação que alguns levam em consideração a produtividade acadêmica nos
últimos anos. Pode-se também utilizar a avaliação realizada e outras futuras avaliações para
construir um método capaz de aprender e aprimorar cada vez mais as recomendações. Ou
seja, construir um método de recomendação que também leve em consideração as
condições colocadas por determinados pesquisadores para que em uma recomendação
futura ele consiga realizar uma recomendação baseada nessa condição. Como por exemplo,
um pesquisador pode dar preferência para pesquisadores que trabalham em projetos de
seus amigos, assim, o sistema aprenderia isto para uso futuro.
Outras suposições podem ser feitas e testadas com o objetivo de melhorar o método
de recomendação. Pode-se verificar o efeito do número elevado de vizinhos em comum
entre dois pesquisadores, baseando-se na hipótese de que um pesquisador que possui uma
grande quantidade de vizinhos em comum com outro, já é conhecido por esse outro.
Portanto, talvez os dois não possuam relacionamentos entre si por falta de afinidade.
Outra suposição que pode ser feita é com respeito a popularidade de um nó. Pode-se
supor que se um pesquisador é muito popular, ou seja, possui muitos vizinhos, ele
provavelmente já é conhecido pelos outros pesquisadores. Pode ser que por possuir muitos
vizinhos esse pesquisador possua um bom reconhecimento no meio acadêmico em geral, e
por isso, muitos pesquisadores podem conhecer sua pesquisa. Portanto, ao recomendar
esses pesquisadores muito populares, o sistema pode não estar acrescentando nenhuma
novidade ao pesquisador.
Para futuros trabalhos também pode haver um estudo junto a área de Interface
Humano Computador (IHC) com o objetivo de melhorar a aplicação web construída, de
195
Referências
CNPQ. Plataforma Lattes. Disponível em: http://lattes.cnpq.br/. Acessado em: fev, 2014
HANNON, J., MCCARTHY, K., SMYTH, B.Content vs. Tags for Friend
Recommendation. Incorporating Applications and Innovations in Intelligent Systems XX
Proceedings of AI-2012, The Thirty-second SGAI International Conference on Innovative
Techniques and Applications of Artificial Intelligence.Springer London. p.289-302, 2012.
DOI: 10.1007/978-1-4471-4739-8_23
JSOUP. Java HTML Parser. Disponível em: http://jsoup.org/. Acessado em: fev, 2014.
OLIVEIRA, J., RODRIGUES, S., SOUZA, J. M. Competence mining for virtual scientific
community creation. International Journal of Web Based Communities (Print), v. 1, p. 90,
2004.
RICCI, F. et al. Recommender System Handbook. Springer-Verlag, New York, NY.p. 842,
2011. ISBN-13:978-0387858197.
SCOTT, J. Social Network Analysis: A Handbook.2 ed. SAGE Publications Ltd, 2000.p.
240. ISBN-13: 978-0761963394
SIE, R.L.L. To Whom and Why Should I Connect? Co-author Recommendation Based
on Powerful and Similar Peers. International Journal of Technology Enhanced Learning,
p 121-137. Inderscience Publishers. 2012.
SUN, Z. et al. Recommender systems based on social networks. Journal of Systems and
Software, v. 99, p. 109-119, 2015, ISSN 0164-1212,
DOI:http://dx.doi.org/10.1016/j.jss.2014.09.019
Glossário
API
GCC
JSON – estrutura leve para troca de dados.
MBTI
PPGI
REST -
SERVIÇO WEB
SOAP
UFRJ
XML
203
Anexos
Apêndices
2-Sexo:
Outros. Quais?
Projetos.
Publicações.
Bancas.
Orientações.
Eventos.
Formação Acadêmica.
Atuação Profissional.
Prêmios.
Outros. Quais?
Projetos.
Publicações.
Bancas.
208
Orientações.
Eventos.
Formação Acadêmica.
Atuação Profissional.
Prêmios.
Outros. Quais?
4-Sexo:
Masculino
Outros. Quais?
Projetos.
Publicações.
Bancas.
Orientações.
Eventos.
Formação Acadêmica.
Atuação Profissional.
Prêmios.
Outros. Quais?
Projetos.
Publicações.
Bancas.
211
Orientações.
Eventos.
Formação Acadêmica.
Atuação Profissional.
Prêmios.
Outros. Quais?