Você está na página 1de 214

Patrícia Zudio de Lima

UM MÉTODO DE RECOMENDAÇÃO DE
RELACIONAMENTOS EM REDES SOCIAIS
CIENTÍFICAS HETEROGÊNEAS

DISSERTAÇÃO DE MESTRADO

Rio de Janeiro
2012
2

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO


INSTITUTO DE MATEMÁTICA
INSTITUTO TÉRCIO PACITTI DE APLICAÇÕES E PESQUISAS COMPUTACIONAIS
PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA

PATRÍCIA ZUDIO DE LIMA

UM MÉTODO DE RECOMENDAÇÃO DE RELACIONAMENTOS


EM REDES SOCIAIS CIENTÍFICAS HETEROGÊNEAS

Dissertação de Mestrado apresentada ao


Programa de Pós-Graduação em Informática,
Instituto de Matemática e Instituto Tércio
Pacciti, Universidade Federal do Rio de Janeiro,
como requisito parcial à obtenção do título de
Mestre em Informática.

Orientador: Prof. Jonice de Oliveira Sampaio, D.Sc.

Rio de Janeiro
2015
3
4

PATRÍCIA ZUDIO DE LIMA

UM MÉTODO DE RECOMENDAÇÃO DE RELACIONAMENTOS


EM REDES SOCIAIS CIENTÍFICAS HETEROGÊNEAS

Dissertação de Mestrado apresentada ao


Programa de Pós-Graduação em Informática,
Instituto de Matemática e Instituto Tércio
Pacciti, Universidade Federal do Rio de Janeiro,
como requisito parcial à obtenção do título de
Mestre em Informática.

Aprovada em 27/02/2015.

______________________________________________________
Prof. Jonice de Oliveira Sampaio, D.Sc., PPGI/UFRJ (Orientadora)

______________________________________________________
Prof. Adriana Santarosa Vivacqua, D.Sc, PPGI/UFRJ

______________________________________________________
Prof. Sean Wolfgand Matsui Siqueira, D.Sc., UNIRIO

______________________________________________________
Prof. Claudia Inês Chamas, D.Sc., FIOCRUZ
5

Aos meus pais e ao meu amor,


com todo carinho e gratidão.
6

Agradecimentos
7

”Ela acreditava em anjos e, porque acreditava, eles existiam.”


(Clarice Lispector – A Hora da Estrela)
8

Resumo

ZUDIO, Patrícia. Um método de recomendação de relacionamentos em redes sociais


científicas heterogêneas. 2015. <número de folhas>. Tese (Mestrado em Informática) –
Instituto de Matemática, Instituto Tércio Pacciti, Universidade Federal do Rio de Janeiro, Rio
de Janeiro, 2015.

A área de redes sociais vem crescendo e despertando o interesse dos pesquisadores


nos últimos anos. Esse fato pode ser visto através do aumento de publicações relacionadas
com esse tema. O avanço das pesquisas nessa área possibilitou o surgimento de novas
frentes de estudo mais específicas, tais como, as redes sociais científicas. No cenário
científico elementos como pesquisador, projetos, publicações, etc. podem formar os nós da
rede social. Sabe-se que a quantidade de informações e conhecimento acadêmico nos dias
atuais são elevados, e dessa forma, tornar-se ciente de outros pesquisadores que atuem em
áreas de pesquisa similares a sua pode ser uma tarefa difícil. Desse modo, este trabalho
propõe um novo método que realiza recomendações de relacionamentos utilizando redes
sociais científicas heterogêneas. Para isso, foram propostas duas funções: uma para calcular
a similaridade entre dois pesquisadores e outra para calcular o grau de expertise de um
pesquisador. A similaridade entre os pesquisadores é inferida através da compatibilidade
entre os vizinhos em comum, das áreas de atuação em comum e da popularidade dos
pesquisadores. Quanto maior a popularidade de um pesquisador, mais propício ele estará
para formar novas parcerias. Para verificar a viabilidade do método de recomendação
proposto foram realizadas 3 avaliações: análise comparativa com a participação do usuário,
análise comparativa sem a participação do usuário e análise qualitativa. Os resultados foram
satisfatórios e com isto conseguimos comprovar a contribuição deste trabalho para o estado
da arte.

Palavras-chave: combinação social, predição de relacionamentos, sistemas de


recomendação, redes sociais.
9

Abstract

ZUDIO, Patrícia. Um método de recomendação de relacionamentos em redes sociais


científicas heterogêneas. 2015. <número de folhas>. Tese (Mestrado em Informática) –
Instituto de Matemática, Instituto Tércio Pacciti, Universidade Federal do Rio de Janeiro, Rio
de Janeiro, 2015.

The social network area has grown and attracted the researchers´ interest in recent
years. This fact can be observed through the rise of publications about this issue. The
progress of research in this area has enabled the emergence of new specialized studies, such
as the scientific social networks. In this context, some elements as a researcher, projects,
publications, etc. can be the nodes of the social network. Is known that the amount of
information and academic knowledge today are elevated, and so become aware of other
researchers working in similar areas of research can be a difficult task. Thus, this work
presents a new method that suggests a recommendation of relationships using
heterogeneous scientific social networks. To reach this goal, two functions have been
proposed: the first function to calculate the similarity between two researchers and the
second to calculate the expertise degree of a researcher. The similarity among researchers is
inferred by the compatibility between the common neighbors, the common research areas
and the popularity of the researchers. If a researcher has a high popularity, his chances to
form new partnerships are bigger. To verify the viability of the proposed recommendation
method were made three evaluations: comparative analysis with user participation,
comparative analysis without user participation and qualitative analysis. The results were
satisfactory and this could prove this work contribution to the state of art.

Keywords: social combination, link prediction, recommender systems, social network.


10

Lista de Figuras
Figura 1. Relacionamento amoroso entre alunos do ensino médio em uma escola americana
(EASLEY; KLEINBERG, 2010). ............................................................................................. 26
Figura 2. Rede de coautorias de físicos e matemáticos que trabalham com redes (EASLEY;
KLEINGERG, 2010). ........................................................................................................... 27
Figura 3. Exemplo de rede social. ............................................................................................. 28
Figura 4. Exemplo de grafo completo (BENBENNICK, 2015). ................................................... 30
Figura 5. Exemplo de rede social para ilustrar os relacionamentos entre os nós. .................. 38
Figura 6. Exemplo de Currículo Lattes. ..................................................................................... 49
Figura 7. Página sobre Social Network do Microsoft Academic Search (MICROSOFT
RESEARCH, 2015b). ........................................................................................................... 51
Figura 8. Perfil da professora Jonice Oliveira no Microsoft Academic Search (MICROSOFT
RESEARCH, 2013a). ........................................................................................................... 52
Figura 9. Parte do perfil da prof. Jonice Oliveira no Microsoft Academic Search que apresenta
as conferências em que ela já participou (MICROSOFT RESEARCH, 2013a). ................... 53
Figura 10. Parte do perfil da Prof. Jonice Oliveira no Arnet Miner (ARNET MINER, 2013b). ... 55
Figura 11. Parte relativa a conferências do perfil da Prof. Jonice Oliveira no Arnet Miner
(ARNET MINER, 2013b)..................................................................................................... 56
Figura 12. Áreas de interesse alteradas por terceiros em um perfil do Arnet Miner (ARNET
MINER, 2013f)................................................................................................................... 56
Figura 13. Número de autores por tipo de publicação (DBLP, 2013c). .................................... 57
Figura 14. Número de publicações por ano (DBLP, 2013d). .................................................... 58
Figura 15. Perfil da prof. Jonice Oliveira na DBLP(DBLP, 2015). ............................................... 58
Figura 16. Perfil da prof. Jonice Oliveira no Research Gate (RESEARCH GATE, 2015b). .......... 60
Figura 17. Perfil da prof. Jonice Oliveira no Google Acadêmico (GOOGLE, 2015b). ................ 61
Figura 18. Exemplo de relacionamentos entre pesquisadores. ............................................... 66
Figura 19. Exemplo de rede social com nós demonstrando a principal área de atuação de um
pesquisador. ..................................................................................................................... 71
Figura 20. Gráfico da função f(Δt) = 1,05Δt que representa o acúmulo de conhecimento do
pesquisador no decorrer dos anos posteriores a sua formação. .................................... 85
Figura 21. Exemplo de cálculo de compatibilidade entre pesquisadores P1 e P2. .................. 89
11

Figura 22. Distribuição dos pesos na equação de similaridade conforme a expertise. ........... 98
Figura 23. Exemplo de relacionamento entre pesquisadores. ................................................. 99
Figura 24. Arquitetura da Solução. ......................................................................................... 106
Figura 25. Modelo de funcionamento do extrator................................................................. 108
Figura 26. Trecho do currículo Lattes que corresponde ao código exibido na Figura 27. ..... 110
Figura 27. Trecho de código HTML do currículo Lattes. ......................................................... 111
Figura 28. Modelo do banco de dados do extrator. ............................................................... 115
Figura 29. Tela inicial do sistema de avaliação. ...................................................................... 120
Figura 30. Tela de questionário do sistema de avaliação. ..................................................... 120
Figura 31. Modelo do banco de dados do sistema de avaliação. .......................................... 121
Figura 32. Distribuição de notas atribuídas pelos pesquisadores às recomendações. .......... 143
Figura 33. Gráfico do nível de satisfação dos participantes de uma forma geral. ................. 144
Figura 34. Gráfico do nível de satisfação dos participantes quanto às recomendações. ...... 144
Figura 35. Gráfico do nível de satisfação dos participantes quanto ao método. .................. 144
Figura 36. Rede Social de coautoria dos pesquisadores do PPGI no período 01/01/2009 até
04/02/2014. .................................................................................................................... 159
Figura 37. Rede heterogênea de pesquisadores do PPGI proposta por Monclar (2008) no
período de 01/01/2009 até 04/02/2014. ....................................................................... 160
Figura 38. Gráfico de distribuição de notas atribuídas às recomendações – Avaliação 3. .... 176
Figura 39. Gráfico de nível de satisfação dos participantes de uma forma geral – Avaliação 3.
........................................................................................................................................ 176
Figura 40. Gráfico do nível de satisfação dos participantes quanto ao método – Avaliação 3.
........................................................................................................................................ 176
Figura 41. Gráfico de nível de satisfação dos participantes quanto às recomendações –
Avaliação 3. ..................................................................................................................... 177
Figura 42. Exemplo do funcionamento do algoritmo Ant Colony. ......................................... 186
12

Lista de Tabelas
Tabela 1. Grau dos nós da Figura 3. ......................................................................................... 29
Tabela 2. Densidade dos nós da Figura 3 ................................................................................. 30
Tabela 3. Grau de intermediação dos nós da Figura 3. ............................................................ 30
Tabela 4. Centralidade global dos nós da rede social da Figura 3. .......................................... 31
Tabela 5. Comparação entre os trabalhos correlatos. ............................................................. 45
Tabela 6. Comparação entre as bases de dados acadêmicas. ................................................. 61
Tabela 7. Relacionamentos entre pesquisadores utilizados pelo método de recomendação
proposto. .......................................................................................................................... 68
Tabela 8. Características dos pesquisadores utilizadas pelo método de recomendação
proposto. .......................................................................................................................... 73
Tabela 9. Pesos atribuídos aos diferentes níveis da carreira do pesquisador. ........................ 78
Tabela 10. Pesos atribuídos aos diferentes tipos de bolsa do CNPq. ...................................... 80
Tabela 11. Pesos atribuídos aos níveis das bolsas de Produtividade em Pesquisa e
Produtividade em Desenvolvimento Tecnológico e Extensão. ........................................ 80
Tabela 12. Pesos atribuídos aos níveis das bolsas de Desenvolvimento Tecnológico e
Industrial, Desenvolvimento Científico Regional e Extensão no País. ............................. 81
Tabela 13. Pesos atribuídos aos níveis de bolsas de Fixação e Capacitação em Recursos
Humanos........................................................................................................................... 81
Tabela 14. Pesos atribuídos às diferentes titulações. .............................................................. 82
Tabela 15. Pesos atribuídos a cada fator da equação Expertise. ............................................. 87
Tabela 16. Categorização dos relacionamentos e atributos e seus respectivos pesos............ 94
Tabela 17. Dados extraídos do Currículo Lattes. .................................................................... 107
Tabela 18. Condições para recomendação de pesquisador no método de Brandão e Moro
(2012).............................................................................................................................. 127
Tabela 19. Descrição das notas atribuídas às recomendações. ............................................. 137
Tabela 20. Distribuição de participantes pelas grandes áreas do PPGI. ................................ 142
Tabela 21. Distribuição de participantes por expertise. ......................................................... 142
Tabela 22. Precisão por método – Avaliação 1. ..................................................................... 146
Tabela 23. Auto-Confiança por método. ................................................................................ 147
Tabela 24. Quantidade de cada nota por método. ................................................................ 149
13

Tabela 25. Porcentagem de cada nota por método. .............................................................. 149


Tabela 26. Porcentagem de notas positivas, neutras e negativas por método. .................... 149
Tabela 27. Quantidade de recomendações concretizadas a partir de 2014.......................... 156
Tabela 28. Cobertura do Espaço do Usuário por método – Avaliação 2................................ 165
Tabela 29. Cobertura de Catálogo por método – Avaliação 2. .............................................. 166
Tabela 30. Novidade por método – Avaliação 2. ................................................................... 166
Tabela 31. Distribuição de participantes por universidade – Avaliação 3. ............................ 173
Tabela 32. Distribuição de participantes por faixa etária – Avaliação 3. ............................... 175
Tabela 33. Distribuição de participantes por sexo – Avaliação 3. .......................................... 175
Tabela 34. Alguns comentários feitos pelos pesquisadores com respeito ao método
proposto. ........................................................................................................................ 182
14

Sumário

1 INTRODUÇÃO........................................................................................................................ 18

1.1 PROBLEMA ........................................................................................................................... 18


1.2 MOTIVAÇÃO ......................................................................................................................... 21
1.3 OBJETIVO ............................................................................................................................. 23
1.4 ESTRUTURA DA DISSERTAÇÃO .................................................................................................... 24

2 REDES SOCIAIS ...................................................................................................................... 25

2.1 DEFINIÇÕES........................................................................................................................... 25
2.2 MÉTRICAS UTILIZADAS PARA ANÁLISE .......................................................................................... 28
2.3 CONCLUSÃO .......................................................................................................................... 31

3 SISTEMAS DE RECOMENDAÇÃO ............................................................................................. 33

3.1 DEFINIÇÕES........................................................................................................................... 33
3.2 MÉTODOS DE RECOMENDAÇÃO ................................................................................................. 34
3.2.1 FILTRO COLABORATIVO ................................................................................................................... 34
3.2.2 BASEADA EM CONTEÚDO ................................................................................................................ 35
3.2.3 HÍBRIDA ....................................................................................................................................... 36
3.3 CONCLUSÃO .......................................................................................................................... 36

4 RECOMENDAÇÃO DE RELACIONAMENTOS EM REDES SOCIAIS ................................................ 37

4.1 MÉTODOS DE RECOMENDAÇÃO DE RELACIONAMENTOS EM REDES SOCIAIS .......................................... 37


4.2 TRABALHOS EXISTENTES EM RECOMENDAÇÃO DE RELACIONAMENTOS EM REDES SOCIAIS CIENTÍFICAS .......... 39
4.3 CONCLUSÃO .......................................................................................................................... 46

5 FONTES DE DADOS SOBRE PESQUISADORES .......................................................................... 48

5.1 BASES DE DADOS ESTUDADAS .................................................................................................... 48


5.1.1 CURRÍCULO LATTES ........................................................................................................................ 48
5.1.2 MICROSOFT ACADEMIC SEARCH ....................................................................................................... 50
15

5.1.3 ARNET MINER ............................................................................................................................... 54


5.1.4 DBLP .......................................................................................................................................... 56
5.1.5 RESEARCH GATE ............................................................................................................................ 59
5.1.6 GOOGLE ACADÊMICO ..................................................................................................................... 60
5.2 COMPARAÇÃO ENTRE AS BASES DE DADOS ACADÊMICAS .................................................................. 61
5.3 BASE DE DADOS ESCOLHIDA ...................................................................................................... 62
5.4 FERRAMENTAS DE EXTRAÇÃO DE DADOS DO CURRÍCULO LATTES ........................................................ 62
5.4.1 SCRIPTLATTES ............................................................................................................................... 63
5.4.2 SUCUPIRA ..................................................................................................................................... 63
5.5 CONCLUSÃO ........................................................................................................................ 64

6 PROPOSTA DE UM NOVO MÉTODO DE RECOMENDAÇÃO DE RELACIONAMENTOS CIENTÍFICOS


66

6.1 REDE SOCIAL MODELADA ......................................................................................................... 67


6.2 DESCRIÇÃO DO MÉTODO PROPOSTO ............................................................................................ 75
6.2.1 EXPERTISE .................................................................................................................................... 75
6.2.2 SIMILARIDADE ENTRE PESQUISADORES .............................................................................................. 87
6.3 EXEMPLO DE USO ................................................................................................................... 99
6.4 ARQUITETURA E DESENVOLVIMENTO DA SOLUÇÃO ....................................................................... 105
6.4.1 EXTRAÇÃO DE DADOS DOS CURRICULOS LATTES ................................................................................ 106
6.4.2 TRATAMENTO DOS DADOS ............................................................................................................ 112
6.4.3 BASE DE DADOS DO EXTRATOR ...................................................................................................... 113
6.4.4 SISTEMA DE RECOMENDAÇÃO ........................................................................................................ 116
6.4.5 SISTEMA DE AVALIAÇÃO (BRASIL E PPGI) + INTERFACE ...................................................................... 119
6.4.6 BASE DE DADOS DO SISTEMA DE AVALIAÇÃO .................................................................................... 121
6.5 CONCLUSÃO ........................................................................................................................ 122

7 AVALIAÇÃO......................................................................................................................... 123

7.1 CONTEXTUALIZAÇÃO ............................................................................................................. 123


7.1.1 DESCRIÇÃO DOS TRABALHOS CORRELATOS ANALISADOS..................................................................... 123
7.1.2 DESCRIÇÃO DAS MÉTRICAS UTILIZADAS PARA AVALIAÇÃO .................................................................... 130
7.2 AVALIAÇÃO 1 – ANÁLISE COMPARATIVA – COM OBSERVAÇÃO DO USUÁRIO (ON-LINE) ......................... 135
7.2.1 DEFINIÇÃO DO ESTUDO................................................................................................................. 135
16

7.2.2 PLANEJAMENTO DO ESTUDO.......................................................................................................... 136


7.2.3 EXECUÇÃO DO ESTUDO ................................................................................................................. 140
7.2.4 ANÁLISE DOS RESULTADOS ............................................................................................................ 141
7.3 AVALIAÇÃO 2 – ANÁLISE COMPARATIVA – SEM OBSERVAÇÃO DO USUÁRIO (OFF-LINE)......................... 152
7.3.1 DEFINIÇÃO DO ESTUDO................................................................................................................. 153
7.3.2 PLANEJAMENTO DO ESTUDO.......................................................................................................... 153
7.3.3 EXECUÇÃO DO ESTUDO ................................................................................................................. 155
7.3.4 ANÁLISE DOS RESULTADOS ............................................................................................................ 156
7.4 AVALIAÇÃO 3 – ANÁLISE QUALITATIVA (QUASI-EXPERIMENTO) ...................................................... 168
7.4.1 DEFINIÇÃO DO ESTUDO................................................................................................................. 168
7.4.2 PLANEJAMENTO DO ESTUDO.......................................................................................................... 168
7.4.3 EXECUÇÃO DO ESTUDO ................................................................................................................. 172
7.4.4 ANÁLISE DOS RESULTADOS ............................................................................................................ 172
7.5 CONCLUSÃO ........................................................................................................................ 180

8 OTIMIZAÇÃO DA SOLUÇÃO ATRAVÉS DO ALGORITMO DE COLÔNIA DE FORMIGA................. 185

9 CONCLUSÃO ....................................................................................................................... 188

9.1 LIMITAÇÕES ........................................................................................................................ 189


9.2 CONTRIBUIÇÕES ................................................................................................................... 190
9.3 TRABALHOS FUTUROS ............................................................................................................ 192

REFERÊNCIAS ............................................................................................................................ 195

GLOSSÁRIO............................................................................................................................... 201

ANEXOS.................................................................................................................................... 202

ANEXO A – INSTITUIÇÕES DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UTILIZADAS PARA A COLETA DO


CURRÍCULO LATTES ........................................................................................................................ 202

ANEXO B – ÁREAS DE CONHECIMENTO EXTRAÍDAS DA TABELA DE ÁREAS DE CONHECIMENTO DA


CAPES....................................................................................................................................... 204

APÊNDICES ............................................................................................................................... 205


17

APÊNDICE A – QUESTIONÁRIO AVALIAÇÃO 1 – ANÁLISE COMPARATIVA ....................................... 205


APÊNDICE B – QUESTIONÁRIO AVALIAÇÃO 2 – ANÁLISE QUALITATIVA ................................................... 208
APÊNDICE C – CONVITE ENVIADO PARA AVALIAÇÃO 1 ................................................................ 211
APÊNDICE D – CONVITE ENVIADO PARA AVALIAÇÃO 3................................................................ 212
18

1 Introdução

A área de análise de redes sociais é uma área abrangente que vem crescendo e
despertando o interesse de vários pesquisadores nas últimas duas décadas (HOONLOR et al.,
2013). Podemos verificar esse fato através do aumento de publicações relacionadas com
esse assunto nos últimos seis anos (HOONLOR et al., 2013 ). O avanço das pesquisas nessa
área possibilitou o surgimento de novas frentes de estudo mais específicas, tais como, as
redes sociais científicas (NEWMAN, 2001b). Tais redes retratam geralmente a interação
existente entre pesquisadores dentro da comunidade científica, através dos seus diferentes
relacionamentos. Por exemplo, em uma rede social científica podem ser representados
como nós quaisquer elementos que se relacionam: pesquisadores, congressos, artigos, áreas
de pesquisa, dentre outros. Também podem ser representados como relacionamentos:
coautoria de trabalhos, coorientação de alunos, participação em eventos e bancas, parcerias
em projetos, etc.

1.1 Problema
A difusão da Internet nos últimos anos possibilitou uma maior divulgação da informação
e, consequentemente, facilitou também o seu acesso. Com isso, foi possível o aumento da
divulgação de trabalhos científicos em forma de sites, notícias, artigos e periódicos pela
rede, viabilizando a disseminação desse conhecimento tão caro.
A Internet também possibilitou a maior interação entre pesquisadores, encurtando
distâncias. Antes, essa interação era feita principalmente através de congressos e
conferências, além de comunicação por telefone. As pesquisas eram realizadas em um
âmbito bem local, entre pessoas que pertenciam às mesmas instituições, trabalhavam nos
mesmos laboratórios de pesquisa ou que estavam situadas em locais próximos. Atualmente,
pesquisadores podem facilmente criar grupos de discussão e de trabalho através da Internet.
Podem, ainda, entrar em contato rapidamente através de correio eletrônico,
videoconferências, dentre outros, sendo possível trocar informações, escrever artigos,
organizar eventos e trabalhar em produções técnicas com pessoas fisicamente distantes
umas das outras. Pode-se citar como exemplo desta evolução da atividade científica, o
collaboratory ou colaboratório. Um colaboratório é um laboratório virtual colaborativo
19

aonde grupos de pesquisadores fisicamente separados utilizam tecnologias suportadas pelo


computador, como a Internet, para produzir juntos conhecimento científico (PEPE, 2010).
Por exemplo, um projeto pode ser idealizado em um laboratório brasileiro e executado por
um laboratório na Finlândia.
Ainda que todos esses avanços tenham facilitado a colaboração entre pesquisadores de
qualquer lugar do mundo e ainda possibilitado o acesso a resultados de qualquer pesquisa
científica disponível, a grande quantidade de pesquisadores e pesquisas existentes torna
difícil o conhecimento de todos esses trabalhos. Embora a evolução tecnológica nos permitiu
uma maior colaboração, a divulgação do conhecimento científico ainda é a mesma de
séculos atrás: através de publicações e encontros em eventos específicos. No ano de 2001,
segundo dados verificados pela FOLHA DE SÃO PAULO (2013), o Brasil publicou 13.846
trabalhos na base de dados aberta da SCIMAGO (2013). Só em 2011, o Brasil publicou
49.664. Ou seja, o número de publicações no ano de 2011 no Brasil foi 3,5 vezes maior que
no ano de 2001. Como resultado do crescente aumento de publicações, torna-se inviável
acompanhar a evolução de uma área e seus temas correlatos. Consequentemente, pode-se
encontrar redundância de trabalhos realizados por equipes diferentes e duplicação de
esforços. Também há casos em que pesquisadores possuem pesquisas complementares.
Neste caso, eles poderiam colaborar entre si, contribuindo para o progresso científico.
Porém, muitas vezes não o fazem por não se conhecerem ou se conhecerem tardiamente.
Portanto, pesquisadores que poderiam estar trabalhando juntos acabam trabalhando
separadamente e produzindo trabalhos repetidos ou incompletos.
Quando há pouca colaboração entre as pessoas, diminui-se a chance da informação ser
trocada, do conhecimento ser disseminado e da inovação ser gerada. Com isso, corre-se o
risco de parte do conhecimento científico gerado ser perdido se não for propagado ou dele
permanecer estagnado Portanto, são necessários mecanismos que auxiliem na identificação
de pesquisadores que tenham interesses em comum, a fim de que eles possam trabalhar em
conjunto. Ou seja, mecanismos que auxiliem na formação de equipes, na busca por
parcerias e colaborações.
Existem algumas estratégias que buscam resolver o problema do grande fluxo de
informação, como o uso de sistemas de busca e sistemas de recomendação (WALTER;
BATTISTON; SCHWEITZER, 2007). Sistemas de busca deixam a desejar na falta de
20

personalização dos resultados e acabam por retornar os mesmos itens para pessoas
diferentes, que buscam coisas distintas (WALTER; BATTISTON; SCHWEITZER, 2007). Já os
sistemas de recomendação podem suprir esta questão. Com isso, utilizando um método de
recomendação, os problemas apresentados poderiam ser minimizados.
Além do problema existente devido a grande quantidade de informação, o cenário
científico apresenta outros problemas com o fluxo da informação e com a disseminação do
conhecimento. Uma das causas destes problemas é a rotatividade de pessoas neste meio.
Por exemplo, o tempo de permanência de um aluno de mestrado é bem curto, se
estendendo ao máximo três anos. Quando esses alunos concluem seus estudos, levam
consigo todo o aprendizado adquirido, dificilmente passando adiante o conhecimento de
suas dissertações, pesquisas e projetos, para que seja dada continuidade a eles. O mesmo
ocorre com posdocs e professores visitantes, que possuem um tempo pequeno de
permanência em uma instituição. Há também os casos das aposentadorias, transferências
para outras instituições e mudanças para outros empregos. Quando esses pesquisadores e
professores perdem o vínculo com a instituição, corre-se o risco de ninguém dar
continuidade aos seus projetos e pesquisas. Isso pode ocorrer por falta de conhecimento
institucional sobre os projetos de pesquisa existentes, devido à autonomia dos profissionais
do meio científico e acadêmico (ninguém precisa de permissão para começar a estudar ou
pesquisar um assunto) ou ainda por se tratarem de assuntos em que há poucas pessoas com
interesse ou expertise neles. Esse último caso reflete aquele caso em que há raros
especialistas dentro de uma determinada área e quando se precisa de alguém para trabalhar
no assunto, não se encontra ou precisa-se resgatar pessoas já aposentadas.
Ainda relacionado ao fluxo da informação, outro problema é a maneira como o
conhecimento científico é disseminado. Apesar dos avanços da Ciência, a divulgação dos
resultados ainda é paper-oriented, ou seja, através de artigos e teses. Geralmente, só se
toma conhecimento de trabalhos sendo feitos por pesquisadores fora do seu convívio,
quando é feita alguma publicação sobre eles ou quando são apresentados em congressos
(ALVES, 2014). Se dois pesquisadores trabalharem na mesma área ou áreas correlatas, mas
publicarem em veículos diferentes ou participarem de eventos diferentes, há uma chance de
não se conhecerem.
21

No ambiente acadêmico também há casos em que o conhecimento fica restrito a um


pesquisador ou a um grupo devido à ausência de interação externa. Por exemplo, em grupos
de pesquisa de uma determinada área em uma universidade, naturalmente as pessoas
interagem muito entre si, ocorrendo uma troca de conhecimento. Porém, a interação com
outros fora do seu grupo ou instituição pode ser mais raraComo consequência, há grupos
diferentes desenvolvendo trabalhos similares, às vezes até iguais, acarretando em gastos e
retrabalho desnecessários. Isso ocorre porque pesquisadores preferem interagir com
pesquisadores mais próximos a eles, possivelmente pela dificuldade encontrada em saber
em que outros pesquisadores mais distantes estão trabalhando (ALVES, 2014).
Uma pesquisa científica é muito custosa, não só financeiramente, mas intelectualmente.
Demanda-se tempo e recursos financeiros para preparar pessoas, montar equipes e
laboratórios, desenvolver ferramentas, realizar testes, experimentos e etc. Em alguns
contextos, esses gastos não são tão perceptíveis, porém, em outros cenários como a
pesquisa médica e farmacêutica, há a percepção mais acentuada deles. Em uma pesquisa
médica muitas vezes são necessários anos para se obter o resultado de um experimento. Se
houvesse uma maior interação entre os diversos pesquisadores e, consequentemente, o
maior conhecimento sobre pesquisas de terceiros, esses gastos poderiam ser reduzidos.
Além disso, ao atuar em conjunto, há uma consequente redução dos custos da pesquisa
devido a diminuição do tempo de duração da mesma, já que há mais especialistas
trabalhando com o mesmo objetivo (ALVES, 2014).

1.2 Motivação
Segundo (MOTTA et al., 2011), sistemas de recomendação são filtros de informação
utilizados para apresentar para o usuário itens que sejam relevantes para ele. Como, por
exemplo, a recomendação de produtos em uma loja virtual, tais como livros, filmes, músicas
e etc. Tal sistema ajuda o usuário a tomar uma decisão diante da grande quantidade de
informação apresentada a ele (TERVEEN; MCDONALD, 2005).
Além de produtos e serviços, também é possível recomendar pessoas. Esse tipo
particular de recomendação recebe o nome de combinação social (MOTTA et al., 2011). De
acordo com Terveen e McDonald (2005), “enquanto a recomendação de produtos e serviços
automatizaram parcialmente o processo de compartilhar opiniões boca-a-boca, a
recomendação de pessoas automatizou o processo de aproximar pessoas”.
22

A combinação social é utilizada para diferentes fins, tais como: recomendação de


especialistas em um assunto, de pessoas para relacionamentos amorosos, de parceiros para
trabalho e etc.
De acordo com (SUN et al., 2011), a maioria dos trabalhos encontrados sobre
recomendação de pares, ou seja, recomendação de relacionamentos entre pessoas, em
redes sociais científicas fazem uso de redes homogêneas. Redes sociais podem ser
classificadas em homogêneas e heterogêneas (SUN et al., 2011). Redes sociais homogêneas
são aquelas que apresentam apenas um tipo de nó e um tipo de relacionamento (SUN et al.,
2011). Por exemplo, uma rede social científica homogênea de coautoria apresenta
relacionamentos de coautoria entre pesquisadores, ou seja, os nós da rede são os
pesquisadores e as arestas são os relacionamentos de coautoria entre eles. Já as redes
sociais heterogêneas são redes mais complexas, pois apresentam diferentes tipos de nós ou
diferentes tipos de relacionamentos (SUN et al., 2011). Em uma rede social heterogênea de
viagens podemos ter pessoas e lugares como nós e, relacionamentos de visita entre pessoas
e lugares, assim como relacionamentos de amizade entre as pessoas. A rede homogênea
mais utilizada para analisar os relacionamentos de colaboração entre pesquisadores é a de
coautoria (LEE; ADORNA, 2012). Porém, segundo (SUN et al., 2011), a acurácia da
recomendação de relacionamentos pode melhorar significativamente quando são utilizadas
redes heterogêneas devido a rica semântica presente em tais redes. Com o uso de redes
heterogêneas, diferentes tipos de interação entre os pesquisadores podem ser analisados e
os diferentes tipos de relacionamento podem ser considerados no modelo de
recomendação. Ao considerar somente um tipo de relacionamento no modelo de
recomendação, dois pesquisadores que já possuem uma ligação podem ser recomendados
equivocadamente. Como por exemplo, um caso em que dois pesquisadores de interesses em
comum coorientam alunos juntos, porém não são coautores. Na rede social de coautoria,
eles não possuiriam relacionamentos e poderiam ser recomendados um ao outro, mesmo já
existindo outros tipos de relacionamento entre eles. Tais relacionamentos não poderiam ser
detectados devido a rede só considerar um tipo de relacionamento.
Este trabalho possui como principal motivação o poder de sistemas de recomendação,
especialmente na recomendação de pessoas para a formação de parcerias e a maior
cobertura de informações representadas em redes sociais heterogêneas.
23

1.3 Objetivo
Os problemas apresentados anteriormente podem ser identificados com o auxílio da
análise da rede social científica. Isso ocorre porque a estrutura de uma rede social tem
implicações importantes para a disseminação de informações e, além disso, ela pode ser
utilizada para identificar padrões nas interações entre as pessoas (NEWMAN, 2001b) Todos
os diferentes tipos de relacionamento presentes em uma comunidade científica enriquecem
o entendimento sobre a rede social. Por isso, podem ser analisados para identificar grupos e
a interação entre eles, melhorar o fluxo da informação e a disseminação do conhecimento.
Após analisar a rede, uma das maneiras de tentar melhorar o fluxo da informação é realizar
recomendações de pares, ou seja, sugerir relacionamentos entre nós da rede. Segundo
(MONCLAR, 2008), a recomendação baseada em relacionamentos de uma rede é uma
aplicação importante de análise de redes sociais. No cenário acadêmico, a recomendação de
relacionamentos pode facilitar a descoberta e troca de conhecimento e aumentar a
produtividade dos pesquisadores (XU et. al, 2010).
Diante disso, este trabalho tem por objetivo principal facilitar o processo de descoberta
de pesquisadores que não se relacionam e que sejam similares entre si para a formação de
parcerias. Para isto, é proposto um método de recomendação de novos relacionamentos
entre pesquisadores utilizando redes sociais científicas heterogêneas não-direcionadas,
levando em consideração diferentes tipos de interação científica e o perfil do pesquisador
(áreas de interesse e expertise). Como objetivo secundário temos a implementação deste
método.
Para atingir estes objetivoss foi necessária a identificação da rede social científica
heterogênea, a criação e uso de métricas para a identificação de perfis similares que
serviram de base para a recomendação.
Os relacionamentos utilizados para a formação da rede social científica foram:
coautoria, coorientação, co-participação em bancas e projetos. Além disso, também foram
levadas em consideração as áreas de atuação de um pesquisador na elaboração da rede. A
rede social modelada apresenta relacionamentos não-direcionados. Esta escolha foi feita
porque em uma parceria de trabalho, consideramos que o pesquisador A trabalhar com B
tem o mesmo significado que o pesquisador B trabalhar com A.
24

1.4 Estrutura da Dissertação


Este trabalho encontra-se organizado conforme a seguir.
Os capítulos 2 e 0 apresentam a fundamentação teórica sobre Redes Sociais e Métodos
de Recomendação respectivamente.
O capítulo 4 apresenta os principais trabalhos existentes sobre recomendação de
relacionamentos, principalmente em redes sociais científicas.
No capítulo 5 são descritas e comparadas as principais fontes de dados sobre
pesquisadores. Além disso, são apresentadas resumidamente algumas ferramentas de
extração desses dados.
O capítulo 6 apresenta toda a proposta deste trabalho que é a criação de um método de
recomendação de relacionamentos em redes sociais científicas heterogêneas.
A avaliação da proposta pode ser encontrada no capítulo 7. Nele são descritas três
avaliações distintas que foram feitas.
O capítulo 8 apresenta uma otimização da solução, com o feedback da avaliação, a partir
do uso do Algoritmo das Formigas (Ant Colony).
Por fim, a conclusão deste trabalho encontra-se no capítulo 9.
25

2 Redes Sociais

Este capítulo tem por objetivo apresentas as principais características de uma rede
social, assim como algumas de suas métricas utilizadas para análise.

2.1 Definições

Uma rede social é um conjunto de itens, chamados de nós ou vértices, com ligações
chamadas de relacionamentos ou arestas entre eles (NEWMAN, 2003). Os nós podem
representar pessoas ou outros tipos de itens envolvidos em um contexto social, enquanto
que as arestas podem representar interações, colaborações e outros tipos de influências
entre os nós (LIBEN-NOWELL; KLEINBERG, 2003). Em resumo, uma rede social pode ser
caracterizada como um conjunto de atores que pode possuir relacionamentos uns com os
outros (WASSERMAN; FAUST, 1994). Tais relacionamentos podem ser estudados e
analisados a partir de propriedades topológicas da rede, ou seja, de sua estrutura e, das
propriedades semânticas dos nós, ou seja, suas características internas, que também podem
ser chamadas de atributos. Em uma rede social, os nós que possuem algum tipo de
relacionamento entre eles são chamados de vizinhos e, o conjunto de vizinhos de um nó é
chamado de vizinhança. Por exemplo, na Figura 3, o conjunto de vizinhos do nó A é
composto pelos nós B, C e E.Muitos cenários podem ser representados através de redes
sociais, como por exemplo, a disseminação de uma doença, onde os nós são pessoas
contaminadas e as arestas representam o contato entre as pessoas. Parcerias de músicos em
gravações de músicas também podem ser representadas através de redes sociais, onde os
nós são os músicos e as arestas representam as parcerias. É possível analisar a evolução
destas parcerias no decorrer do tempo através da visualização da rede e o cálculo de
algumas métricas intrínsecas da estrutura de uma rede social que serão citadas
posteriormente.
A Figura 1 (EASLEY; KLEINGERG, 2010) ilustra um exemplo de rede social. Ela representa
o relacionamento amoroso entre alunos do ensino médio de uma escola americana durante
um período letivo. Os pontos azuis representam os alunos do sexo masculino, enquanto que
26

os pontos rosas são as alunas do sexo feminino. As arestas entre os nós representam o
relacionamento amoroso entre esses alunos.

Figura 1. Relacionamento amoroso entre alunos do ensino médio em uma escola americana (EASLEY;
KLEINBERG, 2010).

As diferentes interações entre pesquisadores também podem ser representadas


através de redes sociais, como por exemplo, as parcerias de coautoria e as citações em
artigos. A Figura 2 (EASLEY; KLEINGERG, 2010) apresenta uma rede social de coautoria de
físicos e matemáticos que trabalham com redes.
27

Figura 2. Rede de coautorias de físicos e matemáticos que trabalham com redes (EASLEY; KLEINGERG,
2010).

Uma rede social pode ser classificada de acordo com diferentes características de sua
representação. Por exemplo, os relacionamentos entre os nós podem ser representados
com ou sem peso. O peso de um relacionamento pode indicar: a força do mesmo, o número
de vezes que duas pessoas interagiram e a probabilidade de ocorrer aquela interação. No
caso de uma rede social de coautoria, pode indicar o número de artigos que dois
pesquisadores escreveram juntos. Outra característica com relação às arestas é que elas
podem ser direcionadas ou não. A direção do relacionamento indica se ele existe de um nó i
para j ou do nó j para i. Em uma rede social de envio de e-mails, a direção do relacionamento
indica quem enviou e quem recebeu o e-mail, por exemplo.Além das características de
modelagem de uma rede social apresentadas anteriormente, existem diversas métricas que
permitem a compreensão e avaliação de uma rede. A seguir serão apresentadas e calculadas
algumas delas, baseadas na Figura 3. Esta figura apresenta uma rede social com
relacionamentos não-direcionados.
28

2.2 Métricas utilizadas para análise


Nesta seção serão apresentadas as principais métricas utilizadas para análise de redes
sociais.

Figura 3. Exemplo de rede social.

1) Grau do nó
O grau de um nó em uma rede social é definido como o número de arestas
conectadas a ele. Em redes direcionadas, o nó apresenta tanto o grau de entrada
quanto o grau de saída (NEWMAN, 2010), sendo o grau de entrada o número de
arestas que incidem nele e o grau de saída o número de arestas que saem dele.
O grau do nó pode apresentar diferentes significados em redes sociais,
dependendo do cenário representado. Em uma rede social científica de coautoria,
por exemplo, pesquisadores que possuem grau elevado podem ser considerados
populares, pois o grau representa o número de coautores que tais pesquisadores
possuem.
Em uma rede social é natural supor que indivíduos que possuem muitos
relacionamentos devem ter mais influência na rede, maior acesso a informação ou
29

mais prestígio do que aqueles que possuem um número menor de


relacionamentos (NEWMAN, 2010).
A equação utilizada para calcular o grau de um nó ni (G(ni)) é apresentada na
Equação 1, onde V é o conjunto de vizinhos de ni.

Equação 1. Fórmula para calcular o grau de um nó.

A Tabela 1 contém o grau de cada nó da Figura 3.

Tabela 1. Grau dos nós da Figura 3.


A B C D E F G H
3 2 2 4 3 3 3 2

2) Coeficiente de agrupamento/Densidade
O coeficiente de agrupamento de um nó é a razão entre o número de vizinhos de
um nó e o número de vizinhos possíveis. Tal medida representa o quão bem
conectado um nó está a rede, pois está relacionada diretamente com o número de
relacionamentos, dentre todos os possíveis, que um nó possui. Por exemplo, em
uma rede social de amigos, um nó com densidade alta representa uma pessoa
popular, com muitos amigos.
Também é possível calcular a densidade da rede. Ela é dada pela razão entre o
número total de relacionamentos da rede e o número total de relacionamentos
possíveis. Analogamente, a partir desta medida é possível saber o quão perto a
rede está de ser um grafo completo (Figura 4. Exemplo de grafo completo
(BENBENNICK, 2015). Figura 4), ou seja, de existir uma ligação entre cada um dos
nós da rede.
A fórmula da densidade de um nó ni (D(ni)) é descrita na Equação 2, onde n é o
número de nós encontrados no grafo e G(ni) é o grau do nó, ou seja, seu número
de vizinhos.

Equação 2. Fórmula para calcular a densidade de um nó.


30

Figura 4. Exemplo de grafo completo (BENBENNICK, 2015).

A Tabela 2 exemplifica a densidade de cada um dos nós da rede social da Figura 3.


Tabela 2. Densidade dos nós da Figura 3
A B C D E F G H
3/7 2/7 2/7 4/7 3/7 3/7 3/7 2/7

3) Betweenness centrality (Grau de Intermediação)


Essa métrica representa o número de caminhos mínimos que passam por um nó.
Um nó que tem muitos caminhos mínimos passando por ele é um nó importante
para a rede. Pode-se considerar que as informações transitam mais rapidamente
pela rede devido a ele, por exemplo. Se muitos caminhos mínimos passam por um
nó e o mesmo sai da rede, poderá causar um problema na disseminação da
informação nesta rede.
No contexto de uma rede social científica de coautoria, ela indica a extensão com
que outros autores são dependentes de um autor em termos de fluxo de
informação (Sie et al., 2012).

A Tabela 3 apresenta o grau de intermediação da rede social da Figura 3.

Tabela 3. Grau de intermediação dos nós da Figura 3.


A B C D E F G H
9 5 6 14 11 11 8 0
31

Como pode ser visto na Tabela 3, o nó D apresenta o maior grau de intermediação


da rede. Com a retirada deste nó da rede, por exemplo, a menor distância entre C
e H aumentaria de 2 para 5. Isto provavelmente acarretaria em um problema para
o fluxo da informação nesta rede.

4) Centralidade global
A centralidade global de um nó é a soma do tamanho dos caminhos mínimos entre
um nó e todos os outros nós da rede (SCOTT, 2000). Ou seja, quanto menor a
centralidade global, mais próximo um nó estará dos demais na rede. Como
MONCLAR (2008) menciona, esta métrica é baseada na ideia de proximidade entre
os nós. Ainda segundo MONCLAR (2008), é possível identificar o isolamento de um
nó na rede a partir de sua centralidade global elevada.
A Tabela 4 apresenta a centralidade global de cada um dos nós da rede social da
Figura 3.

Tabela 4. Centralidade global dos nós da rede social da Figura 3.


A B C D E F G H
13 14 13 11 11 12 12 14

2.3 Conclusão
Neste capítulo foram apresentadas algumas características de redes sociais, assim
como algumas métricas para análise e avaliação.
A partir de uma rede social é possível visualizar, extrair e analisar diversas
informações, e com isso, auxiliar o estudo de diversos problemas, tais como: encontrar
pessoas mais influentes (KIMURA et al., 2009), analisar a formação e evolução de grupos
(BACKSTROM et al., 2006), encontrar pessoas especialistas em um determinado assunto
(ZHANG; TANG; LI, 2007), analisar a formação e evolução de colaborações (BARABÁSI et al.,
2002; NEWMAN, 2004), prever relacionamentos futuros (LIBEN-NOWELL; KLEINBERG, 2003),
recomendar colaborações acadêmicas (BRANDÃO; MORO, 2012) e etc. Além de auxiliar no
entendimento de como um grupo de pessoas interage, a análise de redes sociais vem sendo
32

aplicada para indicar novas conexões (LOPES, 2012), ou seja, fazer recomendações de novos
relacionamentos. Existem diversos métodos que podem ser utilizados para recomendação
de relacionamentos, conforme pode ser visto no capítulo 3.
33
34

3 Sistemas de Recomendação

Este capítulo tem por objetivo descrever os sistemas de recomendação, assim como,
apresentar as principais técnicas utilizadas por esses sistemas.

3.1 Definições
Um sistema de recomendação é um software que ajuda usuários a identificarem itens
que sejam de seu interesse (SUN et al., 2014). Tais itens podem ser livros, músicas, filmes,
sites, artigos e até mesmo pessoas. Sistemas de recomendação são utilizados em sites de e-
commerce, rádios online e mídias sociais, por exemplo, para incentivar o usuário a comprar
itens, escutar músicas e fazer amigos. Eles também podem ser vistos como ferramentas para
lidar com a sobrecarga de informações sofrida pelos usuários, filtrando aquelas mais úteis
(JANNACH et al., 2010). No caso particular da recomendação de pessoas, o processo é
chamado de Combinação Social (MOTTA et al., 2011). A combinação social possibilita o
aumento da interação e colaboração entre as pessoas (TERVEEN; MCDONALD, 2005)
Recomendações de pessoas são utilizados para relacionamentos amorosos (MENDONÇA,
2014), amizades (HANNON; MCCARTHY; SMYTH, 2012), formação de equipes de trabalho
(GARTRELL et al., 2010), identificação de especialista em um determinado assunto
(DAVOODI; AFSHARCHI; KIANMEHR, 2012) e etc.
Para que um sistema de recomendação possa realizar recomendações é necessário
que ele possua ou tenha acesso a características e preferências do usuário (JANNACH et al.,
2010). Por exemplo, em uma rádio online, é necessário guardar quais músicas o usuário já
ouviu e quais notas (ou likes ou ratings) ele já atribuiu às músicas para poder recomendar
itens baseados em seu interesse.
Há diferentes métodos para gerar recomendações a um usuário, tais como: filtro
colaborativo, baseada em conteúdo e híbrida. Cada uma destes métodos será apresentado
resumidamente a seguir.
35

3.2 Métodos de Recomendação

3.2.1 Filtro Colaborativo


O filtro colaborativo pode ser definido como um método que recomenda para um
usuário itens que outros usuários com gosto similar ao dele tenham se interessado no
passado (RICCI et al., 2011). Por exemplo, se dois usuários viram ou compraram ou
classificaram positivamente os mesmos livros no passado, eles também poderão ter
interesses similares no futuro (JANNACH et al., 2010). Imagine que o usuário Joãozinho
comprou diversos livros iguais ao usuário Pedrinho em uma livraria online no passado, isso
pode significar que no futuro eles tenderão a gostar dos mesmos livros. Se Joãozinho
comprar o livro Jogos Vorazes que Pedrinho não comprou ainda, esse livro será
recomendado para Pedrinho. No caso do filtro colaborativo, o interesse do usuário é dado
pelas compras que ele fez no passado ou pelas classificações que ele deu aos itens, ou seja, a
opinião do usuário é inferida a partir de ações que ele fez no passado.No exemplo anterior, a
similaridade entre os usuários se dá pela compra dos mesmos livros, porém, isto pode variar
de acordo com o contexto da recomendação. Em uma rede social científica, por exemplo, a
similaridade entre os pesquisadores pode se dar pelos relacionamentos de parceria em
comum que eles possuem. Neste caso, o relacionamento entre dois pesquisadores pode ser
semelhante ao “viram ou compraram ou classificaram os mesmos itens” Pode-se supor que
se dois pesquisadores tem um relacionamento em comum é porque um gosta de se
relacionar com o outro. Então, se um pesquisador se relacionou com A, B e C e, outro
pesquisador se relacionou com A e B, talvez seja interessante recomendar C para ele.
Analogamente, se um usuário “curtiu” os itens A, B e C e, outro usuário “curtiu” os itens A e
B, talvez seja bom recomendar o item C para ele. Por exemplo, se o pesquisador Joãozinho e
o pesquisador Pedrinho nunca trabalharam juntos, mas possuem muitos relacionamentos de
parceria em comum, eles podem vir a ser recomendados. Neste exemplo, portanto, são
recomendados pesquisadores que possuem muitos relacionamentos de parceria em comum,
mas nunca trabalharam juntos. Os relacionamentos de parceria em comum são similares às
opiniões positivas sobre os livros.
A grande vantagem do filtro colaborativo é que nenhuma informação sobre os itens
recomendados é necessária (JANNACH et al., 2010). No caso de um livro, não é necessário
saber seu título, gênero ou autor. O que importa são as ações passadas dos usuários.
36

3.2.1.1 Limitações
O filtro colaborativo se baseia nas opiniões sobre itens feitas pelos usuários, sejam
elas a visualização de um item ou a classificação dada a um item ou a compra de um item.
Se não há nenhum registro de opinião sobre um determinado item ou se um usuário
nunca opinou sobre item nenhum, como recomendar este item ou como recomendar itens
a esse usuário?Este problema é conhecido como cold start (RICCI et al. 2011).
Algumas estratégias podem ser adotadas para contornar este problema, como por
exemplo, pedir ao usuário que ele classifique alguns itens antes d sistema realizar
recomendações para ele (RICCI et al., 2011).

3.2.2 Baseada em Conteúdo


Neste método, o sistema de recomendação aprende a recomendar itens que são
similares aos itens que o usuário gostou no passado (RICCI et al., 2011). Como o próprio
nome do método faz referência, a recomendação é baseada no conteúdo do item
recomendado, ou seja, nas características dele. Para detectar a similaridade entre os itens é
necessário conhecer algumas de suas características. Por exemplo, voltando ao exemplo da
livraria online, algumas características de livros que podem ser utilizadas são: gênero, autor,
palavras-chave, editora. Se o usuário Joãozinho só compra livros de romance, o sistema de
recomendação poderá recomendar outros livros de romance para ele. O sistema deve
aprender que a característica “romance” é uma característica positiva para Joãozinho. Um
perfil do usuário deve ser criado fazendo referência às características dos itens que o usuário
gosta (RICCI et al., 2011).
Em uma rede social científica, diversas características dos pesquisadores podem ser
utilizadas para calcular a similaridade entre eles. Dentre elas, podemos citar as áreas de
atuação. Um sistema de recomendação pode recomendar pesquisadores que possuam as
mesmas áreas de atuação.

3.2.2.1 Limitações
Esta técnica está diretamente relacionada com as características disponíveis dos itens
recomendados. Sendo assim, uma das limitações é a disponibilidade de tais características.
Para obter uma quantidade suficiente de características, o conteúdo deve estar em um
37

formato que o computador consiga extrair, como texto ou ser adicionado manualmente
(ADOMAVICIUS; TUZHILIN, 2005).

3.2.3 Híbrida
A abordagem híbrida combina diferentes métodos de recomendação. Ela combina os
métodos para tentar utilizar as vantagens de um para consertar as desvantagens de outro
(RICCI et al., 2011).
Em uma abordagem híbrida é possível combinar o métodofiltro colaborativo com o
baseado em conteúdo e, levar em consideração, tanto a opinião dos usuários quanto as
características dos itens a serem recomendados. Tal abordagem pode ajudar a resolver o
problema do cold start, por exemplo (JANNACH et al., 2010).
A recomendação de relacinamentos em redes sociais científicas mencionada
anteriormente, pode utilizar uma abordagem híbrida. Podem ser levados em consideração
tanto as características dos pesquisadores, como área de atuação e expertise, quanto os
relacionamentos de parceria que eles possuem em comum com outros pesquisadores.

3.3 Conclusão
Neste capítulo foi apresentado resumidamente o que é um sistema de
recomendação e os principais métodos existentes.
Cada método apresentado pode ser aplicada de acordo com o contexto existente. Em
contexto que não há muita informação sobre os itens a serem recomendados, pode-se
utilizar o filtro colaborativo. Por outro lado, quando se sabe as características dos itens a
serem recomendados, o método baseado em conteúdo pode ser mais útil. O método
híbrido, como é uma composição de métodos, é melhor utilizado quando há contextos que
atendem tanto ao filtro colaborativo quanto ao baseado em conteúdo.
A abordagem de recomendação proposta neste trabalho pode ser considerada um
método híbrido de recomendação, pois ela leva em consideração tanto a opinião dos
pesquisadores (que seria inferida a partir dos relacionamentos passados entre eles) quanto
às características deles, como áreas de atuação e expertise.
Existem diversos trabalhos que utilizam métodos de recomendação para
recomendação de parcerias entre pesquisadores, conforme pode ser visto no capítulo 4.
38

4 Recomendação de Relacionamentos em Redes Sociais

Este capítulo tem por objetivo descrever os trabalhos existentes na literatura sobre
recomendação de relacionamentos em redes sociais, principalmente redes sociais
científicas. Para isso, são apresentadas as principais características dos métodos de
recomendação de relacionamentos existentes utilizando redes sociais.

4.1 Métodos de Recomendação de Relacionamentos em Redes Sociais


Existem diferentes métodos que podem ser utilizados para realizar a recomendação de
relacionamentos em redes sociais. Tais métodos usualmente são derivados da teoria dos
grafos e da análise de redes sociais (LIBEN-NOWELL; KLEINBERG, 2007). Conforme
apresentado em (OLIVEIRA, 2012), esses métodos podem ser agrupados da seguinte
maneira: 1) métodos baseados nos conteúdos dos nós; 2) métodos baseados na estrutura da
rede; 3) métodos que levam em conta a evolução da rede.
Os métodos baseados nos conteúdos dos nós levam em consideração características
internas dos nós para calcular a similaridade (OLIVEIRA, 2012), ou seja, a semelhança entre
eles. Por exemplo, em uma rede social científica, a área de atuação poderia ser considerada
uma característica interna de um nó e, sendo assim, poderia ser utilizada para calcular a
similaridade entre dois nós.
Os métodos baseados na estrutura da rede levam em consideração a topologia da rede.
De uma forma geral, segundo (LIBEN-NOWELL; KLEINBERG, 2007), esses métodos podem ser
classificados em: 1) baseados na vizinhança dos nós; 2) baseados no conjunto de todos os
caminhos. (LU; ZHOU, 2010) adota outra classificação para esses métodos. Os métodos
baseados na vizinhança dos nós são chamados de locais por (LU; ZHOU, 2010), enquanto os
métodos baseados no conjunto de todos os caminhos são chamados de globais. Neste
trabalho adotamos a nomenclatura utilizada por (LIBEN-NOWELL; KLEINBERG, 2007).
Os métodos baseados na vizinhança do nó partem do princípio de que a probabilidade
de dois nós se relacionarem no futuro é diretamente proporcional ao número de vizinhos
que eles possuem em comum (LIBEN-NOWELL; KLEINBERG, 2007). Ou seja, quanto maior o
número de vizinhos em comum, maior será a probabilidade de dois nós se relacionarem no
39

futuro. Já os métodos baseados no conjunto de todos os caminhos, como o próprio nome


diz, consideram implicitamente todos os caminhos existentes entre dois nós, refinando a
noção de caminho mínimo (LIBEN-NOWELL; KLEINBERG, 2007).
Para finalizar, voltando à classificação mais abrangente apresentada por (OLIVEIRA,
2012), os métodos que levam em conta a evolução da rede consideram a variação da rede
no decorrer do tempo, ao contrário da maioria dos trabalhos que considera a rede como
estática.
Dentre os métodos baseados na vizinhança dos nós, há dois deles que foram estudados
e analisados nos trabalhos de (NEWMAN, 2001a; BARABÁSI et al, 2002), utilizando redes
sociais científicas em um contexto de colaboração, possuindo relação direta com este
trabalho. Tais métodos são: vizinhos em comum e conexão preferencial.
O método de vizinhos em comum considera a intersecção de vizinhos entre dois nós. Ele
é definido como a quantidade de vizinhos em comum que dois nós possuem. Por exemplo,
na Figura 5, os pesquisadores A e B possuem dois vizinhos em comum: os nós C e D.

Figura 5. Exemplo de rede social para ilustrar os relacionamentos entre os nós.

Segundo (NEWMAN, 2001), a probabilidade de dois pesquisadores colaborarem


aumenta proprocionalmente ao número de vizinhos em comum que eles possuam. Ou seja,
se dois pesquisadores possuem muitos vizinhos em comum, maior será a probabilidade de
eles trabalharem juntos.
O método de conexão preferencial (BARABÁSI; ALBERT, 1999) tem sido utilizado
como modelo de crescimento de uma rede. Ele se baseia no fato de que a probabilidade de
um nó formar um novo relacionamento é proporcional ao número de vizinhos que um nó
tem (LIBEN-NOWELL; KLEINBERG, 2007). Segundo (NEWMAN, 2001), a probabilidade de um
pesquisador formar novas parcerias aumenta com o número de parcerias que ele já tem, ou
40

seja, a probabilidade de um pesquisador colaborar com outro aumenta de acordo com o


número total de colaborações passadas que ele possui.
Em (LIBEN-NOWELL; KLEINBERG, 2007) e (LU; ZHOU, 2010) pode-se encontrar uma
descrição detalhada de cada um dos métodos de recomendação de relacionamentos em
redes sociais.

4.2 Trabalhos existentes em recomendação de relacionamentos em redes


sociais científicas
A área de recomendação de relacionamentos em redes sociais científicas apresenta
trabalhos com abordagens bem distintas entre si, que utilizam um dos três métodos
mencionados anteriormente para realizar as recomendações entre pesquisadores. Alguns
trabalhos consideram as características dos nós para determinar a semelhança entre eles.
Tais características podem ser: áreas de pesquisa, palavras-chaves contidas em artigos,
expertise, local de trabalho, língua falada, dentre outros. São trabalhos que propõe/utilizam
métodos baseados nos conteúdos dos nós. Em (LOPES et al., 2010) é proposto um novo
método de recomendação de relacionamentos utilizando redes sociais científicas
homogêneas de coautoria a partir de características dos pesquisadores. Podem ser
recomendados tanto relacionamentos entre pesquisadores que já possuem alguma
publicação juntos quanto relacionamentos novos, ou seja, entre pesquisadores que nunca
escreveram uma publicação juntos. Para isso, são utilizadas as áreas de pesquisa de um
pesquisador como uma das medidas para calcular a similaridade entre ele e outros
pesquisadores. Para definir as áreas de cada pesquisador foram utilizadas as palavras-chaves
extraídas dos títulos das publicações de cada um deles. Também foi utilizada uma ontologia
que associava a palavra-chave a uma determinada área de pesquisa. (LOPES et al., 2010)
propõe ainda uma métrica chamada cooperação global, que mede o grau de colaboração
entre dois pesquisadores. Ela é calculada a partir da razão entre o número de trabalhos que
dois pesquisadores já escreveram juntos e o número total de publicações do pesquisador
que deseja receber as recomendações. O relacionamento de coautoria é considerado
bidirecional em seu trabalho: dependendo da direção do relacionamento, ele pode
apresentar uma semântica diferente. Como cada pesquisador pode ter um total de
publicações diferente, esta métrica varia de acordo com a direção do relacionamento.
41

Palavras-chaves também são utilizadas por (SIE et al., 2012), porém, em seu trabalho
ele considera as palavras-chaves que já estão presentes nas publicações. Ele optou por isso
porque, segundo ele, utilizar palavras-chave de títulos das publicações para inferir as áreas
de atuação de um pesquisador nem sempre é uma boa ideia, pois existem artigos que
utilizam frases para chamar atenção em seus títulos ou utilizam expressões/provérbios que
não representam bem o conteúdo da publicação. (SIE et al., 2012), assim como (LOPES et al.,
2010), propõe um novo método de recomendação de relacionamentos (novos ou já
existentes, dependendo da escolha do usuário) em redes sociais científicas homogêneas de
coautoria, considerando tanto as características dos pesquisadores quanto da topologia da
rede (betweenness centrality). Os objetivos de (SIE et al., 2012) são: fazer com que
pesquisadores tomem ciência uns dos outros; promover a colaboração e aumentar a
eficiência e eficácia da colaboração. Para sua proposta, (SIE et al., 2012) baseou-se na teoria
da utilidade, em que a pessoa a ser recomendada deve possuir algum valor agregado a ela e,
no fato de que a coautoria de artigos possibilitam o aprendizado conjunto e a inovação.
(XU et. al, 2010) também utiliza as áreas de atuação dos pesquisadores para gerar
recomendações, porém, em seu trabalho ele chama as áreas de atuação de expertise.
Segundo (XU et. al, 2010) é sabido que diferentes pesquisadores utilizam diferentes termos
para se referirem ao mesmo conceito. Devido a isso, em seu trabalho ele utiliza análise
semântica para medir a similaridade entre as áreas de atuação.
Há trabalhos que não levam em consideração palavras-chaves extraídas de artigos
para medir a semelhança entre pesquisadores, mas sim as referências e citações. É o caso
do trabalho de (HECK, 2013), onde é proposto um método de recomendação de
relacionamentos (novos ou já existentes) em que dois pesquisadores são semelhantes se
uma porcentagem dos trabalhos referenciados em suas publicações for igual. Se dois
pesquisadores forem citados pelos mesmos trabalhos, também são considerados
semelhantes. Ao usar essa abordagem, (HECK, 2013) está indiretamente tentando descobrir
as áreas de pesquisa dos pesquisadores. Utilizar as citações e as referências para inferir
similaridade nem sempre pode ser uma boa estratégia, pois há muitos trabalhos
interdisciplinares que podem citar e referenciar outros que não pertencem ao assunto
principal da publicação.
42

Um desafio nesta área é levar em consideração características pessoais dos nós para
fazer as recomendações, pois é difícil obter tais dados (SUN et al., 2011). Já características
profissionais, com respeito a publicações, encontram-se disponíveis em diferentes bases de
dados na World Wide Web, como por exemplo, a base de dados da (DBLP, 2015). Outras
informações como titulação, projetos e participação em eventos, no âmbito nacional, podem
ser extraídas da Plataforma Lattes (LATTES, 2015). Para tentar utilizar tais características
pessoais, (MONCLAR, 2008) utilizou o Myers-Briggs Type Indicator (MBTI) para identificar o
perfil psicológico de cada pesquisador. Com ele, foi possível recomendar pesquisadores com
perfis compatíveis, idênticos e opostos. Em seu trabalho, (MONCLAR, 2008) propõe uma
abordagem para identificar nós problemáticos em uma rede social científica heterogênea,
ou seja, nós que se encontram isolados ou que se retirados da rede causarão prejuízo para o
fluxo da informação. Para melhorar o fluxo da informação na rede, (MONCLAR, 2008)
propõe um método de recomendação de novos relacionamentos para os nós identificados
como problemáticos na rede. Em seu método, dentre outros fatores, são recomendados
pesquisadores que tenham expertises iguais. Isto pode ser ruim para dois pesquisadores em
início de carreira, que não tem experiência e nem tem uma rede de contatos consolidada.
Para pesquisadores juniores talvez seja mais interessante se relacionar com pesquisadores
mais experientes de modo que o conhecimento seja transmitido. (BRANDÃO; MORO, 2012)
propõe uma nova metodologia para recomendar novas colaborações ou intensificar
relacionamentos já existentes chamada de Affin. Tal metodologia faz uso do princípio de
homofilia, considerando a afiliação institucional. (BRANDÃO; MORO, 2012) parte do
princípio de que pesquisadores tendem a colaborar com pesquisadores de instituições com
as quais eles já tenham colaborado anteriormente. Além disso, (BRANDÃO; MORO, 2012)
também utiliza a métrica proximidade social (LOPES, 2012) para medir a similaridade entre
dois pesquisadores. Esta métrica leva em consideração o menor caminho entre dois nós,
portanto, o método de recomendação proposto é baseado tanto nas características dos nós
quanto na estrutura da rede.
As características citadas anteriormente para recomendar pares são comumente
encontradas na literatura. São características clássicas que compõe o perfil de um
pesquisador e que são utilizadas em muitos trabalhos. No entanto, (HECK, 2013) propõe
uma característica nova, que não provém diretamente do pesquisador, mas do olhar que
43

uma pessoa tem sobre os trabalhos daquele pesquisador. Ela propõe explorar as
informações contidas em redes sociais online, como por exemplo, o (CITEULIKE, 2015), para
melhorar a recomendação. Para isso, ela usa as classificações dadas aos artigos dos
pesquisadores para detectar a semelhança entre eles. Essa classificação é feita por usuários
do (CITEULIKE, 2015) a partir de tags. Os pesquisadores que possuem trabalhos classificados
com um conjunto de tags iguais são considerados similares. O método de (HECK, 2013)
utiliza apenas características dos nós para realizar recomendações.
A estrutura de uma rede social pode afetar o seu funcionamento, ou seja, o modo
como a informação se propaga entre os membros da rede (OLIVEIRA, 2012). A partir da
análise da estrutura é possível detectar problemas na mesma e, uma tentativa de amenizar
tais problemas é fazer a recomendação de relacionamentos. Um problema que pode ser
encontrado em uma rede social científica é a presença de pontes. Uma ponte é um nó que
liga sub-redes, ela é um gargalo que pode exercer controle sobre os demais nós, filtrando
dados, informações e conhecimentos (MONCLAR, 2008). Com a saída de tais nós da rede, a
mesma fica desconectada, ou seja, pode deixar de existir um caminho entre todos os nós,
prejudicando o fluxo da informação. Para detectar nós problemáticos na rede, (MONCLAR,
2008) utiliza algumas métricas que detectam características dos nós e da rede como um
todo, tais como: densidade, inclusividade, centralidade local absoluta, centralidade local
relativa e centralidade global. Segundo (MONCLAR, 2008), as pontes podem ser detectadas a
partir das centralidades local absoluta, local relativa e global. Além das métricas já citadas,
uma métrica que também pode auxiliar na detecção de problemas em uma rede é a
betweenness centrality (NEWMAN, 2010). Esta métrica representa o número de caminhos
mínimos que passam por um nó na rede. No contexto de uma rede social científica de
coautoria, ela indica a extensão com que outros autores são dependentes de um autor em
termos de fluxo de informação (SIE et al., 2012). Um pesquisador com betweenness elevado
tem grande poder sob a disseminação do conhecimento pela rede. Em seu trabalho,
(OLIVEIRA, 2012) também utiliza a topologia da rede para prever relacionamentos, porém,
com uma proposta diferente: ao invés de prever um relacionamento no futuro que não
existe no presente, ele prevê relacionamentos recorrentes, ou seja, prevê se existirão novos
relacionamentos no futuro entre dois nós que já possuem pelo menos um relacionamento
no presente. Para isso, ele utiliza redes de coautoria em seu experimento. A maioria dos
44

trabalhos apresentados levam em consideração tanto as características dos nós quanto a


topologia da rede.
Como mencionado anteriormente, as redes sociais podem ser classificadas em
homogêneas e heterogêneas. Dessa forma, existem também trabalhos que utilizam redes
homogêneas e outros que utilizam redes heterogêneas. Em (LOPES et al., 2010) e
(BRANDÃO; MORO, 2012) são utilizadas redes sociais homogêneas de coautoria, onde os nós
são os pesquisadores e as arestas são relacionamentos de coautoria. Um problema ao se
utilizar apenas um tipo de relacionamento para realizar recomendações é que se perde a
semântica de outros tipos de interação que podem ter acontecido entre dois pesquisadores.
Por exemplo, dois pesquisadores podem não ter escrito um artigo juntos, mas podem ter
coorientado um aluno de graduação. Este relacionamento seria perdido em um método que
utiliza redes homogêneas e, com isso, dois pesquisadores que já se conhecem poderiam ser
recomendados. No entanto, é possível utilizar outras características do cenário científico
para fazer a recomendação de relacionamentos, como por exemplo, participação em
congressos, coorientação de alunos, dentre outros. Em (STRÖELE; ZIMBRÃO; SOUZA, 2012)
são construídas redes heterogêneas, chamadas no trabalho de redes multi-relacionais, para
descobrir grupos de pesquisadores que tenham interesses em comum. Em (SUN et al., 2011)
e (LEE; ADORNA, 2012), congressos, artigos, autores (pesquisadores) e tópicos (frases
frequentes que foram extraídas dos títulos dos artigos) são utilizados como nós na rede.
(SUN et al., 2011) e (LEE; ADORNA, 2012) utilizaram diferentes relacionamentos entre os nós
considerados para fazer recomendações, tais como: relacionamento de autoria entre
pesquisador e artigo, de publicação entre pesquisador e congresso, de citação entre artigos,
de citação entre pesquisador e tópico e, por fim, o relacionamento entre tópicos, onde um
tópico contém outro. (SUN et al., 2011) propõe um modelo de predição de relacionamentos
em redes sociais científicas heterogêneas baseado em meta-paths chamado PathPredict.
Meta-path é uma forma de descrever diferentes relacionamentos em uma rede social. Por
exemplo, o relacionamento de coautoria pode ser descrito como A 1 – P – A2, onde A1 e A2
são os autores e P, a publicação escrita por eles. Para realizar as recomendações baseadas
em seu modelo proposto, (SUN et al., 2011) utiliza a técnica estatística de regressão
logística. (LEE; ADORNA, 2012) modifica o modelo de rede social proposto por (SUN et al.,
2011), acrescentando novos relacionamentos entre os nós. Ao invés de inferir que dois
45

pesquisadores que têm um relacionamento com um artigo são coautores, (LEE; ADORNA,
2012) acrescenta um relacionamento direto entre os dois pesquisadores. Porém, as métricas
utilizadas por (LEE; ADORNA, 2012) e a abordagem para fazer as recomendações são
diferentes das do trabalho de (SUN et al., 2011). Apenas o modelo para construção da rede
que foi utilizado e adaptado. Mais detalhes sobre o trabalho de (LEE; ADORNA, 2012) podem
ser lidos no capítulo 7. Ainda sobre redes heterogêneas, (MONCLAR, 2008) utiliza
relacionamentos pouco explorados para elaborar sua rede heterogênea. Além de dados
contidos na Plataforma Lattes, ele utiliza informações de comunicação extraídas da
ferramenta GCC (OLIVEIRA et al., 2005), como e-mails e tópicos postados em fóruns.
Conforme visto anteriormente, para fazer a recomendação de relacionamentos em
uma rede social podem ser utilizadas diferentes características da mesma, como:
características dos nós, topologia da rede, diferentes tipos de nós, diferentes tipos de
relacionamento, apenas um tipo de nó e apenas um tipo de relacionamento. Apesar dos
atributos dos nós enriquecerem a recomendação, nem sempre é possível obter tais dados.
Nestes casos, a recomendação pode ser feita utilizando apenas a topologia da rede. A partir
destas características analisadas, é possível definir um grau de similaridade entre dois nós.
Se a similaridade for grande, é feita a recomendação de um relacionamento entre eles. Além
disso, há também diferentes algoritmos que podem ser considerados para percorrer a rede e
realizar a recomendação de pares, como Random Walk (BACKSTROM; LESKOVEC, 2011) e
Route Accessibility (CHEBOTAREV; SHAMIS 1998). (LEE; ADORNA, 2012), por exemplo,
propõe um algoritmo baseado no Random Walk para percorrer a rede e calcular a
probabilidade de existir um relacionamento entre dois nós no futuro. Se a probabilidade for
grande, é recomendado um relacionamento entre os dois nós.
São utilizadas algumas estratégias para avaliar os algoritmos de recomendação de
relacionamentos propostos. Uma estratégia possível em uma rede social científica de
colaboração é pedir para que os pesquisadores avaliem as recomendações feitas, dando
uma nota que varia de acordo com a probabilidade de se trabalhar no futuro com aquela
pessoa ou não. Por exemplo, pode-se pedir para os pesquisadores darem uma nota de 1 a 5
às recomendações, onde 5 significa que o pesquisador trabalharia com o outro com absoluta
certeza e 1 significa que ele nunca trabalharia com aquela pessoa. (HECK, 2013) utilizou uma
estratégia parecida: ela pediu aos pesquisadores para ordenarem os pesquisadores
46

recomendados do não relevante (nota 1) ao mais relevante (nota 10). Outra estratégia é
utilizar algumas métricas conhecidas para avaliar as recomendações, tais como: precisão,
revocação, confiança, cobertura, e etc. No trabalho de (BRANDÃO; MORO, 2012), ela avalia
seu método de recomendação utilizando as métricas novidade, diversidade, precisão e
revocação. As métricas de diversidade e novidade foram adaptadas para o cenário científico.
A Tabela 5 apresenta as principais características dos principais trabalhos
mencionados, conforme divisão a seguir: 1) método de recomendação indica o tipo de
estratégia utiizada para fazer a recomendação; 2) tipo de rede classifica o método quanto a
rede utilizada; 3) tipo de recomendação apresenta se o método recomenda novos
relacionamentos ou não.

Tabela 5. Comparação entre os trabalhos correlatos.


MÉTODO DE TIPO DE
TRABALHOS TIPO DE REDE
RECOMENDAÇÃO RECOMENDAÇÃO
Baseado no
conteúdo do nó; Relacionamentos novos;
SIE et al. Baseado na Homogênea Relacionamentos já
estrutura da existentes;
rede;
Relacionamentos novos;
Baseado no
LOPES et al. Homogênea Relacionamentos já
conteúdo do nó;
existentes;
Baseado no
conteúdo do nó; Relacionamentos novos;
BRANDÃO; MORO Baseado na Homogênea Relacionamentos já
estrutura da existentes;
rede;
Relacionamentos novos;
Baseado no
HECK Homogênea Relacionamentos já
conteúdo do nó;
existentes;
Baseado no
SUN et al. conteúdo; Heterogênea Relacionamentos novos;
Baseado na
47

estrutura da
rede;
Baseado no
conteúdo; Relacionamentos novos;
LEE; ADORNA Baseado na Heterogênea Relacionamentos já
estrutura da existentes;
rede;
Baseado no
conteúdo do nó;
MONCLAR Baseado na Heterogênea Relacionamentos novos;
estrutura da
rede;
Baseado no
conteúdo;
MÉTODO
Baseado na Heterogênea Relacionamentos novos;
PROPOSTO
estrutura da
rede;

4.3 Conclusão

Conforme visto anteriormente e pode ser verificado na tabela, a maioria dos


trabalhos correlatos recomendam tanto relacionamentos novos quanto relacionamentos já
existentes. Este último fato contribui para o usuário confiar no sistema de recomendação, ao
visualizar parcerias que já existem, porém, em determinadas situações, podem gerar pouca
novidade para o usuário. Por isso, o método de recomendação proposto tem por objetivo
recomendar somente novas parcerias, de modo que contribua para que o usuário encontre
novos colaboradores. Para isso, o método de recomendação proposto utiliza redes
heterogêneas, de forma a aproveitar os diferentes tipos de relacionamento existentes em
uma rede social científica. Para calcular a similaridade entre os pesquisadores, o método
proposto calcula a similaridade dos pesquisadores a partir do grau de semelhança entre seus
vizinhos, das áreas de atuação que eles possuem em comum e, através da popularidade de
cada um dos pesquisadores. Portanto, o método proposto utiliza tanto características do nó
48

quanto características da estrutura da rede para realizar recomendações. Um diferencial do


método reside no fato de ele faz recomendações de acordo com o grau de expertise do
pesquisador. Além disso, como ele não utiliza apenas a vizinhança dos nós para gerar as
recomendações, é possível fazer recomendações para pesquisadores que não tenham ou
tenham poucos vizinhos, sendo possível minimizar o problema do cold start. Ainda assim,
para realizar as recomendações, é necessário obter alguma informação sobre os
pesquisadores. Existem algumas fontes de dados sobre pesquisadores e seus
relacionamentos que podem ser acessas pela Internet. No capítulo 5 serão apresentadas e
comparadas as principais fontes de dados no cenário acadêmico.
49

5 Fontes de Dados sobre Pesquisadores

Para desenvolver um sistema de recomendação acadêmico é necessário utilizar


diferentes informações sobre os pesquisadores. Tais informações podem ser sobre os
relacionamentos existentes entre eles, como coautoria e citação, e também podem ser
sobre características profissionais do pesquisador, como seu enquadramento funcional atual
e suas áreas de atuação.
Existem algumas instituições que disponibilizam bases de dados com informações
sobre os pesquisadores, tais como: Lattes, DBLP, Microsoft Academic Search, Arnet Miner,
Research Gate e Google Acadêmico. Cada uma dessas instituições disponibiliza um conjunto
de informações diferente e de maneiras diferentes. Algumas delas disponibilizam arquivos
XML (W3C, 2015) com a base completa (DBLP, 2015a), outras permitem o acesso a
informações da base através de serviços web (MICROSOFT, 2015).
Nesta seção serão apresentadas as principais bases de dados acadêmicas existentes.
Foi realizado um estudo sobre cada uma delas de forma que fosse possível escolher a base
que melhor se adequa a proposta apresentada. Este estudo comparativo também será
apresentado neste capítulo. Além disso, serão apresentadas algumas ferramentas que
realizam a extração de dados de algumas dessas bases para a disponibilização.

5.1 Bases de dados estudadas


Nesta seção serão apresentadas as principais bases de dados acadêmicas encontradas. A
partir de análise feita, será apresentada uma comparação entre elas, conforme Tabela 6.

5.1.1 Currículo Lattes


O Currículo Lattes é um sistema que traz informações sobre a vida acadêmica de
pesquisadores e alunos (LATTES, 2015). Ele foi criado e é mantido pelo órgão CNPq (CNPq,
2015) (Conselho Nacional de Desenvolvimento Científico e Tecnológico).
Atualmente é adotado nacionalmente como principal fonte de consulta às
informações acadêmicas de pesquisadores e alunos. A Figura 6 traz como exemplo o
currículo Lattes da professora Jonice Oliveira.
50

Figura 6. Exemplo de Currículo Lattes.

No Currículo Lattes é possível visualizar diversas informações sobre os pesquisadores,


tais como: formação acadêmica detalhada, atuação profissional, ou seja, os locais em que
um pesquisador já trabalhou, linhas de pesquisa, projetos, premiações recebidas,
publicações, participação em bancas e eventos, orientações, dentre outras informações
úteis. Todas essas informações são preenchidas manualmente por cada pesquisador ou
aluno em seu próprio currículo e só podem ser alteradas também pelo próprio pesquisador
ou aluno. Com isso, pode-se afirmar que as informações contidas no Currículo Lattes são
informações confiáveis. Porém, com isso também surgem alguns problemas. Um deles é que
nem todos os pesquisadores atualizam o seu Currículo Lattes com frequência e, devido a
isso, as informações contidas nele ficam desatualizadas, podendo não refletir a verdadeira
área de atuação atual do pesquisador. Outro problema é a diferença na referência de títulos
de publicações, nomes de projetos e conferências. Às vezes dois coautores referenciam a
mesma publicação com nomes diferentes, por abreviatura ou erros de digitação.
Como pode ser observado, o Currículo Lattes é uma fonte nacional completa da vida
do pesquisador, de onde podem ser extraídas muitas informações úteis para a construção de
uma rede social acadêmica. Porém, pesquisadores de fora do Brasil não costumam utilizar o
51

Lattes, por isso, caso fosse necessário realizar uma pesquisa que envolva pesquisadores de
todo o mundo, o Lattes não poderia ser a única base de dados utilizada.
O CNPq não disponibiliza inteiramente a base de dados do Currículo Lattes para as
instituições de ensino, disponibiliza apenas as informações dos pesquisadores e alunos da
própria Instituição. Por exemplo, um aluno da UFRJ que precise dos dados do Lattes devido
ao seu tema de pesquisa, só tem acesso aos dados da própria UFRJ. Dependendo do tema da
pesquisa dele, somente essas informações podem não ser suficientes.
Para contornar isso, existem alguns sistemas que foram criados para extrair as
informações do Lattes, tais como o scriptLattes (MENA-CHALCO; CESAR JUNIOR, 2009) e o
Sucupira (ALVES; YANASSE; SOMA, 2011). Essas ferramentas serão descritas nas seções
5.4.1 e 5.4.2 respectivamente.

5.1.2 Microsoft Academic Search


Microsoft Academic Search é um serviço de pesquisa experimental desenvolvido pela
Microsoft Research para explorar como acadêmicos, cientistas e estudantes encontram
conteúdo acadêmico, outros pesquisadores, instituições e eventos (MICROSOFT RESEARCH,
2015a).
Nele, é possível realizar diferentes tipos de busca: por área de pesquisa, por
publicação, por pesquisador e, até mesmo, publicações.
Ao buscar por alguma área de pesquisa, como por exemplo, Social Network, é
possível visualizar o perfil desta área. Ele contém o total de publicações e citações neste
campo de pesquisa, assim como uma linha do tempo mostrando a evolução das publicações
e citações no decorrer dos anos. Também é possível visualizar os autores ordenados pelo
número de publicações, as conferências e revistas da área, assim como as principais
palavras-chave, publicações e as principais definições de Social Network. A Figura 7
(MICROSOFT RESEARCH, 2015b) ilustra isso.
52

Figura 7. Página sobre Social Network do Microsoft Academic Search (MICROSOFT RESEARCH,
2015b).

Ao buscar por um pesquisador, visualizamos o perfil do mesmo com diversas


informações, tais como: uma lista de coautores em ordem decrescente de parcerias, lista de
conferências e revistas aonde o pesquisador publicou e ainda, palavras-chave mais
utilizadas. Também é possível visualizar uma linha do tempo anual com a evolução das
publicações e citações do pesquisador, assim como as áreas de pesquisa em que o
pesquisador atua.
53

A Figura 8 do perfil da professora Jonice Oliveira no Microsoft Academic Search (MICROSOFT


RESEARCH, 2013a) ilustra o que foi dito anteriormente.

Figura 8. Perfil da professora Jonice Oliveira no Microsoft Academic Search (MICROSOFT RESEARCH,
2013a).
54

Figura 9. Parte do perfil da prof. Jonice Oliveira no Microsoft Academic Search que apresenta as
conferências em que ela já participou (MICROSOFT RESEARCH, 2013a).

Diferente do Currículo Lattes, os dados apresentados no Microsoft Academic Search


são inseridos automaticamente, ou seja, o pesquisador não insere nenhuma informação sua
manualmente. Por um lado, essa abordagem é positiva, pois poupa tempo do pesquisador.
Por outro lado, ela está mais sujeita a falhas causadas por inferências incorretas. Por
exemplo, o perfil da Prof. Jonice Oliveira (Figura 8) informa que ela atua nas áreas de
Matemática e Geociências e não menciona nenhuma subárea relacionada à Ciência da
Computação, que é sua principal área de pesquisa. No caso de Geociências, ela nunca
trabalhou nesta área, então ela não deveria aparecer em seu perfil.
É possível editar o perfil de algum pesquisador que você desejar, independente de
ser o seu perfil ou não. Porém, após a informação ser editada, ela é validada pela Microsoft
Research antes de se tornar disponível para todos.
As informações contidas no Microsoft Academic Search estão disponíveis via serviços
web. Uma API (MICROSOFT RESEARCH, 2013b) detalhada descreve como é possível criar
aplicações que utilizem seus dados. Os dados podem ser acessados via JSON ou SOAP.
55

Como é um projeto de pesquisa, a Microsoft informa que o Microsoft Academic


Search não se destina a ser um sistema de produção e que tão logo o objetivo da pesquisa
seja alcançado ele se tornará indisponível (MICROSOFT RESEARCH, 2013c).

5.1.3 Arnet Miner


O Arnet Miner (ARNET MINET, 2013a), assim como a Microsoft Academic Search, é
um serviço de busca de pesquisadores, áreas de pesquisa, artigos, eventos e etc. Ele foi
criado pelo Departamento de Ciência da Computação e Tecnologia da Universidade
Tsinghua, em Pequim, na China (UNIVERSIDADE DE TSINGHUA, 2015).
Assim como no Microsoft Academic Search, é possível fazer uma busca por
pesquisadores e, a partir desta busca, visualizar o perfil de um pesquisador. Este perfil
apresenta alguns dados estatísticos referentes à vida acadêmica do pesquisador a fim de
que se possa medir a produtividade do mesmo. A seguir serão apresentadas algumas destas
informações estatísticas com uma breve descrição, de acordo com (ARNET MINER, 2013c):
1- Índice H: número de artigos de um pesquisador que possui pelo menos h
citações.
2- Atividade: indica a importância dos artigos publicados por um pesquisador
nos últimos n anos.
3- Diversidade: indica a diversidade das áreas de pesquisa de um pesquisador
de acordo com o número de publicações que ele possui em cada área.
4- Sociabilidade: número de coautores que um pesquisador possui.
5- Longevidade: indica a duração da vida acadêmica de um pesquisador de
acordo com o ano da sua primeira publicação e da mais recente.
5- New star: indica que um pesquisador está no início da sua carreira
acadêmica. Um pesquisador é considerado “New Star” se possui longevidade inferior
ou igual a 5.
Todos os dados apresentados no Arnet Miner foram extraídos da Web (dos sites das
universidades e instituições ou das páginas pessoais dos pesquisadores) ou foram inferidos e
calculados a partir destes dados extraídos (TANG et al., 2008). Ou seja, não há a inserção
manual das informações por parte dos pesquisadores e alunos. Assim como na Microsoft
Academic Search, podem ocorrer erros de inferência, tornando as informações do sistema
imprecisas.
56

O perfil de um pesquisador também contém uma lista de conferências onde o


mesmo já apresentou trabalhos. Se formos comparar a lista de conferências da Prof. Jonice
Oliveira apresentada pelo Arnet Miner com a lista de conferências apresentada pelo
Microsoft Academic Search, veremos que há algumas diferenças. Por exemplo, o Arnet
Miner informa que a Prof. Jonice possuía em dezembro de 2013, 15 trabalhos apresentados
no CSCWD (Figura 11), já o Microsoft Academic Search informa que ela possui 20 trabalhos
nesta mesma conferência (Figura 9), o que ilustra um conflito das informações processadas
automaticamente.
Ainda no perfil do pesquisador aparece uma linha do tempo anual com todas as
publicações do mesmo, separadas por área de pesquisa. Por ali é possível visualizar as áreas
o pesquisador trabalha desde o início da sua carreira acadêmica, em quais ele deixou de
trabalhar ou passou a se interessar recentemente.
Há ainda um grafo de relacionamentos do pesquisador. Ele apresenta
relacionamentos de coautoria, orientações feitas pelo pesquisador e relacionamento com os
orientadores do pesquisador. Um aspecto negativo deste grafo é que qualquer pessoa pode
alterar suas informações, estando autenticada ou não no sistema, tornando esses dados não
confiáveis. Na figura a seguir, do perfil da Prof. Jonice Oliveira, será possível ver algumas
dessas informações.

Figura 10. Parte do perfil da Prof. Jonice Oliveira no Arnet Miner (ARNET MINER, 2013b).
57

Figura 11. Parte relativa a conferências do perfil da Prof. Jonice Oliveira no Arnet Miner (ARNET
MINER, 2013b).

As informações contidas no Arnet Miner são disponibilizadas parcialmente tanto via


serviços web REST quanto via arquivo texto. Há um serviço web para encontrar especialistas
em uma determinada área (ARNET MINER, 2013d). Também há um conjunto de dados em
arquivo texto referente aos dados da DBLP, que contém o título da publicação, os autores, o
ano da publicação, o local em que foi publicado, as citações feitas a publicação, o índice da
publicação, seu código identificador no Arnet Miner, o resumo e o código identificador das
referências da publicação (ARNET MINER, 2013e).

Na Figura 12, podemos visualizar o perfil de um pesquisador que foi alterado


manualmente por terceiros como exemplo de informação não confiável. As áreas de
interesse dele foram alteradas por frases sem sentido.

Figura 12. Áreas de interesse alteradas por terceiros em um perfil do Arnet Miner (ARNET MINER,
2013f).

5.1.4 DBLP
A DBLP (Digital Bibliographic & Library Project) (DBLP, 2013a) é um repositório
bibliográfico on-line na área de Ciência da Computação criada por Michael Ley na
58

Universidade de Trier, na Alemanha (LEY, 2009). Nela é possível visualizar publicações de um


pesquisador ou de uma conferência ou de uma revista. Embora a proposta deste trabalho
seja independente de domínio e analisamos fontes que não fossem específicas,
consideramos o uso da DBLP porque a nossa avaliação (Capítulo 7) foi focada no cenário de
Ciência da Computação.
Ela apresenta alguns dados estatísticos (DBLP, 2013b), em gráficos, baseados em sua
base de dados, tais como, o número de autores por publicação, separados por tipo de
publicação (Figura 13), ou ainda, o número de publicações por ano (Figura 14).

Figura 13. Número de autores por tipo de publicação (DBLP, 2013c).


59

Figura 14. Número de publicações por ano (DBLP, 2013d).

Os dados da DBLP são adquiridos automaticamente, ou seja, não é necessária a inserção


manual. Com respeito a um pesquisador, ela apresenta um perfil do mesmo com dados
referentes às suas publicações, conforme Figura 15.

Figura 15. Perfil da prof. Jonice Oliveira na DBLP(DBLP, 2015).


60

Devido a detecção automática dos dados, suas informações não são tão confiáveis ou
completas. Por exemplo, há pesquisadores que possuem mais de um perfil na DBLP devido
aos diferentes nomes utilizados em publicações. Em alguns casos, a própria DBLP consegue
detectar que os perfis pertencem ao mesmo pesquisador, mas isso não é verdadeiro
sempre. Alguns pesquisadores também possuem perfis com pouquíssimas publicações
quando comparados ao Currículo Lattes. Um exemplo para ambos os casos é o perfil do Prof
Adriano Joaquim Cruz, da UFRJ. Em dezembro de 2013 a DBLP apresentava 3 perfis
diferentes para ele. Além disso, os perfis tinham no máximo 4 publicações, o que não
condizia com a verdade.
A DBLP disponibiliza seus dados totalmente via arquivo XML (DBLP, 2013e; LEY,
2009a). Caso não queira acesso a todos os dados, mas apenas a uma parte deles, é possível
fazer requisições a base da DBLP a partir de uma API disponibilizada por eles (LEY, 2009b).
Através desta API é possível consultar, por exemplo, a um pesquisador em específico, aos
coautores de um pesquisador e às publicações de um pesquisador (LEY, 2009b).

5.1.5 Research Gate


Research Gate (RESEARCH GATE, 2015a) é uma rede social on-line para comunidade
científica. Nela o pesquisador cria um perfil, inserindo suas áreas e tópicos de interesses,
suas publicações, prêmios e outras informações. Um exemplo de perfil de pesquisador pode
ser visto na Figura 16.
A partir dos dados que o pesquisador insere, a rede social calcula algumas outras
informações, como os top coautores (Figura 16 - G), fator de impacto (Figura 16 - E), número
de citações (Figura 16 - D), número de downloads de publicações do pesquisador (Figura 16 -
C), número de publicações (Figura 16 - A), número de visualizações do perfil do pesquisador
(Figura 16 - B) e habilidades (Figura 16 - F).
61

Figura 16. Perfil da prof. Jonice Oliveira no Research Gate (RESEARCH GATE, 2015b).

Não foi encontrada nenhuma forma de disponibilização dos dados por parte do
Research Gate, seja via XML ou via serviço web.

5.1.6 Google Acadêmico


O Google Acadêmico (GOOGLE, 2015a) é uma plataforma da Google com diversos
recursos para auxiliar pesquisas acadêmicas. Dentre esses recursos, há a possibilidade do
pesquisador criar o seu próprio perfil. Na Figura 17 é possível visualizar o perfil da prof.
Jonice Oliveira.
Nesse perfil o pesquisador insere o seu nome da forma que aparece nas publicações
e, a partir disso, a Google detecta os artigos já publicados pelo pesquisador. Também é
possível inserir manualmente as publicações. A Google também detecta automaticamente
os coautores (Figura 17 - C) do pesquisador. No perfil do pesquisador é possível visualizar
suas áreas de interesse (Figura 17 - A), citações (Figura 17 - D), artigos (Figura 17 - B), índice
H (Figura 17 - E), dentre outros.
62

Figura 17. Perfil da prof. Jonice Oliveira no Google Acadêmico (GOOGLE, 2015b).

Não foi encontrada nenhuma forma de disponibilização dos dados por parte do
Google Acadêmico, seja via XML ou via serviço web.

5.2 Comparação entre as bases de dados acadêmicas


Nesta seção será apresentada uma tabela comparativa entre as bases de dados
apresentadas na seção 5.1.

Tabela 6. Comparação entre as bases de dados acadêmicas.


INSERÇÃO DOS DISPONIBILIZAÇÃO DIVERSIDADE CONFIABILIDAD
DADOS DOS DADOS VIA API DE DADOS E DOS DADOS
CURRÍCULO
Manual Não Sim Total
LATTES
MICROSOFT
Automática Sim Sim Parcial
ACADEMIC
ARNET
Automática Sim Sim Parcial
MINER
DBLP Automática Sim Não Parcial
RESEARCH Manual e
Não Sim Parcial
GATE Automática
63

GOOGLE Manual e
Não Sim Parcial
ACADÊMICO Automática

Como pode ser visto na Tabela 6, somente o Currículo Lattes apresenta a inserção dos dados
totalmente manual, o que faz com que seus dados sejam totalmente confiáveis. As demais
bases apresentam inserção dos dados automática ou mista (manual e automática).

5.3 Base de Dados Escolhida


Após pesquisa e análise, optamos por utilizar o Currículo Lattes como fonte dos
nossos dados, pois, como pôde ser observado e descrito na seção 5.1, o preenchimento
manual garante uma confiabilidade maior às informações. A inserção automática dos dados
acaba por gerar informações inválidas sobre os pesquisadores. Outro ponto a ser comentado
é que o Currículo Lattes possui uma rica base de dados no âmbito nacional, contendo muitas
informações sobre a vida acadêmica de um pesquisador que são necessárias à nossa
pesquisa. Além disso, tanto o Arnet Miner quanto a Microsoft Academic Search contêm
informações a respeito dos pesquisadores que eles não explicam como elas foram inferidas,
como as áreas de atuação, palavras-chave. Já a DBLP, o Research Gate e o Google Acadêmico
não contêm todas as informações que desejamos utilizar para a construção da rede social
científica heterogênea. Elas contêm apenas informações sobre as publicações dos
pesquisadores.
Antes de optarmos pelo uso dos dados do Lattes, tentamos entrar em contato por e-
mail com a Microsoft Academic Research para que algumas dúvidas fossem tiradas a
respeito das informações que ela disponibiliza sobre os pesquisadores. Porém, não
obtivemos uma resposta.

5.4 Ferramentas de Extração de Dados do Currículo Lattes


Como visto anteriormente, o Currículo Lattes não disponibilizava suas informações
publicamente até janeiro de 2014. Para obter os dados que, a princípio seriam públicos para
uso, entramos em contato com o atendimento do CNPq por e-mail e por telefone, mas não
souberam nos informar se os dados poderiam ser disponibilizados para uso deste trabalho.
Os contatos foram feitos entre novembro de 2013 e início de fevereiro de 2014. Por isso,
64

iniciamos a busca por ferramentas de extração de dados do Currículo Lattes. Foram


encontradas duas ferramentas que serão descritas a seguir:

5.4.1 ScriptLattes
O scriptLattes é um software livre de código aberto criado para extrair e compilar
automaticamente algumas informações do Currículo Lattes, tais como: produções
bibliográficas, produções técnicas, produções artísticas, orientações, projetos de pesquisa,
prêmios e títulos, grafo de colaborações, mapa de geolocalização, coautoria e
internacionalização (MENA-CHALCO, 2009).
Ele foi desenvolvido por Jesús Pascual Mena-Chalco (da Universidade Federal do ABC,
Sâo Paulo) e Roberto Marcondes Cesar Junior (da Universidade de São Paulo) e, sua versão
atual foi desenvolvida utilizando a linguagem de programação Python (PYTHON, 2015).
Com esta ferramenta é possível definir o conjunto de pesquisadores que você deseja
obter as informações do Lattes. Dado esse conjunto de pesquisadores, o scriptLattes irá
extrair seus dados e gerar relatórios em formato HTML, como por exemplo, um relatório que
contêm o grafo de coautoria dos pesquisadores definidos inicialmente. Também é possível
extrair os dados do Lattes no formato XML.
Uma restrição desta ferramenta é que ela só pode ser executada no sistema
operacional Linux.

5.4.2 Sucupira
O Sucupira (ALVES; YANASSE; SOMA, 2011) é um sistema de extração de informação
da Plataforma Lattes para identificação de redes sociais acadêmicas. Este sistema está sendo
desenvolvido por um grupo de pesquisadores do INPE e do ITA. Em dezembro de 2013,
momento que iniciamos a coleta dos dados desta trabalho, ainda não havia uma versão
deste sistema disponível para uso público.
De acordo com (ALVES; YANASSE; SOMA, 2011), este sistema permite ao usuário
adicionar uma lista de pesquisadores que ele desejar comparar e analisar. A partir disso, é
possível visualizar a localização de um pesquisador da sua lista em um mapa, assim como
visualizar o gráfico de publicações desses pesquisadores. A principal funcionalidade do
65

Sucupira é a visualização das redes sociais acadêmicas em um grafo. Atualmente apenas um


tipo de relacionamento é identificado no grafo.
A princípio o Sucupira não está disponível publicamente para que a comunidade
possa utilizá-lo para extrair dados do currículo Lattes.

5.5 Conclusão
Após analisar as ferramentas descritas, optamos por criar a nossa própria ferramenta
de extração de dados do Currículo Lattes devido aos seguintes motivos: 1) a ferramenta
Sucupira ainda está em fase de desenvolvimento e nenhuma versão estava disponível para
uso em dezembro de 2013; além disso, a princípio não foi encontrada nenhuma informação
relatando se ela ficaria disponível publicamente para que terceiros a utilizem para a
extração; 2)a ferramenta scriptLattes não extrai todas as informações necessárias a nossa
pesquisa, sendo necessária a sua adaptação. Por exemplo, informações como formação
acadêmica, bolsa de produtividade, áreas de atuação e atuação profissional não são
extraídas pela mesma em sua versão atual. Para adaptá-la, inicialmente seria necessário
entender o código desenvolvido e não foi encontrado nenhum manual técnico ou API para
isso. Por isso, concluímos que o esforço gasto para modificar o scriptLattes seria no mínimo
igual ao esforço gasto para construir um extrator próprio.
Antes de optarmos de criar o nosso próprio extrator, entramos em contato com a
área de atendimento da Plataforma Lattes por e-mail e por telefone durante os meses de
novembro e dezembro de 2013 e janeiro e início de fevereiro de 2014, para saber se eles
poderiam disponibilizar seus dados para a nossa pesquisa. O primeiro contato foi feito por e-
mail, onde nos responderam para entrarmos em contato através do telefone. Ao entrar em
contato pelo número de telefone indicado, não souberam nos informar nada a respeito e
pediram para entrar em contato por e-mail novamente, de forma que o e-mail seria
encaminhado com urgência para o setor responsável. Foram feitas várias tentativas por e-
mail novamente, mas não obtivemos nenhuma resposta.
Para extrair os dados disponíveis no Currículo Lattes precisamos criar um extrator
destas informações. Como a criação do extrator do currículo Lattes é parte do
desenvolvimento deste trabalho, ele está descrito na seção 6.4.1 intitulada Extração de
66

dados dos Curriculos Lattes. Nesta seção são descritos as etapas necessárias e os desafios
encontrados para o desenvolvimento do extrator.
67

6 Proposta de um novo método de recomendação de


relacionamentos científicos

Conforme foi descrito em capítulos anteriores, este trabalho propõe um método de


recomendação de novos relacionamentos entre pesquisadores, utilizando para isso uma
rede social científica heterogênea. Devido a isso, o método utiliza informações sobre
diferentes tipos de relacionamentos entre pesquisadores, assim como, diferentes
características profissionais de cada um deles. Sabe-se que o uso de uma rede social
heterogênea para realizar recomendações pode melhorar a acurácia das recomendações
(SUN et al, 2011). Ao utilizar diferentes tipos de relacionamento ganha-se em semântica e
aumenta-se a possibilidade de identificação de uma interação já existente entre
pesquisadores. Dessa forma, minimiza-se a chance de serem recomendadas parcerias entre
pessoas que já interajam de alguma forma. Por exemplo, suponha um método de
recomendação que leve em consideração somente os relacionamentos de participação em
projeto. Utilizando-se esse método, é recomendado o pesquisador P1 para o pesquisador P2
. Porém, conforme ilustrado na Figura 18, já existem 4 relacionamentos de coautoria entre
eles, assim como 2 relacionamentos de coorientação. Portanto, eles já se conhecem e já
colaboram um com outro, apenas não possuem entre si o tipo de relacionamento utilizado
pelo método, que é o de participação em projeto. Para fazer recomendações novas, os
métodos dependem dos tipos de relacionamentos utilizados e das informações disponíveis
sobre os pesquisadores.

Figura 18. Exemplo de relacionamentos entre


pesquisadores.
68

Neste capítulo será apresentado detalhadamente o método de recomendação


proposto. Será descrita a rede social modelada e será justificada a escolha dos nós e
relacionamentos utilizados na rede social. Será descrita a função proposta para calcular o
grau de similaridade entre dois pesquisadores e a função proposta para medir o nível de
expertise de um pesquisador.

6.1 Rede Social Modelada


Uma rede social é composta de nós e relacionamentos. No caso de uma rede social
científica, os relacionamentos geralmente são interações existentes entre os pesquisadores
e, os nós, são itens que fazem parte do ambiente acadêmico, como projetos, publicações e
etc. A rede social científica modelada nesta trabalho é composta pelos seguintes nós:
pesquisador, publicação, projeto, trabalho e área de atuação. Tais nós serão descritos a
seguir:

1) Pesquisador
Este nó representa um profissional que atua na área de pesquisa em instituições
de pesquisa brasileiras, como universidades. O pesquisador é o nó central da rede
pois todos os relacionamentos existentes na rede têm origem nele.
Para realizar a recomendação de pesquisadores foi necessário coletar dados para
construir o perfil do pesquisador. Dessa forma, os demais nós da rede são nós
que complementam e enriquecem as informações sobre um pesquisador na rede.

2) Publicação
A publicação representa um artigo escrito por um ou mais pesquisadores. Ela
pode ser publicada em diversos meios, como periódicos e anais de congresso e,
ainda ser um capítulo de livro.
Uma das formas de publicação, o artigo, ainda é um dos principais, senão o
principal meio de divulgação do trabalho científico e por isso foi considerado
neste trabalho. A partir dos artigos publicados por um autor é possível inferir as
áreas de atuação em que ele trabalha, por exemplo. Além disso, é possível
analisar a evolução das áreas de atuação de um pesquisador no decorrer de sua
69

carreira acadêmica, pois nem sempre um pesquisador encerra a sua carreira


trabalhando na mesma área em que se especializou.

3) Projeto
O nó projeto representa projetos de pesquisa de um pesquisador. Ele é um plano
do trabalho que o pesquisador deseja realizar. Tais projetos podem ser
desenvolvidos em grupo, com outros pesquisadores, colaboradores e alunos, ou
sozinho. Usualmente tem prazo e metas para serem cumpridas dentro deste
prazo.
A partir dos títulos dos projetos, assim como dos artigos, é possível inferir áreas
em que um pesquisador trabalha.

4) Trabalho
O nó trabalho representa qualquer trabalho desenvolvido por um ou mais alunos
e supervisionado por um ou mais pesquisadores, podendo ser, a princípio, uma
dissertação de mestrado, tese de doutorado, iniciação científica, dentre outros.

5) Área de Atuação
O nó área de atuação representa as áreas em que um pesquisador atua, ele
indica os campos de interesse dele. Tais áreas podem ser mais genéricas, como
Ciência da Computação, ou mais específicas, como Sistemas de Recomendação. A
partir da área de atuação dos pesquisadores é possível formar grupos de
pesquisadores que atuem na mesma área ou ainda, recomendar pesquisadores
que atuem em áreas similares ou complementares.

A Tabela Tabela 7 apresenta os relacionamentos utilizados na rede social modelada.

Tabela 7. Relacionamentos entre pesquisadores utilizados pelo método de recomendação proposto.


RELACIONAMENTO DESCRIÇÃO
Entre pesquisadores que já escreveram alguma
Coautoria
publicação juntos.
Co-participação em projeto Entre pesquisadores que já participaram de
70

algum projeto juntos.


Entre pesquisadores que já participaram de
Co-participação em banca
alguma banca de defesa juntos.
Entre pesquisadores que já orientaram algum
Coorientação
aluno juntos.

A seguir serão descritos os diferentes tipos de relacionamento utilizados neste


trabalho. Além disso, também serão apresentadas as razões por tais relacionamentos terem
sido escolhidos.

1) Coautoria
O relacionamento de coautoria é caracterizado pela colaboração realizada entre
pesquisadores para escrever uma publicação, podendo ser um capítulo de livro
ou um artigo. Ou seja, é o relacionamento inferido entre os nós pesquisadores a
partir do relacionamento existente entre o nó pesquisador e o nó publicação.
Este relacionamento é o mais utilizado para analisar as colaborações entre
pesquisadores (TORAL et al., 2011), por isso foi utilizado neste trabalho.
O relacionamento de coautoria entre pesquisadores pode indicar que eles
possuem interesses em comum, sejam na mesma área de atuação ou em áreas
complementares. É um relacionamento direto, pois, a colaboração existe a partir
de uma escolha direta dos pesquisadores em realizarem um trabalho juntos.
Se o relacionamento se repetir por muitas vezes, é um indicativo que a parceria
entre eles é positiva. Se o relacionamento ocorrer apenas uma única vez pode ser
um indicativo de que a parceria não deu certo, ou que um dos pesquisadores
mudou sua área de interesse, ou ainda que eles não tiveram outra oportunidade
de trabalhar juntos. Mas, qualquer que seja o motivo, essa parceria foi
interrompida, e isso é um fator que pode ser levado em consideração para
realizar recomendações.
71

2) Co-participação em projeto
Este relacionamento é caracterizado pela participação de pesquisadores em um
mesmo projeto. Ou seja, é o relacionamento entre dois pesquisadores inferido
pelo relacionamento de participação em projeto entre o nó projeto e o nó
pesquisador.
Um pesquisador pode escrever um artigo com outro sem nunca ter participado
de um projeto com ele. Da mesma forma, um pesquisador pode participar de um
projeto com outro e não possuir um artigo com ele. Este segundo caso
provavelmente ocorre menos, pois uma publicação seria, na maioria das vezes,
uma consequência natural de um projeto de pesquisa. De toda forma, há
pesquisadores que somente se relacionam através da colaboração em projetos.
Geralmente, um projeto envolve um número maior de participantes do que a
autoria de uma publicação. Algumas vezes os pesquisadores participam de
projetos em que não conhecem pessoalmente os outros participantes. Além
disso, projetos podem ser interdisciplinares, envolvendo pesquisadores de
diferentes áreas. Este fato ajuda a aumentar e a diversificar os nós próximos a um
pesquisador na rede, possibilitando novas parcerias.
Veja por exemplo a Figura 19. Nela, há uma rede social em que cada retângulo
representa o nó pesquisador. Cada nó pesquisador tem descrita a sua área de
atuação. As linhas contínuas existentes entre os retângulos representam os
relacionamentos de co-participação em projetos dos pesquisadores. Já as linhas
tracejadas indicam que cada nó possui outros diversos relacionamentos de co-
participação em projetos com outros pesquisadores. Observe que o Pesquisador
1 da área de Sistemas de Recomendação possui, representado na rede, um
relacionamento com o Pesquisador 3, também da área de Sistemas de
Recomendação e, um relacionamento com o Pesquisador 5, da área de
Otimização. A partir do relacionamento existente com o Pesquisador 5 de
Otimização, o Pesquisador 1 de Sistemas de Recomendação pode vir a se
relacionar com o Pesquisador 7 de Cálculo Numérico, que é de uma área distinta
da sua, porém, que está relacionada com a área de um nó vizinho e que pode vir
a ser útil. O mesmo ocorre com os pesquisadores 4, 6, 8 e 9. Todos podem ser
72

alcançados a partir do Pesquisador 1 na rede, sendo alguns de áreas similares e


outros de áreas que podem vir a ajudar no trabalho do Pesquisador 1.

Figura 19. Exemplo de rede social com nós demonstrando a principal área de atuação de um
pesquisador.

Devido a estas características apresentadas, o relacionamento de co-participação


em projeto foi utilizado.

3) Co-participação em banca
Este relacionamento representa a participação de pesquisadores na mesma
banca de defesa de trabalho, que pode ser a defesa de uma dissertação,
doutorado, projeto final de curso, qualificação, e etc. Ou seja, é um dos
relacionamentos existentes entre o nó pesquisador e nó trabalho.
73

Tal relacionamento pode ser considerado um relacionamento indireto, pois, os


pesquisadores são convidados a participarem juntos de um trabalho, eles não
escolhem diretamente que vão trabalhar uns com os outros. A co-participação
em banca também pode ser considerada um relacionamento mais fraco que os
de coautoria e co-participação em projeto, por ser indireto.
Ainda que seja um relacionamento mais fraco, a co-participação em banca foi
levada em consideração porque é um indicativo de que dois pesquisadores se
conhecem e atuam em áreas similares ou complementares.
Apesar de não ter sido utilizado dessa forma nesta proposta, a participação em
banca pode ser utilizada para inferir a expertise de um pesquisador. Isso pode
ocorrer porque costumam ser convidados para uma banca de defesa de
doutorado pesquisadores especialistas no assunto da defesa. Então, quanto
maior a quantidade de participações em banca de defesa de doutorado em um
determinado assunto, mais expert o pesquisador pode ser considerado.

4) Co-atuação

Este relacionamento apresenta a atuação de dois pesquisadores na mesma área.


Ou seja, é um relacionamento inferido entre dois pesquisadores a partir do
relacionamento existente entre um nó pesquisador e um nó área de atuação. Por
exemplo, pesquisadores que atuam na área de Redes Sociais possuem um
relacionamento entre eles inferido pelo relacionamento que cada um deles
possui com o nó correspondente a área de atuação Redes Sociais.
A co-atuação de dois pesquisadores em uma determinada área pode ocorrer em
áreas genéricas, como Sistemas de Informação, ou em áreas mais específicas,
como Redes Sociais. Quanto mais específica a área que os pesquisadores têm em
comum, mais forte será esse relacionamento.
O relacionamento de co-atuação é importante para recomendar a um
pesquisador outros pesquisadores que tenham os mesmos interesses de pesquisa
que ele.
74

5) Coorientação

Este relacionamento representa a coorientação de um trabalho por parte de dois


pesquisadores. Ele é um relacionamento inferido a partir dos relacionamentos
existentes entre os pesquisadores e os trabalhos em questão. Assim como no
relacionamento de co-participação em banca, os trabalhos podem ser teses de
doutorado, dissertações de mestrado, monografias de projeto final, e etc.
A coorientação, assim como a co-participação em projeto, pode aumentar e
diversificar os nós próximos a um outro nó, conforme exemplo na Figura 5, pois,
algumas vezes os coorientadores são escolhidos justamente por atuarem em
áreas complementares ou distintas.

Tabela 8. Características dos pesquisadores utilizadas pelo método de recomendação proposto.


CARACTERÍSTICA DESCRIÇÃO
Formação acadêmica Última titulação obtida pelo pesquisador.
Atuação profissional Enquadramento funcional atual do pesquisador.
Área de atuação Áreas em que o pesquisador atua.
Bolsa de produtividade do CNPq Bolsa concedida pelo CNPq.

Além dos nós e dos relacionamentos que compõe a rede social, outras características
dos pesquisadores foram utilizadas para propor o método de recomendação, conforme visto
na Tabela 8. A seguir, estas características serão descritas:

1) Formação Acadêmica

A formação acadêmica representa a formação de um pesquisador. Como pór


exemplo, um doutorado ou uma graduação.
A partir da formação acadêmica é possível inferir a expertise de um pesquisador,
ou seja, o quão ele é especialista em um determinado assunto. Não
necessariamente uma titulação é a melhor maneira de determinar se um
75

pesquisador é especialista ou não, porém, pode ser considerado como um fator


indicativo.
Esta característica será descrita em maiores detalhes na seção 6.2.1.

2) Atuação Profissional

A atuação profissional representa o local em que o pesquisador trabalha


atualmente. É possível formar grupos de pesquisadores que atuem no mesmo
local ou saber a proximidade física entre os pesquisadores da rede a partir dos
locais de atuação profissional.
Esta característica será descrita em maiores detalhes na seção 6.2.1.

3) Bolsa de Produtividade do CNPq


São bolsas oferecidas pelo CNPq a pesquisadores que se destaquem nas suas
áreas de atuação de acordo com alguns critérios estabelecidos.
Esta característica será descrita com mais detalhes na seção 6.2.1.

A partir dos tipos de relacionamentos e nós citados é possível inferir os


relacionamentos entre os pesquisadores. Por exemplo, pesquisadores que são autores da
mesma publicação possuem um relacionamento de coautoria. Pesquisadores que participam
da mesma banca, também possuem um relacionamento entre si. No caso da orientação e
coorientação, se um pesquisador orienta um trabalho em que outro pesquisador é
coorientador, tais pesquisadores possuem um relacionamento de coorientação entre eles.
.
A abordagem de recomendação proposta neste trabalho utiliza características da
rede social. Conforme visto em na seção 4.1, existem diferentes tipos de método de
recomendação de relacionamentos em redes sociais. O que diferencia um método do outro
são as características da rede utilizadas. O método proposto neste trabalho é baseado na
vizinhança dos nós, em específico, nos métodos de vizinhos em comum e conexão
preferencial (BARABÁSI; ALBERT, 1999). Ele também usa uma abordagem baseada no
conteúdo dos nós, como veremos a seguir.
76

6.2 Descrição do método proposto


O método de recomendação proposto é composto por duas funções principais: uma
função (Equação 14) para calcular a similaridade entre dois pesquisadores e outra (Equação
6 para calcular a expertise do pesquisador, ou seja, seu grau de experiência profissional. A
equação de similaridade é composta por três fatores: 1) fator de compatibilidade (seção
6.2.2.1), que mede a compatibilidade entre dois pesquisadores a partir do grau de
compatibilidade de seus vizinhos em comum (conjunto de pesquisadores em comum com
quem eles já possuem algum tipo de relacionamento); 2) fator de áreas de atuação (seção
6.2.2.2), que mensura se os pesquisadores trabalham em áreas afins; 3) fator de
popularidade (seção 6.2.2.3), que mede o quão receptivos os pesquisadores estão a formar
novas parcerias a partir do número de vizinhos (parcerias) que eles já possuem. Já a Equação
6 , que calcula a expertise, é composta pelos seguintes fatores: 1) fator atuação profissional,
que mede em que degrau da carreira ele se encontra a partir do seu enquadramento
funcional; 2) fator de bolsa de produtividade do CNPq, que bonifica o pesquisador pelo
mérito de ter sido escolhido para receber a bolsa; 3) fator de formação acadêmica, que
mede o nível de formação atual do pesquisador.
A Equação 14 de similaridade é ponderada pela Equação 6 da expertise, de modo que
dependendo do grau de experiência do pesquisador, o fator de popularidade da equação
receberá um peso maior ou menor que o fator de compatibilidade, conforme será
detalhado na seção 6.2.2.
Para idealizar o método de recomendação proposto e avaliar o mesmo, optamos pela
utilização de dados reais de pesquisadores. Tais dados foram extraídos do Currículo Lattes.
Para obter esses dados e poder analisá-los e usá-los, foi desenvolvido um extrator de dados,
descrito na seção 6.4.1.
Nas próximas seções deste capítulo serão descritas as funções de expertise (seção
6.2.1) e similaridade (seção 6.2.2) respectivamente.

6.2.1 Expertise
A expertise mede o grau de conhecimento de um pesquisador em uma determinada
área ou assunto. Neste trabalho, ela indica o grau de maturidade de conhecimento do
pesquisador em sua(s) área(s) de atuação, podendo ser sênior, pleno ou júnior.
77

É possível inferir a expertise de alguém em algum assunto a partir de algumas


suposições. Por exemplo, o fato de um pesquisador ter participado de muitas bancas de
doutorado de um determinado tema pode ser um indício de que ele é um especialista
naquele assunto, ou seja, que sua expertise naquela área é elevada. A partir de algumas
características da rede também é possível detectar a expertise de alguém. Nós com muitos
relacionamentos podem ser um indício de expertise elevada em um determinado assunto,
pois a grande quantidade de relacionamentos pode indicar que tais nós possuem muitos
trabalhos em uma determinada área. Também podemos utilizar características profissionais
do pesquisador para detectar sua expertise, como o nível em que ele se encontra na sua
carreira, se recebe algum tipo de bolsa ou não, sua formação acadêmica, quantidade de
alunos orientados, etc. Neste trabalho, utilizamos a última abordagem citada.
Como mencionado anteriormente, um pesquisador pode ser considerado como
júnior, pleno ou sênior. O pesquisador júnior encontra-se no início da carreira,
provavelmente ainda não possui uma rede de colaboradores ampla e consolidada e ainda
não adquiriu vasto conhecimento na sua área de atuação. O pesquisador pleno encontra-se
na fase intermediária da sua carreira: não possui o grau de maturidade de um sênior, mas já
demonstra uma experiência maior que um pesquisador júnior. Sua rede de colaboradores
provavelmente é maior e encontra-se em evolução, e provavelmente possui alguns
colaboradores consolidados. Por fim, um pesquisador sênior provavelmente tem a sua rede
de colaboradores consolidada. O ritmo de crescimento dela deve ser menor que de um
pesquisador júnior, por exemplo.
Dependendo do grau de maturidade do pesquisador, pode ser mais interessante para ele
trabalhar com um pesquisador do mesmo grau de maturidade ou com grau de maturidade
complementar. Por exemplo, no caso de um pesquisador júnior, provavelmente é mais
interessante para ele ter colaboradores mais experientes, como um sênior ou pleno, do que
com outros pesquisadores juniores. Isso ocorre porque esses pesquisadores poderão
contribuir com a sua experiência e com a sua rede de colaborações, apresentando o
pesquisador júnior a outros pesquisadores e introduzindo ele em grupos de pesquisadores.
Por isso, utilizamos a expertise do pesquisador para determinar se é mais interessante para
ele receber recomendações de pesquisadores mais experientes ou não. Para fazer isso,
78

utilizamos a expertise do pesquisador para ponderar a Equação 14 de similaridade, conforme


será visto na seção 6.2.2.

Para calcular a expertise utilizamos três características profissionais do pesquisadores


que foram extraídas do currículo Lattes: a atuação profissional atual, a bolsa de
produtividade do CNPq e a formação acadêmica. Na função que calcula a expertise foi
atribuído um peso para cada um desses fatores. A importância de cada fator é definida
através deste peso. Apesar de sugerirmos alguns pesos, entendemos que cada domínio
possui a sua especificidade e tais pesos podem ser ajustados conforme as necessidades de
cada cenário. Em nossa abordagem, o fator considerado de maior importância para
determinar a expertise de um pesquisador foi a atuação profissional atual, ou seja, se o
pesquisador é Adjunto, Titular ou Assistente, por exemplo. Consideramos este o principal
fator porque indica em que estágio da carreira o pesquisador se encontra, o que já é um
indicador natural da sua expertise atual. Quanto maior o nível, maior deve ser a expertise.
O segundo fator em escala de importância é a bolsa de produtividade do CNPq. A
bolsa é concedida, a pesquisadores que tenham sua pesquisa ou produção tecnológica
reconhecida, o que já é um indício da expertise do pesquisador. Porém, como a verba é
limitada, nem todos os pesquisadores, apesar de sua excelência, recebem bolsa.
Consequentemente, a obtenção deste tipo de bolsa não pode ser considerado um fator de
maior importância para se calcular a expertise.
O fator da formação acadêmica recebeu o menor peso na função. Este fator leva em
conta a última titulação adquirida pesquisador, como Doutorado, Mestrado e etc.
Consideramos este o fator de menor importância, pois a maioria dos pesquisadores possui a
mesma titulação em um determinado domínio. O que diferencia uns dos outros para calcular
a expertise é a quanto tempo cada um possui a titulação.
A seguir, cada fator será descrito separadamente.

6.2.1.1 Atuação Profissional


A atuação profissional atual de um pesquisador nos diz em que degrau de sua
carreira o mesmo se encontra. Na progressão habitual da carreira de pesquisador, o mesmo
pode ser Emérito, Titular, Associado, Adjunto, Livre Docente, Assistente ou Auxiliar, sendo o
79

nível mais alto da carreira atingido quando o mesmo se torna Emérito. Para cada um desses
níveis de carreira, o pesquisador deve possuir uma titulação mínima. Por exemplo, para um
pesquisador ser Assistente é necessário que ele possua pelo menos o título de Mestre.
Quanto maior a titulação, maior o nível de carreira que o pesquisador pode atingir. Além da
titulação mínima, outros fatores são considerados para que um pesquisador atinja cada um
desses níveis em sua carreira, como publicações, sua produção técnica e científica, atividade
de docência, orientações e a relevância delas.
Considerando esses fatores, para cada um dos níveis da carreira de um pesquisador
foi atribuído um peso variando de 1 a 3, onde 3 indica o nível mais alto da carreira e 1 indica
o nível inicial. A Tabela 9 a seguir apresenta tais pesos separados por nível.

Tabela 9. Pesos atribuídos aos diferentes níveis da carreira do pesquisador.


NÍVEL PESO
Emérito 3
Titular 2,8
Associado 2,5
Adjunto 2
Livre-Docente 2
Assistente 1,5
Auxiliar 1
Demais 0,5

Além dos níveis que fazem parte da progressão habitual da carreira do pesquisador,
contidos na tabela acima, foram encontrados diversos outros níveis em nossa base de dados
extraídos do currículo Lattes, tais como: Pesquisador Doutor, Pesquisador Sênior,
Pesquisador Permanente, Pesquisador Visitante, etc. Nesses casos foi atribuído peso 0,5 a
atuação profissional do pesquisador.
Para calcular o fator de atuação profissional (A(P)) da função de expertise foi utilizada
a Equação 3 a seguir, considerando apenas a atuação profissional atual do pesquisador

Equação 3. Fator de atuação profissional da função expertise.


80

Onde:
-P representa o pesquisador.
-p atuação é o peso dado à atuação profissional atual do pesquisador, conforme Erro!
Fonte de referência não encontrada..
- p3 é o peso atribuído ao fator atuação profissional na função expertise.

Este fator da função expertise leva em consideração apenas o produto entre o peso
dado à atuação profissional atual do pesquisador e o peso dado a este fator na própria
função de expertise.
Quanto mais elevado for o nível de atuação profissional atual do pesquisador, maior
será esse termo na função expertise.

6.2.1.2 Bolsa de Produtividade do CNPq


O CNPq concede diferentes bolsas aos pesquisadores de acordo com o desempenho
apresentado por eles em suas pesquisas, produções tecnológicas e ensino. Dentre as bolsas
oferecidas, as de produtividade são consideradas as mais importantes pois indicam a
produção atual do pesquisador Existem alguns tipos de bolsa de produtividade: a de
produtividade em pesquisa e a de desenvolvimento tecnológico e extensão inovadora. As
bolsas de produtividade em pesquisa são destinadas aos pesquisadores que se destacam na
produção científica. . As bolsas de produtividade em desenvolvimento tecnológico e
extensão inovadora são destinadas àqueles que se destacam na produção de
desenvolvimento tecnológico e inovação.
Além das bolsas de produtividade, existem as bolsas de desenvolvimento científico
regional que tem por objetivo estimular a fixação de recursos humanos com experiência e
reconhecida competência profissional. Há também as bolsas de desenvolvimento
tecnológico regional, fixação e capacitação de recursos humanos, extensão no país, dentre
outras.
Cada uma dessas bolsas possui diferentes níveis. Para as de produtividade, por
exemplo, os níveis são 2, 1D, 1C, 1B e 1A, onde 2 é o nível inicial e 1A é o maior nível. Em
nossa abordagem, atribuímos um peso tanto para as bolsas quanto para cada um de seus
níveis, conforme mostrado nas Erro! Fonte de referência não encontrada.Tabelas Tabela 10,
Tabela 11, Tabela 12 e Tabela 13 , respectivamente:
81

Tabela 10. Pesos atribuídos aos diferentes tipos de bolsa do CNPq.

TIPO DE BOLSA PESO


Produtividade em Pesquisa
3

Produtividade em Desenvolvimento
3
Tecnológico e Extensão
Desenvolvimento Científico Regional
2,5

Fixação e Capacitação de Recursos


Humanos 2

Extensão no País
1,5

Demais
1

Tabela 11. Pesos atribuídos aos níveis das bolsas de Produtividade em Pesquisa e Produtividade em
Desenvolvimento Tecnológico e Extensão.
TIPO DE PRODUTIVIDADE EM PESQUISA/PRODUTIVIDADE
BOLSA EM DESENVOLVIMENTO TECNOLÓGICO E EXTENSÃO
82

NÍVEL DA
2 1D 1C 1B 1A
BOLSA
PESO 1 2 2,3 2,6 3

Tabela 12. Pesos atribuídos aos níveis das bolsas de Desenvolvimento Tecnológico e Industrial,
Desenvolvimento Científico Regional e Extensão no País.
TIPO DE DESENVOLVIMENTO TECNOLÓGICO E INDUSTRIAL/
BOLSA DESENVOLVIMENTO CIENTÍFICO REGIONAL/EXTENSÃO NO PAÍS
NÍVEL DA
C B A
BOLSA
PESO 1 2 3

Tabela 13. Pesos atribuídos aos níveis de bolsas de Fixação e Capacitação em Recursos Humanos.
TIPO DE
FIXAÇÃO E CAPACITAÇÃO DOS RECURSOS HUMANOS
BOLSA
NÍVEL DA I G G F E D C B A
BOLSA I H G F E D C B A
1 1 1 1 2 2 2 2 3
PESO
1 1.3 1.5 1.7 2 2.3 2.5 2.7 3

Baseado no exposto anteriormente, foi definida a Equação 4 para calcular o fator de


bolsa de produtividade B(P) da função de expertise:

Equação 4. Fator de bolsa de produtividade da função expertise.

Onde:
- P representa o pesquisador.
83

- ptipoBolsa é o peso dado a cada tipo de bolsa, conforme Tabela 10.


- pnivelBolsa é o peso atribuído ao nível da bolsa. Tal peso varia de acordo com o tipo de
bolsa.
- p2 é o peso atribuído ao termo da bolsa do CNPq na função expertise.
O termo da bolsa do CNPq foi adicionado à fórmula da expertise com o objetivo de
dar uma bonificação aos pesquisadores que possuem bolsa. Por isso, esta equação é
composta por uma multiplicação de pesos.
Apesar de ter descrito todos os tipos de bolsa anteriormente e proposto diferentes
pesos para cada uma delas, neste trabalho foi considerada apenas as bolsas de
produtividade tanto a de pesquisa quanto a de desenvolvimento tecnológico e extensão, por
considerarmos que a produtividade pode ser um indicativo do grau de maturidade do
pesquisador nas suas áreas de atuação

6.2.1.3 Formação Acadêmica

O último fator utilizado para calcular a expertise é o fator de formação acadêmica.


Nele, é considerada a última titulação adquirida por um pesquisador, como Mestre, Doutor,
etc. Por exemplo, supondo que as duas últimas formações de um pesquisador sejam
doutorados, será considerado o primeiro doutorado que o pesquisador fez, pois a partir do
primeiro doutorado ele já possuía o título de Doutor.
Conforme os outros fatores considerados para calcular a expertise, para cada
formação acadêmica foi atribuído um peso. Quanto maior a formação, maior o peso,
conforme Tabela 14 a seguir.

Tabela 14. Pesos atribuídos às diferentes titulações.


TITULAÇÃO PESO
Pós-Doutorado 1
Livre-Docência 3
Doutorado 3
84

Mestrado 2
Graduação 1
Especialização 1

No Brasil não existe a titulação de “Pós-Doutor”. O pós-doutorado é considerado um


complemento à formação da pessoa. Além disso, para atuar como pesquisador não é
necessário o pós-doutorado, apenas o doutorado. Por isso, na nossa abordagem
consideramos o pós-doutorado como uma formação complementar às demais, que não
deve ter o mesmo peso que o doutorado.
A Equação 5 para calcular este fator da expertise foi definida do seguinte modo:

Equação 5. Fator de formação acadêmica da função expertise.

Onde
-P representa o pesquisador.
- Δ = a1 – a2, onde a1 é o ano atual e a2 é o ano de obtenção do título.
- pformação é o peso atribuído a última titulação do pesquisador, conforme Tabela 14.
- p1 é o peso atribuído ao termo de formação acadêmica na função expertise.
Para calcular este fator, foram considerados a última titulação obtida e o ano de
obtenção desta última titulação. Conforme dito anteriormente, se um pesquisador possuir
dois doutorados como últimas formações,será considerado o primeiro doutorado obtido
para calcular este fator.
Foi utilizada a função potência f(Δt) = 1,05Δt para definir a influência do tempo de
formação acadêmica do pesquisador em sua expertise. No domínio definido para valores
positivos, esta função é crescente. Pode-se observar, conforme gráfico abaixo, que a função
escolhida cresce mais rapidamente no eixo x (tempo de obtenção do último título) do que
no eixo y (fator formação acadêmica). Nos vinte primeiros anos após a obtenção do título, o
pesquisador vai acumulando conhecimento e o crescimento se dá quase que com a mesma
variação. Porém, nos vinte anos seguintes, o pesquisador já acumulou conhecimento e o
crescimento se dá de forma mais acelerada.
85

Olhando para o gráfico da função potência f(Δt) = 1,05Δt (Figura 20), no intervalo de 0
a 43 anos (tempo médio estimado da última formação acadêmica de um pesquisador sênior,
conforme será visto no final deste capítulo), percebe-se que nos primeiros anos de formação
há um crescimento menor comparado com os anos seguintes. Por exemplo: observando o
intervalo que corresponde aos vintes primeiros anos de obtenção do último título do
pesquisador, verifica-se que o valor desta função é de aproximadamente 2,6. Comparando-
se com os vinte anos seguintes, verifica-se que o crescimento quase triplicou, já que o valor
correspondente aos 40 anos de formação equivale aproximadamente a 7. O uso desta
função beneficia o crescimento em nível de conhecimento de um pesquisador com o passar
dos anos na academia. Não há a intenção de penalizar um pesquisador jovem, mas sim, de
beneficiar o acúmulo de experiência de um pesquisador com uma grande estrada acadêmica
já percorrida.
86

Figura 20. Gráfico da função f(Δt) = 1,05Δt que representa o acúmulo de conhecimento do
1
pesquisador no decorrer dos anos posteriores a sua formação.

Dados os fatores descritos anteriormente nesta seção, para calcular a expertise de um


pesquisador é proposta a Equação 6 a seguir:

Equação 6. Função para cálculo da Expertise de um pesquisador.

Onde:
- P representa um pesquisador.
- O primeiro termo da função corresponde à formação acadêmica atual
(Equação 5).

1
Gráfico construído utilizando o site http://www.calculadoraonline.com.br/grafica.
87

- O segundo termo da função corresponde à bolsa do CNPq (Equação 4).


- O terceiro termo da função corresponde à atuação profissional atual
(Equação 3).
- O denominador da função corresponde ao valor máximo aproximado que a
função pode assumir.

O denominador da função foi encontrado a partir do valor máximo estimado que a


função pode assumir. Isso foi feito desta maneira para que o valor da expertise varie entre 0
e 1, onde valores próximos a zero representam pesquisadores júnior e, valores próximos a 1
representam pesquisadores sênior. Para estimar o valor máximo da função, consideramos o
tempo médio (baseado nos dados da base de dados utilizada) que um pesquisador sênior
possui desde a sua última formação acadêmica. Tal valor tende a corresponder ao seu
tempo de atuação profissional. Além disso, consideramos todos os outros pesos e bolsas
com seus valores máximos. Utilizando estes valores na função expertise, encontramos o
valor aproximado 108,449, que foi o valor do denominador considerado. A seguir, será
apresentada a equação que resultou neste valor:

Para definir o valor de cada um dos pesos dados aos fatores da equação de expertise
(p1, p2 e p3) foram realizados diversos cálculos com uma amostra de pesquisadores
contidos na base de dados. Para realizar tais cálculos foram selecionados pesquisadores
com: 1) expertises já conhecidas; 2) diferentes graus de expertise (sênior, pleno e júnior). O
valor absoluto dado aos pesos variou de acordo com a importância definida para cada um
dos fatores. Pelos motivos já apresentados nesta seção, foi definido que o fator de atuação
profissional seria o de maior importância, seguido pelo fator de bolsa de produtividade e,
por último, pelo fator de formação acadêmica. Para garantir esta condição desejada, foi
calculado cada fator separadamente. Considerando o tempo médio estimado que um
pesquisador sênior possui desde a sua última formação, ou seja, 43 anos, e fixando p1 = 1, o
fator de formação acadêmica tem como valor máximo aproximadamente 24,5. Logo, p2 e p3
precisavam ser números que tornassem os fatores da bolsa do CNPq e atuação profissional
maiores que o de formação acadêmica. Para p2 = 4, temos que o fator de bolsa do CNPq tem
88

como valor máximo 36 e, para p3 = 16, temos que o fator de atuação profissional tem como
valor máximo 48. Portanto, com esses valores conseguimos garantir a condição desejada.
Baseado nos testes realizados, os pesos definidos são apresentados na Tabela 15.

Tabela 15. Pesos atribuídos a cada fator da equação Expertise.


PESO VALOR
p1 1
p2 4
p3 16

6.2.2 Similaridade entre Pesquisadores


A similaridade entre dois pesquisadores mede o grau de semelhança entre eles.
Quanto maior a similaridade, maior será o grau de semelhança e, mais aptos estarão para o
trabalho em conjunto. Para medir a similaridade, foram propostos três fatores neste
trabalho. São eles: 1) compatibilidade entre vizinhos em comum (seção 6.2.2.1); 2) áreas de
atuação em comum (seção 6.2.2.2); 3) popularidade (seção 6.2.2.3). Cada um destes fatores
será apresentado a seguir:

6.2.2.1 Fator 1: Compatibilidade entre Vizinhos em Comum


Em uma rede social, assim como em grupos, pessoas que convivem juntas tendem a
ter comportamentos e hábitos semelhantes. Tais comportamentos e hábitos se propagam
de pessoa a pessoa através da rede ou grupo. Segundo (CHRISTAKIS; FOWLER, 2012), isso
ocorre porque pessoas tendem a ser influenciadas pelos seus conhecidos. Tal fato recebe o
nome de indução. De acordo com a indução, pessoas tendem a fazer o que outras pessoas
que convivem com ela fazem. Por exemplo, pessoas que convivem juntas podem ter os
mesmos hábitos alimentares, compartilhar das mesmas emoções, participar do mesmo
grupo de amigos, se interessar pelos mesmos livros e músicas, dentre outros (CHRISTAKIS;
FOWLER, 2012). Ou seja, os comportamentos são transmitidos pelo grupo ou rede
gradualmente de pessoa a pessoa. No cenário acadêmico, o comportamento em questão
89

seria qualquer tipo de relacionamento entre os pesquisadores. De uma forma geral, sabe-se
que: a probabilidade dos pesquisadores se relacionarem é diretamente proporcional ao
número de colaboradores que eles possuem em comum (NEWMAN, 2001a). Ou seja, quanto
maior número de colaboradores (vizinhos) que eles possuem em comum, maior será a
probabilidade deles se relacionarem. Pode-se supor então que isto ocorre devido a
influência ou indução, mesmo que indireta, dos vizinhos em comum, ou seja, os vizinhos em
comum induzem os pesquisadores a formarem novas parcerias. Quanto maior o número de
vizinhos em comum, maior deve ser a probabilidade desses pesquisadores se conhecerem
também. Lembrando que vizinho é qualquer nó com quem outro nó possui um
relacionamento. Logo, vizinhos em comum são os nós em comum com que dois nós
possuem relacionamentos.
Portanto, o fator de compatibilidade entre vizinhos em comum da equação de
recomendação proposta foi baseado no conceito de indução observado por (CHRISTAKIS;
FOWLER, 2012) e na conclusão sobre as colaborações científicas feitas por (NEWMAN,
2001a).
Para exemplificar este fatorsuponha que há um relacionamento entre o pesquisador
A e a pesquisadora B e, que a pesquisadora B tenha um relacionamento também com o
pesquisador C. Suponha também que A e C não tenham nenhum relacionamento de
colaboração, porém, tenham muitos vizinhos em comum. De acordo com o exposto
anteriormente, A tende a ter um relacionamento de colaboração com C no futuro.
O fator de compatibilidade proposto neste trabalho mede o quão compatíveis dois
pesquisadores são, visando um relacionamento futuro, a partir dos diferentes tipos de
relacionamentos que eles possuem com os vizinhos que eles têm em comum. Quanto maior
o número de vizinhos em comum e quanto maior a compatibilidade dos pesquisadores com
esses vizinhos, acreditamos que maior será a probabilidade deles virem a colaborar no
futuro. Portanto, a compatibilidade entre os pesquisadores é dada pela compatibilidade que
os pesquisadores têm com seus vizinhos em comum. Se ambos possuem uma
compatibilidade alta com seus vizinhos em comum, logo a compatibilidade entre eles
também será alta. Se ambos possuem uma compatibilidade baixa com seus vizinhos em
comum, logo a compatibilidade entre eles também será baixa. Segue a Equação 7 proposta
para o cálculo da compatibilidade:
90

Equação 7. Função que mede a compatibilidade entre pesquisadores.

Onde:
1) P1: Pesquisador 1.
2) P2: Pesquisador 2.
3) VizComuns: conjunto de vizinhos em comum entre P1 e P2.
4) vi: Elemento do conjunto VizComuns.

Em resumo, a compatibilidade entre dois pesquisadores é dada pelo somatório da


compatibilidadede de Ströele (MENEZES, 2012) entre cada pesquisador e cada vizinho do
conjunto de vizinhos em comum entre eles, dividido pelo tamanho do conjunto, ou seja,
pelo número de vizinhos em comum.

Figura 21. Exemplo de cálculo de compatibilidade entre pesquisadores P1 e P2.


91

Para ilustrar o cálculo do fator de compatibilidade (Equação 7) da equação de


similaridade, a Figura 21 apresenta uma pequena rede de colaboração de pesquisadores,
onde cada nó representa um pesquisador e cada aresta representa um relacionamento
entre os pesquisadores. Os relacionamentos contêm um peso que indica a compatibilidade
de Ströele entre os pesquisadores. As linhas tracejadas são para ilustrar que os
pesquisadores possuem outros relacionamentos além dos apresentados na rede.
Deseja-se calcular a Equação 7 entre P1 e P2. Para isso, deve-se inicialmente calcular
a compatibilidade de Ströele entre: P1 e P3, P4, P5 respectivamente; P2 e P3, P4, P5
respectivamente. Os valores da compatibilidade de Ströele da Figura 21 são:

CompatibilidadeStroele(P1, P3) = 0.5


CompatibilidadeStroele(P1, P4) = 0.7
CompatibilidadeStroele(P1, P5) = 0.5
CompatibilidadeStroele(P2, P3) = 0.6
CompatibilidadeStroele(P2, P4) = 0.8
CompatibilidadeStroele(P2, P5) = 0.3

Feito isso, o próximo passo é fazer o somatório da compatibilidade de Ströele para P1


e P2 e dividir o resultado de cada um dos somatórios pelo número de vizinhos em comum
entre P1 e P2. Ou seja, calcular a compatibilidade de Ströele média para P1 e para P2. Como
|VizComuns| = 3:
Compatibilidade(P1, P2) = (0.5 + 0.7 + 0.5)/3 + (0.6 + 0.8 + 0.3)/3 = 0.56 + 0.56 = 1.12

A compatibilidade de Ströele foi escolhida para compor a equação da similaridade por


melhor se adequar a proposta deste trabalho, pois ambas propostas trabalham com redes
sociais científicas heterogêneas e levam em consideração os vizinhos em comum.Ströele
(MENEZES, 2012) propõe uma equação que mede a compatibilidade entre pesquisadores a
partir do número de relacionamentos de diferentes tipos existentes entre os mesmos,
considerando: i) a idade do relacionamento, ou seja, o quão recente ou o quão antigo é o
92

relacionamento; ii) o tipo de relacionamento, onde cada relacionamento pode receber um


peso diferente; iii) a quantidade de relacionamentos.
A idade do relacionamento é utilizada para refletir se aquele é um relacionamento
que se mantêm forte ou se é um relacionamento que deixou de existir com o decorrer do
tempo. Por exemplo, o pesquisador A, que possui duas publicações com a pesquisadora B
em 2014, deve ter uma compatibilidade maior com ela do que o pesquisador C, que possui
duas publicações com B em 2010. A compatibilidade então recebe uma penalização de
acordo com o ano em que o relacionamento ocorreu.
Segue a Equação 8 proposta por Ströele:

Equação 8. Compatibilidade de Ströele (MENEZES, 2012).

Onde:
1) P1: pesquisador 1.
2) V: pesquisador 2.
3) Tj: valor de penalização de acordo com o ano em que o relacionamento ocorreu.
4) Ri: força do relacionamento do tipo i entre P1 e V.
5) : peso dado ao relacionamento do tipo i.
6) t: total de tipos de relacionamento entre P1 e V.
7) d: duração de cada relacionamento em anos.

A equação proposta por Ströele é composta por duas outras, a Equação 9, que reflete
a questão da idade dos relacionamentos para o cálculo da compatibilidade, e a Equação 11,
que leva em consideração a quantidade de relacionamentos de cada tipo entre os
pesquisadores. Estas equações serão descritas a seguir:
Equação 9. Fator de tempo da equação de Ströele (Equação 8).

Onde:
93

1) Aa: ano atual.


2) Ar: ano do relacionamento entre os pesquisadores.

O fator do tempo da equação de Ströele sofreu uma pequena adaptação em nossa


abordagem. Como pode ser observado na Equação 9, caso o ano do relacionamento (Ar) seja
o mesmo que o ano atual (Aa), ocorrerá uma divisão por zero na equação, ou seja, uma
indefinição. Para contornarmos esse problema, adaptamos a Equação 9 para este caso em
específico, conforme a Equação 10:

Equação 10. Fator de tempo da equação de Ströele (Equação 8) adaptado.

A Equação 9 foi adaptada de acordo com o seguinte raciocínio: o valor máximo que ela pode
assumir ocorre quando Aa – Ar = 1, ou seja, quando Tj = e. Deseja-se que o valor do fator
tempo para Aa = Ar seja maior do que para Aa = 1 + Ar. Portanto, acrescentamos uma
pequena variação de valor 0.5 ao valor e na Equação 10.

A seguir será apresentada a Equação 11, fator da equação de Ströele que mensura
a compatibilidade entre dois pesquisadores a partir do tipo e quantidade de
relacionamentos que eles possuem em comum.

Equação 11. Fator que considera os relacionamentos e seus tipos da equação de Ströele (Equação 8).

Onde:
1) RCi: número de relacionamentos do tipo i entre P1 e V.
2) TR1: total de relacionamentos do tipo i de P1 (pesquisador 1).
3) TR2: total de relacionamentos do tipo i de V (pesquisador 2).

Em nossa abordagem, propomos o uso dos seguintes relacionamentos para o cálculo


da compatibilidade de Ströele (Equação 8):
94

i. Coautoria;
ii. Co-participação em banca;
iii. Co-participação em projeto;
iv. Coorientação;

O tipo de relacionamento em conjunto com a quantidade daquele tipo de


relacionamento também é importante para determinar a compatibilidade entre dois
pesquisadores. Isso ocorre porque dependendo do seu tipo e quantidade, o relacionamento
pode ser direto ou indireto, fraco ou forte. Em (MENEZES, 2012) foi usado o mesmo peso
para todos os tipos de relacionamento, porém, em nossa abordagem, definiu-se um peso
diferente para cada um deles, baseado em seu grau de importância. O peso definido varia de
1 a 3. Para determinar o grau de importância dos relacionamentos foram utilizados os
conceitos de homofilia, indução e confusão, citados por(CHRISTAKIS; FOWLER; 2012).
Segundo(CHRISTAKIS; FOWLER; 2012) , a homofilia caracteriza o comportamento das
pessoas se unirem a outras com características similares às suas, como interesses. No caso
do cenário acadêmico, pode-se supor que um pesquisador tende a se relacionar com outros
que são da mesma área de atuação que a sua e que possuem a mesma expertise, por
exemplo. Outras características que podem ser levadas em consideração, mas não estão no
escopo deste trabalho são: local de trabalho, idade, localização geográfica, entre outros.
No conceito de indução, como foi falado anteriormente, pessoas tendem a fazer o
que pessoas que se relacionam com ela fazem, ou seja, são influenciadas pelos seus
conhecidos. No cenário acadêmico, pesquisadores podem vir a formar parcerias devido a
indução, mesma que indireta, causada pelo grande número de vizinhos em comum. Devido a
isso, categorizamos os relacionamentos de coautoria, coorientação e co-participação em
projetos como indução. Já o conceito de confusão está relacionado com a exposição aos
mesmos fatores. Pessoas que são expostas aos mesmos fatores possuem um
relacionamento indireto entre elas. Por exemplo, o relacionamento de participação em
banca é um relacionamento indireto entre dois pesquisadores em que eles foram expostos a
defesa de um trabalho. Submeter trabalhos aos mesmos locais também pode ser
considerado um relacionamento indireto entre dois pesquisadores.
95

Dados os critérios apresentados acima, dividimos e ponderamos as características


individuais e os tipos de relacionamentos entre os pesquisadores conforme apresentado
naTabela 16.

Tabela 16. Categorização dos relacionamentos e atributos e seus respectivos pesos.


HOMOFILIA INDUÇÃO CONFUSÃO
Área de Atuação (3) Coorientação (2) Participação em banca (1)
Expertise * Coautoria (2)
Co-participação em projeto (2)

Enquanto todos os itens descritos na Tabela 16representam tipos de


relacionamentos, a Área de Atuação e a Expertise são utilizados para caracterizar o perfil do
pesquisador. A área de atuação será explicada a seguir.

6.2.2.2 Fator 2: áreas de atuação em comum


De acordo com a definição de homofilia dada por (CHRISTAKIS; FOWLER; 2012),
pessoas costumam se aproximar umas das outras devido a algum interesse em comum,
como gosto musical, hobby, afinidades profissionais, dentre outros. No meio acadêmico,
pesquisadores tendem a se relacionar com pesquisadores que trabalham nas mesmas áreas
ou em áreas correlatas às suas. Pesquisadores que possuem áreas de interesse em comum
podem trabalhar juntos em projetos, formarem grupos de pesquisa, administrarem juntos
um laboratório, dentre outras parcerias.
Pensando nisso, foi adicionado ao método de recomendação o fator de áreas de
atuação em comum. Tal fator mensura os interesses em comum que dois pesquisadores
possuem baseando-se no conceito de homofilia.
As áreas de atuação consideradas para este trabalho foram as áreas que o
pesquisador coloca em seu Currículo Lattes. Tais áreas podem ser preenchidas de forma
manual ou não. Quando o pesquisador insere sua área de atuação de forma manual, ele
digita a área que ele deseja em seu currículo. A outra forma de preenchimento é
96

selecionando uma das áreas que o próprio Lattes oferece, através da tabela de áreas de
conhecimento da Capes (CAPES, 2012).. Tal tabela (ANEXO B) contêm áreas bem genéricas,
tais como: Ciência da Computação, Sistemas de Informação, dentre outras.
Quando o pesquisador insere uma área manualmente, julgamos que essa área tem
maior importância para ele e que ela é uma área mais específica de seu interesse. Por isso,
ao calcular a semelhança entre dois pesquisadores a partir da equação dada, consideramos
que as áreas de atuação preenchidas manualmente devem receber um peso maior do que as
outras. A seguir, será apresentado o fator de áreas de atuação (Equação 12) da equação de
similaridade:

Equação 12. Equação que mede a similaridade entre pesquisadores a partir das áreas de atuação.

Onde:
1) P1: Pesquisador 1.
2) P2: Pesquisador 2.
3) NumAreasComunsCapes: número de áreas em comum da tabela da Capes entre
o pesquisador P1 e o pesquisador P2.
4) NumAreasComuns: número de áreas em comum inseridas manualmente entre o
pesquisador P1 e o pesquisador P2.

5) p1: peso dado ao número de áreas comuns da tabela do Capes.


6) p2: peso dado ao número de áreas comuns inseridas manualmente.

7) Sendo que p2 > p1.

Apesar das áreas de atuação do Currículo Lattes serem utilizadas nesta proposta e,
deste fator ser dividido em dois termos (área inserida manualmente e área fornecida pelo
próprio Lattes), ele pode ser utilizado de outras maneiras. Por exemplo, as áreas de atuação
dos pesquisadores podem ser extraídas a partir de questionários em que eles pontuem suas
áreas de acordo com sua relevância atual. Baseado na própria pontuação dada por eles, as
97

áreas poderiam ser agrupadas em mais especificas ou de atuação mais ativa e, mais
genéricas ou de atuação mais passiva. Outro modo de usar este fator é considerando todas
as áreas com o mesmo peso. Portanto, independente do estudo que originou a definição
deste fator, ele ainda pode ser utilizado de diversos modos diferentes.

6.2.2.3 Fator 3: popularidade


Como mencionado anteriormente, o conceito de confusão afirma que pessoas
expostas aos mesmos fatores possuem um relacionamento indireto entre elas (CHRISTAKIS;
FOWLER, 2012) . Por exemplo, pessoas que frequentam os mesmos lugares, mesmo sem se
conhecerem, possuem um relacionamento indireto. Da mesma forma, pesquisadores que
possuem muitos relacionamentos estão expostos ao mesmo fator, que no caso é o número
grande de vizinhos ou a popularidade.
Um nó é dito popular quando possui muitos vizinhos (no cenário científico, muitos
colaboradores). Este fator da função de similaridade (Equação 14) mede a popularidade de
um nó, ou seja, ele leva em consideração a quantidade de vizinhos que o nó possui. Quanto
maior o número de vizinhos, maior será a popularidade.
A popularidade do nó foi adicionada à fórmula pensando nos pesquisadores em seus
diferentes momentos da carreira: do momento que é um pesquisador júnior a um
pesquisador sênior. A fase da carreira em que o pesquisador se encontra é definida pela sua
expertise (Equação 6).
O fator de compatibilidade (Equação 7) da equação de similaridade analisa os
vizinhos em comum aos nós que se deseja prever um relacionamento. Porém, um
pesquisador júnior, em início de carreira, não possui muitos relacionamentos na rede, ou
seja, não possui muitos nós vizinhos, muitos colaboradores. Portanto, essa estratégia
poderia não ser muito efetiva, podendo ocorrer o problema do cold start (LAM et al., 2008),
em que não se tem muita informação sobre o item que você deseja oferecer
recomendações. Devido a isso, um pesquisador júnior deve entrar em contato com
pesquisadores populares ou seniores para ampliar a sua rede de relacionamentos.
Segundo (NEWMAN, 2001a) , a probabilidade de um pesquisador colaborar com
outros aumenta de acordo com o número de colaborações que aquele pesquisador já
possui. Ou seja, quanto maior o número de vizinhos de um pesquisador, maior a
probabilidade dele vir a colaborar com outro pesquisador. Esta afirmação de (NEWMAN,
98

2001a) é baseada no modelo de crescimento de rede chamado de conexão preferencial


(BARABÁSI et al., 2001).Esta medida é calculada a partir do produto entre o número de
vizinhos de cada pesquisador (LIBEN-NOWELL; KLEINBERG, 2007). É exatamente esta medida
que utilizamos como fator de popularidade, conforme pode ser visto na Equação 13a seguir:

Equação 13. Fator de popularidade da equação de similaridade.

Onde:
1) P1: Pesquisador 1.
2) P2: Pesquisador 2.
3) |VizinhosP1|: número de vizinhos de P1, ou seja, de pesquisadores com quem P1
já teve um relacionamento.
4) |VizinhosP2|: número de vizinhos de P2, ou seja, de pesquisadores com quem P2
já teve um relacionamento.

Somando os fatores de compatibilidade (Equação 7 ), áreas de atuação (Equação 12)


e popularidade (Equação 13), e multiplicando cada fator por seu peso, obtêm-se a equação
de similaridade (Equação 14):

Equação 14. Função de Similaridade proposta.

Onde:
1) P1: Pesquisador 1.
2) P2: Pesquisador 2.
3) p1’: Peso dado ao fator de compatibilidade. Varia de acordo com a expertise
(Equação 6).
4) p2’: Peso dado ao fator de áreas de atuação.
5) p3’: Peso dado ao fator de popularidade. Varia de acordo com a expertise
(Equação 6).
6) Compatibilidade(P1, P2): fator de compatibilidade (Equação 7).
99

7) A(P1, P2): fator de áreas de atuação (Equação 12).


8) Pop(P1, P2): fator de popularidade (Equação 13).

Conforme mencionado nas seções anteriores, a função de similaridade é ponderada


pela função de expertise de acordo com o seguinte pressuposto: pesquisadores juniores
devem receber mais recomendações de pesquisadores seniores ou pesquisadores com
popularidade elevada para que eles possam aumentar sua rede de contatos. Nesse caso
então, o fator de popularidade deve receber um peso maior que o fator de compatibilidade.
A expertise varia de 0 a 1 em nossa abordagem, onde valores próximos a zero são
considerados pesquisadores juniores e valores próximos a um são considerados
pesquisadores seniores. A partir de uma análise feita em uma amostra dos dados na base de
dados, definiu-se que para o pesquisador ser considerado júnior sua expertise deveria estar
entre 0 a 0.30 inclusive. Então, para ponderar a equação de similaridade de forma que o
fator de popularidade tivesse um peso maior do que o de compatibilidade para
pesquisadores juniores, foi utilizada a seguinte estratégia, conforme Figura 22:

Figura 22. Distribuição dos pesos na equação de similaridade conforme a expertise.

Conforme visto na Figura 22, foi utilizado o peso de maneira complementar, ou seja,
p1’ e p3’ se complementam até chegar ao valor 1. Dessa forma, cada fator é ponderado pelo
peso de acordo com seu nível de expertise. Para pesquisadores juniores, o peso dado ao
fator de popularidade é maior do que o peso dado ao fator de compatibilidade. Já para
100

pesquisadores plenos e seniores, o que ocorre é o inverso: o peso dado ao fator de


popularidade é menor que o peso dado ao fator de compatibilidade, porém, os pesos se
complementam: quanto mais sênior o pesquisador for, menor será o fator de popularidade e
maior será o fator de compatibilidade.
Para exemplificar como os pesos são calculados, suponha um pesquisador júnior de
expertise 0.20 e um pesquisador de expertise 0.60. Para o pesquisador de expertise 0.20, os
pesos dados seriam: p1’ = 0.20 e p3’ = 0.80, ou seja, o fator de popularidade receberia um
peso maior que o fator de compatibilidade. Já para o pesquisador de expertise 0.60, os pesos
seriam: p1’ = 0.60 e p3’ = 0.40, ou seja, o fator de popularidade receberia um peso menor
que o de compatibilidade. Quanto maior é a expertise de um pesquisador, mais consolidada
tende a ser a sua rede e, mais interessante é dar um peso maior ao fator de compatibilidade.

6.3 Exemplo de uso

Nesta seção será apresentado um exemplo de uso do método de recomendação


proposto.
Considere dois pesquisadores X e Y conforme ilustrado na Figura 23. Os dois
pesquisadores não possuem nenhum tipo de relacionamento em comum, porém possuem
três vizinhos em comum: os nós A, B e C.

Figura 23. Exemplo de relacionamento entre pesquisadores.


101

O pesquisador X possui ligação forte tanto com o pesquisador A quanto com o B, pois
possui diversos relacionamentos de coautoria e participação em projetos com ambos. Já o
relacionamento entre X e o pesquisador C é um relacionamento fraco de participação em
algumas bancas de graduação, devido às áreas de atuação que eles têm em comum. X possui
as seguintes áreas de atuação: Ciência da Computação, Metodologias e Técnicas da
Computação, Sistemas de Informação, Redes Sociais, Sistemas de Recomendação e Gestão
do Conhecimento.
O pesquisador Y possui relacionamentos fortes com os pesquisadores B e C. Seus
relacionamentos com eles são de coorientação e coautoria, além da participação de algumas
bancas em comum. Com A, o pesquisador Y possui muitos relacionamentos, porém, são
relacionamentos fracos de submissão aos mesmos veículos de publicação devido às áreas de
atuação em comum. Y trabalha nas seguintes áreas: Ciência da Computação, Metodologias e
Técnicas da Computação, Sistemas de Informação, Sistemas Colaborativos, Sistemas de
Recomendação e Redes Sociais.
Considere que o pesquisador X irá receber recomendações feitas pelo método de
recomendação proposto. Para verificar se o pesquisador Y poderá ter algum tipo de
interação no futuro com o pesquisador X, podemos ter inicialmente dois casos diferentes:

Cenário 1) Grau de Expertise: X é júnior, Y é júnior


X acabou de se iniciar na carreira acadêmica. Ele é um pesquisador Adjunto, sem
bolsa de produtividade do CNPq e com 2 anos de conclusão do doutorado. Sua expertise se
enquadra na categoria júnior.
Neste caso, é dado um peso maior ao fator de popularidade na equação de
similaridade (Equação 14). Isto se deve ao fato de pesquisadores juniores não possuirem
geralmente uma rede vasta de relacionamentos por estarem em início de carreira. Se
considerarmos apenas o fator de compatibilidade da equação de similaridade ou atribuirmos
a este fator um peso maior, talvez não ocorram recomendações satisfatórias para o
pesquisador júnior, pois o fator de compatibilidade leva em consideração a vizinhança entre
os nós.
Como é atribuído um peso maior ao fator de popularidade, pesquisadores seniores
(ou seja, com mais experiência e, que tendem a ter uma vizinhança ou popularidade maior),
102

tendem a ser recomendados para os pesquisadores juniores. Isto é importante para os


pesquisadores juniores conseguirem aumentar sua rede de relacionamentos e conseguirem
independência na pesquisa. Como foi visto em (NEWMAN, 2001a), quanto maior o número
de vizinhos que um pesquisador tem, maior será a probabilidade de ele vir a se relacionar
com outros pesquisadores. Então, há uma grande probabilidade de pesquisadores seniores
se relacionarem com pesquisadores juniores. Neste caso, o relacionamento entre um
pesquisador sênior e um pesquisador júnior é um relacionamento de subordinação.
Portanto, se X é júnior e Y é júnior, de acordo com nosso método a tendência é que eles não
sejam recomendados prioritariamente um ao outro, pois o interessante nessa etapa da
carreira é que eles se relacionem com pesquisadores mais experientes.
Devido a flexibilidade presente nesta proposta, podemos modificar os pesos de cada
fator do método (Equação 14) e dar importância igual para cada um dos fatores. Neste caso,
como X e Y possuem diversas áreas de atuação em comum, a tendência é que eles sejam
recomendados, já que estaríamos desconsiderando a expertise (Equação 6) no método de
recomendação.

Cenário 2) Grau de Expertise: X é sênior


Se o pesquisador que está recebendo as recomendações for um pesquisador sênior
ou pleno, será dado um peso maior ao fator de compatibilidade (Equação 7) na equação de
similaridade (Equação 14), pelo motivo contrário ao apresentado no caso anterior. Ou seja, o
fator de compatibilidade será multiplicado pelo peso p1’ = expertise e o fator de
popularidade será multiplicado pelo peso p3’ = 1 – expertise. Isso ocorre independente da
expertise do pesquisador Y, ou seja, não importa se Y é sênior’, se é pleno ou se é júnior, o
peso dado aos fatores da função de similaridade (Equação 14) é definido sempre pela
expertise do pesquisador que irá receber as recomendações. Um pesquisador sênior ou
pleno possui geralmente uma rede de relacionamentos consolidada, sendo, portanto
possível analisar e considerar a vizinhança dos nós na equação de simlaridade. Como foi
visto anteriormente, quanto maior o número de vizinhos em comum que dois pesquisadores
possuem, maior a probabilidade de eles virem a se relacionar (NEWMAN, 2001a). Neste
caso, os relacionamentos feitos entre pesquisadores com o mesmo grau de expertise ou
graus próximos são relacionamentos de colaboração.
103

Como X é um pesquisador sênior, de acordo com nosso método, a tendência é que


ele se relacione no futuro com Y, devido a compatibilidade que existe entre eles: possuem
vizinhos em comum com relacionamentos fortes com ambos e possuem diversas áreas de
atuação em comum.
Portanto, na equação de similaridade (Equação 14), os fatores de popularidade
(Equação 13) e compatibilidade (Equação 7) são ponderados de acordo com a expertise
(Equação 6) do pesquisador, pois dependendo da expertise, será mais interessante
recomendar pesquisadores populares ou pesquisadores com quem o pesquisador já tenha
uma vizinhança grande em comum.
Vimos que X e Y possuem algumas áreas de atuação em comum. Cada um deles citou
seis áreas em seu currículo Lattes. Dessas seis áreas, eles possuem cinco áreas em comum,
ou seja, apresentam grande afinidade em suas áreas de pesquisa, apesar de nunca terem se
relacionado. As áreas de Ciência da Computação, Metodologias e Técnicas da Computação e
Sistemas de Informação são áreas genéricas que pertencem à tabela das grandes áreas do
Capes. Já as áreas de Redes Sociais e Sistemas de Recomendação são áreas mais específicas
de atuação que conseguem representar melhor os trabalhos desenvolvidos por esses
pesquisadores. Portanto, temos duas áreas em comum que foram inseridas manualmente
pelos pesquisadores e três que foram inseridas a partir da seleção de áreas do próprio
Lattes. No fator de áreas de atuação da equação de recomendação, as áreas inseridas
manualmente, que são áreas de atuação mais específicas dos pesquisadores, recebem um
peso maior que as grandes áreas selecionadas a partir do Lattes. Para este exemplo, o fator
de áreas de atuação (mostrado na Equação 12) ficará assim: AA(X,Y) = (3 * p1) + (2 * p2), p2
> p1.
Para saber se os dois pesquisadores poderão ser recomendados ou não, deve-se
calcular cada um dos fatores propostos na equação de similaridade e somá-los, conforme a
seguir:
1) Para cada vizinho Vi de X em comum com Y, com i > 0 e i < total de vizinhos em
comum:
1.1) Calcule CompatibilidadeStroele(Vi, X) de acordo com Equação 8.
I. CompatibilidadeVizX = CompatibilidadeVizX +
CompatibilidadeStroele(Vi, X).
1.2) Calcule Compatibilidade(Vi,Y) de acordo com Equação 8.
104

I. CompatibilidadeVizY = CompatibilidadeVizY +
CompatibilidadeStroele(Vi, Y).

2) Calcule Compatibilidade(X,Y) = (CompatibilidadeVizX + CompatibilidadeVizY)/|V| *


p1’.
3) Calcule A(X,Y) = [(NumAreasComunsCapes * p1) + (NumAreasComunsManuais *
p2)] * p2’.
4) Calcule Popularidade(X,Y) = (NumVizinhosX * NumVizinhosY) * p3’.
5) Calcule Similaridade(X,Y) = Compatibilidade(X,Y) + A(X,Y) + Pop(X,Y).

Vamos verificar como ficam esses valores para cada um dos cenários descritos.
Considere os seguintes valores: CompatibilidadeStroele(X, A) = 0.8;
CompatibilidadeStroele(X, B) = 0.7, CompatibilidadeStroele(X, C) = 0.2;
CompatibilidadeStroele(Y, A) = 0.3; CompatibilidadeStroele(Y, B) = 0.8;
CompatibilidadeStroele(Y, C) = 0.8; |V| = 3 (de acordo com a Figura 23); NumVizinhosX = 5
(de acordo com a Figura 23); NumVizinhosY = 5 (de acordo com a Figura 23).
Para o cenário 2, em que o pesquisador X que está recebendo as recomendações é
sênior, temos expertiseX = 0.8. O primeiro passo para calcular a similaridade entre os
pesquisadores X e Y é calcular a compatibilidade de X com seus vizinhos em comum com Y e
vice-versa. Dado os valores dados para as compatibilidades de Ströele anteriormente,
temos:
CompatibilidadeVizX = CompatibilidadeStroele(X, A) + CompatibilidadeStroele(X, B) +
CompatibilidadeStroele(X, C);
CompatibilidadeVizX = 0.8 + 0.7 + 0.2 = 1.7;

CompatibilidadeVizY = CompatibilidadeStroele(Y, A) + CompatibilidadeStroele(Y, B) +


CompatibilidadeStroele(X, C);
CompatibilidadeVizY = 0.3 + 0.8 + 0.8 = 1.9;

Agora que as compatibilidades de X e Y com seus vizinhos em comum já foram


calculadas, o próximo passo é calcular a compatibilidade entre X e Y de fato, conforme a
seguir:
105

Compatibilidade(X,Y) = (CompatibilidadeVizX + CompatibilidadeVizY)/|V| * p1’;


Neste exemplo, conforme já mencionado, como X é sênior, o fator da
compatibilidade da equação da similaridade será multiplicado por um peso maior do
que o fator de popularidade da mesma equação. Neste cenário, p1’ = expertise.
Portanto, p1’ = 0.8 e o valor da compatibilidade será:

Compatibilidade(X,Y) = [ (1.7 + 1.9) / 3 ] * 0.8 = 0,96.

A próxima etapa para o cálculo da similaridade é calcular o fator de áreas de atuação.


X e Y possuem 5 áreas de atuação em comum no total, sendo 3 da Capes (Ciência da
Computação, Metodologias e Técnicas da Computação, Sistemas de Informação) e 2
específicas dos pesquisadores (Sistemas de Recomendação e Redes Sociais). As áreas
de atuação comuns da Capes são multiplicadas pelo peso p1 = 1 , as áreas de atuação
comuns específicas são multiplicadas pelo peso p2 = 2 e o peso dado ao fator de
áreas de atuação da função de similaridade é p2’ = 1. Portanto:

A(X,Y) = [(3 * 1) + (2 * 2)] * 1 = 7;

Como pode ser visto, o fator de áreas de atuação ficou com um valor elevado,
desproporcional se comparado ao fator de compatibilidade. Para deixar todos os
fatores com a mesma proporção é preciso normalizá-los. Neste trabalho foi utilizada
a mesma regra de normalização utilizada por Ströele (2012). Sendo assim, aplicando
a normalização:

A(X,Y) = [(0.56 * 1) + (0.53 * 2)] * 1 = 1.62;

Por fim, temos que calcular o fator de popularidade da equação de similaridade.


Como X é sênior, o peso multiplicado por este fator é p3’ = 1 – expertise, portanto,
p3’ = 1 – 0.8 = 0.2. O cálculo fica da seguinte maneira:
106

Pop(X,Y) = (NumVizinhosX * NumVizinhosY) * p3’;


Pop(X,Y) = 5 * 5 * 0.2 = 5;

Aplicando a normalização:
Pop(X,Y) = 0.82 * 0.2 = 0.16;

O fator de compatibilidade neste exemplo em específico não precisou ser normalizado


porque os valores dados às compatibilidade de Ströele para o exemplo já se encontravam
normalizados. Porém, no programa construído, esse fator também é normalizado.

Portanto, o valor da similaridade entre X e Y será de:


Similaridade(X,Y) = Compatibilidade(X,Y) + A(X,Y) + Pop(X,Y);
Similaridade(X,Y) = 0.96 + 1.62 + 0.16 = 2.74;

A similaridade máxima calculada com a base de dados de pesquisadores extraídas do


Currículo Lattes é de 2.83. Para dizer se o pesquisador Y seria recomendado ao pesquisador
X, seria necessário calcular a similaridade entre o pesquisador X e todos os outros
pesquisadores da rede social utilizada como exemplo na Figura 23, pois o método proposto
recomenda os dez pesquisadores de similaridade mais alta. Porém, o objetivo deste
exemplo era ilustrar o passo a passo necessário para calcular a similaridade entre dois
pesquisadores. portanto, considerando a similaridade máxima existente no banco de dados,
pode-se afirmar que a probabilidade do pesquisador Y ser recomendado a X é alta.

6.4 Arquitetura e Desenvolvimento da Solução

Nesta seção serão descritos os módulos criados para implementar a solução


proposta, conforme Figura 24.
A solução é composta de quatro camadas: core, base de dados, avaliação e interface.
A camada core é composta pelas etapas principais da solução, onde as informações são
107

extraídas (Extração de Dados), tratadas (Tratamento de Dados) e as recomendações são


geradas (Sistema de Recomendação). A camada de base de dados é uma camada auxiliar a
camada core, onde os dados são armazenados. Alguns dados são armazenados em banco de
dados relacional MySQL (oriundos da extração) enquanto outros são armazenados em
arquivos texto (oriundos do sistema de recomendação). A camada avaliação contêm as
aplicações que foram desenvolvidas para que o método de recomendação proposto fosse
avaliado. Ela consulta os dados da recomendação presentes no arquivo texto e armazena os
dados das respostas dos pesquisadores na base de dados. Por fim, a camada de interface
representa a interação do usuário (no caso, o pesquisador) com o sistema de avaliação.

Figura 24. Arquitetura da Solução.

A seguir serão apresentadas cada um dos itens das camadas da arquitetura da solução.

6.4.1 Extração de dados dos Curriculos Lattes


Dentre as bases conhecidas que fornecem informações sobre os diversos
pesquisadores, a plataforma Lattes foi a que melhor atendeu os requisitos desse trabalho.
108

Outras plataformas disponíveis na web que possuem informações sobre os pesquisadores


foram identificadas e avaliadas. Porém, elas continham dados incorretos a respeito dos
pesquisadores, ou não eram bases completas, ou seja, não continham informações sobre
participações em bancas, projetos, e demais informações para o nosso método. Além disso,
os dados inseridos na plataforma Lattes provêm e são aferidas pelo próprio pesquisador,
sendo mais confiáveis.
Para a extração dos dados foi implementado um programa utilizando a linguagem de
programação Java (ORACLE, 2015). Os dados são extraídos diretamente das páginas HTML
(W3C, 2015a) dos currículos Lattes dos pesquisadores. Para isso, foi utilizada uma biblioteca
chamada jsoup (JSOUP, 2015) que é capaz de extrair e manipular arquivos HTML (W3C,
2015a) utilizando métodos baseados em DOM(W3C, 2015b), CSS(W3C, 2015c) e jQuery
(JQUERY, 2015). A Tabela 17 apresenta os dados que são extraídos do currículo Lattes. Os
dados extraídos são armazenados em um banco de dados relacional MySQL (MYSQL, 2015),
que será descrito na seção 6.4.3.

Tabela 17. Dados extraídos do Currículo Lattes.


DADOS EXTRAÍDOS
Nome do pesquisador
Data da última atualização do currículo Lattes
Bolsa de produtividade do CNPq
Formação acadêmica
Atuação profissional atual
Áreas de atuação
Bancas
Orientações
Projetos de pesquisa
Projetos de desenvolvimento
Projetos de extensão
Publicações em livros
Publicações em periódicos
Publicações em conferências
109

6.4.1.1 Funcionamento do Extrator

Figura 25. Modelo de funcionamento do extrator.

A Figura 25 apresenta um modelo de funcionamento do extrator. Cada etapa do


modelo será descrita a seguir.
Inicialmente, no item 1 da Figura 25, o extrator abre um arquivo que contêm as URLs
dos currículos Lattes que se deseja extrair. Este arquivo deve conter uma URL por linha e o
extrator lê uma linha por vez. Após ler a URL, no item 2 da Figura 25, o extrator lê a página
HTML do currículo Lattes do pesquisador correspondente. O extrator então percorre item
por item do currículo, extraindo as informações contidas na Tabela 17, conforme item 3 da
Figura 25. Por fim, as informações do pesquisador são salvas em um banco de dados
relacional MySQL (MYSQL, 2015).
110

Cada informação extraída só é armazenada no banco de dados uma única vez. Por
exemplo, se dois pesquisadores são coautores em um artigo, este artigo só é inserido uma
única vez na tabela onde ficam armazenadas as publicações. As informações sobre os
autores das publicações ficam armazenadas em outra tabela. Com isso, o relacionamento
entre os pesquisadores é identificado nesta tabela. Este mesmo procedimento também foi
realizado para áreas de atuação, bancas, coorientações e projetos.
A identificação de que dois elementos são iguais é feita a partir da comparação de
strings. As publicações são consideradas iguais quando seus títulos e tipos (periódico, livro,
conferência) são iguais. Da mesma forma, bancas e coorientações são consideradas iguais
quando seus títulos, anos e autores são iguais. Já os projetos são considerados iguais quando
seus títulos são iguais.

6.4.1.2 Desafios e problemas encontrados


Ao observar e analisar o HTML(HTML, 2015) das páginas do currículo Lattes dos
pesquisadores foi constatado que este não é uma árvore bem estruturada, ou seja, não é
possível percorrê-lo em sequência iniciando em um nó pai até terminar nos seus nós filhos.
Em outras palavras, não há um elemento facilmente identificável que englobe cada uma das
seções do currículo Lattes. Este fato dificulta a localização dos elementos para a extração
dos dados. Para a identificação de cada seção foi necessário realizar uma análise da
estrutura do currículo Lattes para encontrar algum tipo de padrão, como será exemplificado
na Figura 27. A Figura 26 apresenta o trecho do currículo Lattes que corresponde ao código
exibido.
111

Figura 26. Trecho do currículo Lattes que corresponde ao código exibido na Figura 27.
112

Figura 27. Trecho de código HTML do currículo Lattes.

Como pode ser visto no item 1 da Figura 27, não há nenhum elemento identificável
englobando a seção de atuação profissional. Porém, é possível identificar que há um
elemento “a” com o título da seção de atuação profissional e que ele pode ser utilizado
como um marco de início da mesma. Então, com o uso da biblioteca jsoup (JSOUP, 2015), é
possível acessar todos os elementos HTML (W3C, 2015) a partir do elemento “a”, porém,
nem todos esses elementos fazem parte da atuação profissional. Devido a isso, é necessário
utilizar outra estratégia para acessar apenas os elementos que fazem parte da atuação
profissional.
Prosseguindo com a observação do HTML (W3C, 2015), é possível ver que o item 2 da
Figura 27 representa um vínculo institucional. Este item é estático no código, ou seja, faz
parte da própria página. Ele marca o início da descrição de um vínculo que o pesquisador
tem com uma instituição. Um pesquisador pode ter vários vínculos com a mesma instituição,
como também pode ser visto na Figura 26. Então, como este é um item estático, ele pode
ser utilizado para mapear todos os vínculos de um pesquisador. Com o auxílio da biblioteca
jsoup (JSOUP, 2015), é possível selecionar todos os elementos “b” que contêm o texto
“Vínculo Institucional”. Tendo acesso a todos os marcos iniciais de vínculos institucionais, é
necessário selecionar ainda a instituição (item 3 da Figura 27), o período do vínculo (item 4
da Figura 27) e o enquadramento funcional (item 5 da Figura 27). Para selecionar estes itens,
113

é necessário recorrer a biblioteca jsoup (JSOUP, 2015) e utilizar métodos que consigam
acessar os elementos pais e irmãos de outros elementos, no caso, do vínculo institucional.
Por exemplo, analisando o código percebe-se que o elemento “div” que engloba o vínculo
institucional (item 2) é irmão do elemento “div” que engloba a instituição e assim, é possível
acessá-lo. O código HTML (HTML, 2015) do currículo Lattes está todo estruturado desta
maneira, então, para extrair a maioria das informações foram utilizadas estratégias similares
a esta.
Há algumas seções no Lattes que possuem campos de preenchimento opcional,
como por exemplo, a seção de publicações. Esta seção contêm campos como nome do
congresso, local onde o congresso foi realizado, ano de realização, local de publicação, que
nem sempre são preenchidos, tornando complicado o processo de identificar em uma string
o que é cada elemento. A estratégia utilizada foi tentar detectar as diferentes possibilidades
de preenchimento dos campos opcionais, porém, nem todas as possibilidades puderam ser
detectadas, ocasionando algumas falhas na extração dos dados. De acordo com análise feita
na base de dados, tais falhas são pequenas comparadas ao número de vezes em que o
extrator conseguiu extrair os dados corretamente.
Outros problemas foram enfrentados durante a extração dos dados devido aos
campos de preenchimento livre. Por exemplo, dois pesquisadores que escreveram um artigo
juntos podem colocar títulos diferentes para o mesmo trabalho, como por exemplo, omissão
do hífen, dois pontos, além de erro de digitação propriamente dito. Essas diferenças nos
títulos dos trabalhos faziam com que o extrator não identificasse esses dois pesquisadores
como parceiros. O mesmo ocorria para títulos de projetos, orientações, dentre outros. Para
amenizar este e outros problemas, a base de dados sofreu um tratamento, conforme
descrito na seção 6.4.2.

6.4.2 Tratamento dos Dados


Como mencionado na seção 6.4.1.2, alguns problemas ocorreram durante a extração dos
dados devido aos campos de preenchimento livre e opcional do currículo Lattes, além da
falta de um padrão bem definido. Esses problemas foram detectados a partir da verificação
dos dados no banco de dados após a extração. Esta verificação foi feita de forma manual da
seguinte maneira: um conjunto de 50 pesquisadores foi selecionado aleatoriamente no
banco de dados. Para cada pesquisador, os dados armazenados no banco eram conferidos
114

manualmente com os dados contidos no currículo Lattes. Caso houvesse algum tipo de erro,
seja de inconsistência ou de informações perdidas, os dados eram corrigidos. Por exemplo,
ao verificar um currículo Lattes em que uma publicação presente nele não se encontrava no
banco de dados, esta publicação era inserida manualmente no banco. O mesmo
procedimento de correção foi feito para casos em que dois pesquisadores que publicaram
um artigo juntos, inseriram um título diferente para o mesmo artigo em seus respectivos
Lattes. Nesses casos, a informação também foi corrigida manualmente no banco de dados.
Lembrando que neste último caso o problema não é inerente do extrator, mas sim da forma
como as informações foram preenchidas no currículo Lattes.
Vale ressaltar que não foi encontrada nenhuma informação incoerente no banco de dados,
ou seja, nenhuma informação de um determinado pesquisador estava associada a outro.
Todas as informações observadas pertenciam de fato ao pesquisador analisado. Os
problemas que ocorreram foram informações perdidas que deveriam ser inseridas no banco,
mas não foram.

6.4.3 Base de Dados do Extrator


Os dados extraídos pelo extrator são armazenados em um banco de dados relacional MySQL
(MYSQL, 2015). A Erro! Fonte de referência não encontrada. apresenta um modelo do
banco de dados criado para armazenar os dados extraídos dos currículos Lattes.
115
116

Figura 28. Modelo do banco de dados do extrator.

Como pode ser observado, o modelo contêm 20 tabelas. Cada tabela representa uma
entidade ou um relacionamento extraído do currículo Lattes.
A principal tabela do modelo é a tabela “pesquisador”, que representa um
pesquisador, como seu próprio nome diz. A maioria das tabelas no modelo se relaciona com
esta tabela.
Um pesquisador possui uma ou mais publicações. As informações sobre as
publicações de um pesquisador foram armazenadas na tabela “publicacao”. Esta tabela
possui um campo “tipo” que representa o tipo de publicação armazenada, podendo ser uma
publicação de revista, um capítulo de livro, um artigo completo publicado em congresso, um
resumo ou um resumo expandido publicados em congresso. Uma publicação pode ser
escrita por um ou mais pesquisadores. Para armazenar esse relacionamento de coautoria, foi
criada a tabela “pesquisadorTemPublicacao”.
A tabela “trabalho” contêm as informações sobre as monografias, monitorias e
iniciações científicas da graduação, as dissertações de mestrado, as teses de doutorado e as
qualificações presentes nos currículos Lattes dos pesquisadores. O campo “tipo” que faz a
distinção entre os diferentes trabalhos armazenados. Um pesquisador se relaciona com
estes trabalhos de duas maneiras: através da orientação/coorientação ou da participação de
bancas julgadoras. Para armazenar esses relacionamentos foram criadas as tabelas
“pesquisadorOrientaTrabalho” e “pesquisadorParticipaDeBancaDeTrabalho”. A tabela
“palavraChave” ligada a tabela “trabalho” a partir de “trabalhoTemPalavraChave” armazena
as palavras-chave dos títulos dos trabalhos. Esta tabela foi criada para auxiliar a inferência da
área de atuação atual de um pesquisador. Contudo, neste trabalho, esta tabela não chegou
a ser utilizada.
A tabela “atuacaoProfissional” possui informações sobre os locais de trabalho que
um pesquisador trabalha atualmente exercendo a função de Pesquisador ou Professor ou
Cientista ou Colaborador.
A tabela “formacaoAcademica” armazena as informações sobre a formação
acadêmica do pesquisador contida no seu currículo Lattes.
117

A tabela “projeto” armazena o título dos projetos de desenvolvimento, pesquisa e


extensão de um pesquisador. As outras informações referentes ao projeto, como ano de
início, ano de conclusão e tipo do projeto, se encontram na tabela
“pesquisadorTemProjeto”. Isso se deve ao fato de um mesmo projeto ser realizado por
vários pesquisadores em períodos diferentes. Por exemplo, um pesquisador A pode
participar de um projeto desde o seu início enquanto um pesquisador B pode começar a
participar do projeto na metade dele. Então, para cada um desses pesquisadores, o campo
“anoInicio” possuiria valores diferentes e, por isso, este campo não pode estar na tabela
“projeto”. O campo “tipo” está na tabela “pesquisadorTemProjeto” porque cada
pesquisador atribui um tipo diferente para o mesmo projeto. Por exemplo, o pesquisador A
pode colocar em seu currículo Lattes que o projeto X é um projeto de extensão, enquanto o
pesquisador B pode colocar que este mesmo projeto X é um projeto de pesquisa.
A tabela “areaAtuacao” armazena as áreas de atuação dos pesquisadores de forma
única. Por exemplo, a área de atuação “Redes Sociais” só será armazenada uma vez nesta
tabela, ainda que presente em diversos currículos Lattes. O relacionamento entre o
pesquisador e as áreas de atuação ficará na tabela “pesquisadorTemAreaAtuacao”. Essa
tabela contém o nível que o pesquisador atribuiu para a área no Lattes, podendo ser Grande
Área, Área, Subárea e Especialidade.
A tabela “instituicao” contêm todas as instituições que foram avaliadas pela CAPES
em que os pesquisadores atuam. Já a tabela “programaPosGraduacao” armazena os
programas de pós-graduação dessas instituições.
Por fim, as tabelas “grandeAreaConhecimentoCNPQ”, “areaConhecimentoCNPQ”,
“subareaConhecimentoCNPQ” e “especialidadeConhecimentoCNPQ” armazena as áreas de
conhecimento relacionadas a Computação de acordo com a categorização feita pelo CAPES
(CAPES, 2012). O objetivo de ter essa tabela é compará-la com as áreas de atuação dos
pesquisadores para que sejam feitas recomendações de acordo com essas áreas.

6.4.4 Sistema de Recomendação


118

O sistema de recomendação proposto foi implementado utilizando a linguagem de


programação JAVA (ORACLE, 2015). Ele foi modelado utilizando conceitos de orientação a
objeto.
Para realizar as recomendações, propomos as métricas de expertise (seção 6.2.1) e a de
similaridade (seção 6.2.2). Para calcular tais métricas foi necessário o processamento dos
dados dos currículos Lattes armazenados no banco de dados. Para processamento destes
dados, o sistema de recomendação foi dividido em diversas etapas. A seguir serão descritas
as manipulações necessárias para cada métrica calculada e suas respectivas etapas:
1) Expertise
Para calcular a expertise são necessárias as seguintes informações sobre o
pesquisador: atuação profissional atual, a bolsa de produtividade do CNPq e a
formação acadêmica. A primeira etapa para calcular a expertise foi o processamento
de cada uma destas informações.
No banco de dados poderiam existir diversas atuações profissionais atuais de
um mesmo pesquisador, porém, para o cálculo da expertise é necessária apenas a
atuação profissional de maior peso. Por isso, foi necessário calcular a atuação
profissional atual de maior peso do pesquisador. A bolsa de produtividade não
precisou de nenhum processamento. Só foi necessário fazer o mapeamento entre a
bolsa de produtividade do pesquisador e o peso atribuído a ela. Para a formação
acadêmica foi necessário um processamento, pois no banco de dados estavam
armazenadas todas as formações acadêmicas de um pesquisador e, a formação
desejada era a última formação de maior peso ocorrida primeiro. Por exemplo,
supondo que um pesquisador tem dois doutorados, um no ano de 2000 e outro em
2010. Desde o ano 2000 o pesquisador já possui o título de doutor, então é esta
formação que é utilizada pelo cálculo da expertise.
Todos os dados processados foram armazenados em arquivo texto. Esta
escolha foi feita para que evitássemos muitos acessos ao banco de dados a fim de
que o processamento das informações fosse mais rápido.
A segunda etapa do processamento foi o cálculo da expertise propriamente
dito. Para isso, foram lidos os fatores da expertise que haviam sido armazenados em
119

arquivo texto. As expertises calculadas foram armazenadas em um novo arquivo


texto para o cálculo da similaridade.

2) Similaridade
Para calcular a similaridade é necessário calcular a compatibilidade entre vizinhos em
comum (seção 6.2.2.1), a afinidade pelas áreas de atuação (seção 6.2.2.2) e a
popularidade (seção 6.2.2.3). Assim como na expertise, as etapas iniciais para calcular
a similaridade também foram utilizadas para o processamento de informações
necessárias para o cálculo desses fatores.
Para calcular a compatibilidade entre os vizinhos em comum é necessário calcular a
compatibilidade de Ströele (STRÖELE, 2012). E, para calculá-la, é necessário obter
todos os vizinhos em comum entre dois pesquisadores. Um vizinho em comum é
qualquer pesquisador com quem dois pesquisadores possuam relacionamento. Para
calcular os vizinhos em comum entre dois pesquisadores é necessário calcular os
vizinhos de cada um dos pesquisadores. Logo, a primeira etapa para o cálculo da
similaridade foi calcular os vizinhos de cada um dos pesquisadores e, em seguida,
calcular os vizinhos em comum entre eles.
A segunda etapa do cálculo da similaridade foi o cálculo da compatibilidade de
Ströele (STRÖELE, 2012) entre os pesquisadores e seus vizinhos em comum. Para
isso, é necessário processar as seguintes informações sobre os pesquisadores:
quantidade total de relacionamento de cada tipo de cada pesquisador; quantidade
de relacionamentos de cada tipo que dois pesquisadores possuem em comum;
duração de cada um dos relacionamentos. Dentre os relacionamentos, o caso de
projetos em comum recebeu um processamento diferenciado. Cada pesquisador
participa de um projeto em um período específico e isso fica explícito no Lattes de
acordo com duração em anos que o pesquisador informa. O pesquisador A pode
participar de um projeto X com o pesquisador B, porém eles podem nunca ter
trabalhado juntos de fato, pois o pesquisador B entrou no projeto depois que o
pesquisador A já havia encerrado a sua participação. Neste caso, não é considerado
que o pesquisador A e B possuem um relacionamento de colaboração em projetos.
120

Para esse tipo de relacionamento ser considerado, é necessário que haja uma
intersecção entre os períodos que eles participaram do projeto.
A terceira etapa envolveu o cálculo das áreas de atuação de um pesquisador.
Primeiro, foi necessário calcular as áreas de atuação de cada pesquisador. Feito isso,
foi necessário calcular as áreas de atuação em comum entre dois pesquisadores. Por
fim, dentre as áreas em comum, foi preciso fazer a separação entre áreas da tabela
da CAPES e áreas inseridas manualmente. Com isso, foi possível calcular o fator áreas
de atuação da equação de similaridade (Equação 14).
A penúltima etapa foi o cálculo da popularidade, onde é necessário saber quantos
vizinhos cada pesquisador possui.
E, por fim, a última etapa do processamento foi o cálculo da similaridade
propriamente dito.
Os dados gerados em cada uma destas etapas foram armazenados em arquivo texto
visando melhorar o desempenho dos cálculos das métricas, porque cada uma das
métricas é calculada para cada pesquisador existente no banco de dados, podendo
demorar muito tempo.
A estratégia utilizada para realizar as recomendações foi a “Top 10”. Nesta estratégia
são recomendados os dez pesquisadores de maior similaridade com o pesquisador que
deseja receber as recomendações. Portanto, cada pesquisador recebe uma lista dos dez
pesquisadores mais similares a ele.

6.4.5 Sistema de Avaliação (Brasil e PPGI) + Interface


Para avaliar o método de recomendação proposto foram utilizados questionários (APÊNDICE
A). Tais questionários foram apresentados aos pesquisadores a partir de uma aplicação web.
Esta aplicação foi construída utilizando a tecnologia JavaEE. As respostas dos questionários
foram armazenadas em um banco de dados relacional MySQL.
Para visualizar as recomendações o pesquisador deveria entrar com a URL reduzida do seu
currículo Lattes na aplicação, conforme Figura 29.
121

Figura 29. Tela inicial do sistema de avaliação.

Na tela seguinte (Figura 30), o pesquisador visualizaria as recomendações feitas a ele a fim
de que ele as avaliasse. Além de avaliar as recomendações, o pesquisador também deveria
responder algumas perguntas sobre formas de colaboração e sobre as recomendações
realizadas.

Figura 30. Tela de questionário do sistema de avaliação.

Mais detalhes sobre a avaliação realizada podem ser encontrados no Capítulo 7.


122

Apesar de terem sido realizadas duas avaliações distintas (Brasil e PPGI), o sistema de
avaliação utilizado foi praticamente o mesmo. A diferença se encontra nos dados utilizados
para gerar as recomendações e, na avaliação de outros métodos que o grupo do PPGI teve
que realizar.

6.4.6 Base de Dados do Sistema de Avaliação


As respostas do sistema de avaliação foram armazenadas em um banco de dados relacional
MySQL. Este banco contêm apenas quatro tabelas e seu único objetivo é armazenar os
dados das respostas para posterior consulta e avaliação.
A Figura 31 apresenta o modelo do banco de dados do sistema de avaliação.

Figura 31. Modelo do banco de dados do sistema de avaliação.


123

A tabela “pesquisador deste modelo é uma cópia da tabela descrita na seção 6.4.3. Ela
contém os dados dos pesquisadores que poderiam responder a avaliação.
A tabela “pesquisadorTemRecomendacoes” armazena a nota dada pelo pesquisador a
cada uma das recomendações feitas a ele. Além disso, ela armazena o nome do método que
realizou a recomendação e a data em que a avaliação foi feita.
A tabela “pesquisadorTemDadosPessoais” armazena as informações pessoais que
foram respondidas pelos pesquisadores no questionário, como instituição, programa de pós-
graduação, idade e sexo.
Por fim, a tabela “pesquisadorRespostas contêm as respostas dadas pelos
pesquisadores às perguntas feitas no questionário.

6.5 Conclusão
Neste capítulo foi apresentado detalhadamente o método de recomendação
proposto. Foram descritas as funções de Expertise e Similaridade, que compõem o método,
assim como cada um de seus fatores. Foi visto que a função de similaridade é ponderada de
acordo com a expertise do pesquisador. Deve-se salientar principalmente o caso do
pesquisador júnior, que acreditamos que deva receber recomendações de pesquisadores
seniores para ajudar na formação da sua rede de contatos. Também vimos que os fatores da
função de similaridade são baseados nas afirmações de NEWMAN sobre colaboração em
redes sociais científicas e, sobre as formas de propagação de comportamentos em uma rede
social, descritas por CHRISTAKIS. São elas: indução, homofilia e confusão. Também foi
apresentada a arquitetura da solução e descrita como foi feita a implementação do método
e dos artefatos necessários a ele, como o extrator de dados do Currículo Lattes. Os dados
extraídos utilizando o extrator serão utilizados para executar o método e avaliá-lo. A
avaliação do método encontra-se no Capítulo 7.
124

7 Avaliação

O objetivo deste capítulo é descrever os mecanismos de avaliação utilizados para


verificar a viabilidade do método de recomendação proposto (capítulo 6), assim como,
descrever os resultados da avaliação realizada.

7.1 Contextualização
Para avaliar o método apresentado por essa pesquisa foi realizado um conjunto de
três avaliações entre os dias 18/01/2015 e 05/02/2015. A primeira delas, uma avaliação
comparativa, de modo a confrontar as recomendações feitas pelo presente método e alguns
dos principais métodos de recomendação encontrados na literatura. A segunda avaliação,
também considerada comparativa, é uma avaliação que verificamos o surgimento ou
materialização das recomendações apontadas pelo método descrito nesse trabalho. Por
último, a terceira avaliação, é realizada em um cenário mais abrangente, onde contamos
com a colaboração de pesquisadores de todo o Brasil da área de Ciência da Computação, os
quais avaliaram as dez primeiras recomendações feitas pelo método criado para o seu perfil.
Para realizar as avaliações foi necessário colher informações sobre os pesquisadores.
Dentre as diversas fontes existentes, a plataforma Lattes (CNPQ, 2014) foi a escolhida por
conter um maior número dessas informações e por apresentar maior confiabilidade dos
dados (seção 5.3). Foram extraídos os dados dos currículos Lattes dos pesquisadores dos
programas de pós-graduação de mestrado e doutorado acadêmicos, da área de
Computação, que foram avaliados pela Capes no triênio iniciado em 2010 com nota superior
a dois. No total, foram extraídos os dados de 1382 currículos Lattes de pesquisadores de 54
instituições.

7.1.1 Descrição dos Trabalhos Correlatos Analisados


Nesta seção descrevemos os diferentes métodos de recomendação adotados pelos
trabalhos analisados. Dentre os trabalhos apresentados no capítulo 4, selecionamos quatro
trabalhos: (MONCLAR, 2008), (LOPES ET AL., 2010), (BRANDÃO; MORO, 2012) E (LEE;
ADORNA, 2012). Tais trabalhos foram selecionados porque utilizam o mesmo cenário
abordado por esta pesquisa, ou seja, recomendação de relacionamentos utilizando redes
125

sociais científicas e, por serem apresentados de forma detalhada, sendo possível reproduzir
suas abordagens. A seguir, os trabalhos escolhidos serão descritos resumidamente:

a) Análise e Balanceamento de Redes Sociais no Contexto Científico (MONCLAR, 2008)

Monclar (2008) utiliza dados do Lattes e da ferramenta GCC para realizar a análise de
uma rede social de pesquisadores. A partir desta análise, ele detecta os nós problemáticos
na rede e propõe algumas recomendações de pares a eles, a fim de solucionar problemas no
fluxo do conhecimento científico. Os problemas que ele identifica e trata na rede são:
núcleos centralizadores, nós periféricos, nós isolados e pontes. Cada problema é detectado
de acordo com um conjunto de métricas calculadas da rede social. As métricas calculadas
foram: centralidade global, centralidade local relativa e centralidade local absoluta.
Para a recomendação de pares, Monclar (2008) se baseia em alguns critérios, como
interesses e competências dos pesquisadores, perfil psicológico MBTI (MYERS, 1980) e
distância mínima entre dois pesquisadores na rede. Ele recomenda pesquisadores que
tenham interesses similares ou competências similares, porém, respeitando o nível de
interesse e o grau do conhecimento. Por exemplo, ele só recomenda pessoas que tenham
interesse nível 3 em um assunto, em uma escala que varia de 1 a 3. As recomendações
também são feitas entre pesquisadores que tenham competências do mesmo nível, por
exemplo, um pesquisador iniciante em um assunto é recomendado para um pesquisador
iniciante no mesmo assunto. Não são recomendados especialistas para iniciantes e vice-
versa. Pesquisadores com nível 3 de interesse em um assunto são recomendados para
pesquisadores com competência nesse assunto. Também são recomendados nós que distam
mais de 6 passos de outro. Ele ainda utiliza o perfil MBTI (MYERS, 1980) para recomendar
pesquisadores com perfis idênticos, complementares ou opostos.
No nosso teste fizemos algumas simplificações do método proposto por Monclar
(2008), conforme descrito a seguir:

Foram levadas em conta apenas competências, pois em nossa base de dados não era
possível extrair interesses. As competências foram definidas como as áreas de
atuação que um pesquisador cadastra em seu currículo da Plataforma Lattes (CNPQ,
2014).
Para definir o nível de competência de um pesquisador, foi utilizada a bolsa de
produtividade do Cnpq, onde o pesquisador de nível 1A foi considerado especialista.
126

Todos os pesquisadores foram considerados com perfis MBTI complementares.


Foram utilizados os seguintes relacionamentos para montar a rede: coautoria,
participação em bancas, participação em projetos e coorientação.

b) Collaboration Recommendation on Academic Social Networks (Lopes et. al, 2010)

Lopes et al. (2010) recomenda colaborações de coautoria entre pesquisadores. Em


seu trabalho, ela propõe duas métricas para calcular a similaridade entre eles: cooperação
global (Cp) e correlação global (Cr).
A métrica Cp mensura a cooperação de coautoria entre dois pesquisadores. Para isso,
como dito anteriormente, é feita uma razão entre o número de artigos que dois
pesquisadores possuem em parceria e o número total de artigos de um dos pesquisadores.
Por exemplo, para calcular a cooperação global entre os pesquisadores i e j com respeito a i,
o denominador da razão será o número total de artigos do pesquisador i. Como pode ser
visto, a Cp entre os pesquisadores i e j com respeito a i pode ser diferente da Cp entre os
pesquisadores i e j com respeito a j, pois cada um deles pode ter um número total de artigos
diferente.
A Cr mede a correlação que existe entre as áreas de pesquisa de dois pesquisadores.
Para saber as áreas em que um pesquisador atua, foram extraídas as palavras-chave dos
títulos dos artigos dele. Essas palavras-chaves eram relacionadas a uma área de pesquisa de
acordo com uma ontologia. Depois disso, era atribuído a cada área de pesquisa um peso
(WAp) definido como a razão entre o número de publicações do pesquisador em uma área e
o total de artigos daquele pesquisador. Dessa maneira, era possível mensurar o grau de
atuação de um pesquisador em cada área. Por fim, para calcular a Cp entre dois
pesquisadores (pi e pj) foi utilizado o cosseno conforme Equação 15, onde xk representa cada
área de pesquisa.
Equação 15. Correlação global entre pesquisadores (LOPES e. al., 2012)

A parceria entre dois pesquisadores é sugerida de acordo com os valores encontrados


para a cooperação e para a correlação. Lopes et al. (2010) definiu que se a Cp fosse baixa (Cp
127

<= 0.33) e a Cr fosse média (0.33 < Cr < = 0.66) ou alta (Cr > 0.66), um pesquisador seria
recomendado ao outro.

Em nossa análise, fizemos algumas simplificações do método proposto, conforme


pode ser visto a seguir:

Para medir a correlação global, foram consideradas as cinco áreas de pesquisa em


que se enquadram os pesquisadores do PPGI.

Para atribuir o peso em cada área, foi levado em consideração a autoria do artigo. Se
todos os autores do artigo pertencessem a mesma área, era atribuído peso 1 a área
correspondente. Caso os autores pertencessem a áreas distintas, o peso era dividido
igualmente por área.

c) Recomendação de Colaboração em Redes Sociais Acadêmicas baseada na Afiliação


dos Pesquisadores (BRANDÃO; MORO, 2012)

Brandão e Moro (2012) também recomendam relacionamentos de coautoria entre


pesquisadores. Seu trabalho é baseado no princípio da homofilia. Aplicando este princípio no
contexto de redes sociais de coautoria, ela propõe a métrica Affin que mensura o grau de
relacionamento entre um pesquisador e pesquisadores de uma determinada instituição.
Para isto, é calculada a razão entre o número de artigos que um pesquisador possui com
pesquisadores de uma determinada instituição e o número total de artigos do pesquisador.
Para medir a similaridade entre dois pesquisadores, Brandão e Moro (2012) propõem
uma composição entre a métrica Affin e a métrica proposta por Lopes (2012), a proximidade
social (Sc). A ideia principal desta métrica é de que a proximidade dentro de um grupo indica
a tendência da presença de trabalhos colaborativos nele (LOPES, 2012). Para calcular a Sc
entre dois nós, deve-se levar em consideração o menor caminho entre eles. Sendo que, para
calcular o menor caminho, foram atribuídos pesos às arestas, de modo que quanto maior a
Cp entre os nós, menor o peso daquela aresta. A seguir serão apresentadas as equações que
foram utilizadas para calcular a proximidade social (Sc), Equação 16 e Equação 17.
128

Equação 16. Peso de uma aresta segundo Lopes (2012).

Equação 17. Proximidade social entre dois pesquisadores segundo Lopes (2012).

A nova métrica sugerida por Brandão e Moro (2012) é a média ponderada entre as
métricas Affin e Sc, onde os pesos determinam qual das duas métricas terá maior
importância no cálculo da similaridade entre dois pesquisadores. Chamamos esta nova
métrica de Affin_Sc, conforme Brandão e Moro (2012).
Além da métrica formada pela média ponderada entre a Affin e a Sc, para determinar
se os pesquisadores serão recomendados ou não foram consideradas as métricas Cp e Cr de
acordo com a Tabela 18.

Tabela 18. Condições para recomendação de pesquisador no método de Brandão e Moro (2012).
AÇÃO CONDIÇÃO
Iniciar Colaboração Cp = 0 ^ Affin_Sc {médio, alto}
Cp {baixo, médio} ^ Affin {médio, alto} ^ Cr
IntensificarColaboração
{médio, alto}

Foram feitas algumas simplificações para analisar o método descrito acima:

Ao invés de serem consideradas instituições no cálculo de Affin, foram consideradas


as áreas de pesquisa em que se enquadram os pesquisadores do PPGI. Isso foi feito
porque todos os pesquisadores escolhidos para fazer o estudo de caso pertencem à
mesma instituição. Por exemplo, se um pesquisador de Sistema de Informação (SI)
possui um total de 10 artigos, sendo 2 deles com pesquisadores de Redes de
Computadores (RC), a medida Affin entre os pesquisadores de SI e RC com respeito
ao pesquisador de SI será 2/10.

Foi considerado peso 0.5 para cada uma das métricas utilizadas na equação que
calcula Affin e Sc.
129

d) Link Prediction in a Modified Heterogeneous Bibliographic Network (LEE; ADORNA,


2012)

Em Lee e Adorna (2012) são feitas recomendações de coautoria a partir de diversas


características da rede. É utilizada uma rede heterogênea que leva em consideração os
seguintes relacionamentos: coautoria, publicação nos mesmos veículos, utilização dos
mesmos tópicos e citação. Os nós considerados são: autor, veículo de publicação, tópico e
publicação.
Para realizar as recomendações são propostas as seguintes métricas: importância
global, importância local, frequência e recency.
A medida Importância Global, também chamada pelo autor de g(x), mede a
importância de um nó atributo (artigos citados, tópicos e meios de publicação) a partir da
porcentagem de coautores, dentre todos os coautores possíveis, que estão ligados ao nó
atributo, conforme descrito na Equação 18:

Equação 18. Métrica Importância Global (LEE; ADORNA, 2012).

A medida de Importância Local, também chamada de La(x), mede a importância de


um nó, sob a perspectiva de um autor, com relação a outro nó que pode ser um
pesquisador/autor ou até mesmo um nó atributo como local de publicação. A seguir é
apresenta a Equação 19 utilizada para calcular a importância local.

Equação 19. Métrica Importância Local (LEE;ADORNA;2012).


130

A fórmula La(x) é dada através do somatório de todos os a’s pertencentes ao


conjunto dos coautores de a, onde A(a´, x) = 1 caso a’ tenha relacionamento com x e zero
caso contrário.
A próxima métrica usada pelo artigo é a Frequência, chamada pelo autor de Fa(x).
Essa medida tem como objetivo calcular a frequência que um relacionamento ocorre. Por
exemplo, a ligação entre dois autores que possuem 10 artigos em comum tem a
probabilidade de ser mais forte que dois autores que possuem apenas 1 artigo em comum. A
seguir é apresentada a Equação 20 para o cálculo da frequência.

Equação 20. Métrica Frequência (LEE; ADORNA, 2012).

Onde o valor de k = 1.1 e freq(a,x) é igual ao número de vezes que um determinado


relacionamento entre a e x ocorreu.
A última métrica citada pelo artigo é a recency – Ra(x), ou seja, o quão recente é um
determinado relacionamento. Relacionamentos mais recentes tendem a ser mais ativos, ou
seja, recomendações tendem a ser melhores quando as métricas são calculadas através de
relacionamentos mais recentes. A seguir é apresentada a Equação 21 para o calculo de Ra(x).

Equação 21. Métrica Recency (LEE;ADORNA, 2012).

Onde, ly é igual ao ano da publicação mais recente existente na base de dados e


rec(a,x) é o ano da mais recente iteração entre o autor a e o nó x. Novamente é atribuído o
valor 1.1 para k.

Foram feitas algumas simplificações para analisar o método descrito acima:


131

Não foram utilizados tópicos e nem citações para o cálculo das métricas e a
realização das recomendações.

Foram selecionados 15 congressos no período de 2009 a 2014 para o cálculo das


recomendações.

7.1.2 Descrição das métricas utilizadas para avaliação


Existem diversas métricas para avaliar diferentes aspectos de um sistema de
recomendação. Algumas métricas dependem de avaliações feitas pelo usuário do sistema,
enquanto outras são independentes do retorno dado por eles.
Em Ricci et al. (2011) são apresentadas diversas métricas de avaliação
detalhadamente. As definições dadas por eles foram utilizadas neste trabalho. Algumas
destas métricas tiveram que ser adaptadas para o nosso contexto, conforme será descrito a
seguir.

a) Precisão

Precisão é a métrica mais discutida na literatura sobre sistemas de recomendação


(RICCI et al., 2011). De acordo com umas das definições apresentadas em (RICCI et al., 2011),
a precisão pode ser utilizada para medir se os itens recomendados pelo sistema foram
usados pelo usuário, ou seja, se as recomendações foram concretizadas. De acordo com
(RICCI et al., 2011), a precisão é calculada a partir da razão entre o número de
recomendações positivas (itens que foram recomendados e utilizados) e a soma das
recomendações positivas com as negativas (itens que foram recomendados e não utilizados).
A Equação 22 apresenta o cálculo para a métrica precisão.

Equação 22. Métrica Precisão para avaliação de Sistemas de Recomendação (RICCI et al., 2011).

Onde:
- RU é o número de itens recomendados e utilizados;
- RNU é o número de itens recomendados e não utilizados;
132

No contexto de recomendação de parcerias em redes sociais científicas, a precisão


pode mensurar a quantidade de parcerias recomendadas que se tornaram reais.
Em nossa abordagem, e em outras abordagens que utilizam notas para avaliar as
recomendações, podemos considerar como recomendações concretizadas, ou seja, itens
recomendados e utilizados, aquelas em que o usuário avaliou positivamente.

b) Ranqueamento

Muitos sistemas de recomendação apresentam suas recomendações para o usuário


através de uma lista ordenada, geralmente do item considerado mais útil até o menos útil.
Uma das formas de avaliar um sistema que apresente as recomendações a partir de
listar ordenadas é tentar determinar se para o usuário a lista foi ordenada de maneira
correta. Ou seja, se o usuário avaliou melhor os itens no início da lista do que no final.
Uma das formas de verificar isso é através da métrica ranking baseada em utilidade.
Com esta métrica, é mensurada a utilidade de cada recomendação a partir da utilidade do
item recomendado descontado de um fator que depende da posição do item na lista de
recomendação (RICCI et al., 2011).
Para calcular esta métrica, Ricci et al. (2011) apresentam a Equação 23 chamada de
R-Score, definida em (BREESE; HECKERMAN; KADIE, 1998):

Equação 23. Métrica Ranqueamento para avaliação de Sistemas de Recomendação (RICCI et al.,
2011).

Onde:
- ij é o item na j-ésima posição na lista de recomendações;
- rui é a nota dada pelo usuário u ao item i da lista de recomendações;
- d é uma nota neutra da lista de recomendações, tal como “tanto faz”.
- é um parâmetro que controla o declínio exponencial do valor das posições na lista
de recomendações;

c) Cobertura
133

Existem várias métricas que podem ser utilizadas para medir a cobertura de um
sistema de recomendação. Algumas delas serão apresentadas a seguir.

c.1) Cobertura do catálogo

Pode ser definida como a proporção de itens que o sistema de recomendação pode
recomendar (RICCI et al., 2011). Para calcular esta métrica é possível fazer uma razão entre
todos os itens que podem ser recomendados e o total de itens no sistema. A Equação 24
apresenta o cálculo da cobertura do catálogo:

Equação 24. Métrica Cobertura de Catálogo para avaliação de Sistemas de Recomendação (RICCI et
al., 2011).

Onde:
- IR: número de itens recomendáveis;
- T: total de itens presentes no sistema;

Na nossa abordagem, iremos considerar a razão entre o total de pesquisadores


distintos recomendados e o total de pesquisadores na base de dados.

c.2) Cobertura do espaço do usuário

Pode ser definido como a proporção de usuários para quem o sistema pode
recomendar itens (RICCI et al., 2011). Ou seja, dado o total de usuários de um sistema para
quantos deles o sistema pode fazer recomendações?
Na nossa abordagem, calcularemos esta métrica considerando os pesquisadores que
foram recomendados, dado o número total de pesquisadores que existe na base. A Equação
25 apresenta o cálculo desta métrica:

Equação 25. Métrica Cobertura do Usuário para avaliação de Sistemas de Recomendação (RICCI et
al., 2011).

Onde:
134

- RR é o número de usuários que podem receber recomendações;


- T é o total de usuários do sistema;

d) Auto-Confiança (Confidence)

“Auto-confiança” nas recomendações pode ser definida como o sistema de


recomendação confiar nas suas próprias recomendações feitas (RICCI et al., 2011).
A métrica mais comum de “auto-confiança” é a probabilidade do item recomendado
ser verdadeiro.
Em nossa abordagem, a auto-confiança será calculada a partir da razão entre o
número de notas positivas dadas aos itens recomendados e o número total de itens
recomendados. A Equação 26 apresenta a métrica auto-confiança.

Equação 26. Métrica Auto-Avaliação para avaliação de Sistemas de Recomendação (RICCI et al.,
2011).

Onde:
- NT é o número de notas positivas dadas aos itens recomendados;
- T é o número total de itens recomendados;

e) Confiança (Trust)

Pode ser definida como a confiança que um usuário tem no sistema de


recomendação (RICCI et al., 2011), ou seja, o quanto o usuário confia nas recomendações
feitas pelo sistema.
O modo mais comum de se medir a confiança é a partir de perguntas feitas ao
próprio usuário (RICCI et al., 2011), como por exemplo: “Você recomendaria o método
proposto?”. Pode-se assumir que se o usuário recomendaria o método proposto é porque
ele confia nele.
Na nossa abordagem, utilizamos esta mesma estratégia, ou seja, medimos a
confiança no sistema a partir de perguntas feitas ao usuário.
135

f) Novidade

A novidade em um sistema de recomendação pode ser mensurada de acordo com os


itens novos recomendados a um usuário, ou seja, itens que um usuário ainda não conhece.
Em diversos sistemas, uma maneira de saber se um usuário conhece um item é verificando
se ele já avaliou o mesmo (RICCI et al., 2011). Os itens que não foram avaliados podem ser
considerados novos.
Em nossa abordagem definimos que uma recomendação é nova quando não houver
parceria existente entre o pesquisador que está recebendo as recomendações e o
pesquisador recomendado. Para calcular a novidade tomamos a razão entre as parcerias
novas recomendadas e o total de parcerias recomendadas, conforme pode ser visto na
Equação 27:

Equação 27. Métrica Novidade para avaliação de Sistemas de Recomendação (RICCI et al., 2011).

Onde:
- NN é o número de parcerias novas recomendadas;
- NT é o total de parcerias recomendadas;

g) Utilidade

A utilidade de um sistema de recomendação pode ser medida de diferentes


maneiras, dependendo do contexto da aplicação que utiliza o sistema de recomendação. Por
exemplo, muitas aplicações de comércio eletrônico utilizam sistemas de recomendação para
melhorar a sua receita (RICCI et al., 2011).
Na nossa abordagem, a utilidade do sistema foi diretamente perguntada ao usuário.

Em (RICCI et al., 2011) há ainda outras métricas, como preferência do usuário,


serendipity , risco, robustez, privacidade, adaptatividade e escalabilidade. Tais métricas não
foram utilizadas porque os aspectos avaliados por elas fugiam da abordagem deste trabalho.
Um exemplo disto é a métrica de escalabilidade, que mede a capacidade do sistema em lidar
136

com vários usuários acessando ele ao mesmo tempo. Este tipo de avaliação foge do escopo
deste trabalho.
A seguir será descrito todo o processo das três avaliações realizadas.
Apresentaremos o cenário abordado, planejamento da avaliação, execução da mesma e a
análise dos dados obtidos.

7.2 Avaliação 1 – Análise Comparativa – Com Observação do Usuário (on-


line)

A primeira avaliação apresentada é a que identificamos como Análise Comparativa –


Com Observação do Usuário (on-line). Nela estabelecemos uma comparação entre as
recomendações sugeridas pelo método de recomendação proposto (capítulo 6) e as
recomendações realizadas por métodos encontrados na literatura (seção 7.1.1). Nosso
objetivo é medir a viabilidade do presente modelo quando confrontado com outros modelos
de combinação social em cenários científicos. Dessa forma, temos:

7.2.1 Definição do Estudo


Este estudo tem por objetivo avaliar comparativamente o método de recomendação
proposto com os principais trabalhos descritos na seção 7.1.1 com participação do usuário.
Além do método proposto, os seguintes trabalhos foram avaliados: (LEE; ADORNA, 2012),
(LOPES et al., 2010), (BRANDÃO et al., 2012) e (MONCLAR, 2008).
Neste estudo deseja-se saber a viabilidade da utilização do método proposto e se o
mesmo contribui para o estado da arte.
Assim, usando o GQM (SOLINGEN; BERGHOT, 1999), esta avaliação pretende:
Analisar comparativamente o método de recomendação criado com os principais
métodos apontados pela literatura
Com o propósito de avaliar a viabilidade de sua utilização e possíveis contribuições
para o estado da arte
Referente aos ganhos obtidos por sua utilização através das métricas de Precisão,
Ranqueamento, Auto-confiança (Confidence), Confiança (Trust), Utilidade.
Do ponto de vista de pesquisadores de Ciência da Computação
137

No contexto do Programa de Pós-Graduação em Informática da UFRJ.

7.2.2 Planejamento do Estudo


Participantes: este estudo conta com a participação de um grupo de pesquisadores
de um programa de pós-graduação na área de Ciência da Computação, o PPGI, da
Universidade Federal do Rio de Janeiro. Tais pesquisadores deverão atuar em áreas diversas,
com expertise variada. Os respondentes não conheciam o método proposto e nem os
trabalhos correlatos.
Contexto: para este estudo, as recomendações geradas pelos métodos avaliados
foram feitas utilizando uma base de dados formada apenas pelos participantes, ou seja,
pelos pesquisadores do PPGI. Tal base continha informações extraídas dos currículos Lattes
apenas dos pesquisadores participantes a partir de 01/01/2009 até 04/02/2014. A base de
dados só possuía relacionamentos entre os pesquisadores do PPGI, ou seja, para essa
avaliação nenhum relacionamento com pesquisadores externos ao PPGI foi utilizado.
Limitamos os dados utilizados com o objetivo de podermos simular manualmente os
métodos de recomendação correlatos e compará-los com a abordagem proposta. Cada um
dos quatro métodos de recomendação foi reproduzido manualmente, ou seja, suas
recomendações foram geradas a partir de simulação manual para cada pesquisador do PPGI.
Os endereços eletrônicos dos participantes do estudo também foram coletados
manualmente.
Instrumentos: para viabilizar o estudo foi elaborada uma aplicação web, disponível
em http://146.164.3.28:8080/socialcombinationppgi/, que apresentava as recomendações
realizadas pelos diferentes métodos, além de um questionário (205DICE A) para ser
respondido pelos participantes. Foi utilizada a tecnologia J2EE (ORACLE, 2015). A interface
da aplicação pode ser visualizada na Figura 29 e na Figura 30. As respostas do questionário
foram armazenadas em um banco de dados relacional MySQL (2014). O modelo do banco de
dados pode ser visto na seção 6.4.6.
Este questionário (APÊNDICE A) tem por objetivo investigar como são formadas as
colaborações entre pesquisadores e avaliar o método de recomendação proposto e os
principais trabalhos atualmente na área. Para isso, o questionário contém um conjunto de
recomendações de pesquisadores feitas por cada um dos métodos estudados. Os métodos
não eram identificados, de maneira que o respondente não poderia identificar quais eram os
138

trabalhos utilizados. Cada participante do experimento visualiza o seu próprio conjunto de


recomendações no questionário, conforme Figura 30. Para cada recomendação feita deve
ser atribuída uma nota variando de 1 a 5, conforme Tabela 19.

Tabela 19. Descrição das notas atribuídas às recomendações.


NOTA DESCRIÇÃO
1 Definitivamente não trabalharia
2 Possivelmente não trabalharia
3 Neutro
4 Possivelmente trabalharia
5 Definitivamente trabalharia

Ao final do questionário o participante deve responder um conjunto de três


perguntas de acordo com seu nível de satisfação com as recomendações feitas pelo método
proposto.
A partir das notas dadas às recomendações é possível avaliar cada um dos métodos e
compará-los.
Treinamento: Não houve necessidade de treinamento porque todos os participantes
possuem pleno domínio em navegação de páginas web e formulários eletrônicos.
Projeto Piloto: Antes da execução do estudo, realizamos um projeto piloto com a
mesma estrutura descrita neste planejamento. Para o projeto piloto, selecionaremos apenas
um participante, pesquisadora do PPGI/UFRJ, com bastantes conhecimentos sobre suas
áreas e seus membros. Algumas recomendações de professores com diferentes níveis de
expertise foram feitas e este participante avaliava os resultados.
Critérios: Os critérios analisados foram os de Precisão, Ranqueamento, Auto-
confiança (Confidence), Confiança (Trust), Utilidade. Para comparação com os demais
trabalhos foram analisados os critérios de Precisão, Auto-confiança e Média das Notas dadas
pelos participantes. Neste estudo não foram utilizados as métricas de Novidade e Cobertura
porque visa comparar os trabalhos utilizando apenas métricas que dependem do retorno
dado pelos usuários.
Hipótese Nula: a hipótese nula é uma afirmativa que esta avaliação tem como
objetivo negar. No estudo atual, a hipótese nula determina que o método proposto não
139

possui nenhuma vantagem sobre os demais métodos, utilizando os critérios de Precisão,


Auto-confiança (Confidence),, e Média das Notas dadas pelos participantes.
H0:
µPrecisão-TrabalhosCorrelatos ≥ µPrecisão-MétodoProposto E
µAuto-Confiança-TrabalhosCorrelatos ≥ µAuto-Confiança-MétodoProposto E
µMédia das Notas -TrabalhosCorrelatos ≥ µMédia das Notas-MétodoProposto

Hipótese Alternativa: a hipótese alternativa é uma afirmativa que nega a hipótese


nula. A avaliação tem como objetivo provar a hipótese alternativa, refutando assim a
hipótese nula. No estudo atual, a hipótese alternativa determina que as recomendações
realizadas pelo método proposto serão melhores em pelo menos um critério.
H1:
µPrecisão-TrabalhosCorrelatos < µPrecisão-MétodoProposto OU
µAuto-Confiança-TrabalhosCorrelatos < µAuto-Confiança-MétodoProposto
OU
µMédia das Notas -TrabalhosCorrelatos ≥ µMédia das Notas-MétodoProposto

Variáveis Independentes: Como variáveis independentes podemos destacar idade,


gênero, critérios normalmente utilizados para a criação de novas parcerias profissionais,
área de atuação e expertise
Variáveis Dependentes: A nota da recomendação, a posição (ordem) dos itens
recomendados, característica de maior destaque para o trabalho em conjunto, grau de
satisfação com o método e sua possível utilização.
Capacidade Aleatória: Pode ser exercida na seleção dos participantes do estudo e na
distribuição dos objetos de análise entre os participantes. Idealmente os indivíduos que
realizarão o estudo devem ser selecionados aleatoriamente dentre o universo de candidatos
a participantes, ou seja, dentre o conjunto das pessoas disponíveis que atendam aos
critérios especificados no parágrafo “Participantes”. Neste estudo não respeitamos a
capacidade aleatória. Em relação aos objetos de análise, gostaríamos que cada participante
deste estudo avaliasse comparativamente todos os métodos, ou seja, os métodos não foram
140

escolhidos aleatoriamente neste estudo. Em relação à escolha dos participantes, optamos


por convidar todos os membros do PPGI/UFRJ e aceitar aqueles que se candidatassem.
Apesar do voluntariado não ser uma escolha aleatória, preferimos utilizar este método
porque acreditamos que desta maneira o grau de comprometimento do participante seria
maior.
Validade Interna do Estudo: a validade interna de um estudo é definida como a
capacidade de um novo estudo repetir o comportamento do estudo atual com os mesmos
participantes e objetos com que ele foi realizado. A validade interna do estudo é
dependente do número de participantes executando o estudo. Esperamos contar com pelo
menos 1 representante de 50% das áreas do PPGI/UFRJ. Como são 5 áreas, contentamo-nos
com ao menos 3 respondentes de cada área diferente. Além disso, dos respondentes,
teremos que ter ao menos 1 representante de cada grau de expertise: júnior, pleno e sênior.
Um pesquisador júnior é aquele em início de carreira, que ingressou há poucos anos na
academia e que concluiu o doutorado recentemente. Já o pesquisador pleno é aquele mais
amadurecido na sua área de atuação, com mais anos de experiência e atuação que o
pesquisador júnior, porém que não atingiu o topo da carreira. O pesquisador sênior é
justamente aquele que atingiu o topo da carreira, que tem muitos anos de atuação
profissional e muita experiência acumulada. É aquele que tem pouco o que crescer na
profissão. Certamente, um número maior de participantes melhoraria a validade interna do
estudo. Outro ponto que pode influenciar o resultado do estudo é a troca de informações
entre os participantes que já realizaram o estudo e os que não o realizaram. Esta troca de
informação não ocorreu, pois todas as avaliações foram feitas remotamente pelos
respondentes, fora do ambiente de trabalho.
Validade Externa do Estudo: a validade externa do estudo mede sua capacidade de
refletir o mesmo comportamento em outros grupos de participantes e profissionais da
indústria, ou seja, em outros grupos além daquele em que o estudo foi aplicado. De alguma
maneira a validade externa foi conferida pela terceira avaliação, apresentada na seção X.
Validade de Construção do Estudo: a validade de construção do estudo se refere à
relação entre os instrumentos e participantes do estudo e a teoria que está sendo provada
por este. Neste caso, escolhemos um domínio amplamente conhecido pelos participantes,
ou seja, todos os participantes conhecem os possíveis recomendados, podendo realmente
141

avaliar o grau de importância da avaliação feita. Fora isso, nenhum dos participantes tinha
conhecimento do método proposto e os métodos utilizados não eram identificados.
Validade de Conclusão do Estudo: A validade de conclusão do estudo mede a relação
entre os tratamentos e os resultados, determinando a capacidade do estudo em gerar
alguma conclusão. Não encontramos grandes dificuldades em relação à capacidade de
conclusão do estudo.

7.2.3 Execução do Estudo


Seleção de participantes: Para a execução do estudo foram convidados os 30
pesquisadores do Programa de Pós-Graduação em Informática (PPGI) da Universidade
Federal do Rio de Janeiro. Vale ressaltar que nesse grupo os pesquisadores atuam em
diferentes áreas (conforme Anexo B), que podem ser agrupadas em 5 grandes áreas. São
elas: Sistemas de Informação (SI); Algoritmos e Métodos Numéricos (AMN); Informática,
Educação e Sociedade (IES); Redes de Computadores e Sistemas Distribuídos (RSD); Modelos
e Arquiteturas para Sistemas Inteligentes (MASI). Além disso, outra característica do grupo é
que os pesquisadores encontram-se em diferentes estágios de suas carreiras. Há no grupo
pesquisadores seniores, plenos e juniores.
Instrumentos: Para execução do estudo, foi enviado um convite individual via correio
eletrônico para cada um dos participantes convidados, conforme Apêndice C.
Execução: Para dar início a avaliação foi enviada uma mensagem eletrônica (e-mail)
no dia 18/01/2015 para cada um dos pesquisadores participantes. Esta mensagem continha
uma breve descrição do método proposto e uma URL para acessar o sistema para avaliação.
Neste sistema, eram exibidas as recomendações do pesquisador de acordo com a URL do
Lattes informada. O pesquisador, então, deveria responder a algumas perguntas (Apêndice
A) e dar uma nota de 1 a 5 (Tabela 19) a cada uma das recomendações feitas pelo método
proposto e por outros quatro métodos selecionados dos trabalhos correlatos. Os
participantes tiveram até o dia 05/02/2015 para responder o questionário,
aproximadamente três semanas. Durante este período, 3 avisos/pedidos de participação
foram feitos para todos os professores do programa.
142

7.2.4 Análise dos Resultados

7.2.4.1 Análise Prévia


Antes de efetuar a análise dos dados propriamente dita, foi feita uma verificação nos
dados da base com o objetivo de procurar possíveis erros, como por exemplo, alguma
resposta incoerente ou algum dado errado que necessitasse de algum processo de
padronização. Durante essa etapa, foram observadas algumas respostas que não estavam de
acordo com a avaliação. Alguns pesquisadores relataram, em um campo livre para
comentários no questionário, que para eles a avaliação não surtiu nenhum efeito, visto que
não apresentou novidade, pois todos os pesquisadores indicados eram conhecidos (todos
membros do PPGI). Porém, indicar somente pesquisadores do PPGI era um dos objetivos da
avaliação, pois ela foi feita em um grupo fechado de pesquisadores. Esse fator veio
influenciar negativamente nas avaliações. Como o questionário continha perguntas que
mediam o nível de satisfação em relação ao método, essas ficaram prejudicadas devido às
recomendações serem de conhecidos.
Em outros casos, alguns pesquisadores informaram que as avaliações não foram boas
pelo fato de alguns pesquisadores indicados já participaram de projetos ou publicações com
eles. Esse fato foi verificado na base de dados, para conferir se existia algum erro no
algoritmo. O que foi encontrado foi a não captura desses relacionamentos. Como explicado
anteriormente na seção 5.3 alguns campos do Lattes, como título de projetos e publicações,
são entradas de texto livre, ou seja, o próprio pesquisador insere os títulos dos trabalhos.
Esse fator causou uma não captura de alguns relacionamentos, pois pesquisadores inseriam
títulos diferentes para o mesmo trabalho em seus respectivos Lattes. Quando verificado, foi
percebido que alguns títulos de trabalhos estavam separados por hífen em um Currículo
Lattes e no outro não havia essa separação, por exemplo. Apesar de ter existido uma fase de
padronização dos dados após a etapa de extração dos mesmos, algumas inconsistências
ainda apareceram.
Em termos de participação da avaliação, apesar do convite ter sido feito a 30
pesquisadores, apenas 9 responderam ao questionário avaliando as recomendações. Os
pesquisadores que responderam representam apenas 30% dos convidados, um conjunto
relativamente pequeno. De acordo com as grandes áreas do PPGI, a distribuição da
participação é apresentada na Tabela 20.
143

Tabela 20. Distribuição de participantes pelas grandes áreas do PPGI.

NÚMERO DE MEMBROS
ÁREA NÚMERO DE PARTICIPANTES
(POPULAÇÃO)
Sistemas de Informação 9 5
Algoritmos e Métodos
11 1
Numéricos
Informática, Educação e
2 0
Sociedade
Redes de Computadores e
5 2
Sistemas Distribuídos
Modelos e Arquiteturas para
3 1
Sistemas Inteligentes

Em relação à expertise, a distribuição de participantes é encontra-se na Tabela 21.

Tabela 21. Distribuição de participantes por expertise.


EXPERTISE NÚMERO DE NÚMERO DE
MEMBROS PARTICIPANTES
(POPULAÇÃO)
Júnior 1 5
Pleno 7 22
Sênior 1 3

Apesar do pequeno número de participantes, este estudo se mostrou internamente


válido.
144

Fazendo uma comparação do método apresentado por essa pesquisa com os outros
encontrados na literatura, observamos que houve um caso (dentre os 9 existentes nessa
avaliação) em que somente o nosso método apresentou recomendações para um
determinado pesquisador. Ou seja, todos os outros quatro métodos não apresentaram tais
recomendações, ora por não entender que esse pesquisador era um nó tido como
problemático (MONCLAR, 2008), ora por não conseguir estabelecer relacionamentos com
esse pesquisador de modo a fornecer recomendações. As notas atribuídas por ele para a
nossa recomendação foram recebidas como positivas.
Em outros casos, apenas o nosso método juntamente com o método do Monclar
(2008) apresentaram recomendações. Porém, enquanto Monclar (2008) apresentou 4
recomendações, o nosso método apresentou 10. Isso tende a mostrar uma maior
abrangência do método, pois além de indicar os mesmos 4 indicados pelo outro método,
ainda indicou outros 6.
Utilizando somente as avaliações dos recomendados através do nosso método
podemos traçar alguns gráficos informativos. As Figuras Figura 33, Figura 34 e Figura 35
mostram a porcentagem de pesquisadores que responderam perguntas relacionadas ao
nível de satisfação com o nosso método. Já a Figura 32 é uma distribuição das notas
atribuídas às recomendações.

Figura 32. Distribuição de notas atribuídas pelos pesquisadores às recomendações.


145

Figura 33. Gráfico do nível de satisfação dos participantes de uma forma geral.

Figura 34. Gráfico do nível de satisfação dos participantes quanto às recomendações.

Figura 35. Gráfico do nível de satisfação dos participantes quanto ao método.

Vale ressaltar que nessas avaliações foram incluídas todas as respostas dos
pesquisadores do PPGI. Algumas análises negativas do nível de satisfação foram relacionadas
com a recomendação de pessoas do mesmo programa, sendo que esse era o objetivo do
trabalho. Outras insatisfações foram devidas ao extrator não ter capturado alguns
relacionamentos. Ainda assim, a avaliação do método se manteve positiva. Houve um total
de 39 notas positivas (43,4%) (notas 4 e 5), 24 notas neutras (26,6%) e 27 (30%) notas
negativas (notas 1 e 2) dadas às recomendações feitas. Quanto à satisfação geral com o
método, o número de respostas SIM supera, em quantidade mínima, o número de respostas
146

NÃO: 5 respostas positivas (55,6%) e 4 respostas negativas (44,4%). Com relação a essa
pergunta, alguns pesquisadores relataram que o método não apresentou nenhuma
novidade a eles, dado que eles já conheciam todas as pessoas recomendadas e por isso,
deram avaliações negativas. Esses relatos vêm a confirmar que os pesquisadores
participantes não compreenderam totalmente o propósito desta avaliação, pois, de antemão
já se sabia que ela recomendaria pesquisadores que se conhecem pessoalmente, dado que a
avaliação foi feita com um grupo pequeno de pesquisadores.
O resultado para a pergunta “Recomendaria este método?” foi o mesmo anterior: 5
respostas positivas (55,6%) e 4 respostas negativas (44,4%). Quando perguntados se
utilizariam as recomendações realizadas, 6 (66,7%) pesquisadores responderam que SIM e 3
(33,3%) responderam negativamente a pergunta.

7.2.4.2 Critérios Estudados


Para avaliar o método de recomendação proposto e compará-lo com outros métodos
foi utilizado um conjunto de métricas de avaliação de sistemas de recomendação. Mais
detalhes sobre as métricas podem ser encontrados em Ricci et al. (2011). As métricas
usadas foram: Precisão, Ranqueamento, Auto-confiança (Confidence), Confiança (Trust),
Utilidade. A seguir serão apresentados os resultados da avaliação.

a) Precisão
Nesta métrica queremos medir a precisão das recomendações geradas, ou seja, se as
recomendações feitas foram positivas para os pesquisadores. Em nosso cenário, podemos
considerar como avaliações positivas aquelas que o pesquisador avaliou com notas 4
(possivelmente trabalharia) ou 5 (definitivamente trabalharia) e, como negativas, aquelas
que ele avaliou com notas 1 (definitivamente não trabalharia) ou 2 (possivelmente não
trabalharia). Com isso, para calcular a precisão em nosso cenário utilizamos a razão entre o
número de recomendações feitas para um pesquisador avaliadas com notas 4 e 5 e o
número de recomendações feitas avaliadas com notas 1, 2, 4 e 5. Portanto, para esta
avaliação, temos:

Precisão (PPGI) = 39 / 66 = 59,1%


147

Ou seja, 59,1% das recomendações geradas foram positivas para os pesquisadores.


A Tabela 22 apresenta a precisão de cada trabalho analisado.

Tabela 22. Precisão por método – Avaliação 1.


MÉTODO PRECISÃO
Zudio 59,1%
Brandão 84,37%
Lee 59%
Lopes 79%
Monclar 100%

b) Ranqueamento
Esta métrica verifica se o usuário atribuiu notas maiores aos itens recomendados no
topo da lista de recomendações, levando em consideração que a lista está ordenada do item
mais útil para o menos útil para o usuário.
Desta forma, para calcular esta métrica, utilizamos a Equação 23. Portanto, para esta
avaliação, temos:
Ranqueamento (PPGI) = 34/93 = 36,6%

Ou seja, dentre as recomendações feitas, a ordenação dos itens foi considerada


satisfatória em 36,6% dos casos. Como o interesse por parte das pessoas para fazer parcerias
é algo muito subjetivo, talvez seja complexo prever a ordenação. Além disso, as pessoas
nesse grupo de participantes em específico eram pessoas que já se conheciam muito bem,
portanto, questões pessoais podem influenciar diretamente nas respostas.
Não foi possível calcular esta métrica para os demais trabalhos, pois, ela depende do
tamanho da lista de recomendações para seus cálculos e, os demais trabalhos apresentam o
tamanho da lista de recomendações variável, ou seja, o tamanho da lista varia a cada
recomendação feita.

c) Auto-Confiança (Confidence)
148

Esta métrica mede a confiança que o sistema de recomendação tem nele mesmo de
acordo com as recomendações positivas que foram feitas. Para calcular esta métrica fizemos
a razão entre o número de notas positivas (4 e 5) e o total de notas. Portanto, para esta
avaliação, temos:
Auto-Confiança = 39 / 90 = 43,4%

Ou seja, dentre as recomendações feitas, o sistema pode confiar em 43,4% delas, de


acordo com esta avaliação. Isto se deve desta avaliação ter sido feita em um grupo pequeno
de pesquisadores, onde a grande maioria já se conhecia e já tinha seu grupo de contatos
bem formado.

Tabela 23. Auto-Confiança por método.


MÉTODO AUTO-CONFIANÇA
Zudio 43,4%
Brandão 67,5%
Lee 69%
Lopes 79%
Monclar 100%

d) Confiança (Trust)

Esta métrica mede a confiança que o usuário tem no sistema. Para isso, perguntamos
aos participantes da avaliação se eles recomendariam o método proposto. O fato de eles
recomendarem o método ou não pode ser considerado um indicativo de confiança no
método. Para calcular esta métrica utilizamos a razão entre o número de avaliações SIM
dadas e o número total de avaliações. Portanto, para esta avaliação, temos:

Confiança = 5/9 = 55,6%


149

Ou seja, 55,6% dos pesquisadores participantes responderam que recomendariam


este método.
Não foi possível calcular esta métrica para os demais trabalhos, pois, não foi feita
nenhuma pergunta com respeito a eles que pudéssemos inferir esta métrica.

e) Utilidade
Para mensurar se as recomendações feitas pelo método foram úteis aos
participantes, perguntamos a eles se eles usariam as recomendações realizadas. E com isso,
para calcular esta métrica, utilizamos a razão entre o número de participantes que
responderam SIM, ou seja, que usariam as recomendações feitas, e o número total de
participantes. Portanto, para esta avaliação, temos:

Utilidade = 6/9 = 67%

Ou seja, 67% dos pesquisadores participantes responderam que utilizariam as


recomendações realizadas.
Não foi possível calcular esta métrica para os demais trabalhos, pois, não foi feita
nenhuma pergunta com respeito a eles que pudéssemos inferir esta métrica.

Para concluir a avaliação dos métodos, a Tabela 24 apresenta o total de notas dadas
a cada uma das recomendações feitas por cada método. A Tabela 25 apresenta a
porcentagem destas notas por método também. Dado que cada método realizou uma
quantidade diferente de recomendações, não é possível compará-los apenas pela
quantidade total de cada nota dada, sendo necessário o percentual. Já a Tabela 26 apresenta
a porcentagem de notas positivas, neutras e negativas dadas às recomendações.
150

Tabela 24. Quantidade de cada nota por método.


QUANTIDADE NOTAS
MÉTODO
RECOMENDAÇÕES
5 4 3 2 1
Zudio 90 16 23 24 18 9
Brandão 40 12 15 8 4 1
Lee 70 14 18 16 18 4
Lopes 61 21 21 8 9 2
Monclar 4 0 2 2 0 0

Tabela 25. Porcentagem de cada nota por método.


QUANTIDADE NOTAS
MÉTODO
RECOMENDAÇÕES 5 4 3 2 1
Zudio 90 17,8% 25,5% 26,7% 20% 10%
Brandão 40 30% 37,5% 20% 10% 2,5%
Lee 70 20% 25,8% 22,8% 25,7% 5,7%
Lopes 61 34,4% 34,4% 13,1% 14,7% 3,3%
Monclar 4 0 50% 50% 0 0

Tabela 26. Porcentagem de notas positivas, neutras e negativas por método.


QUANTIDADE PORCENTAGEM
MÉTODO
RECOMENDAÇÕES POSITIVA NEUTRA NEGATIVA
Zudio 90 43,4% 26,6% 30%
Brandão 40 67,5% 20% 12,5%
Lee 70 45,7% 22,9% 31,4%
Lopes 61 68,8% 13,2% 18%
Monclar 4 50% 50% X

Como pode ser visto nas tabelas anteriores, com relação a quantidade de
recomendações feitas, o método proposto apresenta um número maior de recomendações
realizadas quando comparado aos outros métodos. Comparado com o método de Brandão,
o método proposto apresenta aproximadamente duas vezes mais recomendações. Já
151

comparado ao método de Lee, o método proposto apresenta aproximadamente 1,3 mais


recomendações. Em relação a Lopes, apresenta 1,5 mais recomendações. Por fim, em
relação ao Monclar, apresenta aproximadamente 22,5 mais recomendações, porém, o
método de Monclar se propõe a fazer recomendações apenas aos nós problemáticos da
rede e, por isso, houve essa grande diferença de recomendações, não sendo comparável
nesse quesito.
Com relação às notas dadas às recomendações, o método proposto apresentou o
pior resultado dentre os métodos avaliados, com 43,4% de notas positivas. Para fazer esta
porcentagem, foi feita a razão entre o número total de notas positivas (notas 4 –
Possivelmente Trabalharia e 5 – Definitivamente trabalharia) e o número total de notas
dadas. O método proposto realizou um número maior de recomendações que os demais
métodos, talvez isto tenha prejudicado o método nesta avaliação. Além disso, outro fator
que pode ser considerado é que o método proposto faz recomendações apenas de parcerias
novas, enquanto que os demais métodos recomendam parcerias já existentes. Ao
recomendar parcerias já existentes, pode-se considerar que os métodos analisados
apresentam uma chance maior de ter recomendações positivas.
O método de Lopes apresentou os melhores resultados, com 68,8% de notas
positivas, seguido do método de Brandão que apresentou 67,5% de notas positivas. O
método de Monclar apresentou 50% de notas positivas, já o método de Lee apresentou
45,7%.
Os métodos comparados ao método proposto foram simulados manualmente, ou
seja, executados a mão. As métricas propostas por cada método foram calculadas para cada
par de pesquisadores do PPGI. Para isso, conforme descrito na seção 7.1.1, foram feitas
algumas simplificações dos métodos. Por exemplo, para calcular a métrica Cr de Lopes
(2010), que mede a correlação dos pesquisadores de acordo com sua área de atuação, foram
consideradas as grandes áreas de concentração do PPGI. Lopes (2010) propõe em seu
método que as áreas de atuação sejam extraídas dos títulos das publicações dos
pesquisadores, o que foi inviável para a reprodução manual do método. Como a correlação
entre os pesquisadores foi feita a partir das grandes áreas do programa, todos os
pesquisadores de uma grande área, como por exemplo, Sistemas de Informação, tinham
uma correlação elevada entre si e foram recomendados. Em um cenário real, proposto por
152

Lopes (2010), áreas como Redes Sociais, Métodos Ágeis e Ontologias seriam consideradas.
Tal fato poderia reduzir a correlação entre os pesquisadores de uma grande área, pois, áreas
mais específicas estariam envolvidas, ocasionando um conjunto de recomendações
diferente das realizadas pela simulação manual. Ao considerar as grandes áreas, poucos
pesquisadores de outras grandes áreas foram recomendados entre si porque no PPGI houve
pouca interação de coautoria entre os pesquisadores de diferentes áreas no período
analisado (01/2009 a 02/2014), conforme pode ser visto na Erro! Fonte de referência não
encontrada.. Por isso, a grande maioria dos pesquisadores recomendados pelo método de
Lopes (2010) pertencia a mesma grande área. Os pesquisadores da mesma área de um grupo
pequeno de pesquisa tende a ter grande interação e afinidade. Ainda sobre o método de
Lopes (2010), ele não recomenda apenas relacionamentos novos, mas também, parcerias já
existentes. Este fato somado ao fato apresentado anteriormente pode ser uma justificativa
para o método de Lopes (2010) ter apresentado a maior porcentagem de notas 5
(“Definitivamente trabalharia”) dentre os métodos analisados.
Por outro lado, o método proposto neste trabalho apresentou a maior porcentagem
de notas 1 (“Definitivamente não trabalharia”). Esse método, diferente dos outros trabalhos
analisados, não foi simulado manualmente. Foi desenvolvido e executado um algoritmo que
levou em consideração dados extraídos dos currículos Lattes dos pesquisadores
participantes. Desse modo, os relacionamentos já existentes foram inferidos a partir desses
dados, assim como as áreas de atuação. Um currículo Lattes de um pesquisador contêm
tanto áreas genéricas quanto áreas específicas. As áreas mais específicas são inseridas
manualmente. Tal fato pode fazer com que áreas iguais sejam inseridas no Lattes de forma
diferente, como por exemplo, “redes sociais” e “análise de redes sociais” ou “dispositivos
móveis” e “computação móvel”. Com isso, o fato do método proposto ter utilizado as áreas
de atuação do Lattes sem realizar nenhum tratamento nelas, pode ter ocasionado uma
perda na correlação das áreas de atuação dos pesquisadores recomendados. O mesmo
pode ser considerado para os relacionamentos utilizados pelo método, inferidos das
publicações, projetos, orientações e bancas inseridas pelos pesquisadores em seus
currículos. Caso um dos pesquisadores parceiros não preencha o seu currículo Lattes com a
informação da parceria, o método proposto será incapaz de detectar o relacionamento já
existente entre eles. Da mesma forma, se os pesquisadores preencherem os seus currículos
153

Lattes de forma distinta para a mesma parceria, o método também não poderá detectar o
relacionamento entre eles. Com isso, o método pode recomendar pesquisadores que já são
parceiros no cenário real, mas que não o são no cenário dos dados utilizados pelo método.
Além disso, o método proposto somente realiza recomendações de parcerias novas. Em um
grupo pequeno de pesquisadores a tendência é que haja grande interação entre
pesquisadores de uma mesma grande área, restando poucas opções de recomendação para
o método proposto, geralmente pesquisadores de outras grandes áreas. Estes fatos
apresentados podem ser uma justificativa para o método proposto ter apresentado a maior
porcentagem de notas 1 (“Definitivamente não trabalharia”) dentre os métodos analisados.
De acordo com os valores expostos para precisão, auto-confiança e notas positivas,
não conseguimos refutar a hipótese nula através da hipótese alternativa. Portanto, de
acordo com essa avaliação o método proposto não possui nenhuma vantagem sobre os
demais métodos.
Para comparar os métodos através de métricas que não dependam da avaliação do
usuário e de sua compreensão sobre a abordagem dos métodos e da própria avaliação, foi
realizada uma segunda avaliação. Esta avaliação não contou com a participação do usuário,
conforme descrito na seção 7.3.

7.3 Avaliação 2 – Análise Comparativa – Sem Observação do Usuário (off-


line)

Essa segunda avaliação é denominada Análise Comparativa – Sem Observação do


Usuário (off-line). Ela foi realizada devido a alguns entendimentos errôneos sobre a
avaliação 1. Alguns pesquisadores não compreenderam o funcionamento do método, não
identificaram quais os tipos de relacionamento que foram utilizados para gerar a
recomendação. Com isso, fizeram comentários com respeito a pesquisadores que foram
recomendados e que já possuíam algum tipo de relacionamento com eles, ainda que este
não fosse nenhum dos tipos utilizados pelo método. Outros comentaram que já conheciam
todas as pessoas do grupo pessoalmente e, portanto, não precisariam utilizar o método para
recebê-las como recomendação. Este fato pode ter prejudicado a avaliação do método, pois
154

o feedback do usuário foi baseado no que ele compreendeu e não no funcionamento do


método de fato.

7.3.1 Definição do Estudo


Este estudo tem por objetivo avaliar comparativamente o método de recomendação
proposto com os principais trabalhos apontados pela literatura [(LEE; ADORNA, 2012),
(LOPES et al., 2010), (BRANDÃO et al., 2012) e (MONCLAR, 2008)] sem a intervenção do
usuário. Isto será feito a partir da verificação da materialização de recomendações feitas
pelo método proposto, ou seja, a materialização de relacionamentos que foram
recomendados pelo método. Para isto, utilizamos o ano de 2014 como marco. Este ano foi
escolhido porque a partir dele conseguiríamos verificar no próprio currículo Lattes dos
pesquisadores, quais recomendações foram concretizadas. . Executamos cada método
utilizando os dados compreendidos no período anterior a este ano e comparamos os
resultados com as parcerias existentes após este ano.
Portanto, utilizando o GQM (SOLINGEN; BERGHOT, 1999):
Analisar comparativamente o método de recomendação criado com os principais
métodos apontados pela literatura, sem interferência do usuário
Com o propósito de avaliar a viabilidade de sua utilização e possíveis contribuições
para o estado da arte
Referente à materialização das recomendações feitas pelos métodos analisados,
através da concretização real das parcerias recomendadas no período de 01/01/2009 até
04/02/2014
Do ponto de vista dos valores obtidos através da comparação com as recomendações
de outros métodos a partir das métricas Cobertura de Catálogo, Cobertura do Espaço do
Usuário, Novidade
No contexto do Programa de Pós-Graduação em Informática da UFRJ.

7.3.2 Planejamento do Estudo


Participantes: Este estudo não contará com a participação de nenhum usuário,
apenas com um especialista para avaliar a materialização das recomendações feitas.
Contexto: Foi utilizada a mesma base de dados do estudo anterior.
155

Instrumentos: Não se aplica.


Treinamento: Não se aplica.
Projeto Piloto: Não se aplica.
Critérios: Os critérios analisados foram os de Cobertura do Catálogo, Cobertura do
Espaço do Usuário e Novidade. Neste estudo não foram utilizados as métricas de Precisão,
Auto-Confiança (Confidence) e Média das Notas dadas pelos participantes porque depende
da interação com os participantes.
Hipótese Nula: a hipótese nula é uma afirmativa que esta avaliação tem como
objetivo negar. No estudo atual, a hipótese nula determina que o método proposto não
possui nenhuma vantagem sobre os demais métodos, utilizando os critérios de Cobertura
de Catálogo, Cobertura do Espaço do Usuário e Novidade.
H0:
µCoberturaCatálogo-TrabalhosCorrelatos ≥ µCoberturaCatálogo E
µCoberturaEspaçoUsuário-TrabalhosCorrelatos ≥ µCoberturaEspaçoUsuário-
MétodoProposto E
µNovidade ≥ µNovidade-MétodoProposto

Hipótese Alternativa: a hipótese alternativa é uma afirmativa que nega a hipótese


nula. A avaliação tem como objetivo provar a hipótese alternativa, refutando assim a
hipótese nula. No estudo atual, a hipótese alternativa determina que as recomendações
realizadas pelo método proposto serão melhores em pelo menos um critério.
H1:
µCoberturaCatálogo-TrabalhosCorrelatos < µCoberturaCatálogo OU
µCoberturaEspaçoUsuário-TrabalhosCorrelatos < µCoberturaEspaçoUsuário-
MétodoProposto OU
µNovidade < µNovidade-MétodoProposto

Variáveis Independentes: Continuam as mesmas do estudo anterior.


Variáveis Dependentes: A existência do relacionamento recomendado após a data de
04/02/2014.
Capacidade Aleatória: Não se aplica porque utilizaremos toda a população.
156

Validade Interna do Estudo: A validade interna do estudo é dependente do ano de


corte. Certamente, um número maior de pontos de corte auxiliaria nesta avaliação, mas
consideramos apenas um período como necessário.
Validade Externa do Estudo: a validade externa do estudo mede sua capacidade de
refletir o mesmo comportamento em outros grupos de participantes e profissionais da
indústria, ou seja, em outros grupos além daquele em que o estudo foi aplicado. Este estudo
pode ser replicado em outros grupos, mas não há a garantia de que os resultados serão os
mesmos, pois depende da quantidade dos relacionamentos existentes anteriormente e a
quantidade de novos membros na rede social estudada.
Validade de Construção do Estudo: Igual a do estudo anterior. Domínio conhecido,
onde o especialista condutor do estudo possa realmente avaliar o grau de importância da
avaliação feita.
Validade de Conclusão do Estudo: Não encontramos grandes dificuldades em relação
à capacidade de conclusão do estudo.

7.3.3 Execução do Estudo


Seleção de participantes: Não se aplica. Toda a população será estudada.
Instrumentos: base de dados formada por 30 pesquisadores do Programa de Pós-
Graduação em Informática (PPGI) da Universidade Federal do Rio de Janeiro. Os
pesquisadores apresentam idades variadas e são de ambos os sexos. Vale ressaltar que
nesse grupo os pesquisadores atuam em diferentes áreas de atuação (conforme Anexo B),
que podem ser agrupadas em 5 grandes áreas. São elas: Sistemas de Informação; Algoritmos
e Métodos Numéricos; Informática, Educação e Sociedade; Redes de Computadores e
Sistemas Distribuídos; Modelos e Arquiteturas para Sistemas Inteligentes. Além disso, outra
característica do grupo é que os pesquisadores encontram-se em diferentes estágios de suas
carreiras. Há no grupo pesquisadores seniores, plenos e juniores.
Execução: Para este estudo foi feita uma busca manual de novos relacionamentos
criados a partir da data de corte das recomendações feitas pelos métodos, ou seja,
04/02/2014. A busca foi realizada somente nos mesmos tipos de relacionamentos utilizados
pelo método de recomendação (veja Tabela 17). Para isso, foram analisados manualmente o
Currículo Lattes dos pesquisadores do PPGI procurando pelos pesquisadores indicados na
recomendação. Ocorreram duas situações: uma em que os pesquisadores de fato não se
157

relacionavam antes da data de corte e passaram a se relacionar depois dela e, outra em que
os pesquisadores já se relacionavam antes da data de corte, mas tal relacionamento não foi
capturado pelo extrator (seção 6.4.1). Todos os casos identificados na primeira situação
foram contabilizados. Nessa segunda situação, caso os pesquisadores tenham mantido o
relacionamento após a data de corte, o relacionamento foi contabilizado.

7.3.4 Análise dos Resultados

7.3.4.1 Análise Prévia

Na Tabela 27 a seguir é apresentado o número de recomendações feitas pelos


métodos que realmente aconteceram, ou seja, que se concretizaram após o período de
corte. Para preservar a identidade dos pesquisadores e de suas recomendações vamos
utilizar um identificador numérico que caracteriza o pesquisador dentro do sistema. O X na
célula da tabela indica que para aquele determinado pesquisador o seguinte método não
indicou nenhuma recomendação.

Tabela 27. Quantidade de recomendações concretizadas a partir de 2014.


PARCERIAS INICIADAS QUE CONSTAM NAS
ID
RECOMENDAÇÕES
PESQUISADOR
ZUDIO BRANDÃO LEE LOPES MONCLAR
847 0 0 0 0 X
866 0 0 0 0 X
867 3 0 1 0 X
868 0 0 0 0 X
869 0 1 1 1 X
870 3 2 1 2 X
871 0 X X X 0
872 0 0 0 0 X
873 0 0 0 0 X
874 2 2 1 2 X
875 0 0 0 0 X
876 0 0 1 0 X
158

877 2 0 0 0 X
878 0 X 0 X 0
879 0 0 0 0 X
880 1 X 0 X X
881 0 0 0 0 X
882 2 X X X X
883 0 0 0 0 X
884 0 0 0 X X
885 0 X X X 0
886 0 0 0 0 X
887 0 0 0 0 X
888 0 0 0 0 X
889 0 0 0 0 0
890 0 0 0 0 X
891 2 2 1 2 X
892 0 0 0 0 X
893 0 0 0 0 X
894 2 1 0 0 X
TOTAL 17 8 6 7 0

Vemos que as recomendações não ocorreram para muitos pesquisadores, fato que
pode ser ocasionado devido ao tempo para o aparecimento dos relacionamentos. A base de
dados utilizada pelo método continha dados até 04/02/2014, tempo inferior a 1 ano até essa
comparação.
Outro fator utilizado para análise é a não captura de alguns relacionamentos por
parte do extrator do Lattes. Isso fez com alguns relacionamentos já existentes fossem
recomendados, pois para o nosso método eles não existiam. Esse fator confirmou que
nesses casos o método foi capaz de identificar proximidades de vizinhos e interesses em
comum e por isso, fez as recomendações.
Como pode ser visto, o método proposto apresentou o melhor resultado nesta
análise, com 17 recomendações iniciadas no período de um ano. O método de Brandão
159

(2012) apresenta o segundo melhor resultado com recomendações concretizadas. Em


sequência, o método de Lopes apresentou 7 recomendações iniciadas e o de Lee apresentou
6. Nenhuma das recomendações feitas por Monclar (2008) foi iniciada no período de um
ano. Este resultado positivo pode ser um indicativo de que o método proposto é capaz de
fazer recomendações positivas ao usuário.
Além desta verificação, foram realizadas outras comparações baseando-se em
algumas das métricas apresentadas na seção 7.1.2 que não dependem do feedback do
usuário. A seguir, na seção 7.3.4.2, serão apresentadas tais métricas e algumas observações
feitas a partir da análise dos resultados.

7.3.4.2 Comentários sobre os métodos de recomendação

a) Quanto a Rede

Para melhor visualizarmos e analisarmos as redes sociais propostas em cada


trabalho, utilizamos a ferramenta Gephi. Observando as redes nesta ferramenta,
visualizamos que a rede utilizada em nossa proposta e a rede utilizada por Monclar (2008)
são mais densas que a rede utilizada por Brandão e Moro (2012) e a rede utilizada por Lopes
et al. (2010). Na rede proposta pela nossa abordagem e na rede utilizada por Monclar (2008)
existia um caminho entre 93,3% dos nós da rede (dos 30 nós da rede, 2 encontravam-se
desconexos). Já na rede utilizada por Brandão e Moro (2012) e Lopes et al. (2010) havia 5
sub-grafos e 4 nós desconexos. Isto se deve pelo fato das primeiras redes mencionadas
serem heterogêneas e as outras duas, homogêneas. Além disso, outro fator que deve ser
considerado é o conjunto de participantes da rede. Neste, os participantes são
pesquisadores de áreas distintas de atuação. Com a formação dos 5 sub-grafos na rede de
coautoria, fica evidente que neste grupo não há muitas parcerias de coautoria entre
pesquisadores de áreas distintas. Porém, quando foram adicionados outros tipos de
relacionamento, como projetos, participação em bancas e coorientação, as parcerias entre
áreas aumentaram. Lembrando também que nosso grupo é pequeno, formado por 30
pesquisadores.
160

A Figura 36 representa a rede de coautoria dos pesquisadores do PPGI segundo os


pesos na aresta propostos por Lopes (2012). Como pode ser observado, há relacionamentos
mais fracos, como o relacionamento entre os nós R e P, e relacionamentos mais fortes, como
o relacionamento entre os nós AB e U. Exceto pelos pesos nas arestas, esta rede fica igual
para os trabalhos de Brandão e Moro (2012) e Lopes et al. (2010).

Figura 36. Rede Social de coautoria dos pesquisadores do PPGI no período 01/01/2009 até
04/02/2014.

b) Quanto às Recomendações

Conforme já mencionado, o trabalho de Monclar (2008) realiza recomendações


apenas para nós problemáticos. No nosso conjunto de pesquisadores, de acordo com as
análises sugeridas por Monclar (2008), apenas 5 nós dentre 30 foram considerados
problemáticos. Nomeamos tais pesquisadores de A, B, C, D e N.
Conforme estabelecido por Monclar (2008), um nó encontra-se isolado na rede
quando sua centralidade global é elevada, ou seja, a informação que circula pela rede leva
mais tempo para chegar até esse nó. Para ser considerado um nó isolado, Monclar (2008)
definiu que a centralidade global do mesmo deveria ser superior ou igual a 70% da
centralidade global máxima da rede. Na nossa rede, todos os 5 nós problemáticos se
161

enquadraram como isolados, sendo que 2 deles não possuíam relacionamentos com
nenhum outro nó, ou seja, a centralidade global poderia ser considerada infinita.
Os pesquisadores A e N, além de isolados, também foram categorizados como nós
pontes. Para Monclar (2008), um nó pode ser considerado ponte quando sua centralidade
global fosse superior ou igual a 70%, sua centralidade global relativa for menor ou igual a 0.1
e, sua centralidade global absoluta for maior que 1. Levando em consideração somente a
definição que diz que nós pontes são nós que ligam sub-redes, os pesquisadores A e N não
se enquadrariam nesta classificação. Contudo, outro pesquisador da rede que não foi
detectado problemático, o pesquisador K, poderia ser considerado uma ponte, conforme
apresentado na Figura 37.

Figura 37. Rede heterogênea de pesquisadores do PPGI proposta por Monclar (2008)
no período de 01/01/2009 até 04/02/2014.

O pesquisador B foi classificado como um nó de periferia. Segundo Monclar (2008),


nós de periferia são aqueles que se encontram fracamente ligados à rede, portanto, o risco
de serem perdidos é maior. Para classificar um nó como periférico, sua centralidade local
absoluta deve ser igual a 1, ou seja, o nó deve possuir apenas um relacionamento. No caso
do pesquisador B, tal classificação é verdadeira, pois este possuía apenas um
relacionamento de participação em banca.
Para cada um destes nós problemáticos, deveria ser feito um conjunto de
recomendações, porém, o pesquisador A não recebeu nenhuma recomendação. Isto ocorreu
162

porque nenhum pesquisador ficava há mais de 6 nós de distância deste pesquisador, então
nenhum pesquisador pôde ser recomendado nesse caso. Além disso, nenhum pesquisador
que possuía alguma área de pesquisa em comum com o A, tinha o mesmo nível de
competência que ele. Caso o nível de competência não fosse levado em consideração, 8
pesquisadores poderiam ter sido recomendados a ele.
Para o pesquisador B, também não foi possível realizar recomendações de
competências, pelo mesmo motivo que o A. Porém, havia 9 pesquisadores na rede cujo a
distância para o pesquisador A era maior que 6 e, portanto, esses 9 pesquisadores foram
recomendados.
Para os pesquisadores C e D não foi possível realizar recomendações relacionadas a
distância, pois os mesmos encontravam-se desconexos. Porém, foi possível fazer
recomendações de competência. Para o pesquisador C foram feitas 4 recomendações e para
o pesquisador D foram feitas 6.
Para o pesquisador N, também não foi possível realizar recomendações relacionadas
a distância, pois nenhum pesquisador ficava há mais de 6 nós de distância dele. Porém, foi
possível realizar recomendações de competência. Este pesquisador recebeu 2
recomendações de competência.
O trabalho de Brandão e Moro (2012) considera as métricas Cp e Affin_Sc para fazer
recomendações. Caso um pesquisador nunca tenha escrito alguma publicação com outro, ou
seja, faça sempre seus trabalhos sozinho, como a rede proposta por Brandão e Moro (2012)
é de coautoria, este pesquisador ficaria isolado na rede, e não seria possível realizar
recomendações para ele.
O método proposto nesta pesquisa e o trabalho de Lopes et al. (2010) podem fazer
recomendações para todos os nós da rede, diferente dos trabalhos de Brandão e Moro
(2012) e Monclar (2008). Nos dois trabalhos, a medida relacionada a áreas de atuação
permite que os métodos possam fazer recomendações a todos os nós da rede.
De acordo com o resultado obtido para Cp e Cr, uma relação de coautoria pode ser
recomendada ou não para Lopes et al. (2010). Ainda que dois pesquisadores já tenham
trabalhado juntos, se a Cr entre eles for alta ou média e a Cp for baixa, uma parceria de
coautoria deve ser recomendada entre eles.
163

Em nossa rede, alguns pesquisadores que já possuíam diversas publicações em


parceria foram recomendados. Pelo que foi observado, isso ocorreu porque estes
pesquisadores possuíam um número total de publicações elevado e, ao fazer a razão para
calcular a Cp, este valor ficava baixo.
Por exemplo, vamos levar em consideração dois pesquisadores da nossa rede e
chamá-los de E e F. O pesquisador E possui 15 publicações de um total de 53 com o
pesquisador F. Ao calcular a Cp entre eles, com respeito ao pesquisador E, obtemos o valor
0.28, ou seja, um valor baixo de acordo com a classificação de Lopes (2008). A Cr entre esses
pesquisadores é alta, 0.90. Logo, os dois foram recomendados. Porém, como podemos
obsevar, 15 publicações em parceria entre os anos de 2009 e 2013 é um valor considerável.
Então, fazendo esta análise empírica, observamos que o número total de artigos influencia
no resultado da recomendação. Outro fator que influencia são os intervalos definidos para
que o valor de uma métrica seja considerado baixo, médio ou alto.
No trabalho de Brandão e Moro (2012), pesquisadores que já possuem uma parceria
também podem ser recomendados. Em seu trabalho, pode ser sugerido que dois
pesquisadores iniciem uma colaboração ou intensifiquem a mesma.
Considerando os mesmos pesquisadores E e F, no trabalho de Brandão e Moro (2012)
eles não foram recomendados para intensificar sua colaboração. Isto porque a medida Affin
entre eles, com respeito ao pesquisador E, ficou baixa. Este fato ocorreu porque dos 53
artigos que o pesquisador E possui, apenas 17 foram na mesma área de pesquisa que o
pesquisador F.
Observando a métrica Affin de Brandão e Moro (2012) e a Cp de Lopes et al. (2010),
percebemos que é difícil definir um mesmo intervalo para a classificação das mesmas, pois
acreditamos que as métricas sejam de grandezas diferentes. Empiricamente, podemos
afirmar que 15 publicações de um total de 53 para um relacionamento de parceria, é um
número considerável. Porém, 17 publicações de um total de 53 para mensurar o quão
presente é um pesquisador em uma determinada área de pesquisa, ainda mais quando a
área de pesquisa é geral, pode ser considerado um valor baixo. Porém, voltamos a afirmar
que é uma tarefa difícil definir isso em intervalos, pois é um conhecimento tácito de cada
indivíduo.
164

No método de recomendação proposto neste trabalho não são realizadas


recomendações de parcerias já existentes, apenas de novas parcerias.
Alguns pesquisadores em nossa rede só possuem publicações com pesquisadores da
mesma área de pesquisa que eles. Devido a isso, tanto no trabalho de Brandão e Moro
(2012) quanto no trabalho de Lopes et al. (2010), só foram recomendados pesquisadores
que atuavam nas mesmas áreas que eles. No trabalho de Brandão e Moro (2012), este
resultado está de acordo com o princípio de homofilia considerado pelo seu método. No
caso de Lopes et al. (2010), este resultado está de acordo com a métrica Cr, pois são
recomendados pesquisadores que possuem correlação média ou alta entre si. O método
proposto neste trabalho, leva em consideração propriedades como a vizinhança (seção
6.2.2.1) e a popularidade dos nós (seção 6.2.2.3). Além disso, o fator de áreas em atuação
do método (seção 6.2.2.2) pode levar em consideração áreas muito genéricas, como Ciência
da Computação. Portanto, o método proposto pode recomendar pesquisadores de áreas
específicas diferentes da do pesquisador.
Nos trabalhos de Brandão e Moro (2012) e Lopes et al. (2010), os pesquisadores que
não possuíam publicações com outros pesquisadores da rede, ou seja, que não possuíam
relacionamentos na rede, não receberam recomendações. Isto ocorreu porque os dois
trabalhos levam em consideração as publicações para calcular as suas métricas. Este fato é
similar ao problema de Cold Start (RICCI et al., 2011) em sistemas de recomendação, pois
não há informação suficiente sobre um usuário para realizar recomendações para ele. Em
redes sociais científicas, isto pode ser um desafio para recomendar parcerias a
pesquisadores em início de carreira. Como o método proposto neste trabalho leva em
consideração diferentes tipos de relacionamento e também as áreas de atuação dos
pesquisadores, pesquisadores sempre poderão receber recomendações.

7.3.4.3 Critérios Estudados

Há diferentes métricas para avaliar os sistemas de recomendação, como acurácia,


precisão, cobertura, novidade, etc. Estas métricas variam de acordo com a abordagem de
recomendação adotada. A seguir, iremos utilizar algumas destas métricas para analisar os
trabalhos recomendados:
165

a) Quanto à Cobertura

O termo cobertura se refere à porcentagem de uma base de dados que um sistema


de recomendação é capaz de realizar recomendações (HERLOCKER et al., 2004). Ele engloba
diferentes propriedades que podem ser avaliadas, tais como: cobertura de catálogo,
cobertura de espaço do usuário e cold start (RICCI et al., 2011).
A cobertura de espaço do usuário, também chamado por Herlocker et al. (2004) de
cobertura de predição, é a porcentagem de itens que podem receber recomendações do
sistema. Ou seja, no caso da recomendação de pares feita em uma rede social científica, é a
porcentagem de pesquisadores que podem receber alguma recomendação.
Conforme Equação 25, calculando a cobertura do espaço do usuário para os
trabalhos analisados, temos: CEusu_Brandão = 26/30, CEusu_Lopes = 25/30, CEusu_Monclar
= 4/5, CEusu_Lee = 27/30. O valor desta métrica para o método de recomendação proposto
ficou igual a CEusu_Zudio = 30/30 = 1, pois todos os pesquisadores podem receber alguma
recomendação. Em Brandão e Moro (2012), 4 pesquisadores não receberam nenhuma
recomendação. Em Lopes et al. (2010), 5 não receberam.
Os 4 pesquisadores em Brandão e Moro (2012) e, 4 de um total de 5 dos
pesquisadores em Lopes et al. (2010), não possuíam relacionamentos na rede, ou seja, não
possuíam artigos em comum com outros pesquisadores da rede, e por isso, não receberam
recomendações. Para estes trabalhos, a cobertura depende do número de nós que estão
desconexos na rede.
Em sua abordagem, Monclar (2008) realiza recomendações apenas para os nós
problemáticos da rede. No caso da nossa rede analisada, somente 5 pesquisadores foram
detectados como nós problemáticos. Porém, dos 5 nós possíveis de receberem
recomendações, apenas 4 receberam. Isto ocorreu porque não foi possível realizar nenhum
tipo de recomendação para um dos nós problemáticos. No caso da recomendação feita de
acordo com as competências, nenhum pesquisador possuía o mesmo nível de expertise que
o pesquisador em questão. E no caso da recomendação que leva em consideração a
distância entre os nós, nenhum nó na rede distava mais que 6 passos desse nó. Por isso,
CEusu_Monclar = 4/5. Para este trabalho, a cobertura depende do número de nós
problemáticos na rede.
166

O método de Lee (2012) não conseguiu realizar recomendações a três pesquisadores.


Isto ocorreu porque todas as métricas de recomendação de Lee (2012) levam em
consideração relacionamentos, sejam eles entre pesquisadores ou entre pesquisador e
conferências, e etc. E, há três pesquisadores no banco de dados que não possuíam nenhum
dos tipos de relacionamento propostos por Lee (2012) em sua abordagem e utilizados nesta
avaliação.
O método proposto considera três fatores para fazer recomendações:
compatibilidade entre vizinhos, áreas de atuação e popularidade. Tanto compatibilidade
entre vizinhos quanto popularidade depende de relacionamentos que o pesquisador possua
na rede. Porém, o método áreas de atuação não depende de relacionamento algum,
depende apenas das áreas de atuação que são associadas a um pesquisador. Portanto,
mesmo pesquisadores que estejam desconexos na rede, ou seja, que não possuem nenhum
tipo de relacionamento com os outros pesquisadores, podem receber recomendações.
A Tabela 28 apresenta a cobertura do espaço do usuário por método.

Tabela 28. Cobertura do Espaço do Usuário por método – Avaliação 2.


MÉTODO COBERTURA DO ESPAÇO DO USUÁRIO
Zudio 1
Brandão 26/30
Lopes 25/30
Lee 27/30
Monclar 4/5

A cobertura de catálogo pode ser definida como a porcentagem de itens que podem
ser recomendados pelo sistema de recomendação (RICCI et al., 2011). Ou seja, é a
porcentagem de pesquisadores que podem ser recomendados.
Conforme Equação 24, calculando a cobertura do catálogo para os trabalhos
analisados, temos: CCat_Brandão = 26/30, CCat_Lopes = 25/30 e CCat_Monclar = 1,
CCat_Lee = 27/30. O valor desta métrica para o método de recomendação proposto é igual a
CCat_Zudio = 1.
A Tabela 29 apresenta a cobertura de catálogo por método.
167

Tabela 29. Cobertura de Catálogo por método – Avaliação 2.


MÉTODO COBERTURA DO CATÁLOGO
Zudio 1
Brandão 26/30
Lopes 25/30
Lee 27/30
Monclar 4/5

Em Lopes et al. (2010) a cobertura não é total pelo mesmo motivo apresentado
anteriormente, assim como em Brandão e MORO (2012) e em Lee e Adorna (2012).

b) Quanto à Novidade
A novidade em um sistema de recomendação quantifica o número de itens novos
recomendados a um usuário, ou seja, itens que ele não conhecia. Em nossa abordagem,
conforme mencionado na seção 7.1.2, foi definido que uma recomendação é nova quanto
não existir parceria entre o pesquisador que está recebendo as recomendações e o
pesquisador recomendado.
Calculando a novidade para os trabalhos analisados, conforme Equação 27, temos:
N_Brandão = 0.84, N_Lopes = 0.84 e N_Monclar = 0.95, N_Lee = 0.77. Como o método de
recomendação proposto neste trabalho tem como objetivo recomendar apenas novos
relacionamentos, a métrica novidade para ele é igual a N_Zudio = 1. Porém, esta métrica
não deve ser considerada para fazer uma comparação entre os trabalhos, pois a proposta de
cada um deles era diferente neste aspecto.
A Tabela 30 apresenta a novidade calculada para cada método.

Tabela 30. Novidade por método – Avaliação 2.


MÉTODO NOVIDADE
Zudio 1
Brandão 0.84
Lee 0.77
Lopes 0.84
168

Monclar 0.95

Em Lopes et al. (2010) foram feitas 179 recomendações no total, sendo que 29
parcerias recomendadas já existiam. Em Brandão e Moro (2012) foram recomendados 177
pesquisadores no total, sendo que 29 parcerias recomendadas já existiam. Em Monclar
(2008) foram recomendados 21 pesquisadores no total, sendo que apenas 1 das parcerias já
existia. Isto ocorreu porque Monclar (2008) somente faz recomendações a nós
problemáticos na rede e, alguns destes problemas têm a ver com nós isolados e periféricos,
ou seja, nós com nenhum relacionamento ou poucos. Portanto, a probabilidade de
recomendar parcerias novas é maior. Por fim, em Lee e Adorna (2012) foram feitas 242
recomendações, sendo que 56 parcerias recomendadas já existiam, O método proposto
neste trabalho sempre recomenda uma lista com os dez pesquisadores mais similares a cada
pesquisador, portanto, foram feitas 300 recomendações por ele no total. Das parcerias
recomendadas, nenhuma existia na base de dados utilizada.
De acordo com a métrica de cobertura apresentada acima, vimos que o método
proposto apresenta um melhor desempenho quando comparado aos principais trabalhos da
área. A métrica de novidade, apesar de ter sido calculada, não pode ser considerada como
um fator de comparação, pois os demais métodos não se propõem a realizar apenas
recomendações novas.
Esta avaliação tem como objetivo provar a hipótese alternativa, refutando assim a
hipótese nula. No estudo atual, a hipótese alternativa determina que as recomendações
realizadas pelo método proposto foram melhores em pelo menos um critério. Conforme
pode ser visto nas tabelas Tabela 28, Tabela 29 e Tabela 30, as recomendações realizadas
pelo método de recomendação proposto foram melhores em todos os três critérios
utilizados: cobertura de catálogo, cobertura do espaço do usuário e novidade. Portanto,
conseguimos refutar a hipótese nula e comprovar a alternativa.
Para uma análise qualitativa do método foi feita uma avaliação com um grupo mais
abrangente de participantes, conforme pode ser visto na seção 7.4.
169

7.4 Avaliação 3 – Análise Qualitativa (Quasi-Experimento)


A última avaliação foi classificada como análise qualitativa dos dados ou Quasi-
Experimento. Essa avaliação consiste na análise dos resultados de recomendações para um
grande número de pesquisadores da área de Ciência da Computação de várias universidades
e de vários níveis de experiência do Brasil.

7.4.1 Definição do Estudo


Este estudo tem por objetivo avaliar a qualidade das recomendações do método
proposto a partir do feedback do usuário. Deste modo, utilizando o GQM (SOLINGEN;
BERGHOT, 1999), temos:
Analisar o método de recomendação criado
Com o propósito de avaliar a viabilidade de sua utilização
Referente à satisfação do usuário e aos valores Precisão, Ranking, Auto-confiança
(Confidence), Confiança (Trust), Utilidade, Cobertura de Catálogo, Cobertura do Espaço do
Usuário, Novidade
Do ponto de vista de pesquisadores de Ciência da Computação
No contexto dos programas brasileiros de pós-graduação em Computação das
instituições avaliadas pelo Capes no triênio iniciado em 2010 com avaliação Capes acima de
2.

7.4.2 Planejamento do Estudo


Participantes: este estudo contará com a participação de pesquisadores de diferentes
programas de pós-graduação na área de Ciência da Computação em todo o Brasil. Tais
pesquisadores deverão atuar em áreas diversas, com expertise variada.
Contexto: para este estudo, foram feitas recomendações utilizando informações que
foram extraídas dos currículos Lattes dos 1382 pesquisadores participantes. Tais
informações foram armazenadas em uma base de dados MySQL (2014) conforme descrito
em seção 6.4.6. A base de dados contêm informações dos pesquisadores até a data de
04/02/2014. Os endereços eletrônicos dos 1382 participantes do estudo foram coletados
manualmente nos sites pessoais dos participantes ou nas páginas das instituições em que
eles trabalhavam.
170

Instrumentos: Para viabilizar o estudo foi elaborada uma aplicação web disponível
em http://pzdelima.com.br que apresentava as recomendações realizadas pelo método
proposto, além de um questionário (Apêndice B) para ser respondido pelos participantes.
Este questionário tem por objetivo investigar como são formadas as colaborações entre
pesquisadores e avaliar as recomendações feitas pelo método proposto. Para isso, o
questionário continha um conjunto de recomendações de pesquisadores feitas pelo método.
Cada participante do experimento veria o seu próprio conjunto de recomendações no
questionário. Para cada recomendação feita, era possível selecionar uma nota variando de 1
a 5, conforme Tabela 19, apresentada anteriormente.
Ao final do questionário o participante deveria responder um conjunto de três
perguntas de acordo com seu nível de satisfação com as recomendações feitas pelo método
proposto.
A partir das notas dadas às recomendações será possível avaliar a qualidade das
recomendações do método proposto.
Treinamento: Não houve necessidade de treinamento porque todos os participantes
possuem pleno domínio em navegação de páginas web e formulários eletrônicos.
Projeto Piloto: Antes da execução do estudo, realizamos um projeto piloto com a
mesma estrutura descrita neste planejamento. Para o projeto piloto, selecionaremos apenas
um participante, pesquisadora do PPGI/UFRJ, com bastantes conhecimentos sobre suas
áreas. Algumas recomendações de professores com diferentes níveis de expertise foram
feitas e este participante avaliava os resultados.
Critérios: Os critérios analisados foram os de Precisão, Ranqueamento, Auto-
confiança (Confidence), Confiança (Trust), Utilidade e Média das Notas dadas pelos
participantes. Neste estudo não foram utilizados as métricas de Novidade, Diversidade e
Cobertura porque visa avaliar os trabalhos utilizando apenas métricas que dependem do
retorno dado pelos usuários.
Hipótese Nula: A hipótese nula é uma afirmativa que esta avaliação tem como
objetivo negar. No estudo atual, a hipótese nula determina que o método proposto terá
eficácia inferior a 50% em cada um dos seguintes critérios de Precisão, Ranqueamento,
Auto-confiança (Confidence), Confiança (Trust) e Utilidade.
H0:
171

50% > µPrecisão-MétodoProposto E


50% > µRanqueamento-MétodoProposto E
50% > µAuto-Confiança-MétodoProposto E
50% > µConfiança-MétodoProposto E
50% > µUtilidade-MétodoProposto

Hipótese Alternativa: A hipótese alternativa é uma afirmativa que nega a hipótese


nula. A avaliação tem como objetivo provar a hipótese alternativa, refutando assim a
hipótese nula. No estudo atual, a hipótese alternativa determina que o método proposto
terá eficácia superior a 50% em pelo menos um dos seguintes critérios de Precisão,
Ranqueamento, Auto-confiança (Confidence), Confiança (Trust) e Utilidade.
H1:
50% ≤ µPrecisão-MétodoProposto OU
50% ≤ µRanking-MétodoProposto OU
50% ≤ µAuto-Confiança-MétodoProposto OU
50% ≤ µConfiança-MétodoProposto OU
50% ≤ µUtilidade-MétodoProposto

Variáveis Independentes: Como varíaveis independentes podemos destacar idade,


gênero, critérios normalmente utilizados para a criação de novas parcerias profissionais,
área de atuação e expertise.
Variáveis Dependentes: A nota da recomendação, a posição (ordem) dos itens
recomendados, característica de maior destaque para o trabalho em conjunto, grau de
satisfação com o método e sua possível utilização.
Capacidade Aleatória: Pode ser exercida na seleção dos participantes do estudo e na
distribuição dos objetos de análise entre os participantes. Idealmente os indivíduos que
realizarão o estudo devem ser selecionados aleatoriamente dentre o universo de candidatos
a participantes, ou seja, dentre o conjunto das pessoas disponíveis que atendam aos
critérios especificados no parágrafo “Participantes”. Neste estudo não respeitamos a
capacidade aleatória. Em relação aos objetos de análise, gostaríamos que cada participante
deste estudo avaliasse as recomendações feitas a ele pelo método proposto. Em relação à
172

escolha dos participantes, optamos por convidar todos os pesquisadores dos programas de
pós-graduação em Ciência da Computação do Brasil avaliados pela Capes com nota superior
a 2 no triênio iniciado em 2010 e aceitar aqueles que se candidatassem. Apesar do
voluntariado não ser uma escolha aleatória, preferimos utilizar este método porque
acreditamos que desta maneira o grau de comprometimento do participante seria maior.
Validade Interna do Estudo: a validade interna de um estudo é definida como a
capacidade de um novo estudo repetir o comportamento do estudo atual com os mesmos
participantes e objetos com que ele foi realizado. A validade interna do estudo é
dependente do número de participantes executando o estudo. Esperamos contar com pelo
menos 10% dos participantes convidados. Além disso, dos respondentes, teremos que ter ao
menos 1 representante de cada de expertise: júnior, pleno e sênior. Certamente, um
número maior de participantes melhoraria a validade interna do estudo. Outro ponto que
pode influenciar o resultado do estudo é a troca de informações entre os participantes que
já realizaram o estudo e os que não o realizaram. Esta troca de informação não ocorreu, pois
todas as avaliações foram feitas remotamente pelos respondentes, fora do ambiente de
trabalho.
Validade Externa do Estudo: a validade externa do estudo mede sua capacidade de
refletir o mesmo comportamento em outros grupos de participantes e profissionais da
indústria, ou seja, em outros grupos além daquele em que o estudo foi aplicado. De alguma
maneira, a validade externa é conferida por esta própria avaliação, dado que ela é realizada
em diferentes grupos de participantes de diferentes instituições de pesquisa e ensino.
Validade de Construção do Estudo: a validade de construção do estudo se refere à
relação entre os instrumentos e participantes do estudo e a teoria que está sendo provada
por este. Neste caso, escolhemos um domínio amplamente conhecido pelos participantes,
podendo realmente avaliar o grau de importância da avaliação feita. Fora isso, nenhum dos
participantes tinha conhecimento do método proposto.
Validade de Conclusão do Estudo: a validade de conclusão do estudo mede a relação
entre os tratamentos e os resultados, determinando a capacidade do estudo em gerar
alguma conclusão. Não encontramos grandes dificuldades em relação à capacidade de
conclusão do estudo.
173

7.4.3 Execução do Estudo


Seleção de participantes: para a execução do estudo foram convidados 1382
pesquisadores dos programas de pós-graduação em Ciência da Computação do Brasil das
instituições avaliadas pela Capes no triênio iniciado em 2010 com nota acima de 2. Vale
ressaltar que esses pesquisadores atuam em diferentes áreas de atuação (conforme Anexo
B). Além disso, os pesquisadores convidados encontram-se em diferentes estágios de suas
carreiras. Há pesquisadores convidados seniores, plenos e juniores.
Instrumentos: Para execução do estudo, foi enviado um convite individual via correio
eletrônico para cada um dos participantes convidados, conforme Apêndice D.
Execução: Para realizar esta avaliação foram enviadas mensagens eletrônicas para
cada um dos pesquisadores convidados no período de 19/01/2015 a 23/01/2015. Esta
mensagem continha uma breve descrição do método proposto e uma URL para acessar o
sistema para avaliação. Neste sistema, eram exibidas as recomendações do pesquisador de
acordo com a URL do Lattes informada. O pesquisador, então, deveria responder a algumas
perguntas (Apêndice A) e dar uma nota a cada uma das recomendações feitas pelo método
proposto. Os participantes tiveram até o dia 05/02/2015 para responder o questionário.

7.4.4 Análise dos Resultados

7.4.4.1 Análise Prévia

Um passo anterior à análise dos dados dessa avaliação também foi a preparação dos
dados. A base de respostas dos pesquisadores foi verificada procurando por alguma
inconsistência ou algum dado com erro, que precisasse de alguma correção. Para essa
avaliação foram encontrados dois tipos de erros: existiram pesquisadores que responderam
mais de uma vez a avaliação e existiram pesquisadores que colocaram a url de seu Lattes de
maneira incorreta, respondendo como se fossem outra pessoa. Para instruir os
pesquisadores, foi colocada uma URL do Lattes de exemplo, no formato que ela deveria ser
inserida. Porém, alguns pesquisadores acharam que era pra utilizar exatamente a URL de
exemplo como entrada no sistema de avaliação, respondendo o questionário como se fosse
o pesquisador que possui aquela URL Lattes, no caso, a Prof. Jonice Oliveira. Com isso,
174

percebemos a inconsistência dos dados observando as respostas do questionário e do


campo de comentários. Havia várias respostas da professora Jonice Oliveira na base de
dados que não tinham sido feitas por ela. Esses casos foram retirados do conjunto de
respostas para análise.
Outro problema enfrentado para essa avaliação foi referente à busca pelos e-mails
dos pesquisadores. A coleta de endereços eletrônicos para envio de convites para
participação da pesquisa foi realizada manualmente. Ela foi feita a partir de buscas
realizadas em páginas das universidades participantes ou em páginas pessoais dos
convidados. Alguns destes endereços eletrônicos coletados nesta busca não eram atuais e,
com isso, cerca de 30 mensagens enviadas retornaram. Em alguns casos, as mensagens não
puderam ser reenviadas, pois não foi encontrado nenhum endereço eletrônico alternativo.
O convite foi realizado a 1382 pesquisadores de várias universidades do Brasil, porém
apenas 263 pesquisadores responderam a avaliação. Esse número já consta com a limpeza e
algumas exclusões de respostas. O total de pesquisadores participantes ficou em torno de
19% aproximadamente. A seguir, são apresentadas 2 tabelas indicando a distribuição dos
participantes por faixa etária (Tabela 32) e sexo (Tabela 33). Também foi feita uma tabela
(Tabela 31) indicando a distribuição dos pesquisadores por universidade.

Tabela 31. Distribuição de participantes por universidade – Avaliação 3.


INSTITUIÇÃO QUANTIDADE
Universidade Federal do Rio de Janeiro 22
Universidade de São Paulo 20
Universidade Federal do Rio Grande do Sul 15
Universidade Federal de Pernambuco 12
Universidade Estadual de Campinas 10
Universidade Federal de Minas Gerais 10
Universidade Federal Fluminense 9
Universidade Federal do Espírito Santo 8
Universidade Federal do Amazonas 7
Universidade Federal de Santa Catarina 7
Universidade Federal do Ceará 6
Universidade Federal de Santa Maria 6
Universidade Estadual de Londrina 6
Universidade Federal da Bahia 6
Universidade Federal de Campina Grande 5
Universidade Federal de São Carlos 5
Universidade Federal do Paraná 5
175

Universidade Federal de Alagoas 4


Universidade Federal do Estado do Rio de Janeiro 4
Universidade Federal do Maranhão 4
Universidade Federal de Mato Grosso do Sul 4
Universidade Federal de Itajubá 4
Universidade Federal do ABC 4
Universidade de Fortaleza 4
Universidade Federal da Paraíba 4
Universidade Federal de São Paulo 4
Universidade do Vale do Rio dos Sinos 4
Universidade de Brasília 4
Pontifícia Universidade Católica do Rio de Janeiro 4
Universidade Estadual de Maringá 3
Universidade Federal Rural do Semi Árido 3
Pontifícia Universidade Católica do Paraná 3
Universidade Federal de Pelotas 3
Universidade Federal do Pará 3
Universidade Federal de Sergipe 3
Universidade Federal de Juiz de Fora 2
Universidade Federal do Piauí 2
Universidade Estadual Paulista 2
Universidade Federal de Uberlândia 2
Universidade Federal de Goiás 2
Universidade Estadual Paulista (UNESP) 2
Universidade Estadual Paulista "Júlio de Mesquita
2
Filho"
Universidade Federal do Rio Grande 2
Pontifícia Universidade Católica do Rio Grande do Sul 2
Universidade de computação 1
Instituto Federal do Amazonas - IFAM 1
Universidade Católica do Paraná 1
Universidade Estadual do Ceará 1
Instituto Tecnológico da Aeronáutica 1
Universidade do Estado do Rio Grande do Norte 1
Universidade Católica Dom Bosco 1
Universidade Estadual de Campinas (UNICAMP) 1
Universidade de Pernambuco 1
Universidade Federal Rural do Semi Árido 1
Universidade Federal de Goias 1
Universidade Federal do Pampa 1
Universidade do Vale do Itajaí 1
Universidade Estadual de Feira de Santana 1
Universidade Federal de Alagoas 1
Universidade Federal de Ouro Preto 1
176

Universidade Federal de Viçosa 1


Universidade Federal do ABC 1
Universidade Salvador 1
Não Informado pelo Pesquisador 1

Tabela 32. Distribuição de participantes por faixa etária – Avaliação 3.

QUANTIDADE
FAIXA DE IDADE DE
PARTICIPANTES
Inferior a 20 anos 1
20 a 30 anos 5
31 a 40 anos 107
41 a 50 anos 93
51 a 60 anos 47
61 a 70 anos 9
Superior a 70 anos 1

Tabela 33. Distribuição de participantes por sexo – Avaliação 3.


QUANTIDADE
SEXO DE
PARTICIPANTES
Feminino 64
Masculino 199

Como realizado na primeira avaliação, as próximas figuras (Figura 38, Figura 39,
Figura 40, Figura 41) indicam uma distribuição das notas dadas para perguntas que medem o
nível de satisfação dos pesquisadores participantes da pesquisa e também a distribuição das
notas dadas pelos pesquisadores às recomendações.
177

Figura 38. Gráfico de distribuição de notas atribuídas às recomendações – Avaliação 3.

Figura 39. Gráfico de nível de satisfação dos participantes de uma forma geral – Avaliação 3.

Figura 40. Gráfico do nível de satisfação dos participantes quanto ao método – Avaliação 3.
178

Figura 41. Gráfico de nível de satisfação dos participantes quanto às recomendações – Avaliação 3.

Com esses dados, é possível fazer uma análise melhor sobre as notas distribuídas
pelos pesquisadores participantes. Através da Figura 38, vemos que o número de notas 4 e 5
(correspondentes às avaliações de Possivelmente Trabalharia e de Definitivamente
Trabalharia) superaram as notas mais baixas e neutra. Temos uma proporção de
aproximadamente 55% com respostas 4 e 5. Os outros 45% são divididos pelas outras 3
notas, sendo 22,7% para a nota 3 (neutro), 16,6% para a nota 2 e apenas 5,7% para a nota 1.
Na Figura 38 podemos ver, portanto, que o método de avaliação proposto
apresentou um total de 1446 notas positivas (55%), 596 notas neutras (22,7%) e 588 notas
negativas (22,3%).
O nível de satisfação dos participantes também foi positivo, onde a quantidade de
respostas SIM superaram em 40% as respostas NÃO. Para as três perguntas apresentadas
nos gráficos acima, tivemos uma relação de 72% em média para as respostas SIM. Ou seja,
em média 72% dos participantes do experimento recomendariam o método, utilizariam as
recomendações realizadas e ficaram satisfeitos com as recomendações de uma forma geral.
Além dessas comparações ainda foram realizadas análises seguindo as métricas
apresentadas por (RICCI et al., 2011). As mesmas métricas utilizadas na primeira avaliação
são aplicadas nessa.

a) Precisão
Nesta métrica queremos medir a precisão das recomendações geradas, ou seja, se as
recomendações feitas foram positivas para os pesquisadores. Em nosso cenário, podemos
considerar como avaliações positivas aquelas que o pesquisador avaliou com notas 4
(possivelmente trabalharia) ou 5 (definitivamente trabalharia) e, como negativas, aquelas
que ele avaliou com notas 1 (definitivamente não trabalharia) ou 2 (possivelmente não
179

trabalharia). Com isso, para calcular a precisão em nosso cenário utilizamos a razão entre o
número de recomendações feitas para um pesquisador avaliadas com notas 4 e 5 e o
número de recomendações feitas avaliadas com notas 1, 2, 4 e 5. Portanto, para esta
avaliação, temos:
Precisão = 1446 / 2034 = 71,1%

Ou seja, 71,1% das recomendações geradas foram positivas para os pesquisadores.

b) Ranqueamento
Esta métrica verifica se o usuário atribuiu notas maiores aos itens recomendados no
topo da lista de recomendações, levando em consideração que a lista está ordenada do item
mais útil para o menos útil para o usuário.
Desta forma, para calcular esta métrica, utilizamos a Equação 23. Portanto, para esta
avaliação, temos:
Ranqueamento = 1206/2721 = 44,3%.

Ou seja, dentre as recomendações feitas, a ordenação dos itens foi considerada


satisfatória em 44,3% dos casos.

c) Auto-Confiança (Confidence)
Esta métrica mede a confiança que o sistema de recomendação tem nele mesmo de
acordo com as recomendações positivas que foram feitas. Para calcular esta métrica fizemos
a razão entre o número de notas positivas (4 e 5) e o total de notas. Portanto, para esta
avaliação, temos:
Auto-Confiança = 1446 / 2360 = 62,3%

Ou seja, dentre as recomendações feitas, o sistema pode confiar em 62,3% delas, de


acordo com esta avaliação.

d) Confiança (Trust)
180

Esta métrica mede a confiança que o usuário tem no sistema. Para isso, perguntamos
aos participantes da avaliação se eles recomendariam o método proposto. O fato de eles
recomendarem o método ou não pode ser considerado um indicativo de confiança no
método. Para calcular esta métrica utilizamos a razão entre o número de avaliações SIM
dadas e o número total de avaliações. Portanto, para esta avaliação, temos:

Confiança = 189/263 = 72%

Ou seja, 72% dos pesquisadores participantes responderam que recomendariam este


método.

e) Utilidade
Para mensurar se as recomendações feitas pelo método foram úteis aos
participantes, perguntamos a eles se eles usariam as recomendações realizadas. E com isso,
para calcular esta métrica, utilizamos a razão entre o número de participantes que
responderam SIM, ou seja, que usariam as recomendações feitas, e o número total de
participantes. Portanto, para esta avaliação, temos:

Utilidade = 192/263 = 73%

Ou seja, 73% dos pesquisadores participantes responderam que utilizariam as


recomendações realizadas.

No estudo atual, a hipótese alternativa determina que o método proposto terá


eficácia superior a 50% em pelo menos um dos seguintes critérios de Precisão,
Ranqueamento, Auto-confiança (Confidence), Confiança (Trust) e Utilidade. Conforme pode
ser visto anteriormente, o método proposto teve eficácia superior a 50% em 4 de 5 dos
critérios. Foram eles: Precisão, Auto-Confiança (Confidence), Confiança (Trust) e Utilidade.
Somente o critério Ranqueamento ficou com valor abaixo do esperado, porém, ainda assim
foi próximo a 50%, tendo ficado com o valor de 44,3%. Portanto, conseguimos refutar a
hipótese nula e comprovar a alternativa.
181

7.5 Conclusão

Neste capítulo foi apresentada a avaliação do método de recomendação proposto


nessa pesquisa. Três abordagens distintas foram utilizadas para avaliar as recomendações. A
primeira foi uma abordagem comparativa, em que foram dadas notas de 1 a 5 para os
pesquisadores recomendados pelo método proposto e por outros 4 métodos similares
presentes da literatura. Essa avaliação foi feita apenas com pesquisadores do PPGI.
A segunda abordagem também utilizou a mesma rede de pesquisadores do PPGI.
Esta abordagem tinha como objetivo identificar as novas parcerias que se iniciaram após a
data de corte da extração dos resultados. Buscávamos comparar o nosso método com
outros 4, verificando qual método obteve o maior número de parcerias concretizadas.
A terceira abordagem leva em consideração apenas o método proposto e foi
realizada com pesquisadores de todo o país. Nessa abordagem medimos a qualidade das
recomendações feitas a partir de notas dadas pelos pesquisadores participantes.
Através dos resultados apresentados em cada uma das avaliações, podemos ver que
o método apresentou, de uma forma geral, um resultado satisfatório.
Quando avaliado somente com a rede de pesquisadores do PPGI, na primeira
avaliação, o método obteve um desempenho abaixo do esperado. Isto pode ter ocorrido
pela interpretação errada da avaliação por parte dos participantes. Alguns participantes
acharam ruim o método indicar pesquisadores do seu convívio diário, porém, esta já era
uma condição da própria avaliação, devido ao número pequeno de participantes. Mesmo
nessas condições o número de avaliações positivas foi superior ao de avaliações negativas.
Além disso, método ainda apresentou uma precisão de 58,5%. Quando confrontado com
outros 4 métodos de recomendação obteve o menor desempenho.
Na segunda avaliação, podemos ver que o método proposto conseguiu identificar
com sucesso futuras relações que vieram a ocorrer após a data de corte da extração. Nesta
avaliação, quando confrontado com outros 4 métodos de recomendação, o método
proposto obteve o melhor desempenho.
Na terceira abordagem, quando utilizado um número maior de pesquisadores, o
método obteve melhores resultados. A precisão das recomendações ficou em torno de 71%.
182

O nível de satisfação do pesquisador também pode ser observado através das


respostas Dadas às seguintes perguntas: 1) “No geral, você ficou satisfeito?”; 2) “Utilizaria as
recomendações realizadas?”; 3) “Recomendaria este método?”. Para essas perguntas foi
obtida a maioria de respostas positivas, em média com 72% de respostas SIM. Ou seja, em
média, 72% dos participantes ficaram satisfeitos com o método proposto.
Outra forma de avaliar o nível de satisfação do usuário é a partir dos comentários
feitos no questionário. Alguns pesquisadores diziam que ficaram surpresos com os
pesquisadores recomendados pelo método ou que os indicados tinham um perfil bem
semelhante ao seu. Também recebemos comentários parabenizando pela iniciativa e
dizendo que é a área estudada é bem complexa, pois depende de inúmeros outros fatores.
Sugestões para transformar o método em uma ferramenta de recomendação ou ainda
sugerindo uma possível integração com o Lattes também foram recebidas.
Comentários mais críticos relacionados com o mau funcionamento do método
também foram recebidos e analisados. Alguns pesquisadores disseram que receberam
recomendações de pesquisadores já parceiros. Porém, nesses casos vale lembrar que o
método pode não ter tido conhecimento desse relacionamento existente entre os
pesquisadores devido a não extração de algumas informações por parte do Lattes. Também
pode ocorrer que o relacionamento mencionado pelo pesquisador seja algum
relacionamento não contemplado por esse método, como participação em banca de
concurso. Outros pesquisadores ainda disseram que receberam recomendações de
pesquisadores que não estavam trabalhando em sua área. Como observamos, a maioria
destes casos ocorreu por três motivos: 1) áreas de atuação muito genéricas no Lattes do
pesquisador, como por exemplo, “Sistemas de Informação”, “Engenharia de Software” e
“Banco de Dados”; 2) pouca informação disponível no Lattes do pesquisador; 3)
pesquisadores que atuam em áreas muito específicas, que há poucas pessoas trabalhando
na mesma área. Por exemplo, determinados pesquisadores trabalham na área de “Teste de
Software” e receberam recomendações de pesquisadores que trabalham com “Engenharia
de Software”. Quando conferimos o motivo desse acontecimento, verificamos que o
pesquisador informou em seu Lattes que atuava em “Engenharia de Software” e, por isso, o
método realizou recomendações para essa área (que é uma área bastante ampla e mais
183

geral que “Teste de Software”). Esse fato fez alguns pesquisadores terem mais cuidado com
esse campo, como foi constatado em alguns comentários.
Também foram encontrados comentários contendo críticas e sugestões. Alguns
pesquisadores relataram que não buscariam por parcerias utilizando um sistema de
recomendação, pois a mesma vai além das informações apenas contidas no Lattes,
envolvendo simpatia e afinidade. Outros ainda afirmaram que um motivo que o desagradou
na recomendação foi a baixa produtividade do pesquisador indicado nos últimos anos, ou
ainda que sentiram falta do uso do índice-h. De fato, nenhum desses dois fatores fizeram
parte do método de recomendação proposto. Em relação à baixa produtividade acadêmica,
este fator pode ser acrescentado como uma melhoria do trabalho. Já em relação ao índice-h,
que tenta quantificar a produtividade e o impacto de um determinado pesquisador de
acordo com citações de seus artigos, não foi usado por não ser uma informação presente na
grande maioria dos Lattes.
A seguir, na Tabela 34, alguns comentários que ilustram o que foi citado. Para a
identificação do pesquisador foi utilizado seu identificador no sistema, mantendo a
privacidade de suas respostas.

Tabela 34. Alguns comentários feitos pelos pesquisadores com respeito ao método proposto.
IDENTIFICADOR
DO COMENTÁRIO
PESQUISADOR
1348 “Integre ao sistema Lattes, será muito útil.”

“A qualidade da recomendação me impressionou. Pequena


350 quantidade de falsos positivos. Mas, não dá para analisar os falsos
negativos. Fiquei curioso quanto a esse aspecto.”
“A proposta é bastante interessante, inclusive gostaria de ter acesso
187
aos resultados e conclusões da mesma.”
808 “Boa surpresa as recomendações recebidas.”

“As recomendações foram relevantes. Acredito que poderia usá-las


1245
como guia na busca de possíveis parcerias em projetos.”
969 “Verifiquei que preciso melhorar a descrição em meu CV. Acho que
184

orientações já concluídas, supervisão de projetos e área de atuação


são importantes itens que precisam estar na descrição.”
“O método é interessante porque demonstra o interesse de
colaboração geral de pesquisadores por um dado pesquisador. No
801 entanto, me chama mais atenção o índice h de um pesquisador, pois
de certa forma este índice me parece mais relacionado com
efetividade e qualidade do trabalho do mesmo.”
“Não sei quais os critérios utilizados, mas definitivamente as
140
recomendações ficaram muito longe da minha área de interesse.”
“O método permite abrir horizontes no sentido de encontrar novos
parceiros e, inclusive, talvez o método também seja útil no sentido
de deixar mais explicito no meu currículo meus interesses
267
acadêmicos e fornecer mais detalhes de forma que, ao utilizar esta
recomendação seja possível buscar novos parceiros que realmente
se enquadrem nos meus interesses de pesquisa.”
“Eu nunca escolheria um colaborador segundo o método proposto.
Acredito que o teste de múltipla escolha acima, em que atribuo de
nunca trabalharia a definitivamente trabalharia a uma pessoa
1307 simplesmente olhando o seu currículo lattes não faz o menor
sentido. A escolha de um colaborar envolve vários aspectos
subjectivos, como a simpatia e a facilidade de interação entre as
pessoas, e isso não será detectado ao ler o currículo lattes.”
“Faltou o método explicar porque essas pessoas me foram
1215
recomendadas, para eu ter interesse em conhece-las.”
“Para mim, uma recomendação de alguém conhecido com quem já
1283 trabalhei é muito importante. Se eu soubesse quem me recomendou
esses pesquisadores, isso seria levado em conta.”

Outros aspectos foram observados com a análise das respostas dos pesquisadores
que podem ser implementados em versões futuros do trabalho. Por exemplo, alguns
pesquisadores relataram que sentiram falta de ver, entre os recomendados, algum
185

pesquisador com quem eles já haviam trabalhado. O que pode ser observado é que quando
um método de recomendação recomenda parcerias já conhecidos pelo pesquisador, este
passa a ter mais confiança no método. Porém, o objetivo do método proposto não era esse,
mas sim recomendar parcerias novas, para conectar pesquisadores desconhecidos. Um
ponto falho de recomendar pesquisadores com quem já se teve uma parceria é que não há
como saber por que as alianças foram desfeitas. Sendo assim, o método estaria
recomendando parcerias negativas.
Outro fato observado diante das respostas é que para uma recomendação funcionar,
não basta fazer boas recomendações, mas deve-se estimular o usuário a segui-las, talvez
criando atrativos para que eles de fato achem que aquelas recomendações foram
boas. Talvez isso seja possível com o apoio de estratégias da área de Interface Humano
Computador (IHC).
Com todas as análises realizadas baseadas em métricas e em análise das respostas
dos pesquisadores, podemos concluir que o método apresentou um bom desempenho na
realização das recomendações
186

8 Otimização da Solução através do Algoritmo de Colônia


de Formiga

Redes sociais científicas tendem a ser complexas de serem analisadas. Isso devido a
grande quantidade de informação existente. Redes homogêneas que usam apenas
pesquisadores como nós e coautoria como relacionamento já apresentam um grande nível
de complexidade e elevada quantidade de informação. Este conceito torna-se mais
complexo quando são utilizadas redes sociais científicas heterogêneas, onde são usados
vários tipos de nós e de relacionamentos.
Análises sobre essas estruturas tendem a ser complexas computacionalmente. Desse
modo, alguns algoritmos de otimização podem auxiliar nesse processo. Existem vários
algoritmos que atendem esse contexto, porém para o cenário apresentado será descrito o
algoritmo das colônias de formigas.
Alguns algoritmos existentes para resolução de sistemas complexos têm uma origem
no comportamento de insetos que vivem em sociedades altamente gerenciadas. O algoritmo
colônia de formigas é um exemplo desse caso. Esse tipo de algoritmo foi proposto pela
primeira vez em 1992 na tese de doutorado do pesquisador Marco Dorigo, e tem como base
o comportamento das formigas quando estas buscam por seu alimento.
As formigas vivem em sociedade na natureza, cada uma tem sua especialização e
executa uma determinada tarefa, visando um bem comum. Quando buscam seus alimentos
saem em várias direções até encontrá-lo. Ao caminhar, as formigas depositam no solo uma
substância química chamada feromônio que é utilizada para se comunicarem umas com as
outras. O objetivo do feromônio é orientar as formigas em relação ao caminho a percorrer
para encontrar sua comida. Com o passar do tempo, o feromônio vai evaporando do solo.
Ou seja, caminhos por onde a formiga não passa frequentemente e que não levaram a
comida ficam com uma concentração menor do que os caminhos que levaram a comida e
que as formigas passaram com mais frequência. Logo, um caminho com uma maior
quantidade de feromônio, indica uma maior quantidade de formigas passando pelo mesmo
caminho, o que o torna mais atrativo para outras formigas.
187

O algoritmo de colônia de formigas (Ant Colony) foi proposto com base no


comportamento de algumas espécies de formigas, descrito anteriormente. Ele é um
algoritmo de otimização criado para soluções de problemas computacionais que envolvem a
procura de caminhos em grafos. A ideia básica do algoritmo é a utilização do termo
conhecido como reforço positivo. Esse termo pode ser comparado com o depósito do
feromônio no caminho por onde as formigas passam, realizando um reforço nos caminhos
mais percorridos, tornando-o mais suscetível a ser tomado por uma próxima formiga. Nos
algoritmos é utlizado um feromônio virtual para enfatizar alguns caminhos. A evaporação do
feromônio que ocorre na natureza pode ser comparado ao termo usado como reforço
negativo, enfatizando alguns caminhos que não devem ser seguidos pelo algoritmo. Esses
dois termos fazem com que diminua a possibilidade de se encontrar uma solução não ótima
para o problema em questão.
A seguir tem-se a Figura 42 refletindo o comportamento do algoritmo de colônia de
formiga.

Figura 42. Exemplo do funcionamento do algoritmo Ant Colony.

A figura apresenta em t = 1, a saída das formigas em busca do alimento. Em t = 2, as


formigas encontrando seu alimento e depositando o feromônio no caminho. Finalmente em
t = 3, o caminho com maior quantidade de feromônio tende a ser mais atrativo para as
formigas.
188

Esse algoritmo também leva em conta uma terceira função chamada de função
objetivo. Tal função determina qual o melhor caminho dentre todos os melhores caminhos
percorridos em cada interação.
Métodos de recomendação de relacionamentos utilizando redes sociais podem ser
implementados com esse tipo de algoritmo, como pode ser visto em (MENDONÇA, 2014).
Nos questionários respondidos pelos pesquisadores foram apresentados outros critérios que
fariam com o que o pesquisador se interessasse pela parceria com outro. Esses critérios
podem se tornar condições para a equação de similaridade entre dois pesquisadores. O uso
dessas várias condições somado com a atual complexidade da recomendação em um cenário
heterogêneo faz com que o uso desses algoritmos facilite a busca por possíveis indicados
para a recomendação. O algoritmo da formiga iria percorrer o grafo da rede social
verificando qual pesquisador possui uma maior similaridade com outro, respeitando as
novas condições, que podem ser, por exemplo, distância física pequena, ou ainda
pesquisadores de determinada universidades, ou ainda pesquisadores com grande produção
acadêmica, etc.
Foi desenvolvida uma versão do método de recomendação utilizando o algoritmo da
colônia de formigas, para que futuramente fossem acrescentadas as condições sugeridas
pelos pesquisadores nas avaliações.
189

9 Conclusão

Neste trabalho foi apresentado um estudo sobre métodos de recomendação de


relacionamentos utilizando redes sociais científicas heterogêneas. Foi visto que a acurácia
das recomendações pode aumentar quando são utilizadas redes sociais científicas
heterogêneas, ou seja, diferentes tipos de relacionamentos e/ou nós para realizar as
recomendações (SUN et al., 2011).
De forma a facilitar a descoberta de possíveis parceiros pelos pesquisadores em um
cenário de grande quantidade de pesquisas científicas sendo produzidas e, formas de
divulgação científica ainda paper-oriented, este trabalho apresentou um novo método de
recomendação de relacionamentos entre pesquisadores utilizando redes sociais científicas
heterogêneas.
Para elaborar o método proposto, um levantamento foi realizado com o objetivo de
identificar possíveis lacunas existentes relacionadas com esse tema. Desse modo, vários
trabalhos foram analisados e categorizados de acordo com as abordagens utilizadas.
Para verificar a viabilidade do método proposto foram feitas três avaliações:
comparativa com a participação do usuário (comparando o método proposto com os
principais trabalhos na área a partir do feedback do usuário); comparativa sem a observação
do usuário (igual a anterior, porém, utilizando métricas de avaliação que independem da
participação do usuário); qualitativa (verificando a qualidade das recomendações feitas com
a participação do usuário). Nas três avaliações feitas, o método apresentou resultados
positivos totais ou parcialmente, sendo recomendado o seu uso por cerca de 72% dos
usuários participantes do método. Para avaliar o método foram convidados pesquisadores
da área de Ciência da Computação dos programas de pós-graduação avaliados pela Capes
com nota superior a 2 no triênio iniciado em 2010. Cerca de 290 pesquisadores de 1382
convidados participaram da avaliação.
Para realizar a avaliação, cerca de quatro trabalhos foram simulados manualmente.
Ou seja, seus métodos de recomendação foram simulados para um grupo fechado de 30
pesquisadores. Para simular os trabalhos correlatos e testar o método de recomendação
proposto, foi necessário utilizar informações dos pesquisadores e seus relacionamentos.
190

Para obter tais informações foi necessário comparar as fontes de dados existentes. Após
comparação foi constatado que o Currículo Lattes era a fonte de dados que melhor se
adequava a proposta. Para obter seus dados, foi criado um extrator de dados.
Este trabalho tem como diferencial utilizar a compatibilidade entre os vizinhos em comum
para gerar recomendações. Outro diferencial do trabalho se encontra no fato do mesmo
realizar recomendações de acordo com a expertise do pesquisador. Por exemplo,
pesquisadores juniores recebem como recomendações pesquisadores seniores, pois
acreditamos que estes sejam mais interessantes para que pesquisadores juniores possam
aumentar sua rede de contatos e conhecimento. O fato do método não levar em
consideração apenas a compatibilidade entre os vizinhos em comum (calculado a partir dos
relacionamentos existentes entre os pesquisadores), ameniza o problema do cold start para
pesquisadores juniores, pois estes pesquisadores podem ter poucos relacionamentos na
rede, e consequentemente, o sistema teria pouca informação sobre eles para gerar
recomendações boas.

9.1 Limitações
Como limitações dessa pesquisa podemos citar principalmente três pontos.
A primeira limitação é referente às informações dos pesquisadores utilizadas para gerar as
recomendações e avaliar o método proposto. Foi necessário construir um sistema capaz de
ler o conteúdo HTML do Currículo Lattes de um pesquisador para capturar as informações
do perfil do mesmo. A extração do Lattes se torna complexa a medida que o HTML da página
não é bem formado e não possui uma estrutura que possibilite a identificação das
informações facilmente. Devido a isso e às particularidades do Lattes, como a inserção
manual e opcional de muitos campos, o extrator não foi capaz de detectar todos os
relacionamentos existentes entre os pesquisadores, gerando algumas recomendações que
não eram novas para o pesquisador, conforme desejado. Ainda com relação ao Lattes, outra
limitação é que o método, para ser avaliado, fica muito dependente do preenchimento
correto das informações do Lattes, assim como da atualização do mesmo. Por exemplo, se
são colocadas apenas áreas de atuação genéricas no currículo, como Sistemas de Informação
ou Engenharia de Software, a tendência é que o método recomende pesquisadores de
acordo com essas áreas genérica e, com isso, as recomendações podem não ser de acordo
com o desejado. Neste ponto, o ideal é que este modelo esteja integrado com soluções de
191

identificação de competências automáticas, as quais podem utilizar mineração de textos


sobre os currículos para a identificação das áreas de atuação dos pesquisadores, como pode
ser visto em (VIVACQUA; OLIVEIRA; SOUZA, 2009; OLIVEIRA; RODRIGUES; SOUZA, 2004;
RODRIGUES; OLIVEIRA; SOUZA, 2006; RODRIGUES; OLIVEIRA; SOUZA, 2005; MARTINO;
OLIVEIRA; SOUZA, 2009).
Outro problema se dá pelo pesquisadores não atualizar frequentemente o currículo
Lattes. Por exemplo, se um pesquisador muda de área de atuação mas não atualiza o Lattes
com essa informação, ele vai receber recomendações da sua área antiga de atuação. Tais
recomendações podem ser consideradas ruins pelo pesquisador, já que o mesmo não atua
mais naquela área.
Outra limitação dessa pesquisa é relacionada com a etapa do estudo do estado da
arte do cenário abordado. Foi realizada a simulação manual de um conjunto de trabalhos
selecionados a partir dos métodos estudados. Esse contexto pode ser visto como uma
limitação, pois nem todos os trabalhos estudados apresentavam de forma clara os passos
necessários para a replicação do método de recomendação. Isso ocasionou a não simulação
do determinado trabalho ou a realização de algumas adaptações necessárias para conseguir
chegar ao método de recomendação. Tal fato prejudica a comparação entre os métodos
devido a adaptação dos mesmos e, por deixar de fora alguns trabalhos existentes
atualmente.
Por fim uma limitação relacionada com a avaliação do método. Nesse cenário,
buscamos utilizar um cenário real para realizar a avaliação, contando com a participação dos
pesquisadores de diversas universidades. Desse modo, foi desenvolvida uma aplicação web
para receber os pesquisadores de modo que fosse possível a observação e qualificação das
recomendações. O que pode ser observado é que houve uma participação baixa por parte
dos convidados, quando comparada ao número de pesquisadores convidados.

9.2 Contribuições
Dentre as contribuições deste trabalho podemos citar: comparação dos principais
trabalhos na área de recomendação de relacionamentos em redes sociais científicas; criação
do extrator de dados do Currículo Lattes; criação de uma nova função para o cálculo de
similaridade entre dois pesquisadores; criação de uma nova função para o cálculo da
expertise de um pesquisador; categorização dos tipos de relacionamentos entre
192

pesquisadores; descrição e comparação das principais fontes de dados sobre os


pesquisadores. Tais contribuições serão detalhadas a seguir.
Uma das contribuições foi o estudo dos trabalhos correlatos na área de
recomendação de relacionamentos utilizando redes sociais científicas, identificando e
confrontando cada método de recomendação, apontando seus pontos positivos e negativos.
Também foi realizado um estudo sobre o estado da arte nesta mesma área, buscando os
principais métodos de recomendação.
Para realizar a simulação e a avaliação do método proposto por esse trabalho, foi
necessário conseguir informações a respeito dos pesquisadores participantes. A plataforma
Lattes foi escolhida para ser a fonte dessas informações. Porém, não havia em nenhum lugar
onde essas informações pudessem ser capturadas para compor as informações de perfil dos
pesquisadores. Dessa forma, foi construído um extrator de dados do Lattes. Ou seja, um
sistema capaz de ler uma página do Currículo Lattes de um pesquisador e extrair algumas
informações. Desse modo, o extrator de dados também pode ser visto como uma
contribuição dessa pesquisa, de modo a servir como sistema de captura de dados de um
determinado Currículo Lattes. Antes de desenvolver o extrator para o Currículo Lattes, foi
necessário o estudo e análise de diversas fontes de dados. Com isso, foi feita uma descrição
e comparação das principais fontes de dados sobre os pesquisadores
Sabe-se que a plataforma Lattes está sempre reformulando seu conteúdo, mudando
a forma como os campos são apresentados. Nesses casos, se a página do currículo Lattes
sofrer poucas mudanças, apenas algumas alterações no extrator são necessárias para
adaptá-lo.
O método de recomendação proposto também pode ser considerado uma
contribuição dessa pesquisa, pois apresentou uma nova função para calcular a similaridade
entre dois pesquisadores e outra para calcular o grau de expertise de um pesquisador. Uma
das principais contribuições do método está na recomendação apenas de relacionamentos
novos, pois a maioria dos trabalhos analisados na área recomenda também relacionamentos
já existentes. A recomendação de relacionamentos novos é útil para integração de grandes
redes, como as redes de um domínio específico (como por exemplo, pesquisadores de
Medicina) ou projetos multidisciplinares e de grande porte (como os INCTs). Diferente da
maioria dos trabalhos analisados, o método também é capaz de realizar recomendações
193

para qualquer pesquisador, minimizando o problema do cold start, comum em métodos de


recomendação, sendo esta, portanto, outra contribuição. Além disso, houve uma
categorização dos tipos de relacionamentos entre pesquisadores de acordo com as formas
de propagação de comportamentos por uma rede social: indução, homofilia e confusão.
Para avaliar o método proposto fizemos duas avaliações diretas com os
pesquisadores envolvidos. Uma das avaliações com um grupo de pesquisadores do PPGI e
outra com pesquisadores do Brasil. Através dessas avaliações foi possível identificar melhor
qual o comportamento dos pesquisadores e como eles observam as recomendações. Através
dessa avaliação do método foi possível receber feedback e críticas dos pesquisadores, onde
relatavam quais os pontos positivos e negativos em uma recomendação no cenário
científico.

9.3 Trabalhos futuros


Nessa seção serão apresentados os trabalhos futuros a essa pesquisa visando
melhorar o entendimento sobre o contexto de recomendações na área científica.
Um primeiro trabalho futuro seria a observação e testes dos pesos em cada um dos
três fatores da função que calcula a similaridade. Isto teria como objetivo verificar se os três
fatores são necessários para fazer recomendações ou se, anulando algum ou alguns deles, as
recomendações melhoram ou pioram. Além disso, os pesos usados para o cenário de Ciência
da Computação poderão ter que sofrer modificações para aplicar este método em outros
cenários, como o Médico ou o Biológico. Assim, para trabalhos futuros, testes nesses
cenários podem ser realizados com o objetivo de verificar o comportamento do método e
testar os possíveis valores dos pesos que se adéquam mais ao contexto aplicado.
Para essa pesquisa foram utilizados apenas dados de pesquisadores brasileiros,
porém é possível adaptar o método para ser utilizado em um contexto mundial. Desse
modo, bases internacionais que contém dados dos pesquisadores devem ser pesquisadas e
avaliadas de modo a obter um mecanismo para extrair as informações necessárias do perfil
do pesquisador. Além disso, mecanismos de integração dessas novas bases de dados com a
base de dados utilizada para esse trabalho devem ser construídos. Com a
internacionalização do método, também haverá a necessidade de mapeamento de áreas de
194

atuação em línguas diferentes, como por exemplo, a área de Data Mining deverá ser
mapeada para Mineração de Dados.
Baseado nos comentários dos pesquisadores é possível perceber algumas sugestões
que podem ser usadas para uma melhoria no método de recomendação. Dentre elas o
acréscimo de mais condições que visam atender uma recomendação mais precisa. Alguns
pesquisadores comentaram sobre a importância do fator distância. Pode-se atribuir uma
condição para “penalizar” pesquisadores localizados em centros de pesquisa distantes.
Outras condições que podem ser acrescentadas em trabalhos futuros é o de nível de
produção acadêmica. Foi descoberto através das respostas dos pesquisadores no
questionário de avaliação que alguns levam em consideração a produtividade acadêmica nos
últimos anos. Pode-se também utilizar a avaliação realizada e outras futuras avaliações para
construir um método capaz de aprender e aprimorar cada vez mais as recomendações. Ou
seja, construir um método de recomendação que também leve em consideração as
condições colocadas por determinados pesquisadores para que em uma recomendação
futura ele consiga realizar uma recomendação baseada nessa condição. Como por exemplo,
um pesquisador pode dar preferência para pesquisadores que trabalham em projetos de
seus amigos, assim, o sistema aprenderia isto para uso futuro.
Outras suposições podem ser feitas e testadas com o objetivo de melhorar o método
de recomendação. Pode-se verificar o efeito do número elevado de vizinhos em comum
entre dois pesquisadores, baseando-se na hipótese de que um pesquisador que possui uma
grande quantidade de vizinhos em comum com outro, já é conhecido por esse outro.
Portanto, talvez os dois não possuam relacionamentos entre si por falta de afinidade.
Outra suposição que pode ser feita é com respeito a popularidade de um nó. Pode-se
supor que se um pesquisador é muito popular, ou seja, possui muitos vizinhos, ele
provavelmente já é conhecido pelos outros pesquisadores. Pode ser que por possuir muitos
vizinhos esse pesquisador possua um bom reconhecimento no meio acadêmico em geral, e
por isso, muitos pesquisadores podem conhecer sua pesquisa. Portanto, ao recomendar
esses pesquisadores muito populares, o sistema pode não estar acrescentando nenhuma
novidade ao pesquisador.
Para futuros trabalhos também pode haver um estudo junto a área de Interface
Humano Computador (IHC) com o objetivo de melhorar a aplicação web construída, de
195

forma a apresentar as recomendações aos pesquisadores de forma mais interessante, de


forma a estimulá-los a seguir as recomendações feitas. A área de IHC seria de grande
importância para melhorar a apresentação dos dados e da operação do sistema.
Nos comentários da avaliação também estavam presentes algumas possíveis
melhorias para o questionário, como apresentar os motivos que levaram ao sistema realizar
aquelas recomendações para o pesquisador. Podem existir campos indicando o motivo da
recomendação, ou ainda uma maior interatividade com o sistema possibilitando a escolha
de um critério para a recomendação, seja ela mais populares, pesquisadores com mais
experiência, maior produtividade acadêmica, etc.
Outra melhoria futura possível para o sistema de recomendação é um melhor
tratamento dos dados capturados pelo extrator, melhorando as informações dos
pesquisadores. Utilizar algum método para identificar títulos de trabalhos acadêmicos com
um determinado grau de similaridade. Dessa forma é possível identificar trabalhos em
conjunto mesmo quando os pesquisadores envolvidos os colocassem de maneira diferente
em seus respectivos currículos Lattes.
Por fim, também podemos adicionar como trabalhos futuros o uso do algoritmo das
formigas. Esse algoritmo é fundamental quando usado em equações com várias condições e
busca-se uma solução possível em tempo hábil. Inserindo novas condições como as citadas
anteriormente (distância, produtividade, etc) o uso da formiga traz grandes benefícios nesse
contexto, melhorando o desempenho do método.
196

Referências

ADOMAVICIUS, G., TUZHILIN, A. Toward the next generation of recommender


systems: a survey of the state-of-the-art and possible extensions. IEEE Transactions on
Knowledge and Data Engineering, v.17, n.6, p.734-749, 2005.
DOI: 10.1109/TKDE.2005.99

ALVES, T. P. V. Um Ambiente de Apoio a Descoberta de Potenciais Parceiros de


Trabalho em Grupos de Pesquisa. 2014. p. 154. Tese (Mestrado em Informática) –
Instituto de Matemática, Instituto Tércio Pacitti, Universidade Federal do Rio de Janeiro,
Rio de Janeiro, 2014.

BACKSTROM, L., LESKOVEC, J. Supervised random walks: Predicting and


Recommending Links in Social Networks. Proceedings of 4th ACM International
Conference on Web Search and Data Mining. WSDM’11. 2011.

BACKSTROM, L.Group formation in large social networks: membership, growth, and


evolution. In Proceedings of the 12th ACM SIGKDD international conference on
Knowledge discovery and data mining (KDD '06). ACM, New York, NY, USA, p. 44-54,
2006. DOI=10.1145/1150402.1150412

BARABÁSI, A. L. Evolution of the social network of scientific collaborations. Physica A:


Statistical Mechanics and its Applications, v. 311, n. 3-4, p. 590–614, 2002.
DOI:10.1016/S0378-4371(02)00736-7

BARABÁSI, A. L. Network Science. Online Book. 2012. Disponível em:


http://barabasilab.neu.edu/networksciencebook/. Acessado em fevereiro, 2015.

BARABÁSI, A. L., ALBERT, R. Emergence of Scaling in Random Networks. Journal


Science Magazine. v. 286, n. 5439, p. 509-512, 1999. DOI:10.1126/science.286.5439.509

BRANDÃO, M. A., MORO, M. M. Recomendação de Colaboração em Redes Sociais


Acadêmicas baseada na Afiliação dos Pesquisadores. Proceedings of the 27th Brazilian
Symposium on Databases. SBBD’12. 2012.

BREESE, J. S., HECKERMAN, D., KADIE, C.M. Empirical analysis of predictive


algorithms for collaborative filtering. Proceedings of the Fourteenth conference on
Uncertainty in artificial intelligence, UAI'98. Morgan Kaufmann Publishers Inc. San
Francisco, CA, USA. p. 43–52. 1998.

CAPES. Área de Conhecimentos. Disponível em:


http://www.capes.gov.br/images/stories/download/avaliacao/TabelaAreasConhecimento_0
72012.pdf. Acessado em: fev, 2014.
197

CHEBOTAREV, P., SHAMIS, E. On Proximity Measures for Graph Vertices. In Automation


and Remote, p. 1443-1459. 1998.

CHRISTAKIS, N. A., FOWLER, J. H. Social Contagion Theory: Examining Dynamic


Social Networks And Human Behavior. JournalStatistics in medicine. v. 32, n. 4, p. 556–
577, 2013 DOI:10.1002/sim.5408

CITEULIKE. Citeulike. Disponível em: http://www.citeulike.org/. Acessado em: mar, 2014.

CNPQ. Plataforma Lattes. Disponível em: http://lattes.cnpq.br/. Acessado em: fev, 2014

COVIELLO, L.et al. Detecting Emotional Contagion in Massive Social Networks.

DAVOODI, E., AFSHARCHI, M., KIANMEHR, K.A Social Network-Based Approach to


Expert Recommendation System.Proceedings of the 7th International Conference, HAIS
2012. Springer Berlin Heidelberg. p.91-102, 2012. DOI: 10.1007/978-3-642-28942-2_9

DBLP. The DBLP Computer Science Bibliography. Disponível em http://dblp.uni-


trier.de/db/. Acessado em: mar, 2014.

DORIGO, M., MANIEZZO, V., COLORNI, A. Ant system: optimization by a colony of


cooperating agents. Systems, Man, and Cybernetics, Part B: Cybernetics, v. 26, n. 1, p.
29-41. 1996. DOI: 10.1109/3477.484436

EAINSLEY, D., KLEINBERG, J. Networks, Crowds and Markets.1 ed. Cambridge


University Press, 2010. p. 744. ISBN-13: 978-0521195331

GARTRELL, M. et al. Enhancing group recommendation by incorporating social


relationship interactions. Proceedings of the 16th ACM international conference on
Supporting group work. ACM, New York, NY, USA. p. 97-106, 2010. DOI:
10.1145/1880071.1880087

HANNON, J., MCCARTHY, K., SMYTH, B.Content vs. Tags for Friend
Recommendation. Incorporating Applications and Innovations in Intelligent Systems XX
Proceedings of AI-2012, The Thirty-second SGAI International Conference on Innovative
Techniques and Applications of Artificial Intelligence.Springer London. p.289-302, 2012.
DOI: 10.1007/978-1-4471-4739-8_23

HECK, T. Combining social information for academic networking. Proceedings of the


Conference on Computer Supported Cooperative Work. CSCW’13. 2013.

HERLOCKER, J. L. et al. Evaluating Collaborative Filtering Recommender Systems.


ACM Transactions on Information Systems, pages 5-53. ACM. 2004.

HOONLOR, A., SZYMANSKI B. K., ZAKI, M. J. Trends in computer science research. In


Communications of the ACM.v. 56, n. 10, p. 74-83, 2013. DOI=10.1145/2500892

JANNACH, D. et al. Recommender Systems.Cambridge University Press, 2012.Online-


ISBN: 9780511763113. DOI:http://dx.doi.org/10.1017/CBO9780511763113
198

Journal PLoS ONE. v. 9, n. 3, p. 903-915, 2014. DOI:10.1371/journal.pone.0090315

JQUERY. jQUERY. Disponível em: http://jquery.com/. Acessado em: fev, 2014.

JSOUP. Java HTML Parser. Disponível em: http://jsoup.org/. Acessado em: fev, 2014.

KIMURA, M. Extracting influential nodes on a social network for information


diffusion.Journal Data Mining and Knowledge Discovery, v. 20, n. 1, p. 10-97, 2010.
ISSN: 1384-5810

LEE, J. B., ADORNA, H. Link Prediction in a Modified Heterogeneous Bibliographic


Network. Proceedings of International Conference on Advances in Social Networks
Analysis and Mining. ASONAM’12. 2012

LEY, M. DBLP: Some Lessons Learned. Proceedings of the VLDB Endowment.v. 2, n. 2,


p. 1493-1500, 2009.DOI=10.14778/1687553.1687577

LOPES, G. R. Avaliação e Recomendação de Colaborações em Redes Sociais Acadêmicas.


Porto Alegre. Tese (Doutorado em Ciência da Computação) – Universidade Federal do Rio
Grande do Sul, 2012.

LOPES, G. R. et al. Collaboration Recommendation in Academic Social Networks. ER


Workshops. Vancouver, Canada, p. 190–199, 2010.

LÜ, L. ZHOU, T. Link Prediction In Complex Networks: A Survey. Physica A: Statistical


Mechanics and its Applications.v. 390, n. 6, p. 1150-1170, 2011. DOI: arXiv:1010.0725v1.

MARTINO, R., OLIVEIRA, J., de SOUZA, J. M. Mineração de Dados Científicos para


Prospecção Tecnológica e Identificação de Especialistas. In: V Workshop em
Algoritmos e Aplicações de Mineração de Dados (WAAMD), 2009.

MENA-CHALCO, J. P., Cesar Júnior, R. M. ScriptLattes: An open-source knowledge


extraction system from the Lattes platform. Journal of the Brazilian Computer Society.
v. 15, n. 4, p. 31-39, 2009. DOI: 10.1007/BF03194511

MENDONÇA, L. F. An Approach for Personalized Social Matching Systems by Using


Ant Colony.Journal Computer Science & Communications, v. 3, n. 2, p. 102-107, 2014.
DOI: 10.4236/sn.2014.32013.

MONCLAR, R. S. Análise e Balanceamento de Redes Sociais no Contexto Científico. Rio


de Janeiro. Dissertação (Mestrado em Ciências em Engenharia em Engenharia de Sistemas
e Computação) – Universidade Federal do Rio de Janeiro, 2008.

MYERS, I. B. Gifts Differing: Understanding Personality Type. Nicholas Brealey


America; Reprint edition (May 3, 1995). 1995. P. 256. ISBN-13: 978-0891060741

MYSQL. MySQL. em: http://www.mysql.com/. Acessado em: fev, 2014.


199

NEWMAN, M. E. J. Clustering and preferential attachment in growing


networks.PhysicalReview, v. 64, n. 2, p. 025102, 2001. DOI:
10.1103/PhysRevE.64.025102

NEWMAN, M. E. J. Coauthorship networks and patterns of scientific


collaboration.Proceedings of the National Academy of Sciences of the United States of
America, v.101, n. 1, p. 5200–5205, 2004. DOI: 10.1073/pnas.0307545100

NEWMAN, M. E. J. The structure of scientific collaboration networks. Proceedings of the


National Academy of Sciences of the United States of America, v. 98, n. 2, p. 404-409,
2001. DOI: 10.1073/pnas.98.2.404

NEWMAN, M. E. The structure of scientific collaboration networks. Proceedings of the


National Academy of Sciences of the United States of America. PNAS’ 01. 2001

NEWMAN, M. The structure and function of complex networks.SIAM Rev. v. 45, n. 2, p.


167 – 256. DOI: 10.1137/S003614450342480

NEWMAN, M.E.J. Networks: An Introduction. Oxford University Press. 2010.

NEWMAN, M. Networks an introduction. 1 ed. Oxford University Press, 2010.p. 720.


ISBN-13: 978-0199206650

OLIVEIRA, J. et al. GCC: An Environment for Knowledge Management in Scientific


Research and Higher Education Centers. In: I - Know ' 05, 2005, Graz. Proceedings of I
- Know ' 05, 2005.

OLIVEIRA, J., et al. GCC: A Knowledge Management Environment for Research


Centers and Universities. In: 8th Asia-Pacific Web Conference, 2006, harbin. Frontiers of
WWW Research and Development - APWeb 2006. v. 3841. p. 652-667. 2006.

OLIVEIRA, J., RODRIGUES, S., SOUZA, J. M. Competence mining for virtual scientific
community creation. International Journal of Web Based Communities (Print), v. 1, p. 90,
2004.

OLIVEIRA, R. M. Predição de Conexões Recorrentes em Redes Complexas. Pernambuco:


UFPE, 2012. p. 74.Dissertação (Mestrado em Ciência da Computação) – Universidade
Federal de Pernambuco, 2012.

ORACLE. J2EE. Disponível em:


http://www.oracle.com/technetwork/java/javaee/overview/index.html. Acessado em: jan,
2015

ORACLE. JAVA. Disponível em: https://www.oracle.com/java/index.html. Acessado em:


jan, 2015.

PEPE, A. Structure and evolution of scientific collaboration networks in a modern


research collaboratory.Harvard University, 2010.p.285. Tese (Doutorado).
DOI:http://dx.doi.org/10.2139/ssrn.1616935
200

PIMENTEL, M., FUKS, H. Sistemas Colaborativos. 1 ed. Elsevier, 2011.p. 402.ISBN-13:


978-85-352-4669-8

RICCI, F. et al. Recommender System Handbook. Springer-Verlag, New York, NY.p. 842,
2011. ISBN-13:978-0387858197.

RODRIGUES, S., OLIVEIRA, J., de SOUZA, J. M. Competence Mining for Team


Formation and Virtual Community Recommendation. In: 9th International Conference
on Computer Supported Cooperative Work in Design, 2005, Coventry. Proceedings of 9th
International Conference on Computer Supported Cooperative Work in Design, 2005. p.
44-49.

RODRIGUES, S., OLIVEIRA, J., de SOUZA, J. M. Recommendation for Team and


Virtual Community Formations Based on Competence Mining. Computer Supported
Cooperative Work in Design II. Heidelberg: Springer, 2006, v. 3865, p. 365-374.

SCOTT, J. Social Network Analysis: A Handbook.2 ed. SAGE Publications Ltd, 2000.p.
240. ISBN-13: 978-0761963394

SIE, R.L.L. To Whom and Why Should I Connect? Co-author Recommendation Based
on Powerful and Similar Peers. International Journal of Technology Enhanced Learning,
p 121-137. Inderscience Publishers. 2012.

SUN, Y., et al. Co-author Relationship Prediction in Heterogeneous Bibliographic


Networks. Proceedings of International Conference on Advances in Social Networks
Analysis and Mining. ASONAM ’11, 2011.

SUN, Z. et al. Recommender systems based on social networks. Journal of Systems and
Software, v. 99, p. 109-119, 2015, ISSN 0164-1212,
DOI:http://dx.doi.org/10.1016/j.jss.2014.09.019

TANG, J. et al. ArnetMiner: Extraction and Miningof Academic Social Networks.


Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery
and data mining (KDD '08).ACM, New York, NY, USA. p. 990-998, 2008. DOI:
10.1145/1401890.1402008

TERVEEN, L., MCDONALD, D. W. Social matching: A framework and research agenda.


ACM Trans. Comput.-Hum. Interact. v. 12, n. 3, p. 401-434. DOI:
10.1145/1096737.1096740

TORAL, S.L., An Exploratory Social Network Analysis of Academic Research Networks.


Proceedings of Third International Conference on Intelligent Networking and
Collaborative Systems. InCoS ’11, 2011.

VAN SOLINGEN, R., BERGHOUT, E. The Goal/Question/Metric Method: A Practical


Guide for Quality Improvement of Software Development. McGraw-Hill Inc.,US.
p. 280. 1999. ISBN 0077095537.
201

VAN SOLINGEN, R.; BERGHOUT, E. Goal/Question/Metric Method: A Practical Guide


for Quality Improvement of Software Development. [s.l.] McGraw-Hill Inc., 1999. p.
280.ISBN-13: 978-0077095536.

VIVACQUA, A. S., OLIVEIRA, J., de SOUZA, J. M. i-ProSE: Inferring User Profiles in a


Scientific Context. Computer Journal (Print), v. 1, p. 1-10, 2009.

W3C. CSS. Disponível em: http://www.w3.org/Style/CSS/. Acessado em: fev, 2014.

W3C. DOM. Disponível em: http://www.w3.org/DOM/. Acessado em: fev, 2014.

W3C. HTML. Disponível em: http://www.w3.org/TR/html5/. Acessado em: fev, 2014.

W3C. XML. Disponível em: http://www.w3.org/XML/. Acessado em: fev, 2014.

WALTER, F. E., BATTISTON, S., SCHWEITZER, F.A model of a trust-based


recommendation system on a social network.AutonomousAgentsandMulti-Agent
Systems, v. 16, n. 1, p. 57-74 ,2008.

WANG, J., YIN, J. Combining User-based and Item-based CollaborativeFiltering


Techniques to Improve RecommendationDiversity. Proceedings of International
Conference on Biomedical Engineering and Informatics. BMEI’13. 2013

XUAN, N. L.,et al. Addressing cold-start problem in recommendation systems. In


Proceedings of the 2nd international conference on Ubiquitous information management
and communication (ICUIMC '08).ACM, New York, NY, USA.p. 208-211, 2008.
DOI=10.1145/1352793.1352837

ZHANG, J. Expert Finding in a Social Network. Advances in Databases: Concepts,


Systems and Applications, v. 4443, p. 1066-1069, 2007.DOI:10.1007/978-3-540-1703-
4_106
202

Glossário

API
GCC
JSON – estrutura leve para troca de dados.
MBTI
PPGI
REST -
SERVIÇO WEB
SOAP
UFRJ
XML
203

Anexos

ANEXO A – INSTITUIÇÕES DE PÓS-GRADUAÇÃO EM CIÊNCIA DA


COMPUTAÇÃO UTILIZADAS PARA A COLETA DO CURRÍCULO LATTES

FACULDADE CAMPO LIMPO PAULISTA


FUNDAÇÃO UNIVERSIDADE DE PERNAMBUCO
FUNDAÇÃO UNIVERSIDADE FEDERAL DO PIAUÍ
FUNDAÇÃO UNIVERSIDADE FEDERAL DE SERGIPE
UNIVERSIDADE FEDERAL DO RIO GRANDE
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO
PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO PARANÁ
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL
UNIVERSIDADE DO ESTADO DE SANTA CATARINA
UNIVERSIDADE ESTADUAL DO CEARÁ
UNIVERSIDADE ESTADUAL DE LONDRINA
UNIVERSIDADE ESTADUAL DE MARINGÁ
UNIVERSIDADE DO ESTADO DO RIO GRANDE DO NORTE
FUNDAÇÃO UNIVERSIDADE FEDERAL DO ABC
UNIVERSIDADE FEDERAL DE ALAGOAS
UNIVERSIDADE FEDERAL DO AMAZONAS
UNIVERSIDADE FEDERAL DA BAHIA
UNIVERSIDADE FEDERAL DO CEARÁ
UNIVERSIDADE FEDERAL DE CAMPINA GRANDE
UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO
UNIVERSIDADE FEDERAL FLUMINENSE
UNIVERSIDADE FEDERAL DE GOIÁS
UNIVERSIDADE FEDERAL DE JUIZ DE FORA
UNIVERSIDADE FEDERAL DE LAVRAS
204

UNIVERSIDADE FEDERAL DO MARANHÃO


UNIVERSIDADE FEDERAL DE MINAS GERAIS
FUNDAÇÃO UNIVERSIDADE FEDERAL DE MATO GROSSO DO SUL
UNIVERSIDADE FEDERAL DE OURO PRETO
UNIVERSIDADE FEDERAL DO PARÁ
UNIVERSIDADE FEDERAL DA PARAÍBA/JOÃO PESSOA
UNIVERSIDADE FEDERAL DE PERNAMBUCO
UNIVERSIDADE FEDERAL DE PELOTAS
UNIVERSIDADE FEDERAL DO PARANÁ
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
UNIVERSIDADE FEDERAL DO RIO DE JANEIRO
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
UNIVERSIDADE FEDERAL DE SANTA CATARINA
UNIVERSIDADE FEDERAL DE SÃO CARLOS
UNIVERSIDADE FEDERAL DE SANTA MARIA
UNIVERSIDADE FEDERAL DE UBERLÂNDIA
UNIVERSIDADE FEDERAL DE VIÇOSA
UNIVERSIDADE DE BRASÍLIA
UNIVERSIDADE EST.PAULISTA JÚLIO DE MESQUITA FILHO/SJR. PRETO
UNIVERSIDADE ESTADUAL DE CAMPINAS
UNIVERSIDADE SALVADOR
UNIVERSIDADE FEDERAL DE ITAJUBÁ
UNIVERSIDADE FEDERAL DE SÃO PAULO
UNIVERSIDADE DE FORTALEZA
UNIVERSIDADE FEDERAL DO ESTADO DO RIO DE JANEIRO
UNIVERSIDADE DO VALE DO RIO DOS SINOS
UNIVERSIDADE DO VALE DO ITAJAÍ
UNIVERSIDADE DE SÃO PAULO
UNIVERSIDADE DE SÃO PAULO/SÃO CARLOS
205

ANEXO B – ÁREAS DE CONHECIMENTO EXTRAÍDAS DA TABELA DE ÁREAS DE


CONHECIMENTO DA CAPES
CIÊNCIAS EXATAS E DA TERRA
CIÊNCIA DA COMPUTAÇÃO
TEORIA DA COMPUTAÇÃO
MATEMÁTICA DA COMPUTAÇÃO
METODOLOGIA E TÉCNICAS DA COMPUTAÇÃO
SISTEMAS DE COMPUTAÇÃO
COMPUTABILIDADE E MODELOS DE COMPUTAÇÃO
LINGUAGENS FORMAIS E AUTÔMATOS
ANÁLISE DE ALGORITMOS E COMPLEXIDADE DE COMPUTAÇÃO
LÓGICAS E SEMÂNTICA DE PROGRAMAS
MATEMÁTICA SIMBÓLICA
MODELOS ANALÍTICOS E DE SIMULAÇÃO
LINGUAGENS DE PROGRAMAÇÃO
ENGENHARIA DE SOFTWARE
BANCO DE DADOS
SISTEMAS DE INFORMAÇÃO
PROCESSAMENTO GRÁFICO (GRAPHICS)
HARDWARE
ARQUITETURA DE SISTEMAS DE COMPUTAÇÃO
SOFTWARE BÁSICO
TELEINFORMÁTICA
206

Apêndices

APÊNDICE A – QUESTIONÁRIO AVALIAÇÃO 1 – ANÁLISE COMPARATIVA

Por favor, primeiramente preencha os campos abaixo com suas informações


pessoais.
1-Idade:

2-Sexo:

3-Como você normalmente cria novas parcerias profissionais?

Através de apresentação feita por parceiro em comum.

A pessoa participa dos mesmos eventos e eu me apresento.

Acompanho suas publicações e eu entro em contato.

A pessoa entra em contato comigo.

Procuro no Lattes ou em outras ferramentas acadêmicas (Linkedin, Google


Citation).

Outros. Quais?

Agora, por favor, responda às perguntas a seguir com relação ao método 1.


1- Dos pesquisadores indicados pelo método 1 que você atribuiu nota 5
(definitivamente trabalharia), qual característica mais lhe chamou a atenção
positivamente para o trabalho em conjunto?

Áreas de Atuação. Quais áreas? Separe as áreas por vírgula.


207

Parceiros em comum. Quais parceiros? Digite as URLs CV Lattes dos parceiros


no formato apresentado na tabela e separe-as por vírgula.

Projetos.

Publicações.

Bancas.

Orientações.

Eventos.

Formação Acadêmica.

Atuação Profissional.

Prêmios.

Outros. Quais?

2- Dos pesquisadores indicados pelo método 1 que você atribuiu nota 4


(possivelmente trabalharia), qual característica mais lhe chamou a atenção
positivamente para o trabalho em conjunto?

Áreas de Atuação. Quais áreas? Separe as áreas por vírgula.

Parceiros em comum. Quais parceiros? Digite as URLs CV Lattes dos parceiros


no formato apresentado na tabela e separe-as por vírgula.

Projetos.

Publicações.

Bancas.
208

Orientações.

Eventos.

Formação Acadêmica.

Atuação Profissional.

Prêmios.

Outros. Quais?

3- Dos pesquisadores indicados pelo método 1 que você atribuiu nota 4


(possivelmente trabalharia), por que você não atribuiu nota 5 (definitivamente
trabalharia)?

4- Dos pesquisadores indicados pelo método 1 que você atribuiu nota 2


(possivelmente não trabalharia) e nota 1 (definitivamente não trabalharia), por
que você não trabalharia?

5- No geral, você ficou satisfeito?

6- Utilizaria as recomendações realizadas?

7- Recomendaria este método?

8- Espaço livre para comentários e sugestões:


209

APÊNDICE B – QUESTIONÁRIO AVALIAÇÃO 2 – ANÁLISE QUALITATIVA


1-Principal instituição em que você trabalha:

Ex: Universidade Federal do Rio de Janeiro.


2-Principal programa de pós graduação que você participa:

Ex: Programa de Pós Graduação em Informática.


3-Idade:
Inferior a 20

4-Sexo:
Masculino

5-Como você normalmente cria novas parcerias profissionais?

Através de apresentação feita por parceiro em comum.

A pessoa participa dos mesmos eventos e eu me apresento.

Acompanho suas publicações e eu entro em contato.

A pessoa entra em contato comigo.

Procuro no Lattes ou em outras ferramentas acadêmicas (Linkedin, Google


Citation).

Outros. Quais?

Agora, por favor, responda às perguntas a seguir com relação ao método 1.


1- Dos pesquisadores indicados pelo método 1 que você atribuiu nota 5
(definitivamente trabalharia), qual característica mais lhe chamou a atenção
positivamente para o trabalho em conjunto?

Áreas de Atuação. Quais áreas? Separe as áreas por vírgula.


210

Parceiros em comum. Quais parceiros? Digite as URLs CV Lattes dos parceiros


no formato apresentado na tabela e separe-as por vírgula.

Projetos.

Publicações.

Bancas.

Orientações.

Eventos.

Formação Acadêmica.

Atuação Profissional.

Prêmios.

Outros. Quais?

2- Dos pesquisadores indicados pelo método 1 que você atribuiu nota 4


(possivelmente trabalharia), qual característica mais lhe chamou a atenção
positivamente para o trabalho em conjunto?

Áreas de Atuação. Quais áreas? Separe as áreas por vírgula.

Parceiros em comum. Quais parceiros? Digite as URLs CV Lattes dos parceiros


no formato apresentado na tabela e separe-as por vírgula.

Projetos.

Publicações.

Bancas.
211

Orientações.

Eventos.

Formação Acadêmica.

Atuação Profissional.

Prêmios.

Outros. Quais?

3- Dos pesquisadores indicados pelo método 1 que você atribuiu nota 4


(possivelmente trabalharia), por que você não atribuiu nota 5 (definitivamente
trabalharia)?

4- Dos pesquisadores indicados pelo método 1 que você atribuiu nota 2


(possivelmente não trabalharia) e nota 1 (definitivamente não trabalharia), por
que você não trabalharia?

5- No geral, você ficou satisfeito?

6- Utilizaria as recomendações realizadas?

7- Recomendaria este método?

8- Espaço livre para comentários e sugestões:


212

APÊNDICE C – CONVITE ENVIADO PARA AVALIAÇÃO 1

Prezado(a) Professor(a) XXXX,

Meu nome é Patricia Zudio. Sou aluna de mestrado do Programa de Pós-Graduação


em Informática da Universidade Federal do Rio de Janeiro e orientada pela Prof. Jonice
Oliveira. Faço minha pesquisa na área de recomendação de relacionamentos utilizando
redes sociais científicas heterogêneas.
Para avaliar o método de recomendação elaborado durante a minha pesquisa,
gostaria de contar com a sua colaboração, avaliando o resultado das recomendações feitas
ao (à) senhor(a). Além das recomendações feitas pelo meu método, a avaliação também
conta com recomendações feitas por outros quatro métodos existentes na literatura. Essas
recomendações devem ser avaliadas com o objetivo de fazer uma comparação entre o meu
método proposto e os demais.
Neste experimento, utilizei os dados que coletei dos Currículos Lattes dos
pesquisadores do PPGI. Com esses dados, montei uma rede social somente do programa,
que contêm as publicações, projetos, bancas e orientações realizadas entre 01/01/2009 até
04/02/2014.
O questionário para avaliação pode ser encontrado
em http://146.164.3.28:8080/socialcombinationppgi/.
Vocês receberão em breve um novo e-mail com respeito a uma nova avaliação. Nesta
próxima avaliação, serão utilizados os dados coletados de todos os dos pesquisadores dos
programas de pós-graduação em Ciência da Computação avaliados pela Capes no triênio de
2013.
Desde já agradeço a sua paciência e colaboração para o desenvolvimento deste
trabalho acadêmico. A sua resposta é muito importante para a conclusão deste trabalho.
Gostaria de salientar que os dados do questionário permanecerão anônimos. Se for
de seu interesse, ao final da pesquisa, posso enviar o resultado final da análise dos
questionários para conferência.
O questionário ficará disponível para ser respondido até a data 25/01/2015.
213

APÊNDICE D – CONVITE ENVIADO PARA AVALIAÇÃO 3

Prezado(a) Professor(a) XXXX,

Meu nome é Patricia Zudio. Sou aluna de mestrado do Programa de Pós-Graduação


em Informática da Universidade Federal do Rio de Janeiro e orientada pela Prof. Jonice
Oliveira. Faço minha pesquisa na área de recomendação de relacionamentos utilizando
redes sociais científicas heterogêneas.
Para avaliar o método de recomendação elaborado durante a minha pesquisa
gostaria de contar com a sua colaboração, avaliando o resultado das recomendações feitas
ao(à) senhor(a).
Para esta avaliação, utilizei os dados que coletei dos pesquisadores dos programas de
pós-graduação em Ciência da Computação avaliados pela Capes no triênio de 2013. Desta
maneira, o seu currículo foi um dos coletados. A coleta foi feita no dia 04/02/2014.
Em http://www.pzdelima.com.br encontra-se um pequeno questionário para ser
respondido. Nesse experimento, realizo algumas recomendações para o(a) senhor(a) e peço
que, por favor, as avalie.
Gostaria de salientar que o método proposto leva em consideração não somente as
áreas de atuação, mas também os colaboradores em comum e outros fatores, como
expertise . O método não recomenda relacionamentos já existentes. A ideia principal é a
recomendação de novas parcerias, para que você tenha oportunidade de conhecer
pesquisadores que talvez não pudesse conhecer.
Desde já agradeço a sua paciência e colaboração para o desenvolvimento deste
trabalho acadêmico. A sua resposta é muito importante para a conclusão deste trabalho.
Gostaria de salientar que os dados do questionário permanecerão anônimos. Se for
de seu interesse, ao final da pesquisa, posso enviar o resultado final da análise dos
questionários para conferência.
O questionário ficará disponível para ser respondido até a data 02/02/2015.
214

Você também pode gostar