Você está na página 1de 11

A EXTRAO DE DADOS NA ANLISE DE REDES Albertina Ferreira1, Carlos Caldeira2 & Fernando Olival3

1 2 3

Instituto Politcnico de Santarm, Escola Superior Agrria de Santarm Universidade de vora. Departamento de Informtica Universidade de vora. Departamento de Histria

RESUMO Nas bases de dados prosopogrficas que envolvem o registo de relaes, torna-se fundamental proceder extrao dos dados de modo a que estes sejam corretamente utilizados em anlise de redes. Neste trabalho verificamos que importante identificar os dados introduzidos incorretamente. Na sequncia dessa identificao, mencionamos as metodologias seguidas para determinar algumas dessas situaes. Sugerimos tambm os procedimentos a seguir para colocar os dados num formato adequado sua integrao em software de anlise de redes. O repositrio de dados que utilizamos tem armazenada informao sobre eventos biogrficos e relacionais, sendo o tratamento dos dados fundamental para o estudo das redes de relaes entre os diversos atores sociais. Palavras-chave: Base de dados prosopogrfica, anlise de redes, extrao de dados.

37

ABSTRACT In the prosopographical databases involving the register of relationships, it becomes essential to carry out the data extraction so that they are correctly used in network analysis. In this study we found that it is important to identify the data entered incorrectly. Following this identification we mentioned the methodologies used to determine some of these situations. We also suggest the procedures used to put the data in a format which is suitable for integration in network analysis software. The data repository we use has stored information about biographical and relational events, given that the treatment of data is essential to the study of relationship networks among the various social actors. Key words: Prosopographical database, network analysis, data extraction. INTRODUO O estudo da teoria de redes no mbito das cincias fsicas e sociais tem sido uma rea pela qual os investigadores apresentam grande interesse. Newman et al. (2006) comentam que as redes esto em toda parte e que problemas dinmicos esto na vanguarda da pesquisa em rede, onde h muitas questes ainda sem resposta. Posteriormente Lazer et al. (2009) referem que vivemos a vida em rede. No mesmo ano Borgatti et al. (2009) reforam esta ideia ao referirem que a teoria das redes tem possibilitado explicaes para os mais diversos fenmenos sociais numa ampla variedade de contextos. Para Snijders et al. (2010), a evoluo nas redes sociais um domnio de investigao com alguma complexidade. Como que uma rede social evolui? Podemos encontrar leis e derivar modelos que explicam a sua evoluo? Como que as comunidades surgem numa rede social? Embora os autores anteriormente focados considerem essencialmente redes a funcionar na atualidade, grande parte dos estudos que realizam podero ser estendidos a outras pocas, bem como a outras sociedades. O objetivo deste trabalho a automatizao da extrao dos dados, a partir da base de dados SPARES (Sistema Prosopogrfico de Anlise de Relaes e Eventos Sociais), para

38

um formato que possa ser interpretado pelo software de redes. No decurso dessa extrao foram identificados e corrigidos dados que tinham sido introduzidos de modo incorreto, por vrias razes. Este estudo enquadra-se numa das tarefas propostas - Developing SPARES: social network analysis - do projeto aprovado e financiado pela FCT 1: PTDC/HISHIS/118227/2010 Grupos intermdios em Portugal e no Imprio Portugus: as familiaturas do Santo Ofcio (c. 1570-1773) Instituio sede: CIDEHUS 2 METODOLOGIA Na realizao deste trabalho so utilizados os dados disponveis na base de dados SPARES. Trata-se de uma base de dados relacional desenvolvida de acordo com a Ecologia dos Dados (Caldeira, 2011) e construda no sistema de gesto de base de dados relacional MySQL. A base de dados est alojada num servidor central com sistema operativo Linux. Pode ser acedida por ODBC (Open Database Connectivity) e utilizada por diversos clientes, como os sistemas Windows, Linux ou MacOS, entre outros. A base de dados SPARES tem uma natureza prosopogrfica, pois tem armazenada informao sobre indivduos. Considera-se que estes so parte relevante na dinmica social. Os dados a utilizar encontram-se distribudos por trs sculos (XVI a XVIII), recaindo este estudo sobre aproximadamente 113000 registos. Esta base de dados foi desenvolvida no mbito do projeto FCOMP-01-0124-FEDER-007360 Inquirir da Honra: Comissrios do Santo Oficio e das Ordens Militares em Portugal (1570 1773). Na Figura 1 visualiza-se o modelo de dados que suporta a base de dados SPARES.

1 2

Fundao para a Cincia e a Tecnologia Centro Interdisciplinar de Histria, Culturas e Sociedades da Universidade de vora.

39

Figura 1 Modelo de dados do sistema SPARES.

A extrao dos dados foi feita considerando a possibilidade de estes serem manipulados por dois softwares de rede distintos: PAJEK e GEPHI. O PAJEK consegue, por um lado, explorar e manipular redes de grande dimenso e, por outro, encontrar-se disponvel gratuitamente, para uso no comercial. Pode ser acedido a partir de: http://vlado.fmf.uni-lj.si/pub/networks/pajek/ (Batagelj e Mrvar, 2010; Nooy et al., 2005). Embora atravs desta aplicao se consigam analisar redes e obter dados, tanto analticos como grficos, que podem ser explorados por outras aplicaes, pesquisaram-se outras ferramentas Open Source. Como futuramente se pretende integrar na mesma plataforma a extrao dos dados e a anlise de rede,

40

considerou-se que o GEPHI (disponvel em: http://gephi.org/) (Bastian et al., 2009) permitir uma maior interoperabilidade. O ponto de partida para a extrao dos dados a tabela que se pode observar parcialmente na Figura 2:

Figura 2 Dados da base de dados SPARES.

Nesta tabela destacamos o atributo Relao. Este ser fundamental em futuras anlises de redes. Como se pode observar na Figura 3 existem atualmente 443 relaes diferentes, das quais se destaca a Testemunha na habilitao [do] S[anto] O[fcio] como aquela que possui um maior nmero de ocorrncias.

Figura 3 Nmero de relaes por tipo.

Quando se iniciou este trabalho, existiam aproximadamente 580 relaes. O diferencial que agora apresentamos resulta da correo dos dados que foram identificados como introduzidos incorretamente. Para preparar os dados de modo a poderem ser utilizados no software de rede, foi necessrio: Criar uma tabela com os cdigos e nomes dos primeiros intervenientes (P1); Acrescentar a essa tabela os cdigos e nomes dos segundos intervenientes (P2);

41

Criar tabela com os vrtices da rede; Criar tabela com as relaes da rede; Gerar os ficheiros de output que iro ser utilizados na anlise da rede. Criar procedimento e pesquisa para atribuir uma numerao sequencial; Criar procedimento para eliminar linhas em branco do ficheiro de output.

Para que o ficheiro obtido pudesse ter o formato que o PAJEK l, foi ainda necessrio:

Uma das anlises de rede que se pretende realizar, obtida por intervalo de tempo. assim necessrio preparar os ficheiros com a informao da dcada a que cada uma das relaes corresponde. A dcada determinada tendo como ponto de partida o atributo data, cujo formato texto. A data pode apresentar-se de duas formas distintas: Exatamente esta data, por exemplo 1709=11=08; Pensa-se que tenha ocorrido antes desta data, por exemplo 1742<06<09.

Os historiadores precisam de trabalhar deste modo, pois nem sempre tm a certeza da cronologia exata da ocorrncia. No decorrer do trabalho identificaram-se dados introduzidos incorretamente, os quais foram corrigidos, nomeadamente: Datas negativas, em matria de idades, por exemplo; Datas anteriores a 1579 (primeira relao conhecida); Comissrios que mantinham relao com eles prprios; O mesmo cdigo (nico para cada um dos indivduos) atribudo a dois O mesmo indivduo com nomes diferentes, mas com o mesmo cdigo.

indivduos diferentes; A identificao destas ocorrncias foi feita atravs de pesquisas quando se identificou que o ficheiro final possua mais relaes do que as originais. Relativamente s quatro primeiras situaes, foram corrigidas manualmente, pois necessrio conhecer o contexto dos dados, nomeadamente as relaes envolvidas.

42

RESULTADOS E DISCUSSO Extrao de dados na base de dados SPARES Apresentamos nas Figuras 4 e 5 exemplos dos ficheiros obtidos por extrao base de dados SPARES. Estes permitiro futuramente a anlise de rede nos softwares de redes anteriormente apontados. Este estudo foi realizado para uma relao de Patrocnio.

Figura 4 Input para PAJEK.

Figura 5 Input para GEPHI.

43

Procedimento e pesquisa para numerao sequencial Para obter o input para o PAJEK, foi necessrio criar um procedimento (Figura 6) e uma pesquisa (Figura 7), os quais permitissem a atribuio de uma numerao sequencial para os vrtices da rede, uma vez que s assim ser possvel a interpretao pelo PAJEK do input criado.

Figura 6 Procedimento para numerao sequencial.

Figura 7 Pesquisa para numerao sequencial.

Procedimento para eliminar linhas em branco Aps a exportao dos dados para o ficheiro de output, torna-se necessrio garantir que este ficheiro no possui linhas em branco (o que normalmente acontece). Criouse, assim, um procedimento que gerasse um novo ficheiro em que tal no acontecesse. Apresenta-se esse procedimento na Figura 8.

Figura 8 Procedimento para eliminar linhas em branco.

44

Determinao das dcadas As instrues necessrias para que fossem alocadas a cada vrtice as dcadas em que cada indivduo interveio nos processos de familiaturas do Santo Ofcio, podem consultar-se na Figura 9. O intervalo de tempo resultante para cada vrtice dever ter o formato [dcada x-dcada y] ou, por exemplo, [7-8], que significa que o indivduo interveio durante 20 anos, ou seja, 2 dcadas.

Figura 9 Pesquisa para determinao das dcadas.

Correo de dados
Como j foi referido, identificaram-se diversas situaes de introduo incorreta de dados que, pela sua especificidade, foram corrigidos manualmente. Na Figura 10 podem visualizar-se dois registos onde foi detetada a introduo incorreta como resultado da presena de erros ortogrficos.

Figura 10 Introduo incorreta de dados por erro ortogrfico.

Identificaram-se diversos cdigos P1 e P2 em que os nomes atribudos eram diferentes, o que no pode acontecer. Na Figura 11 pode observar-se a pesquisa que foi realizada para identificar todas as situaes referentes a P1. Na Figura 12 apresenta-se o resultado dessa pesquisa. Procedeu-se de modo idntico para as ocorrncias de P2.

45

Figura 11 Pesquisa para identificao da atribuio de nomes diferentes para o mesmo cdigo P1.

Figura 12 Identificao da atribuio de nomes diferentes para o mesmo cdigo P1.

CONCLUSES E TRABALHO FUTURO Com este estudo, espera-se ter demonstrado que a extrao adequada dos dados um passo importante para a anlise de redes. No decurso do trabalho, e em estreita colaborao com os membros do projeto, foi ainda possvel identificar e corrigir algumas situaes resultantes da introduo incorreta de dados. A identificao destas situaes e a sua posterior correo fundamental, pois quem introduz grandes nmeros perde facilmente o controlo dos dados, muitas vezes por distrao. Como desafio futuro, pretende-se construir uma aplicao que permita a adequao entre a base de dados prosopogrfica SPARES e o software de redes GEPHI. Deste modo, qualquer utilizador de Cincias Sociais e, como tal, menos familiarizado com a Estatstica e a Informtica, poder realizar facilmente uma anlise na rede social que estuda.

46

REFERNCIAS BIBLIOGRFICAS
[1] Newman, M. E. J.; Barabsi, A.; Watts, D. J. 2006. The Structure and Dynamics of Networks [em linha]. [Acedido: 3 de Abril de 2013]. Disponvel em: http://press.princeton.edu/chapters/s8114.html [2] Lazer, D.; Pentland, A.; Adamic, L; Aral, S.; Barabasi, A. L.; Brewer, D.; Christakis, N.; Contractor, N.; Fowler, J.; Gutmann, M.; Jebara, T.; King, G.; Macy, M.; Roy, D.; Alstyne, M. V. 2009. Life in the Network: the Coming Age of Computational Social Science. Science 323(5915): 721723. doi: 10.1126/science.1167742. [3] Borgatti, S. P.; Mehra, A.; Brass, D. J.; Labianca, G. 2009. Network Analysis in the Social Sciences. Science 323: 892-895. [4] Snijders, T.A.B.; Steglich, C.E.G.; van de Bunt, G.G. 2010. Introduction to Actor-Based Models for Network Dynamics. Social Networks 32: 44-60. [5] Caldeira, C. 2011. A Arte das Bases de Dados. Edies Slabo, Lisboa. ISBN 978-972-618627-4 [6] Batagelj, V; Mrvar, A. 2010. Pajek: Program for Analysis and Visualization of Large Networks. Reference Manual List of commands with short explanation version 2.00. University of Ljubljana. Slovenia. [7] Nooy, W; Mrvar, A; Batagelj, V. 2005. Exploratory Network Analysis with Pajek. Cambridge University Press. New York. [8] Bastian, M; Heymann, S; Jacomy, M. 2009. Gephi: An open source software for exploring and manipulating networks. In Proceedings of the Third International ICWSM Conference. California, USA. 361-362.

47